Не всякие данные одинаково открыты…
В 2009 году создатель Всемирной паутины Тим Бернерс-Ли предложил пятизвездочную модель для характеристики открытых данных.
* – Данные доступны в сети по открытой лицензии в человекочитаемом формате (например, в виде скана документа). Использовать их неудобно, но, по крайней мере, они уже опубликованы и общедоступны.
* – Данные доступны в сети и представлены в структурированном машиночитаемом формате (например, таблица Excel). Минус Excel в том, что это закрытый (проприетарный) формат, который может содержать недоступную пользователям информацию, также он плохо пригоден для обработки некоторыми программными средствами. Тем не менее данные структурированы и могут быть обработаны компьютером.
*** – Данные доступны в открытом (непроприетарном) формате (например, CSV). В отличие от Excel, этот формат не позволяет скрыть от пользователей информацию и совместим с самыми разными программными инструментами.
**** – Опубликованные данные имеют идентификаторы (URI, Universal Resource Identifier), благодаря которым на них можно ссылаться напрямую.
***** – Данные представлены не изолированно, они связаны с другими данными, к которым пользователь может обращаться по мере надобности и тем самым формировать свое представление о данных с учетом их контекста.
Юридическая сторона вопроса. Определение, данное Бернерсом-Ли, не является строгим и допускает использование в качестве открытых данных даже те данные, машинная обработка которых принципиально невозможна. В законодательной практике используются более узкие определения. Например, в России открытые данные должны быть представлены «в виде массивов данных, организованных в формате, обеспечивающем их автоматическую обработку в целях повторного использования без предварительного изменения человеком (машиночитаемый формат), и на условиях ее свободного (бесплатного) использования» (№ 8-ФЗ «Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления»). Таким образом, с точки зрения законодательства РФ не все доступные и бесплатные данные являются открытыми.
Второй важный момент в представленном выше определении – свободное использование данных. Без приложенного документа (лицензии), указывающего на возможность свободного (бесплатного) использования данных, набор данных не считается открытым, даже если он выложен в свободном доступе в сети в машиночитаемом виде. В основе лицензий, используемых нашим государством, зачастую лежат договоры, разработанные некоммерческими организациями Creative Commons, Open Data Commons и Open Data Institute, чьи лицензии являются наиболее применяемыми в мире. Обязательное условие использования каждого типа лицензии – свободное распространение и указание авторства.
Формат имеет значение. Кроме того, формат, в котором лицензируемые открытые данные будут распространяться, должен быть непроприетарным, т.е. открытым. Самые популярные форматы – CSV, XML, JSON, RDF, API. При этом прослеживается тенденция перехода к публикации небольших наборов данных в JSON. Этот формат удобен для чтения и написания как человеком, так и компьютером. За счёт своей лаконичности (например, по сравнению с XML) он лучше подходит для сериализации сложных структур. Для доступа к большим наборам традиционно используется API.
Бесплатно не значит бесполезно
В 2013 году в Великобритании на очередной встрече лидеров стран G8 был сформирован и подписан документ «Хартия открытых данных». Согласно ему, Россия не относится к государствам-пионерам в области использования открытых данных, однако инициативы и инновации, постепенно приходящие в нашу страну, уже сделали ее одной из стран-последовательниц. В России уже есть большое количество порталов, активно использующих открытые данные.
Отметим, что открытые данные по факту появились в мире и в России задолго до того, как в обиход вошел сам термин. Например, на протяжении последних 20 лет наша страна использовала доступный и бесплатный справочник КЛАДР, обеспечивающий единообразный ввод адресов на всей территории РФ.
Табл. 1. Примеры использования открытых данных в России и за рубежом
Категория данных | Примеры массивов данных | Примеры систем за рубежом | Примеры российских систем |
Частные компании | Компании/реестр предприятий | DUNS (Digital Universal Numbering System) | Единый реестр предприятий России |
Подотчетность правительственного аппарата | Контактная информация для связи с правительством, результаты выборов, нормативно-законодательные акты и уставы, ставки заработной платы, знаки признательности/подарки | Open.gov.com | Портал «Открытое правительство» |
Финансовые и контрактные вопросы | Заключенные сделки, подписанные контракты, поданные заявки на участие в тендере, будущие | System for Acquisition Management | Портал «Открытые госзакупки» |
Геопространственные данные | Топография, почтовые индексы, национальные карты, местные карты | Google Maps | Яндекс.Карты, ФИАС |
В последнее время крупные аналитические агентства всё чаще приводят информацию о том, что использование открытых данных может приносить значительные финансовые выгоды. Например, согласно исследованию McKinsey, открытые данные только в отрасли здравоохранения могут помочь генерировать от 300 до 450 млрд долларов США ежегодно за счет их использования при оценке образа жизни, для профилактики здоровья, разработки инноваций в области медицины и т.д.
Показателен пример из транспортной сферы. Пользователь приложения с информацией о дорожной ситуации в городе принимает решение о поездке, ориентируясь на количество пробок и актуальное положение общественного транспорта. При высокой загруженности дорог он либо проложит для себя маршрут объезда на авто, либо воспользуется метро/автобусом и др. Это снизит количество машин на дорогах и повысит скорость движения, а последнее скажется на наполняемости общественного транспорта, что позволит городу зарабатывать на каждом новом пассажире.
Подобные приложения, потребляющие и обрабатывающие информацию о текущем положении транспортных средств, паспортах маршрутов и остановок, а также данные с турникетов, положительно влияют на дорожную ситуацию в городе. Правда, это возможно только при использовании современных ситуационных центров и служб мониторинга дорожной ситуации (например, действующего в Москве ЦОДД – Центра организации дорожного движения).
Рис. 1. Использование открытых данных в сфере транспорта
Другое возможное использование открытых данных – планирование городской инфраструктуры на основании статистических данных о численности населения и перемещении людских потоков в течение дня. Это позволяет определять необходимое количество не только больниц, поликлиник, отделений полиции, детских садов, школ и т.д., но и аптек, отделений банков, магазинов – словом, социально значимых коммерческих структур. В случае публикации плана развития города в формате открытых данных государство получает возможность вступать в диалог с бизнесом и совместно моделировать максимально удобную для граждан инфраструктуру, что может значительно сократить издержки на ее обслуживание.
Было бы желание
Для того чтобы открытые данные могли работать, необходимо решить 4 основные задачи.
Первая и самая важная – осознание государственными структурами необходимости использования открытых данных. Каждое государство остро нуждается и в сокращении расходов, и в развитии бизнеса, и в повышении уровня удовлетворенности своих граждан. Проблема кроется в том, что министерства и ведомства не всегда видят необходимость в повышении уровня автоматизации своей деятельности и степени прозрачности сведений о ее результатах. Безусловно, это долгосрочный процесс, требующий изменений в подходе к обработке информации о деятельности государственных структур и принятия комплекса определенных мер. Публикуемая информация должна быть приведена к виду, выбранному правительством, соответственно, данные должны быть обработаны специфичным образом. Важен также концептуальный подход министерств и ведомств: желательно, чтобы предоставляемая информация не была малосодержательной отпиской, которую государственные структуры дают «для галочки».
Второй задачей является проведение качественной первичной обработки открытых данных. Без соответствия стандартным форматам и наличия лицензии данные не могут быть полезны населению. Их неаккуратная обработка и отсутствие проверок качества могут привести к сбоям в их загрузке в системы-потребители. Так, в ходе одного нашего проекта, связанного с разработкой и поддержкой работы системы для силового ведомства, требовался перенос адресных справочников для точного определения координат того или иного места. Система работала в закрытой сети, так что перенос стал нетривиальной задачей. Мы неоднократно повторяли загрузку данных в систему из-за сбоев, вызванных незначительным количеством ошибок в первичных данных, а именно в справочниках КЛАДР и ФИАС.
Отметим, что заказчик зачастую ассоциирует подобные неприятности с компанией-разработчиком – исполнителем проекта, а не с поставщиком открытых данных, допустившим ошибку при их формировании. По нашему мнению, наиболее логичный выход из ситуации – дать возможность пользователям открытых данных (в данном случае специалистам заказчика) вносить правки в исходный набор. Правда, делать это нужно с осторожностью, чтобы минимизировать риски дублирования объектов вследствие банальной невнимательности пользователей. В идеале должна быть предусмотрена обратная связь от пользователей открытых данных к их «производителям» – поставщикам. Это позволяет более оперативно исправлять неточности в наборах. Во многих зарубежных странах эти механизмы уже внедрены, для России это пока задача на перспективу.
Третья задача заключается в обеспечении производственных мощностей для публикации открытых данных. Без надежных телеком-решений открытые данные могут просто не дойти до пользователей. Одни из наиболее активных потребителей подобной информации – государственные и коммерческие ситуационные центры. Поэтому при их проектировании не стоит забывать о телекоммуникационной инфраструктуре для правильного и бесперебойного распределения данных для анализа и прогнозирования экстренных ситуаций. Кроме того, необходимо предусмотреть резервное хранилище для получаемых открытых данных на случай перебоев в предоставлении сторонних информационных услуг.
Так, при создании ситуационного центра для крупной российской компании мы использовали механизмы автоматического получения открытых данных ФИАС и Росгидромета для систем мониторинга оперативной обстановки, а также данные Росстата для прогнозирования возможного экономического и социального ущерба от ЧС. Мы обеспечили отображение оперативных событий, объектов критической инфраструктуры и области влияния погодных явлений на одной интерактивной карте переменного масштаба, что позволило свести к минимуму случаи несвоевременного реагирования на ЧС вследствие ошибок операторов ситуационного центра. В то же время было обеспечено надежное резервирование получаемых данных на случай сбоев на стороне поставщиков информации.
Четвертой задачей является выбор инструментов, позволяющих «прочитать» открытые данные, и поиск компетентных специалистов, способных извлечь из них максимум пользы. Один-единственный набор данных вряд ли принесет большую пользу, но если группы данных подобраны правильно и дополняют друг друга, эффект от их использования будет более ощутим. В упомянутом выше ситуационном центре сведения о погоде и геоданных обрабатывались с помощью систем класса BI, также обрабатывались статистические данные о населении и кадастровые сведения. Такой подход к использованию открытых данных позволяет прогнозировать различные виды рисков (финансовые, производственные, социальные и др.) и упрощает реагирование на чрезвычайную ситуацию. Например, становится понятно, какие районы необходимо эвакуировать в первую очередь, кого нужно оповестить раньше остальных и т.д.
В заключение отметим, что для оптимизации процесса работы с открытыми данными необходимы аккуратное и вдумчивое проектирование и разработка специализированных продуктов. Если разработчик ПО знает, как правильно должна быть внедрена система, потребляющая и обрабатывающая открытые данные, процесс ее создания и внедрения пройдет максимально безболезненно, а использование системы принесет заказчику максимум пользы.