Что такое открытые данные ? плюсы и выгоды их использования

Каждый житель «умного города» почти ежедневно пользуется одной или несколькими информационными услугами – картами со сведениями о загруженности дорог, электронными очередями в банках и магазинах, сервисами для записи на прием к врачу или в ГИБДД для получения водительского удостоверения. Не так давно на остановках стали появляться информационные табло со сведениями о точном времени прибытия общественного транспорта, что значительно упрощает планирование маршрута, например, на работу. Все эти нововведения, делающие нашу жизнь удобной и комфортной, возможны благодаря использованию открытых данных.

Не всякие данные одинаково открыты…

В 2009 году создатель Всемирной паутины Тим Бернерс-Ли предложил пятизвездочную модель для характеристики открытых данных.

* – Данные доступны в сети по открытой лицензии в человекочитаемом формате (например, в виде скана документа). Использовать их неудобно, но, по крайней мере, они уже опубликованы и общедоступны.

* – Данные доступны в сети и представлены в структурированном машиночитаемом формате (например, таблица Excel). Минус Excel в том, что это закрытый (проприетарный) формат, который может содержать недоступную пользователям информацию, также он плохо пригоден для обработки некоторыми программными средствами. Тем не менее данные структурированы и могут быть обработаны компьютером.

*** – Данные доступны в открытом (непроприетарном) формате (например, CSV). В отличие от Excel, этот формат не позволяет скрыть от пользователей информацию и совместим с самыми разными программными инструментами.

**** – Опубликованные данные имеют идентификаторы (URI, Universal Resource Identifier), благодаря которым на них можно ссылаться напрямую.

***** – Данные представлены не изолированно, они связаны с другими данными, к которым пользователь может обращаться по мере надобности и тем самым формировать свое представление о данных с учетом их контекста.

Статьи по теме

Программное обеспечение

Это уже явно не фантастика

Программное обеспечение

Болезни роста АПК «Безопасный город»

Программное обеспечение

Умный и безопасный город

Юридическая сторона вопроса. Определение, данное Бернерсом-Ли, не является строгим и допускает использование в качестве открытых данных даже те данные, машинная обработка которых принципиально невозможна. В законодательной практике используются более узкие определения. Например, в России открытые данные должны быть представлены «в виде массивов данных, организованных в формате, обеспечивающем их автоматическую обработку в целях повторного использования без предварительного изменения человеком (машиночитаемый формат), и на условиях ее свободного (бесплатного) использования» (№ 8-ФЗ «Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления»). Таким образом, с точки зрения законодательства РФ не все доступные и бесплатные данные являются открытыми.

Второй важный момент в представленном выше определении – свободное использование данных. Без приложенного документа (лицензии), указывающего на возможность свободного (бесплатного) использования данных, набор данных не считается открытым, даже если он выложен в свободном доступе в сети в машиночитаемом виде. В основе лицензий, используемых нашим государством, зачастую лежат договоры, разработанные некоммерческими организациями Creative Commons, Open Data Commons и Open Data Institute, чьи лицензии являются наиболее применяемыми в мире. Обязательное условие использования каждого типа лицензии – свободное распространение и указание авторства.

Формат имеет значение. Кроме того, формат, в котором лицензируемые открытые данные будут распространяться, должен быть непроприетарным, т.е. открытым. Самые популярные форматы – CSV, XML, JSON, RDF, API. При этом прослеживается тенденция перехода к публикации небольших наборов данных в JSON. Этот формат удобен для чтения и написания как человеком, так и компьютером. За счёт своей лаконичности (например, по сравнению с XML) он лучше подходит для сериализации сложных структур. Для доступа к большим наборам традиционно используется API.

Бесплатно не значит бесполезно

В 2013 году в Великобритании на очередной встрече лидеров стран G8 был сформирован и подписан документ «Хартия открытых данных». Согласно ему, Россия не относится к государствам-пионерам в области использования открытых данных, однако инициативы и инновации, постепенно приходящие в нашу страну, уже сделали ее одной из стран-последовательниц. В России уже есть большое количество порталов, активно использующих открытые данные.

Отметим, что открытые данные по факту появились в мире и в России задолго до того, как в обиход вошел сам термин. Например, на протяжении последних 20 лет наша страна использовала доступный и бесплатный справочник КЛАДР, обеспечивающий единообразный ввод адресов на всей территории РФ.

Табл. 1. Примеры использования открытых данных в России и за рубежом

Категория данных	Примеры массивов данных	Примеры систем за рубежом	Примеры российских систем
Частные компании	Компании/реестр предприятий	DUNS (Digital Universal Numbering System)	Единый реестр предприятий России
Подотчетность правительственного аппарата	Контактная информация для связи с правительством, результаты выборов, нормативно-законодательные акты и уставы, ставки заработной платы, знаки признательности/подарки	Open.gov.com	Портал «Открытое правительство»
Финансовые и контрактные вопросы	Заключенные сделки, подписанные контракты, поданные заявки на участие в тендере, будущие тендеры, местный и национальный бюджеты (планируемый и расходуемый)	System for Acquisition Management	Портал «Открытые госзакупки»
Геопространственные данные	Топография, почтовые индексы, национальные карты, местные карты	Google Maps	Яндекс.Карты, ФИАС

В последнее время крупные аналитические агентства всё чаще приводят информацию о том, что использование открытых данных может приносить значительные финансовые выгоды. Например, согласно исследованию McKinsey, открытые данные только в отрасли здравоохранения могут помочь генерировать от 300 до 450 млрд долларов США ежегодно за счет их использования при оценке образа жизни, для профилактики здоровья, разработки инноваций в области медицины и т.д.

Показателен пример из транспортной сферы. Пользователь приложения с информацией о дорожной ситуации в городе принимает решение о поездке, ориентируясь на количество пробок и актуальное положение общественного транспорта. При высокой загруженности дорог он либо проложит для себя маршрут объезда на авто, либо воспользуется метро/автобусом и др. Это снизит количество машин на дорогах и повысит скорость движения, а последнее скажется на наполняемости общественного транспорта, что позволит городу зарабатывать на каждом новом пассажире.

Подобные приложения, потребляющие и обрабатывающие информацию о текущем положении транспортных средств, паспортах маршрутов и остановок, а также данные с турникетов, положительно влияют на дорожную ситуацию в городе. Правда, это возможно только при использовании современных ситуационных центров и служб мониторинга дорожной ситуации (например, действующего в Москве ЦОДД – Центра организации дорожного движения).

Рис. 1. Использование открытых данных в сфере транспорта

Другое возможное использование открытых данных – планирование городской инфраструктуры на основании статистических данных о численности населения и перемещении людских потоков в течение дня. Это позволяет определять необходимое количество не только больниц, поликлиник, отделений полиции, детских садов, школ и т.д., но и аптек, отделений банков, магазинов – словом, социально значимых коммерческих структур. В случае публикации плана развития города в формате открытых данных государство получает возможность вступать в диалог с бизнесом и совместно моделировать максимально удобную для граждан инфраструктуру, что может значительно сократить издержки на ее обслуживание.

Было бы желание

Для того чтобы открытые данные могли работать, необходимо решить 4 основные задачи.

Первая и самая важная – осознание государственными структурами необходимости использования открытых данных. Каждое государство остро нуждается и в сокращении расходов, и в развитии бизнеса, и в повышении уровня удовлетворенности своих граждан. Проблема кроется в том, что министерства и ведомства не всегда видят необходимость в повышении уровня автоматизации своей деятельности и степени прозрачности сведений о ее результатах. Безусловно, это долгосрочный процесс, требующий изменений в подходе к обработке информации о деятельности государственных структур и принятия комплекса определенных мер. Публикуемая информация должна быть приведена к виду, выбранному правительством, соответственно, данные должны быть обработаны специфичным образом. Важен также концептуальный подход министерств и ведомств: желательно, чтобы предоставляемая информация не была малосодержательной отпиской, которую государственные структуры дают «для галочки».

Второй задачей является проведение качественной первичной обработки открытых данных. Без соответствия стандартным форматам и наличия лицензии данные не могут быть полезны населению. Их неаккуратная обработка и отсутствие проверок качества могут привести к сбоям в их загрузке в системы-потребители. Так, в ходе одного нашего проекта, связанного с разработкой и поддержкой работы системы для силового ведомства, требовался перенос адресных справочников для точного определения координат того или иного места. Система работала в закрытой сети, так что перенос стал нетривиальной задачей. Мы неоднократно повторяли загрузку данных в систему из-за сбоев, вызванных незначительным количеством ошибок в первичных данных, а именно в справочниках КЛАДР и ФИАС.

Отметим, что заказчик зачастую ассоциирует подобные неприятности с компанией-разработчиком – исполнителем проекта, а не с поставщиком открытых данных, допустившим ошибку при их формировании. По нашему мнению, наиболее логичный выход из ситуации – дать возможность пользователям открытых данных (в данном случае специалистам заказчика) вносить правки в исходный набор. Правда, делать это нужно с осторожностью, чтобы минимизировать риски дублирования объектов вследствие банальной невнимательности пользователей. В идеале должна быть предусмотрена обратная связь от пользователей открытых данных к их «производителям» – поставщикам. Это позволяет более оперативно исправлять неточности в наборах. Во многих зарубежных странах эти механизмы уже внедрены, для России это пока задача на перспективу.

Третья задача заключается в обеспечении производственных мощностей для публикации открытых данных. Без надежных телеком-решений открытые данные могут просто не дойти до пользователей. Одни из наиболее активных потребителей подобной информации – государственные и коммерческие ситуационные центры. Поэтому при их проектировании не стоит забывать о телекоммуникационной инфраструктуре для правильного и бесперебойного распределения данных для анализа и прогнозирования экстренных ситуаций. Кроме того, необходимо предусмотреть резервное хранилище для получаемых открытых данных на случай перебоев в предоставлении сторонних информационных услуг.

Так, при создании ситуационного центра для крупной российской компании мы использовали механизмы автоматического получения открытых данных ФИАС и Росгидромета для систем мониторинга оперативной обстановки, а также данные Росстата для прогнозирования возможного экономического и социального ущерба от ЧС. Мы обеспечили отображение оперативных событий, объектов критической инфраструктуры и области влияния погодных явлений на одной интерактивной карте переменного масштаба, что позволило свести к минимуму случаи несвоевременного реагирования на ЧС вследствие ошибок операторов ситуационного центра. В то же время было обеспечено надежное резервирование получаемых данных на случай сбоев на стороне поставщиков информации.

Четвертой задачей является выбор инструментов, позволяющих «прочитать» открытые данные, и поиск компетентных специалистов, способных извлечь из них максимум пользы. Один-единственный набор данных вряд ли принесет большую пользу, но если группы данных подобраны правильно и дополняют друг друга, эффект от их использования будет более ощутим. В упомянутом выше ситуационном центре сведения о погоде и геоданных обрабатывались с помощью систем класса BI, также обрабатывались статистические данные о населении и кадастровые сведения. Такой подход к использованию открытых данных позволяет прогнозировать различные виды рисков (финансовые, производственные, социальные и др.) и упрощает реагирование на чрезвычайную ситуацию. Например, становится понятно, какие районы необходимо эвакуировать в первую очередь, кого нужно оповестить раньше остальных и т.д.

В заключение отметим, что для оптимизации процесса работы с открытыми данными необходимы аккуратное и вдумчивое проектирование и разработка специализированных продуктов. Если разработчик ПО знает, как правильно должна быть внедрена система, потребляющая и обрабатывающая открытые данные, процесс ее создания и внедрения пройдет максимально безболезненно, а использование системы принесет заказчику максимум пользы.

Открытые данные. О пользе бесплатного сыра

Авторы

Не всякие данные одинаково открыты…

Авторы

Теги

Другие статьи автора

Статьи по теме

Бесплатно не значит бесполезно

Было бы желание

Читайте также

Самое популярное

Уведомления об обновлении тем – в вашей почте

Коментарии

Другие материалы на эту тему

«Мы строим с нуля и берем лучшие мировые технологии»

Оставить заявку

Спасибо!

Открытые данные. О пользе бесплатного сыра

Авторы

Не всякие данные одинаково открыты…

Авторы

Теги

Другие статьи автора

Статьи по теме

Поделиться

Бесплатно не значит бесполезно

Было бы желание

Читайте также

Самое популярное

Уведомления об обновлении тем – в вашей почте

Коментарии

Другие материалы на эту тему

«Мы строим с нуля и берем лучшие мировые технологии»

Оставить заявку

Спасибо!