Например, не статистика по регионам, а статистика по муниципалитетам. Не сводка преступлений/ДТП, а информация с адресами и координатами.
Не просто адреса учреждений с координатами, а подробная информация о каждом.
Пока таких детальных данных, прямо скажем, в удобном виде немного. Если взять Москву как пример, то даже на московском портале data.mos.ru большая часть данных — это геоданные или данные с геопривязкой в виде адреса и какой-то еще минимальной информацией. Понятное дело что сделать с ними что-то действительно интересное сложно. Поэтому скажем спасибо Правительству Москвы за то что они хотя бы это раскрыли и попробуем понять где взять более интересные данные и что с ними делать.
Конкурсы и соревнования
На вопрос зачем это нужно отвечу сразу — невозможно провести ни один конкурс/хакатон/соревнование для разработчиков не имея достаточного количества интересных данных. С этим мы сталкивались на хакатоне Яндекса, прошедшем конкурсе Apps4Russia и многих других.
Поэтому сейчас, поскольку мы помогаем в подготовке конкурса API Challenge мы решили подготовить столько полезных данных сколько только возможно. А поскольку API Challenge — это конкурс идущий от власти Москвы и ориентированный на Москву — мы и данные собираем по Москве.
Чтобы этого добиться мы начали просматривать десятки госсайтов и ищем на них то что можно использовать законно и с пользой.
Как это происходило и продолжается
Вначале необходимо понять где данные искать. Универсальная формула заключается в 4-х направлениях.
- Официальные сайты органов власти
- Сайты территориальных подразделений федеральных органов (ФСИН, Минюст, МВД и др)
- Сайты госпредприятий и регулируемых государством монополий
- Сайты муниципальных образований
Последний пункт к Москве относится слабо и то лишь к новым территориям, а вот все остальные вполне существуют и доступны.
Сайты всех департаментов мы просмотрели найдя их список на www.mos.ru интересных данных там не то чтобы мало, но мало. Часть данных из того что у них есть уже опубликованы на data.mos.ru, а другие требуют существенных усилий по извлечению их из PDF документов, например, доклады Мосэкомониторинга — это большие PDF документы которые кроме как вручную в данные не переведешь.
Далее по сайтам территориальных управлений федеральной власти. В Москве, как и во всех регионах, есть представительства большого числа федеральных органов поскольку у нас в стране многие функции власти разделены между федеральной властью и регионами. В частности МВД относится к федеральной власти, ФСИН, Служба судебных приставов, Прокуратура и многое другое. Мы просмотрели множество их сайтов найдя их список вначале на сайте Правительства РФ, а далее проходя по каждому и находя раздел по Москве.
И, наконец, данные по госпредприятиям и регулируемым корпорациям самые сложные в плане возможности их использования. Дело в том что естевенные обязаны публиковать многие данные согласно приказам ФАС и ФТС и эти данные только Public Domain, на них нет ограничений. Обычно эти разделы на сайтах называются «Раскрытие информации». По другой же информации на их сайтах нет однозначной юридической чистоты/понимания — тут нужна политика города в регулировании её открытости. Тем не менее для соревнования разработчиков такие данные вполне подходят в случае их высокой общественной ценности.
Что мы нашли
Я буду перечислять данные сразу со ссылками на массивы которые мы извлекли и которые можно скачать и сразу использовать.
Все данные что мы собираем мы выкладываем на наш Хаб открытых данных. Это открытый некоммерческий проект сделанный по аналогии thedatahub.io у Open Knowledge Foundation. Все что на нем размещается будет открытым всегда и портал позволяет желающим выгрузить хоть все данные через CKAN API.
Реестр адвокатов
Эти данные размещены на сайте Минюста России — управления по Москве.
Мы выкачали их и преобразовали в JSON, CSV и XLS с нормализованными полями. Теперь данные можно скачать здесь — http://hubofdata.ru/dataset/mosadv
Реестр нотариусов
Данные, опять же, с сайта Минюста.
С ними ровно та же история — это XLS файл изначально, мы просто выкачали его, обработали в OpenRefine и преобразовали в JSON, CSV и выложили вот тут — http://hubofdata.ru/dataset/mos-notary
Тюрьмы Москвы
Совсем небольшой список тюрем размещен на сайте ФСИН по Москве — http://www.77.fsin.su/structure/
Очень простым парсером он был превращен во все те же форматы JSON, CSV, XLS и размещен здесь — http://hubofdata.ru/dataset/mos-prisons
Контакты подразделений Мосгаза по улицам
Если предыдущие 3 массива относились к государственным данным у федеральных органов власти, то следующий массив — это данные по контактам Мосгаза который является предприятием на территории Москвы и регулируемым законами и распоряжениями о раскрытии информации.
У Мосгаза есть раздел в котором можно введя улицу узнать контакты его подразделений. Вот он http://www.mos-gaz.ru/services/territory/
Поскольку внутри этого раздела оказался довольно простой AJAX код — получилось в короткие сроки извлечь все контакты и все подразделения и мы выложили большой массив контактов http://hubofdata.ru/dataset/mosgaz-contacts в котором есть файлы с привязкой улиц к районам и файлы с привязкой подразделений к районам.
Адреса ТЭЦ, ГЭС и ГРЭС Мосэнерго
На сайте Мосэнерго, одной из естественных монополий Москвы, есть адреса их ТЭЦ, ГЭС и ГРЭС — http://www.mosenergo.ru/catalog/228.aspx список этот весьма невелик, но полезен для всех кто такими данными интересуется.
Его было легко распарсить и выложить вот тут — http://hubofdata.ru/dataset/mosenergo-filials. Эти данные полезны для всех кто решит делать приложения по экологической обстановке в Москве и, сразу скажу, мы успели пока обработать не все данные Мосэнерго. У них много публичных отчетов в разделе "Статистический отчет по форме «2ТП-воздух» там много данных в XLS формате по каждой из станций о том сколько они выбрасывают отходов. Возможно кто-то будет готов их собрать и свести вместе.
Адреса и характеристики отделений Почты России
Почта России — это не орган власти, но госпредприятие часто критикуемое в виду качества работы. Данные по отделениям у них есть, в частности они публикуют их на нескольких своих сайтах основной из которых — это их сайт.
Мы вытащили данные по их отделениям по Москве с информацией по координатам их нахождения, адресам, индексам, времени работы и так далее. Эти данные никак не удалось упаковать в CSV простым образом, так что они доступны цельным JSON файлом http://hubofdata.ru/dataset/ruspost-msk
Жалобы на шум
На сайте упомянутого ранее Мосэкомониторинга обнаружился небольшой, но любопытный массив данных жалоб жителей города на шум. Вот тут http://www.mosecom.ru/noise/territ/noise_stroy_pl_2013.php собраны эти жалобы и они даже имеют информацию об адресе, а то есть могут быть наложены на карты при желании.
Эти данные мы тоже вытащили парсером и выложили на хаб — http://hubofdata.ru/dataset/msk-noise-req
Адреса некоммерческих организаций
А вот и пошли самые большие массивы данных. В данном случае мы заглянули на сайте Минюста и нашли что в реестре некоммерческих организаций их можно получить по региону. Вот тут — http://unro.minjust.ru/NKOs.aspx.
На самом деле мы сделали это еще давно, в начале этого года, и данные «пылились на полке». Теперь мы их преобразовали в удобные для работы форматы и выложили на хабе — http://hubofdata.ru/dataset/mos-nko-2013
Обратите внимание что данные разбиты на виды организаций. На случай если Вы захотите поработать отдельно над религиозными организациями и отдельно над остальными.
Базы домов Москвы с привязкой к избирательным округам и с датами постройки
И, наконец, данные которые могут пригодится более всего. На нескольких сайтах обнаружились подробные данные по каждому дому в Москве. Это такие сайты как dom.mos.ru, gorod.mos.ru, reformazhkh.ru, mosgorizbirkom.ru и еще ряде других.
Мы не успели пока обработать их все и осуществить мечту по сведению всех данных по домам в единую базу, но сделали первый шаг — разобрали несколько баз и сделали возможным дальнейшее их объединение.
Сейчас доступны:
- База всех домов с привязкой к УИКам — http://hubofdata.ru/dataset/mos-elect-houses по кадому УИКу много дополнительной информации и информации по месту голосования
- База дат постройки домов — http://hubofdata.ru/dataset/mos-buildings-years при том что на сайте, на самом деле, куда больше информации по каждому дому, мы собрали пока даты постройки и надеемся что найдутся желающие помочь собрать все данные
Это, конечно же, не всё. Данных больше и мы регулярно будем выкладывать их на хаб.
На github’е выложен весь код скриптов что мы используем https://github.com/infoculture/mosopendata
В качестве резюме что выводы и предложения:
- Все что мы сейчас собираем и парсем по Москве мы предложим чиновникам из ДИТа раскрывать официально. Я думаю что они не откажутся, благо данные уже ясно где искать. Во всяком случае в тех данных которые в ведении московских властей, вот с федеральными — придется запрашивать федеральные органы что дольше.
- Вы вполне можете проделать то же самое в своём любимом регионе или городе и сделать портал открытых данных города или загрузить к нам на хаб или еще куда-либо для общего доступа.
- Участвуйте в конкурсах и соревнованиях. И в том что я привел выше, и во всех что будут. Это не только возможность опробовать свои навыки, но и получить весомый приз.
ссылка на оригинал статьи http://habrahabr.ru/company/infoculture/blog/200458/
Добавить комментарий