По следам конференции SECR2016
For principles
iradche

И вот я вернулась из Москвы с международной конференции SECR2016, и мне в почту пришла анкета с этой конференции, в которой, в числе прочих, был вопрос о том, в каких конференциях я принимала участие в этом году.

И тут я поняла, что как-то подзабросила свой блог, поэтому попытаюсь на следующей неделе опубликовать список конференций за этот год, а также материалы, с ними связанные.

 

Кстати, то, что я подзабросила свой блог,  связано с некоторыми техническими проблемами (в частности, завирусованностью вордпресса и тд).

Но сейчас эти проблемы решены.

Тренинг в Душанбе
For principles
iradche


Электронная анкета:

https://docs.google.com/forms/d/1X7Ul5HbRNu3UfwiyR3O51zCx_lt-WMYReKz78cd9byU/viewform

Хакпад:

https://hackpad.com/--k0QuYTDa6PX





Дата-экспедиция №5: введение
For principles
iradche


С 25 по 29 апреля будет проводиться экспедиция данных в онлайн-формате. Организаторы экспедиции – проект “Госзатраты” и проект “Журналистика данных”.

Участие в экспедиции бесплатно.

Для участия необходима регистрация по ссылке: https://docs.google.com/forms/d/13Mq-RmPQaZhIow29Mvxu1hSKwWupd75wOCzUsaucVCQ/viewform

Подробнее об организационных моментах можно прочитать здесь.

В рамках этой экспедиции будет проведено исследование базы данных по государственным закупкам.



Введение в тему исследования

Что такое база Госзакупок?

База Госзакупок – это данные о государственных контрактах, находящиеся в соответствии с законодательством (44-ФЗ и 223-ФЗ) в открытом доступе в машиночитаемом формате. Правда, Официальный портал государственных закупок (собственно Госзакупки для краткости) публикует все эти данные в формате XML. И к этим данным нет прямого машинного доступа, то есть они выкладываются архивными файлами, которые нужно скачивать.

Что такое Госзатраты?

Не путать с Госзакупками. Госзатраты – это сервис, созданный (АНО “Информационная культура” при поддержке Комитета гражданских инициатив) на основе данных, которые публикуют Госзакупки. Только в отличие от Госзакупок, Госзатраты предоставляют прямой доступ к этим данным (через API). Данные представлены в формате JSON. И еще один бонус: Госзатраты не уходят по ночам на профилактику и соответственно доступны постоянно. А данные – те же, что на Госзакупках.

Что есть в базе?

Контракты, заключенные между госзаказчиками и подрядчиками, подписанные с 2011 года и до момента (база постоянно обновляется). Сейчас (на момент написания этого текста) их больше 18 миллионов.

Какая информация содержится в контрактах?

Это зависит от того, по какому закону он проходит. Есть 223-ФЗ: по нему в основном заключают контракты госкорпорации (например, РЖД). А есть 44-ФЗ. По нему заключают контракты госучреждения и органы государственной власти (госкорпорации иногда тоже, но гораздо реже).

Законодательство по прозрачности деятельности госучреждений строже, чем в применении к госкорпорациям. Поэтому контракты по 44-ФЗ значительно подробнее.

Итак, какая информация может содержаться в контрактах по 44-ФЗ?

– Информация о контракте:

  • Регистрационный номер контракта

  • Дата подписания

  • Стадия исполнения

  • Дата публикации в базе

  • Общая стоимость

  • Валюта, в которой указана стоимость

  • Номер федерального закона, по которому он заключен

  • Уровень бюджетного финансирования


– Информация о заказчике:

  • Наименование организации

  • Регион, в котором она находится

  • ИНН и КПП заказчика

  • Юридический адрес заказчика

  • Контактная информация заказчика


– Информация о поставщиках (их может быть несколько в одном контракте, соответственно указывается отдельно по каждому поставщику)

  • Наименование организации или имя индивидуального предпринимателя

  • ИНН поставщика

  • КПП поставщика (если он не индивидуальный предприниматель)

  • Адрес поставщика


– Информация о закупленных продуктах или услугах (наименований может быть больше одного, соответственно указывается по каждому):

  • Код продукта/услуги по общероссийскому классификатору (ОКПД, ОКДП)

  • Описание продукта/услуги

  • Единица измерения (например, штука, упаковка, рулон, условная единица)

  • Количество закупленных единиц

  • Цена за единицу

  • Общая сумма за все эти продукты


Это только основная информация. На самом деле в контрактах еще больше подробностей. Полные описания полей есть в специальных справочниках, которые публикуются на Госзакупках и регулярно обновляются в соответствии с нововведениями. Пользоваться ими не очень удобно, потому что они в формате PDF, но это лучше, чем ничего. Описание нужного поля можно легко найти в справочнике методом <ctrl>+<F>.

Что еще есть в контрактах?

Еще в контрактах есть документы контрактов. Буквально документы, по которым они заключались. Это, пожалуй, самая информативная часть. Но она же и самая труднодоступная для машинной обработки. Потому что обычно эти документы прилагаются к контрактам в виде вордовских докуметов (DOC, DOCX) или сканов (PDF, JPEG, TIFF). Эти документы хранятся только на серверах Госзакупок. Госзатраты дают только ссылку на ту страницу на Госзакупках, с которой соответствующий документ можно скачать. Поэтому когда Госзакупки уходят на профилактику, документы недоступны.

Какие могут быть проблемы в базе?

Проблем очень много. Это связано с тем, что база создается людьми фактически вручную. Это значит, что она неизбежно содержит в себе неточности. Это могут быть как злонамеренные неточности (чтобы скрыть информацию), так и обычные ошибки (опечатки, недоразумения, непонимание классификаций и т.д.).

Например:

  • в коде ИНН вместо цифры 0 может быть буква о;

  • в кириллическом описании продукта могут попадаться буквы латиницы, по виду совпадающие с кириллическими);

  • закупаемому принтеру может быть присвоен код продукции, который относится к электронным вычислительным машинам, а не к копировальным устройствам, как следовало бы ожидать;

  • продукт с кодом 15.42.12.111 (Масло пальмовое пищевое рафинированное в коробках, бочках, канистрах или бидонах массой нетто не более 200 кг) может иметь описание "чай черный нефасованный, мелколистовой, байховый, первый сорт";

  • вместо количества закупленных продуктов может быть указана цена за единицу;

  • некоторые поля могут быть вообще не заполнены;

  • если посмотреть документ контракта, то может обнаружиться, что на самом деле состав закупленных товаров сильно отличается от того, что указано в базе.


И это только немногочисленные примеры "подводных камней".

Пожалуй, некоторые из них можно было бы устранить, просто усовершенствовав систему, через которую вносятся данные, но пока факт тот, что данные очень "грязные".

Что с этим делать?

Может сложиться впечатление, что при таком количестве непредсказуемых ошибок база контрактов в принципе неинформативна. Это не так.

Во-первых, чтобы обоснованно судить о ее информативности, нужно подробно изучить встречающиеся в ней погрешности и по возможности определить, насколько часто они встречаются и в какой степени искажают картину.

Над этим работает, в частности, команда "Госзатрат", но надо этим могут заниматься и все, кому это интересно, потому что база открыта. Процесс, конечно, не быстрый, потому что он требует выработки подходящих методов.

Во-вторых, база представляет собой интерес и сама по себе - как данные, позволяющие исследовать и оценивать работу системы контрактирования, устанавливать ее недоработки и тем самым способствовать ее усовершенствованию. В этом смысле она, безусловно, информативна.

Идея исследования

Проблема

Допустим, мы хотим узнать, какое учреждение покупает самое дорогое постельное белье. Выгружаем из базы все данные с соответствующим кодами продукции (ОКПД, ОКПД-2, ОКДП) по 44-ФЗ и смотрим.

Для начала сортируем эти данные по цене за единицу продукции. И сразу видим странные цифры. Например, в одном контракте выясняется, что Администрация муниципального образования Крымского района (Краснодарский край) купила себе комплект постельного белья (одна штука) на сумму 59030 рублей (!).

Велик соблазн сделать из этого поспешный вывод о моральном облике госучреждений.

Но не все так просто. Если мы откроем документ этого контракта (он находится во вкладке “Документы”), то мы увидим там совсем другие цифры:


№ п/п Наименование и технические характеристики Ед. изм. Кол-во Цена за ед. в руб. с НДС Сумма (руб. с НДС)
1 Подушка шт 64 200,00 12 800,00
2 Одеяло полушерстяное шт 104 300,00 31200,00
3 Комплект постельного белья шт 47 310,00 14 570,00
4 Комплект постельного белья шт 1 460,00 460,60



Вопрос

А как часто вообще возникает ситуация такого несовпадения? Кстати, проблема, о которой мы сейчас говорим, характерна и для других продуктов. Но пока для сужения задачи сосредоточимся на выбранном.

Чтобы узнать ответ на этот вопрос предельно точно, необходимо вручную сопоставить все наши данные по продукту с информацией в прилагающихся к ним документам. Но на практике это не получится, потому что данных слишком много.



Решение

Здесь на помощь приходит статистика. Чтобы получить представление обо всех данных по закупке постельного белья, можно взять простую случайную выборку и посмотреть, как обстоят дела в ней. На этом основании можно будет сделать вывод и обо всем продукте (с учетом уровня доверия и доверительных интервалов).

Конечно, и тут потребуется ручная работа. Но ее будет гораздо меньше, чем при сопоставлении всех полученных контрактов. И если распределить работу, то на сравнение контрактов и документов уйдет не так много времени.

Таким образом мы получим довольно точное представление о проценте расхождений между данными базы и документами хотя бы в этом продукте. Еще мы получим некоторую отправную точку, чтобы прикидывать процент расхождений по другим продуктам. И, конечно, что немаловажно, мы посмотрим на деле, насколько хорош этот метод и как его можно усовершенствовать.

 

Дата-экспедиция №5: анонс
For principles
iradche


АНО “Информационная культура” и неформальный образовательный проект “Журналистика данных” организуют исследование на основе базы данных государственных закупок. Исследование будет проходить в формате дата-экспедиции (или экспедиции данных) под кодовым названием “ДЭ5”.

Тема экспедиции: Исследование репрезентативности официальных контрактных данных на основе анализа данных “Госзатрат”.

Цель исследования: Установить репрезентативность данных, которые вносятся в систему государственных закупок. Таким образом, мы получим более точное представление о базе и возможностях работы с ней.

Сроки и продолжительность ДЭ5: ДЭ5 начнется 25 апреля (понедельник) и продлится пять дней, то есть завершится 29 апреля (пятница) 2016 г.

Что такое экспедиция данных?

Она же дата-экспедиция. Это такой формат совместной работы онлайн. Собирается некоторое количество участников и, используя инструменты онлайн-взаимодействия, пытаются вместе решить поставленную задачу (исследовательскую или образовательную).

Почему ДЭ5?

Потому что это уже пятое мероприятие в таком жанре, запускаемое проектом “Журналистика данных”. О предыдущих экспедициях можно почитать здесь. Правда, в отличие от большинства предыдущих, ДЭ5 - это скорее исследовательское, чем образовательное мероприятие.

Сколько времени придется уделять ДЭ5?

Основная нагрузка по совместной работе придется на три первых дня ДЭ5. Мы рекомендуем в этот период выделить на работу в рамках ДЭ5 не менее одного-двух часов. Оставшиеся два дня будут менее требовательными, с точки зрения временных затрат, так как этот период отводится на самостоятельную исследовательскую работу.

Как будет проходить работа?

Все участники должны будут принять приглашение к вступлению в закрытую гугл-группу. Гугл-группа будет выглядеть и действовать как форум, а также в ней можно будет настроить отправку уведомлений на почтовый адрес. В гугл-группе будут публиковаться общие инструкции по работе.

Там же произойдет распределение участников на команды и корректировка этого распределение, если возникнут соответствующие пожелания. Кроме того, в гугл-группе можно (и нужно) будет задавать вопросы и делиться своими наблюдениями, пожеланиями и предложениями.

У экспедиции будет один общий модератор. Кроме того, в каждой команде будет выделен координатор, который будет отвечать за результаты работы своей команды. У каждой команды на форуме будет своя тема, где участники смогут обсуждать свою работу. Также участники каждой команды могут взаимодействовать друг с другом и с координаторами любыми удобными им способами.

Что требуется, чтобы стать участником ДЭ5?

Внимание: указанный при регистрации почтовый ящик Gmail будет постоянно использоваться в ходе экспедиции. Туда придет приглашение присоединиться к закрытой группе, в которой будет проходить работа. Туда же будут приходить уведомления об активности в группе. Это значит, что во время экспедиции этот ящик имеет смысл регулярно проверять.

Какие навыки обязательно потребуются в ходе ДЭ5?

Работа с Google-документами и Google-таблицами.

Некоторую информацию об использовании гугл-документов как инструмента онлайн-взаимодействия можно почерпнуть здесь.

Также можно посмотреть базовые инструкции по работе с гугл-таблицами.

 

Международный день открытых данных - 2016
For principles
iradche




5 февраля 2016 года по всему миру отмечали День открытых данных.
Мероприятие проходит каждый год, и с каждым годом все больше заинтересованных людей вовлекаются в хакатоны, лекции, "не-конференции" и прочие мероприятия, посвященные открытым данным.
Для удобства просмотра участников был создан специальный информационных ресурс: http://opendataday.org/

В Москве День открытых данных прошел на площадке Impact Hub при поддержке АНО "Информационная культура", "Теплицы социальных технологий" и Комитета гражданских инициатив.
Мероприятие в Москве имело формат "неконференции", где почти каждый желающий мог выступить с речью.
Можно было принять участие в хакатоне по открытым данным, а также поучаствовать в сессии по Открытой науке.

Сессия по Открытой науке
В рамках IODD2016 (именно с такой аббревиатурой это мероприятие фигурировало в социальных сетях) я организовала мини-сессию по Открытой науке.
Всем желающим я предложила обсудить и составить список полезных онлайн-ресурсов, при помощи которых исследователи и ученые могут рассказать о себе, о своих проектах, опубликовать результаты своих исследований (данные и научные статьи).
Результаты сессии были отражены в etherpad-e: https://etherpad.wikimedia.org/p/IODD2016
Затем я предложила разработать простые и понятные инструкции по использованию этих сервисов (на русском языке).
Результаты я думаю выложить на сайте, посвященным российским проектам в области Открытой науки и Открытого обучения: http://www.opensciencelabs.ru/manuals/
Эти инструкции будут весьма полезны для коллег, пока не имеющим представления о существовании подобных ресурсов.

Другие информационные материалы
Посмотреть отчет, написанный Инфокультурой можно здесь: http://www.infoculture.ru/news/open_data_day/
Отчет "Теплицы": https://te-st.ru/2016/03/11/open-data-day-moscow-results/
Страничка мероприятия на Фейсбуке: https://www.facebook.com/events/497816503734923/

Полезные ссылки по дата-журналистике и работе с открытыми данными
For principles
iradche

Сегодня я хочу поделиться с вами полезным ресурсом: https://data-journalism.zeef.com/irina.radchenko
Здесь я собрала упорядоченную коллекцию ссылок по дата-журналистике и работе с открытыми данными.
Коллекция включает в себя следующие разделы.

  1. Data Journalism

  2. Data Expedition

  3. Find the data

  4. Data Sources

  5. Scrape the data

  6. Clean the data

  7. Visualize the data

  8. Visualizations

  9. Digital Storytelling

  10. Data Journalism courses

  11. Examples

  12. Blogs

  13. Working with API

  14. GIS

  15. Data Zeef

  16. Longreads

  17. Questions-Answers

  18. Long Read Examples

  19. Data Science


Если у вас есть полезные ссылки, которыми вы желаете поделиться, то предлагайте их, пожалуйста, прямо на ресурсе Zeef.com. Для этого надо нажать на плюсик после списка ссылок.

Moscow Science Week - 2015
For principles
iradche
Moscow Science Week - 2015
Всю эту неделю (c 7 по 12 декабря) в Москве проходило мероприятие "Moscow Science Week - 2015", неделя науки (http://moscowscienceweek.ru/).
9 декабря 2015 года я приняла участие в Форсайт-сессия "Будущее исследований и будущее науки" (http://moscowscienceweek.ru/program/?id=117).
На сессии я рассказывала про концепцию Открытой науки и о тех проектах, которые сейчас идут у нас в Лаборатории в ИТМО (например, о платформе связанных открытых данных: http://lod.ifmo.ru/, вот здесь можно посмотреть на визуализацию на основе связанных открытых данных: http://lod.ifmo.ru/usecases/heatmap.html).
Мою презентацию с этой сессии можно посмотреть здесь: http://www.slideshare.net/iradche/open-science-concept

Статистика в музыке
For principles
iradche

25 сентября 2015 года в Петербурге прошел концерт Einstürzende Neubauten – Lament.




Концерт произвел на меня ошеломляющее впечатление: основной темой была Первая мировая война, которая была отражена во всех песнях. И можно многое написать о каждой из них, но, наверное, лучше почитать о них на официальном сайте: https://neubauten.org/en/lament.
Кстати, об этом концерте написали статью в Guardian: http://www.theguardian.com/music/2014/nov/21/einsturzende-neubauten-review-koko-london

Меня очень поразило исполнение "Der 1. Weltkrieg (Percussion Version)".
Про неё Бликса Баргельд (Blixa Bargeld) сказал, что это статистическое музыкальное произведение ("It's a statistical piece of music").
Композиция составлена таким образом, что каждый удар обозначает каждый день войны, частота ударов была подобрана экспериментально, а количество используемых труб равно 20, по количеству стран, участвовавших в войне. Страны и города, задействованные в войне, проговариваются разными людьми с акцентом местных жителей.
Очень необычный ход перевода в музыку данных о Первой мировой войне. Я сразу вспомнила знаменитую визуализацию "Наполеоновского марша" Минарда.

Видео с выступления в Торонто можно посмотреть здесь:


Думаю, что это прекрасный художественный и статистический ход.
Интересно было бы также посмотреть на подобного рода композиции в контексте разработки звуковых интерфейсов.

Инструменты для дата-журналиста
For principles
iradche


SILK (http://silk.co/) - это замечательный сервис, позволяющий систематизировать, организовать, аннотировать и выложить в онлайне различные данные.
Именно на сайте SILK мне удалось найти весьма полезную подборку инструментов дата-журналиста: http://data-journalism-tools.silk.co/


Более того, внизу можно посмотреть статистику по собранным инструментам.



Как видно, из статистики, больше всего представлено инструментов для визуализации данных (67 сервисов), затем идет инструментарий для сбора данных (22 сервиса) и для анализа данных (14 сервисов).
И как выяснилось, из представленных инструментов только 12% платные. Остальные либо бесплатные, либо представлены по типу Freemium.
Любопытно, что представленная статистика интерактивна, и при нажатии на конкретную группу, можно посмотреть список всех инструментов этой группы.

Секция по Открытой науке в рамках конференции KESW - 2015
For principles
iradche


C 30 сентября по 2 октября в Москве будет проходить международная конференция KESW-2015 (http://2015.kesw.ru/).
Приглашаю всех заинтересованных в Открытой науке людей поучаствовать в работе секции по Открытой науке. Чуть позже я опубликую приблизительную тематику и расписание работы секции.
Буду рада пожеланиям и дискуссии, и особенно - инициативе выступления с докладом или мастер-классом.

Планируется, что эта секция проходить 2 октября с 16:30 до 18:00.
Мероприятие будет проходить по адресу: Москва, Ленинский пр., 4, университет МИСиС.

?

Log in