Как победить на хакатоне?

Изначально хакатон означал марафон по программированию и объединял в себе слова «взламывать код» и «марафон». С появлением всё большего количества данных в открытом доступе необходимость во взломе чего бы то ни было отпала. Теперь можно просто искать интересную информацию внутри больших массивов. Именно этим на дата-хакатонах и занимаются журналисты с помощью программистов и под руководством менторов в рамках ограниченного времени (обычно двух дней). В результате таких мероприятий участники должны создать полноценный и готовый к публикации медиапродукт, а не просто сервис или интерактивную карту. Чаще всего их собирают на платформе «Тильда». Мы узнали, что и как ищут журналисты на хакатонах.

В России мода на дата-хакатоны появилась ещё в 2013 году. Тогда в Москве прошёл региональный этап всемирного соревнования Editors Lab, в котором российские редакции впервые попробовали свои силы в превращении данных в журналистские истории. Победителем стала редакция журнала «Большой город» с сюжетом о том, какие городские объекты в Москве доступны различным социальным группам. Темы проектов победителей так или иначе касались качества жизни горожан, с тех пор она остаётся на пике популярности у журналистов. В 2014 году в Санкт-Петербурге провели CityCamp&Hack, где учредили номинацию по журналистике данных.

Но потребовалось ещё несколько лет, чтобы идея хакатона для СМИ стала привлекательной. Только в феврале 2016 года прошли первые российские соревнования на базе НИУ ВШЭ на тему «Финансы российских медиа», после чего тема денег и бюджетов прочно вошла в тематику хакатонов. Уже в апреле 2016-го в СПбГУ прошёл первый городской «ЖурХак», который показал, что темы историй ограничены только фантазией журналистов. Наконец, лето 2016 года стало самым урожайным на игры с цифрами. В июне прошли сразу три соревнования: «Антикоррупционный хакатон» с частичным участием журналистов, BudgetStories по открытым государственным финансовым данным и очередной хакатон от НИУ ВШЭ, основными темами которого стали деньги и медицина.

 

,

Участники должны создать полноценный и готовый к публикации медиапродукт, а не просто сервис или интерактивную карту

,

ДЕНЬГИ

Открытых данных в России пока не так много, чтобы с удовольствием разрабатывать истории каждый день. Например, на портале «Открытые данные России» размещено чуть более 8700 документов. По мнению экспертов, например доцента НИУ ИТМО Ирины Радченко, не хватает не просто данных, а данных с большой степенью детализации.

Однако постепенно их становится больше. Например, портал «ГосЗатраты» (входит в Комитет гражданских инициатив Алексея Кудрина) содержит данные по более чем 20 млн госконтрактов. Именно бюджеты и финансовая отчетность привлекают журналистов чаще всего, а прозрачности расходов посвящаются хакатоны. Основатель первого городского хакатона по журналистике данных Серафим Романов считает, что тема госзакупок уже набила оскомину:

— Кажется, что многие участники торгов давно перестали стесняться абсурдности и сомнительности некоторых конкурсов. Читатель тоже привык и постепенно теряет интерес к новым «расследованиям» в этой сфере.

Ещё одна лежащая на поверхности тема — ​гранты и субсидии. Команда «Цифровой патруль» разложила по полочкам все инвестиции в российскую науку. Закономерно получилось, что универсальные фонды отдают предпочтение химии и биологии, а гуманитарные — ​истории. Ради этого вывода ребята построили множество массивных диаграмм.

Основатель SocialDataHub и ментор хакатонов Артур Хачуян согласен с коллегами, что самая банальная тема — ​это деньги чиновников:

— Я больше люблю исследования в области «умного» города (население, велодорожки, экология и т. д.), таких данных сейчас в открытом доступе не хватает.

Команда из Петербурга, которая многократно участвовала в журналистских соревнованиях с извечным вопросом «Где деньги, Зин?», свой первый сюжет на хакатоне НИУ ВШЭ нашла в субсидиях для СМИ. Ребята выяснили, что государство тратит больше всего на патриотические проекты, и заняли первое место. В другой истории — ​о расходах на исполнение наказаний — ​оказалось, что большинство денег уходит на оплату работы сотрудников системы исполнения наказаний, при этом на каждого из них приходится всего по два заключенных.

Команда «Зины» всегда раскрывает процесс поиска данных. История про тюрьмы была «зарыта» в справочнике тюрем РФ, бухгалтерской отчетности организаций и списке госзакупок. А вот в сюжете «Бедный Путин», как ни странно, речь не о деньгах, а о том, как достучаться до власти, если не дозвонился на прямую линию.

Елена Темченко, участник команды «Где деньги, Зин?»:

— На мой взгляд, самая «заезженная» тема — ​это формирование бюджета РФ. Её достаточно часто эксплуатируют, начиная от простых визуализаций и заканчивая сложными интерактивными проектами (например, бюджетный калькулятор РИА «Новости»). Но при этом в проектах, которые каким-либо образом связаны с финансированием госструктур или использованием бюджетных средств, данные отдельных статей формирования или использования бюджета РФ анализировать, конечно, необходимо.

В любой из этих историй ключевую роль играют, конечно, сведения об ИНН. Чаще всего именно по ним из различных баз данных приходят дополнительные сведения к сюжету. Например, на какие деньги существуют политические партии в России, узнала команда «Инфометр». Лонгрид «Золото партий» представил результаты анализа финансовых отчетов на сайте ЦИК, которые содержали ИНН жертвователей, а по ним были найдены конкретные люди и их биографии.

,

Получилось, что чаще всего инвестиции приходят из сфер строительства и услуг, а физические лица жертвуют больше, чем юридические.

,

КАЧЕСТВО ЖИЗНИ

В этой тематической подгруппе кроется больше возможностей для нестандартных выводов — ​благодаря совмещению различных типов данных.
— Самый «сок» дата-журналистики — ​когда данные, взятые из разных, никак не связанных друг с другом источников и областей, вдруг складываются в единую логичную историю. Такой синтез всегда выглядит эффектно, независимо от темы, с которой работает автор, — считает Серафим Романов.

Девушки из команды «Квартет J» свели воедино данные по стоимости жилья, экологии, инфраструктуре и безопасности всех районов Санкт-Петербурга, чтобы наглядно доказать, где цена соответствует качеству. При работе над материалом было использовано более десяти различных источников, как официальных, так и альтернативных. В итоге журналисты отдали пальму первенства двум районам, самое интересное, что спальным: Приморскому и Невскому.

Сложнее всего приходится при анализе данных по экологической обстановке, поскольку различия между официальной и неофициальной статистикой порой очень большие. Ангелина Давыдова, экологический журналист и эксперт хакатонов, считает, что на самом деле любые научные данные противоречивы:

— К каждому конкретному случаю можно найти исследование, которое даёт одни результаты, и другое исследование, которое даёт результаты противоположные. И это не только проблема экологических данных.

По мнению Серафима Романова, в открытом доступе не хватает данных криминальной статистики. Очередная петербургская команда решила самостоятельно создать такую базу на основе открытых отчётов, чтобы показать перспективность крайммэппинга для российских городов. Авторы проекта не только нарисовали более десятка карт по различным видам преступлений, но и сравнили интенсивность преступлений по районам со стоимостью жилья. Получился очень социальный вывод: в центре города криминала больше из-за высокого расслоения населения.

— Мне было бы интересно исследовать бюджет Минобороны: как же так получается, что при огромных расходах на оборону солдаты живут в не самых лучших даже для армии условиях, — ​рассказывает Тагир Нурахметов, победитель «ЖурХака». — ​Когда наша команда изучала проблемы альтернативной гражданской службы, мы обнаружили, что военкоматы либо не ведут статистику, либо ведут её без стандартов. Но [в любом случае они] не публикуют её в открытом доступе, мы получили цифры по запросу.

Команда Grandpaper под руководством Тагира добилась успеха именно за счёт того, что полученные ими данные не лежали на поверхности. Авторы проанализировали, как часто отказывают призывникам в прохождении альтернативной службы и какова потребность социальных учреждений в таких работниках. Оказалось, что несмотря на хорошее равновесие спроса и предложения со стороны молодых людей и учреждений, военкоматы не идут навстречу ни тем, ни другим.

Другой проект этой команды выигрывает благодаря добавленному сервису, а не самой теме. Проблему косвенных налогов, невидимых глазу простого потребителя, авторы решили за счёт примитивного калькулятора, который показывает, сколько вы переплачиваете на килограмме яблок или пачке сигарет.

Помимо доступа к данным существует проблема машиночитаемости. То есть журналист может найти нужную базу, но поработать с ней легко и просто не получится. А ведь как выяснила команда «Дата-время», на программы по раскрытию данных тратятся немалые деньги.

— Большинство существующих баз приходится лопатить вручную — ​это неудобно, и сделаны они для того, чтобы создать видимость открытости, а на деле работать с ними невозможно. Поэтому было бы здорово, если бы налоговая имела прозрачную базу данных. Базы IT-индустрии нет вообще. В общем, хотелось бы усовершенствовать уже имеющиеся, сделать их доступнее и понятнее, — ​предлагает Татьяна Иванова, участник нескольких хакатонов.

,

хакатоны пока не привлекают достаточной аудитории, чтобы познакомить всех желающих с интересными выводами

,

ЗАКАЗНЫЕ ТЕМЫ

Соревнования по дата-журналистике быстро привлекли не только государственный сектор, но и бизнес. Теперь компании сами предлагают темы либо в отдельных номинациях, либо в рамках целого хакатона.

Например, Министерство здравоохранения предложило свои открытые документы для визуализации под лозунгом «Понятная медицина». Однако в интерпретации журналистов темы всё равно вышли социальными — ​нападения пациентов на врачей, необоснованные траты на лекарства с сомнительной эффективностью, нехватка препаратов для лечения редких заболеваний.

Недавно по инициативе Сбербанка и при поддержке «Ростелекома» прошел Первый Дальневосточный медиахакатон. Его продуктами стали не журналистские истории, а сервисы и приложения, но журналисты также участвовали в нём. Например, владивостокская команда Mayak.red разработала приложение, которое делает для пользователя краткую выжимку основных новостей в мире. Такие истории показывают, что не всегда содержание доминирует над формой.

— Многие пишут материалы на основе данных без исследования какой-либо проблемы. Игра с цифрами только ради самой этой игры. Всё-таки журналистика — ​это выявление и освещение общественных проблем, — ​считает Тагир Нурахметов.

К сожалению, как и любой «междусобойчик», хакатоны пока не привлекают достаточной аудитории, чтобы познакомить желающих с интересными выводами или инструментами. Для некоторых команд соревнования стали чем-то вроде хобби в свободное от основной работы время. Ссылки на проекты со временем исчезают, как и страницы самих хакатонов. Остается надеяться, что мимо самых качественных любительских проектов не будут проходить крупные СМИ, а соревнования подготовят новые кадры для отделов расследований российских изданий.

 

,

Фото: shutterstock.com