Дочь данными хороша: писать законы предлагают с помощью big data
Эксперты «Сколково» предложили писать законы с помощью big data. Звучит очень инновационно, но с тех пор, как лет пять назад все стали говорить о больших данных, появилось немало аргументов против их использования. Или, по крайней мере, против того, чтобы считать их панацеей от всех бед. Подробности — в материале «Известий».
Идею анализировать большие массивы информации для корректировки действующих законодательных норм прокомментировал для РБК глава департамента по развитию фонда «Сколково» Сергей Израйлит. Он подчеркнул, что «обозначенные темы в настоящее время еще не прошли экспертное обсуждение».
По мнению Израйлита, такая модель будет эффективнее сегодняшней практики, когда нормы создаются только на основе человеческого анализа и пожеланий заказчика.
Звучит это очень здраво, особенно в таком герметичном случае, который описал глава департамента фонда. Одна остановка, один перекресток и анализ потока людей в этом месте. Но вряд ли нацпрограмма «Цифровая экономика», частью которой может стать высказанная в «Сколково» идея, разрабатывалась для решения только таких сугубо локальных проблем.
Не надо строить корреляции между огурцами и грушами
Никто толком не знает, что такое большие данные. Вернее, никто не может определить, где кончаются маленькие и начинается большие. Все более-менее сошлись на том, что это массивы информации, анализ которых может дать какие-то закономерности.
Например, есть информация о темпах экономического роста, изменении численности населения, его социальной активности и о том, как за этот промежуток времени менялись курсы валют. Значит, можно попробовать найти закономерности и предсказать, как будет меняться курс валют в будущем? Или предсказать следующий кризис? Нет.
Можно, конечно, попробовать, но это, скорее всего, будет бессмысленно. Потому что, во-первых, колебания курсов валют зависят не только от упомянутых факторов, а от каких еще — есть разные теории. Во-вторых, не всегда информация о том, что было в прошлом, дает понимание того, что будет в будущем. Так, весь предыдущий опыт животных, выращиваемых на мясокомбинате, говорит им, что их всегда будут сытно кормить.
Метафора с мясокомбинатом принадлежат экономисту Нассиму Николасу Талебу. Он использовал ее в книге, посвященной тому, почему невозможно спрогнозировать случайности. Высказывался Талеб и конкретно про большие данные. В интервью Wired экономист жалел компании, которые под влиянием модного (уже сколько лет) термина собирают огромные массивы данных и ищут в них корреляции. При этом не понимают, что большие объемы информации могут стать источником возникновения ложных связей.
Умножать огурцы на груши и делить на яблоки тоже не стоит
Но вопрос не только в том, чтобы выбрать правильные переменные для анализа. Нужно еще и правильно эти переменные анализировать.
Математические модели анализа больших данных создаются так же, как и законодательные нормы, по выражению Сергея Израйлита. На основе человеческого анализа и пожеланий заказчика.
Кэти О’Нейл, американский математик и борец за права человека (очень уж сложно феминитивы к этим словам подобрать), рассказывала на форуме Personal Democracy Forum, как пыталась понять методику оценки эффективности преподавателей в США. Она основана на big data.
Ее подруга, преподаватель из спецшколы с углубленным изучением естественных наук и математики, решила изучить этот алгоритм. Сначала в министерстве образования Нью-Йорка просто отказали. По словам О’Нейл, учительнице сказали: «Вы ничего не поймете, это же математика!»
Женщина настаивала и получила брошюру, в которой описывалась методика. Но «документ оказался слишком абстрактным для того, чтобы прояснить ситуацию». И О’Нейл написала официальный запрос, ссылаясь на закон США о свободном доступе к информации. Но получила отказ.
Сейчас у действующих в России законов по крайней мере есть авторы. А так будут алгоритмы, которые, во-первых, могут быть составлены неправильно. Во-вторых, они вряд ли будут опубликованы на портале «Открытого правительства». И не зная их, невозможно оспорить справедливость скорректированных таким образом законов.
А ведь есть еще помидоры, арбузы и виноград
Существует вероятность, что те, кто будут (если идея станет частью программы «Цифровая экономика»), так вот те, кто будут корректировать действующие законодательные нормы с помощью больших данных, всё сделают правильно: и переменные нужные подберут, и алгоритм хороший напишут.
Но на нынешнем этапе развития технологии проблемы на этом не кончатся. Во-первых, при внесении данных в программу для анализа человек может ошибиться и вписать что-то не то. Во-вторых, кажущиеся правильными алгоритмы могут не справляться с новыми данными, хотя с теми, на которых их учили и испытывали, всё было в порядке. Это называется «переобучение», когда программа сама, без помощи человека, обнаруживает ложные корреляции в старых данных. И, не имея возможности сделать этого с новыми данными, выдает бессмысленные выводы. И в-третьих, машины, на которых будут работать программы, могут оказаться банально слабыми.
Есть и еще одна большая проблема с обсуждаемым нововведением. То, из каких данных будет состоять анализируемая big data. В сколковской концепции говорится, что на законодательном уровне необходимо определить понятие «цифрового следа» как совокупности данных о «действиях пользователя в цифровом пространстве».
Вопрос конфиденциальности обсуждается столько же, сколько сами большие данные. Потому что от того, насколько данные в массивах уникальны, а значит и приватны, зависит, насколько уникальные выводы может сделать алгоритм.
«Сколково» выступает за то, чтобы делить активный и пассивный цифровой следы. И регламентировать использование только активного. Это информация, которую пользователь оставляет в социальных сетях и личных кабинетах на сайтах, включая портал госуслуг и банковские ресурсы. К ней относятся Ф.И.О., дата рождения, контакты, место работы, личные фото и видео.
Пассивный цифровой след в «Сколково» предлагают вынести за скобки закона. Это данные, которые оставляются ненамеренно или вследствие работы соответствующего ПО — то как и какими сервисами пользуется человек.
И даже в локальном случае использования big data, описанном Сергеем Израйлитом, речь идет о пассивном цифровом следе. О данных о перемещениях водителей, которые используют карты «Яндекс.Карты». Водители, не глядя, соглашаются делиться этим пассивным следом с компанией. А она, вероятно, будет отдавать их машинам-законотворцам.