Как Big Data работает в России
Big Data — это набор технологий, позволяющий работать с большими массивами данных и, одновременно, это новая модель принятия решений, в предельном случае — непосредственное принятие решений программами, замещающими человека с помощью более или менее сложных алгоритмов анализа данных.
Большие массивы данных и модели, созданные на их основе, широко используются в финансовой сфере, телекоме, различных видах интернет-бизнеса, интернет-маркетинге. Одна из возможных точек приложения методов принятия решений на основе анализа больших массивов данных — это государственное регулирование. Приложение к государственному регулированию представляется уместным потому, что здесь высока цена ошибки, сложность, зачастую дефицитны человеческие ресурсы, размыты стимулы к принятию эффективных решений (поэтому можно выиграть от алгоритмизации процесса управления).
Одни из областей, где алгоритмизация регуляторных решений может быть полезна в России — это сферы энергетики и ЖКХ. К примеру, при организации работы электрической энергосистемы требуется в режиме реального времени синхронизировать деятельность огромного количества субъектов и выработать справедливое ценообразование с учетом многих факторов.
Другой пример — единая информационно-аналитическая система, которая позволяет осуществлять сбор данных, проводить их анализ и рассчитывать тарифы на воду, электричество, газ, тепло. Отнесение таких систем к Big Data не вполне правомерно технологически, но количество обрабатываемых ими показателей исчисляется сотнями миллионов (про Big Data обычно говорят, когда речь идет как минимум о десятках и сотнях миллиардов единиц информации).
Также в России есть частично реализовавшиеся планы разработки единой геоинформационой системы топливно-энергетического комплекса (ГИС ТЭК). Планируется, что она будет представлять собой совокупность баз данных и инструментов работы с ними. В системе может содержаться различная информация, характеризующая параметры и элементы энергетического комплекса: генераторы электроэнергии, распределительные сети, их технические свойства, котельные трубы, тепловые пункты, запасы, добычу, транспортировку и переработку нефти и газа
То есть распространение технологий Big Data может замедляться из-за институциональных факторов. В качестве другого примера можно рассмотреть внедрение Big Data на примере инсайдерской торговли на финансовых рынках в России. Появление экономических новостей часто влияет на стоимость акций и других финансовых инструментов. На развитых торговых площадках в последнее десятилетие используются системы автоматизированной торговли. Некоторые из них автоматически анализируют появляющиеся новости, прогнозируют рост или падение цены и пытаются успеть купить или продать акцию раньше других — за доли секунды до того, как в игру включаться другие торговцы. Подобные приложения используют большую статистику новостей и связанных с ними изменений котировок, поэтому их можно отнести к Big Data. С другой стороны, есть понятие инсайдерской торговли. Если кто-то в силу служебного положения или сговора узнает новость раньше публикации, он может купить или продать акции раньше других и экономить секунды, как правило, незачем. Поэтому и ниши для торгового робота, анализирующего новости, не возникает. Запреты на инсайдерскую торговлю действуют в большинстве стран, имеющих развитый финансовый рынок. В России они тоже есть, но не работают. Поэтому еще одно приложение в сфере Big Data оказывается невостребованным.
Отсутствие спроса на многие приложения Big Data ведет к снижению спроса на технологии и, как следствие, к замедлению технологического прогресса. Например, до сих пор нет хорошего общедоступного машинного анализатора русского языка.
Добавлю, что в последние годы сформировалась такая новая специальность как data scientist. В шутку можно сказать, что это человек, который из программистов хуже всех умеет программировать, а среди специалистов по статистике хуже всех знает статистику. А с другой стороны, среди специалистов по статистике он лучше всех умеет программировать, а среди программистов лучше всех знает статистику. Строго говоря, это люди, которые понимают способы моделирования мира математическими инструментами, умеют эти способы реализовывать в решениях, выдерживающих высокую нагрузку, работающих в режиме реального использования, а не только у себя на компьютере. Кроме того эти люди готовы понимать бизнес. Понятие data scientist особенно распространено на Западе. В России таких специалистов пока не выделяют в отдельную группу, их относительно мало.