Статья

Как сделать использование больших данных наиболее эффективным

Big Data Конференции
мобильная версия

Большие данные постепенно трансформируются из технологий будущего в конкретные решения и проекты. На повестке дня вопрос о том, как сделать их использование наиболее эффективным, считают участники организованного CNews Conferences круглого стола «Большие данные 2018».

Состоянию рынка больших данных посвятил свое выступление Валерий Артемьев, консультант отдела разработки политик, стандартов и процедур департамента статистики и управления данными Банка России. По его мнению, потенциал структурированных данных еще до конца не исчерпан. Однако сегодня все больше и больше внимания уделяется неструктурированным данным, несмотря на то, что их достоверность пока еще сложно проверить. Среди них как cгенерированные машиной (например, данные в формате обмена, изображения со спутника, научные данные, фото и видео), так и сгенерированные человеком (тексты и офисные документы, социальные медиа, мобильные данные, Web-контент). Еще один тренд – продвинутая аналитика – обсуждается все чаще –  несмотря на то, что 90% необходимой бизнесу информации можно получить с помощью традиционных BI и Data Mining. Кроме того, по мнению Валерия Артемьева, инструменты больших данных пока еще сложно встраиваются в корпоративную ИТ-инфраструктуру.

Как использовать данные

Несмотря на то, что будущее развития рынка ITSM за развитием сервисов самообслуживания и использованием баз знаний, до настоящего времени 90% пользователей звонят в службу техподдержки. В такой ситуации актуальной становится максимальная автоматизация работы службы технической поддержки. Как рассказал участникам конференции Никита Никитинский, руководитель направления R&D компании Naumen, концепция ITSM 3.0 предполагает использование больших данных и машинного обучения для автоматизации услуг, оказываемых сервисными службами (АХО, ИТ, HR), создание сервисов самообслуживания и упрощение пользовательских интерфейсов существующих платформ. Портал самообслуживания с умной строкой(ITSM 3.0) представляет собой дообучаемую и легко кастомизируемую систему, основанную на новых технологиях, методиках, алгоритмах и программных средствах. В отличие от традиционных ITSM-систем, он позволяет сэкономить на обслуживании и обучении пользователей.

Сфера применения прогнозной аналитики практически безгранична, говорит Евгения Евдокимова, руководитель направления прогнозной аналитики «Тринити». В качестве источников данных могут выступать как традиционные транзакционные (заказы, транзакции, оплаты, возвраты) и описательные (атрибуты, характеристики, социально-демографические) данные, так и новые данные по взаимодействию (E-mail/мгновенные сообщения, звонки в клиентские центры, потоки кликов на сайте, текст и диалоги) и по отношению (мнения и предпочтения, требования и желания, результаты опросов, данные из социальных сетей). Основная цель прогнозной аналитики – поддержка принятия решений. Решения могут приниматься практически без данных, но с их помощью эффективность этого процесса существенно выше благодаря автоматизации некоторых интеллектуальных процессов, уверена Евгения Евдокимова.

О том, как собрать максимум информации перед покупкой бизнеса, рассказал Игорь Кукоев, руководитель экономического департамента группы компаний «Шоколадница». Для начала надо определиться, с какой целью осуществляется покупка – это позволит понять, какие данные необходимы и где их можно найти. Это могут быть как структурированные данные, такие как физические характеристики объектов, операционные, финансовые, юридические данные и данные о материальных ресурсах, так и слабо упорядоченные данные (взаимоотношения с контрагентами, данные о сотрудниках, маркетинговые акции и рекламные компании, и неупорядоченные данные (отзывы клиентов, результаты проверок, происшествия, заявки на обслуживание, конкурентное окружение, ИТ-инфраструктура). В результате их обработки можно получить максимально полную информацию о приобретаемом бизнесе.

Об использовании больших данных в процессе анализа хода сложных бизнес-проектов рассказал Вячеслав Колчин, заместитель генерального директора по развитию ФРД. В отличие от KPI, которые завязаны на конкретных людей, большие данные позволяют анализировать бизнес-процессы, в которых участвуют несколько человек. По мнению Вячеслава Колчина, понять мотивы менеджеров, принимающих решения, помогут интеллектуальные агенты. Они же могут своевременно подстраивать систему KPI и таким образом оптимизировать управление системами различной сложности. 

Что есть и что будет

Большой интерес участников конференции вызвали примеры практического использования больших данных в самых разных сферах. Так, одна из важнейших задач руководства промышленного предприятия – обеспечить непрерывную загрузку производства. «Сибур» достаточно  активно использует системы анализа телеметрических данных. Владимир Чернаткин, куратор проектов больших данных и интернета вещей «Сибур», поделился с участниками конференции опытом создания аналитической модели, с помощью которой удалось сократить число обрывов полипропиленовой пленки при производстве. 

О создании новой платформы банка рассказал Борис Рабинович, директор Центра компетенций развития BI-технологий компании «Сбербанк-Технологии». Платформа была реализована in-Memory. Данные хранятся в ней 3 месяца, затем отправляются в хранилище Hadoop. Кроме этого, в новой платформе реализована фабрика данных. В настоящее время ведутся работы над тем, чтобы все решения в банке принимались на основе их анализа. Для этого Сбербанк активно развивает Data Engineering. В нем создана лаборатория, где проводят эксперименты с данными перед тем, как перейти к внедрению технологий. В настоящее время в системе хранится уже 2,5 Пб данных, в течение 2018 г. их объем возрастет до 10 ПБ. Объем получаемых изменений составляет 15,5 Тб в сутки. Каждую секунду происходит 2000 – 5000 транзакций в секунду. Параллельно реализуется 400 заданий загрузки данных. Объем ежесуточно обновляемой информации в репликах составляет 200 ТБ.

Транспортный комплекс Москвы ежедневно собирает данные о передвижениях около 9,5 млн пассажиров общественного транспорта и 3,6 млн граждан, использующих личный транспорт. На основе огромных массивов данных, получаемых с видеокамер, парковок и пр. планируется создать уникальную персонализированную систему коммуникаций, рассказал Михаил Самойлов, заместитель генерального директора «Инфокомпас». С ее помощью можно информировать пассажиров об оптимальных маршрутах и тарифах в соответствии с их потребностями, предупреждать о необходимых действиях для обеспечения безопасности на транспорте, используя данные о внештатных ситуациях, скоростных режимах и статистку ДТП, обеспечить получение обратной связи и выявление факторов удовлетворенности пассажиров для приоритизации инициатив транспортного комплекса, а также анализировать данные для принятия решений на основе отчетов в реальном времени.

Планируется, что система будет запущена в 2 этапа. На первом будет создан ее фундамент и реализованы базовые сценарии, например, рассылка предложения воздержаться от использования личного транспорта с учетом прогноза дорожной ситуации, информирование водителей о перекрытиях, инцидентах, городских событиях. Второй этап предполагает обогащение данных и появление расширенного функционала, например, актуализация оптимального маршрута общественного транспорта при изменении дорожной ситуации, предложение программ лояльности и оптимальных тарифов, и информирование ГИБДД и пр.

К 2025 г. многие финансовые инструменты перестанут существовать – их заменят роботы, использующие скоринговые модели. Человек зачастую не может избежать предвзятости и ошибок. Скоринговая модель лишена этих недостатков, особенно тогда, когда она работает не с ограниченной выборкой, а с большими данными в реальном времени. Уже созданы системы искусственного интеллекта, способные работать в паре – первая анализирует данные, а вторая на основе больших данных проверяет ее выводы и в случае необходимости корректирует их. А это значит, что скоринговые модели будут развиваться очень быстро, говорит Илья Мунерман, генеральный директор управляющей компании «Мунерман и партнеры».

Проблемам создания направления больших данных в компании, где его еще нет, посвятила свой доклад Варвара Новожилова, руководитель отдела направления продуктов отчетности компании «Аэроклуб». Среди них особенности работы с персональными данными, сложность обогащения данных, большой прирост данных, а также недостаток грамотных аналитиков данных в компании. Однако все эти проблемы решаемы, считает она.

Роль CDO в компании обсуждали участники состоявшейся в заключение конференции дискуссии. По мнению Сергея Спевака, советника президента по вопросам ИТ компании «Снежная Королева», такой специалист необходим. Он должен понимать, как формируются большие данные  в компании и какую информацию из них можно извлечь. Пока же по-настоящему грамотных специалистов в этой области немного. Борис Рабинович уточнил, что в Сбербанке кроме CDO есть должность CDPO (Data Protection Officer) – человека, отвечающего за их защиту, а также CDS (Data Scientist), отвечающего за применение данных. Место CDO в организационной структуре пока обсуждается, но по мнению участников дискуссии такой специалист должен находиться не в ИТ-департамента, а иметь возможность руководить не только техническими, но и бизнес-подразделениями.

Валерий Артемьев уточнил, что в ЦБ создан Центр по управлению данными, который подчиняется Комитету по управлению данными, возглавляемому зампредседателя ЦБ РФ. Основная задача такой структуры – обеспечить возможность взаимодействия бизнеса и ИТ. Сергей Жуков, начальник ОИАО ЦУП авиакомпании «Сибирь» отметил, что множество результатов проектов в области больших данных разбивается об административные барьеры, мешающие их практическому применению и монетизации. Так, в области авиации есть жесткие регламенты, которые  невозможно изменить даже тогда, когда анализ данных показывает, что это надо сделать.

Регионы переходят на оптические диски для долговременного хранения документов
Регионы переходят на оптические диски для долговременного хранения документов Цифровизация

Участники дискуссии так и не смогли прийти к общему мнению, кто же должен нести ответственность, если проект в области больших данных окажется неудачным. Высказывалось мнение о том, что большие данные – это та сфера, в которой отрицательный результат – это тоже результат. Если разработанная модель не сработала, ее надо совершенствовать, а если применять такие технологии, как «Обучение с подкреплением», то это можно автоматизировать. Таким образом, каждый отрицательный результат может стать шагом к созданию совершенной модели.

 


Крупнейшие поставщики BI-решений в России 2017

№ 2016 Название организации Выручка по направлению BI с НДС в 2016 г., ₽тыс. Рост 2016/2015
1 Softline 1 661 471 14,2%
2 GlowByte Consulting 1 450 000 27,1%
3 AT Consulting 1 408 954 4,3%
4 Крок 1 308 708 22,9%
5 Сапран * 590 000 29,9%

смотреть полный рейтиг