Названы интересные примеры использования больших данных

Объемы данных продолжают расти, компании создают хранилища данных и внедряют аналитические инструменты. Однако, как показывает опыт, их использует лишь 10% сотрудников. А руководители зачастую продолжают принимать управленческие решения так же, как делали это 20 лет назад. Как сделать аналитические инструменты популярными, обсуждали участники организованной CNews Conferences конференции «Большие данные и бизнес-аналитика 2023».

Что делать с большими данными

Объемы данных растут примерно на 20% в год, как и число источников, откуда они поступают. К анализу данных привлекается все больше пользователей, не имеющих специальной технической подготовки, начал свое выступление Владимир Озеров, генеральный директор Querify Labs.

Классическая архитектура хранения данных включается в себя одно или несколько хранилищ и озеро данных. Однако, она имеет целый ряд недостатков, таких как сложности при сквозном анализе данных, их многократное дублирование вкупе с вычислениями, что приводит к неэффективному использованию вычислительных ресурсов, а также низкая отказоустойчивость.

Преимущества CedrusData перед Trino

Источник: Querify Labs, 2023

По мнению Владимира Озерова, выход из сложившейся ситуации в том, чтобы отделить данные от вычислений, перенести основную нагрузку в озеро данных и предоставить возможность интеграции данных между разными системами, в том числе путем отправки запросов к источникам напрямую. Сделать это можно при помощи системы CedrusData с SQL-интерфейсом на основе Open Source проекта Trino. В качестве примера Владимир Озеров описал несколько сценариев использования CedrusData: интерактивная аналитика поверх озер данных, сквозная аналитика всех данных, децентрализованная ad-hoc аналитика.

Александр Бочкин, основатель «Инфомаксимум», предложил использовать для обработки больших данных систему активной бизнес⁠-⁠аналитики Proceset. С ее помощью можно собрать и загрузить данные, проанализировать их. В случае выявления отклонений от KPI система мгновенно сообщит об этом.

Панель управления Proceset

Источник: Инфомаксимум, 2023

Данные в систему поступают как непосредственно из информационных систем, так и с агентов мониторинга, установленных на компьютерах пользователей, терминалах и виртуальных рабочих местах. Доступ к Proceset осуществляется через Web-браузер. Система способна обрабатывать более 17 млрд строк в логе и более 4,6 Тб на диске. Дашборды на основании 100 млн строк формируются за 1,5 сек, а карта процесса рисуется за 5 сек.

«На внедрение аналитических инструментов тратится много времени и сил, но пользуются ими немногие», — отметил Юрий Ефаров, CEO Easy Report. По его мнению, решить эту проблему можно с помощью мессенджера, в котором можно написать запрос в BI-систему и быстро получить ответ. Научиться пользоваться ботом Easy Report можно всего за полчаса. Он встраивается в любой мессенджер.

Примеры работы Easy Report

Источник: Easy Report, 2023

Например, в международном холдинге MyAgro бот Easy Report встроен в мессенджер WhatsApp, и пользователи в Центральной Африке могут быстро сформировать любые аналитические отчеты. В страховых компаниях State Bank Of India Life Insurance, MetLife, IndiaFirst Life бот также стал инструментом отчетности для внутренних и внешних сотрудников. В группе компаний SNS бот Easy Report предоставляет детальную аналитику по выполнению плана продаж для менеджеров коммерческого отдела и используется в проекте геймификации плана продаж для отображения и отправки данных в общем рейтинге сотрудников в течение дня.

Большие данные в финансовом секторе

Большие данные давно и успешно используются в финансовом секторе. Каждый год появляется все больше и больше практических кейсов.

«У нашего банка множество непрофильных активов, и ими надо управлять, — рассказала Наталья Дорошенкова, директор департамента интегрированного мониторинга рисков банка «Траст». — Многие из этих активов довольно проблемные, и нам необходимо вовремя получать информацию о поданных к ним исках». Для этого банк использует решение Casebook API. Оно помогает автоматически находить значимые для банка, его дочерних предприятий и контрагентов иски и судебные решения, а значит подготовиться к судебному заседанию или вовремя принять меры, которые помогут избежать рисков.

Casebook API может использоваться для управления рисками и проверки данных о контрагентах не только в банках. В открытом доступе имеется достаточно информации для того, чтобы оценить их надежность. Сергей Сорокин, руководитель проектов Casebook API, PravoTech, рассказал, как проверить контрагента на основании арбитражной активности.

Большие данные о компании

Источник: PravoTech, 2023

В системе, которую предлагает его компания, данные о поданных к компании арбитражных исках появляются через два часа после регистрации дела в суде. График изменения исковой нагрузки по арбитражным делам позволит оценить состояние компании в динамике и спрогнозировать банкротство задолго до подачи заявления.

«Сейчас технологии больших данных находятся на распутье: не очень понятно, как они будут развиваться дальше», — говорит Сергей Маслов, начальник управления корпоративными данными Ингосстрах. Традиционный подход к обработке данных предполагает создание единого центра компетенций и экспертизы, работающего по принципу «одного окна», внедрение единой архитектуры данных и подходов к обработке, что обеспечивает высокую скорость обработки и поставки данных.

Однако, у такого подхода есть и свои минусы. DataTeam может стать узким местом, возникают конфликты за ее ресурс между доменными командами, которые воспринимают ресурсы как бесплатные. Кроме того, с ростом объемов данных растет риск появления «болота данных».

В Ингосстрахе сформировали новые принципы работы с данными и решили использовать DataMesh. К настоящему времени выделены две команды (ML и финансовый блок), работающие на собственных мощностях. Они публикуют свои результаты в общем пространстве. Отработан механизм выделения и биллинга ресурсов новым командам. Однако выделение ресурсов — пока немасштабируемый процесс. Возникают проблемы скорости обмена данными в децентрализованной среде. В Ингосстрахе принципиально не хотят создавать централизованное «мега-озеро», и пока находятся в поиске другого решения, а также подходящего инструмента для каталога данных и централизованного управления доступом к данным.

Эффективность искусственного интеллекта зависит от того, как организовано корпоративное хранение данных, есть ли у сотрудников и руководства опыт использования ИИ, уверен Сергей Алешкин, руководитель направления больших данных СОГАЗ. Для создания приложений на основе ИИ используются разные модели, но очень важно, чтобы в этом процессе участвовали data-инженеры, исследователи, аналитики.

Страхование — один из самых перспективных для использования ИИ сегментов. Это может быть выделение из всех клиентов наиболее убыточного сегмента или потенциальных мошенников, разбиение всех клиентов на кластеры для выявления типичных представителей основных групп, кросс-продажи, оценка прогнозируемого убытка по полису на основе анализа имеющегося портфеля и т.д.

Сергей Алешкин перечислил принципы успешного внедрения ИИ в компании. Внедрение ИИ надо начинать с направлений, по которым оно может принести максимально быстрый эффект. Надо строить быстрые прототипы моделей и не бояться ошибиться. В начале внедрения ИИ в компании использовать легко интерпретируемые модели и постоянно отслеживать их качественные метрики.

Максим Елисеев, руководитель группы анализа цифровых финансовых продуктов департамента развития финансовых технологий «Абсолют банка», рассказал об опыте использования больших данных при выдаче банковских гарантий. Раньше клиенты вручную заполняли заявки, а автоматизирован был только анализ открытых данных о них. Сейчас заявки заполняются онлайн и, в зависимости от требуемой суммы, могут быть предодобрены автоматически. Кроме того, появилась возможность фиксировать потенциальные контракты клиентов и проактивно предлагать услуги предоставления банковской гарантии.

В планах на будущее внедрение полноценного кредитного рейтинга, увеличение суммы для автоматического принятия решения, автоматическая рассылка предложений по итогам госзакупок, переход к динамической ставке кредита, расширение применения на продукт «Контрактное финансирование»

Большие данные в телекоме

В 2018 г. Ростелеком начал создание централизованного хранилища данных на продуктах с открытым исходным кодом и дополненных собственными разработками компании. В 2021 г. Data Office Ростелекома вывел на рынок линейку продуктов платформы управления данными для решения задач аналитики, построения озер и хранилищ данных, все компоненты которой находятся в реестре отечественного ПО.

«Сейчас перед компаниями стоит вопрос, что использовать: Open Source или продукты отечественных разработчиков, — говорит Станислав Лазуков, директор по продажам платформ РТК ИТ. — Мы на собственном опыте убедились в том, что использовать и управлять OS-продуктами сложно и дорого».

Open Source: экономия или боль?

Источник: Ростелеком, 2023

Он предложил воспользоваться решениями, имеющимися на платформе Ростелеком. Главными преимуществами такого выбора Станислав Лазуков считает низкое ТСО, наличие различных вариантом использования платформы, ее гибкая кастомизация, масштабируемость, удобный интерфейс управления, возможность выполнения проектов «под ключ». Кроме того, Ростелеком предлагает воспользоваться услугами своей широкой партнерской сети и технической поддержки 24/7.

Большие данные в госсекторе

Максим Николаев, руководитель управления по работе с данными Аналитического центра при Правительстве Российской Федерации, рассказал, что его организация работает с данными много лет. Однако до самого последнего времени в Аналитическом центре не было централизованного хранилища данных. Каждое подразделение самостоятельно запрашивало данные для формирования отчетов и часто не знало, что подобные отчеты уже подготовлены другими.

Чтобы решить эту проблему, было решено создать каталог данных. Теперь после получения задания аналитик сначала заходит в каталог, чтобы понять, не поступал ли подобный запрос в другое подразделение, и лишь потом начинает работать самостоятельно. В 2023 г. каталог данных должен трансформироваться в базу знаний и стать полноценным информационным ресурсом для аналитиков.

Ядром сервисов Агентства инноваций Москвы, Департамента предпринимательства и инновационного развития города Москвы и многих других столичных ведомств является цифровой профиль предпринимателя. Как рассказал Евгений Евграфьев, руководитель центра развития информационных систем Агентства инноваций Москвы, благодаря профилю во время пандемии удалось быстро создать электронные сервисы и разработать меры поддержки предпринимателей.

Состав цифрового профиля предпринимателя

Основная задача профиля — не просто собирать данные, но и анализировать их для того, чтобы понять, какие предприниматели и почему успешны или неуспешны в Москве. Это помогает оценить, какими компетенциями обладает город и как их можно использовать. На базе цифрового профиля уже предоставляется около 100 городских сервисов.

Сергей Астахов, замруководителя департамента по исследовательским центрам в сфере искусственного интеллекта Аналитического центра при Правительстве РФ, рассказал о государственной поддержке исследовательских центров в сфере искусственного интеллекта.

На сегодняшний день сформировано шесть таких центров на базе Сколковского института науки и технологий, МФТИ, Высшей школы экономики, ИТМО, ИСП РАН и Университета Иннополис. Они занимаются научно-исследовательской и образовательной деятельностью, разработкой совместно с индустриальными партнерами программных и аппаратно-программных комплексов с высоким уровнем технологической готовности, а также коммерциализацией результатов исследований и разработок. В 2022 г. эти центры получили грантовую поддержку на сумму более ₽1,5 млрд. До 2024 г. на эти цели с учетом внебюджетного финансирования будет выделено еще ₽7 млрд.

Большие данные в промышленности

«Сегодня для того, чтобы не просто выжить, но и процветать, надо уметь строить прогнозы на будущее», — говорит Евгения Коробкина, руководитель отдела аналитики Lab Industries. Бизнес до сих пор принимает решения так же, как 20 лет назад. Люди чрезмерно увлекаются сбором данных, но часто не умеют с ними работать.

Сейчас на волне импортозамещения есть возможность привлечь сотрудников к внедрению, а значит и к использованию инноваций. Очень важно развивать анализ недостающих данных. Делать выводы на основании прошлого опыта сегодня нельзя. В Lab Industries внедрили модуль геймификации для сотрудников отдела продаж. «Наша игра смоделирована с учетом потребностей нашего бизнеса, а также для формирования позитивных эмоций сотрудников, повышая их мотивацию и вовлеченность в работу. Через игру мы учимся работать с данными и находить способы делать это интересно», — говорит Евгения Коробкина.

Артем Можчиль, координатор продукта ЦИО, Газпром НТЦ, рассказал о том, как компании удалось повысить эффективность разных подразделений. Были созданы дашборды, на которых отображались показатели каждой дочерней компании. Эти показатели отрейтингованы, по каждому из них указан KPI. Кроме того, существует возможность посмотреть, что делают лидеры для того, чтобы достичь высоких показателей.

«В систему загружаются данные от разных компаний. Они нормализуются. Благодаря этому можно сравнивать самые разные подразделения», — рассказывает Александр Тютюнник, директор по развитию бизнеса Luxms. Он рассказал, что самым сложным при реализации проекта было собрать данные — все компании работают в разных системах. Зато теперь у всех есть стимул контролировать их правильность.

Аналогичное решение реализовано и для подрядчиков. Оно очень востребовано как руководством, так и рядовыми сотрудниками.

Большие данные в ритейле и строительстве

По словам Вадима Уланова, директора по данным «ВсеИнструменты.ру», драйвером развития бизнеса является постоянное динамичное изменение внешних условий. Важно сконцентрироваться на главном, выбирать максимально простые решения и использовать их до тех пор, пока они себя не исчерпают.

Для достижения необходимой гибкости в принятии решений необходимо прислушиваться к руководителям среднего и нижнего звена, стандартизировать бизнес-процессы и использовать централизованные инструменты анализа и контроля. В компании должны быть компетенции для использования этих инструментов и доверие к ним со стороны сотрудников.

Владислав Денисов, руководитель отдела аналитики Sports.ru, рассказал, как его компания использует большие данные для того, чтобы как понимать своих пользователей и создавать новые сервисы. Основные источники информации: спортивная статистика, новости и статьи по спортивной тематике, данные об активности пользователей (комментарии, рейтингование, подписки), картинки и другие медиафайлы, а также данные из разных платформ (реклама, CRM, технический мониторинг и т.д.) для обогащения отчетов.

Аналитикой в Sports.ru занимаются четыре человека. Владислав Денисов привел примеры отчетов, которые создаются на основе больших данных: «Примеры вопросов, на которые умеем отвечать: Какая дочитываемость у контента? Сколько тех, кто заходит 5 дней подряд и чаще всего читает про Спартак? Сколько денег нам приносит пользователь из ВК? Какое пересечение у пользователей между вебом и приложениями? Что мешает пользователям в процессе регистрации?». Также аналитики создают сервисы для пользователей, часть задач приходит от бизнеса, но значимая доля сервисов рождается из желания попробовать новый инструмент.

Кирилл Прунтов, корпоративный архитектор Ассоциации больших данных, рассказал о сервисе бенчмарка цен для строительной отрасли. Шесть крупных застройщиков передают данные о ценах на стройматериалы с указанием региона, наличия или отсутствия доставки и т.д. На основе этих данных рассчитывается бенчмарк.

Доступны месячный и недельный бенчмарки, а также история цен в сравнении с ценой закупщика. Застройщики видят только свои цены и рыночный бенчмарк. Оператором системы является Ассоциация больших данных – независимая сторона, не осуществляющая деятельность на рынке строительства.