«Неофлекс» разработал новую дата-платформу для Mediascope
«Неофлекс», разработчик ИТ-платформ для цифровой трансформации бизнеса, объявил о реализации проекта по созданию дата-платформы для исследовательской компании Mediascope. В основу платформы легли решения «Неофлекса» для работы с большими данными на базе технологий семейства Hadoop. Проект запущен в промышленную эксплуатацию.
Mediascope Data Platform позволяет собирать и обрабатывать в унифицированном виде большие массивы разнородных данных о контакте человека с медиа и рекламой, его потребительском поведении. Благодаря этому платформа становится новой технологической основой для кросс-медиа аналитики в компании. Кроме собственных данных Mediascope, в платформу могут загружаться и обрабатываться данные партнеров: интернет-площадок, телеком-операторов, сторонние данные о покупках и потребительском поведении человека.
«Сырые» данные о потреблении медиаконтента попадают в платформу в потоковом режиме через менеджера очередей Kafka и загружаются в первичный слой на HDFS при помощи Apache NiFi. Далее происходит формирование аналитического слоя, где данные консолидируются, очищаются и производятся вычисления. Это осуществляется при помощи Apache Spark под управлением Apache Airflow. Доступ к уже готовой аналитике организован с использованием системы управления базами данных Apache Hive, которая позволяет выполнять запросы, агрегировать и анализировать данные, хранящиеся в Hadoop, используя традиционный SQL-интерфейс.
«Важным фактором успеха проекта стало использование нашего акселератора разработки Datagram, который позволяет проектировать потоки данных в визуальном редакторе и генерировать исполняемый Scala – код автоматически. Это значительно ускорило и упростило процесс разработки, а также дало возможность привлекать ETL и SQL-разработчиков для проектирования потоков обработки данных c использованием библиотеки Apache Spark», – сказал Иван Окопный, руководитель направления Big Data Solutions, «Неофлекс».
«Нам удалось найти баланс подходов классического marketing research и data science, чтобы одновременно оставаться надежным поставщиком аналитики и отвечать запросам больших данных. Новая платформа позволит обеспечивать обработку данных об аудитории всех ведущих игроков медиа-рекламного рынка – телеканалов, интернет-площадок, радиостанций, издательских домов. Этот объем данных измеряется десятками терабайт. С помощью платформы Mediascope сможет предоставить клиентам доступ к данным на глубоком уровне с высокой степенью оперативности и быстрее запускать новые аналитические продукты», – отметил Василий Кузьмин, директор по работе с данными Mediascope.