В Россию пришли большие данные. Первые проекты
До отечественной ИТ-индустрии докатился мировой бум больших данных. Об этих технологиях говорят все, отдельные компании уже их внедряют, но большинство предприятий пока только присматривается и ждет результатов первых проектов. Технологии, находящиеся на пике ожиданий цикла Gartner, и манят большими возможностями, и настораживают новизной. Теме больших данных была посвящена прошедшая 4 июня 2014 г. конференции «Big Data – технология будущего», организованная CNews Conferences и CNews Analytics. Эксперты ИТ-рынка обсудили, что можно считать большими данными и какие перспективы открываются бизнесу и государству с началом применения этих технологий.
Новые технологии анализа данных произвели своего рода революцию в подходах к ранжированию результатов поиска. Если более 20 лет назад главным критерием было наличие ключевых слов на странице, потом – число ссылок на сайт, то сейчас основное значение имеет оценка ресурса пользователями, так называемое социальное ранжирование: число «лайков» и время, проведенное на странице. Интересно и то, что анализ данных позволяет «определять карму пользователей», то есть отличать роботов от людей. Это довольно сложно, так как, по словам эксперта, роботы стараются маскироваться под людей, а люди бывают похожи на роботов. Приходится анализировать предыдущее поведение пользователя, поведение его друзей, поведение людей из этого региона – реализовать все возможности, чтобы отделить одних от других.
Отвечая на вопрос об используемых технологиях, Александр Горный рассказал, что для анализа больших данных в компании применяются технологии собственной разработки. При этом при интернет-поиске и таргетировании рекламы задействуется Hadoop. Спикер считает, что у успешного проекта больших данных должна быть измеримая цель. Пустое вычисление какого-либо параметра эффекта не принесет.
Инфраструктура анализа больших данных интернет-магазина
Источник: Wikimart, 2014
В интернет-магазине Wikimart большие данные используются в первую очередь для формирования рекомендаций пользователям. Александр Аникин сравнивает этот инструмент с рубильником: включаешь – выручка растет, выключаешь – падает. По его мнению, Hadoop дарит хорошую возможность небольшим компаниям, не имеющим больших ИТ-бюджетов, повысит эффективность бизнеса. Однако некоммерческие версии Hadoop имеют ряд недостатков и, как следствие, требуют участия дорогостоящего квалифицированного персонала.
В соответствии с мировой тенденцией в компании Wikimart подразделение аналитики подчиняется напрямую главе компании. Александр Аникин посетовал, что у директоров всегда есть желание «куда-нибудь засунуть» аналитику, однако в Wikimart помогло мнение члена совета директоров, возглавляющего аналитическое подразделение в LinkedIn: он убедил, что эти инструменты необходимы. С этим подходом согласен Алексей Благирев, директор по развитию систем аналитики и отчетности банка «Открытие». Он убежден, что начинать проекты по большим данным целесообразно с выделения аналитики в отдельный департамент.
Другой интернет-проект – доска объявлений Avito – использует частично опенсорсные решения для анализа больших данных. Одной из самых актуальных задач для Avito является очистка содержания сайта от спама. Конвейер очистки контента позволяет блокировать порядка 35% сообщений в день. Модель проводит скоринг объявлений и готовит выборку к рассмотрению модератором.
Схема конвейера очистки содержания интернет-доски объявлений
Источник: Avito, 2014
Разработка аналитической витрины для руководства, отражающей рентабельность ресурса, – цель проекта больших данных в интернет-кинотеатре «ВебТВ». Как рассказала ведущий аналитик компании Елена Рубец, аналитика в режиме реального времени потребовалась для принятия оперативных решений о неэффективности рекламных площадей. Проект реализуется стандартными инструментами Google Analytics. Этот факт вызвал спор в аудитории по поводу того, можно ли отнести этот проект к большим данным.
Большая аналитика
Наличие доступных рынку историй успеха аналитики считают одним из важных факторов, способствующих распространению новых технологий. Уникальный проектный опыт был представлен на конференции Алексеем Бедновым, архитектором Big Data-решений AT Consulting, и Виктором Булгаковым, руководителем департамента управленческой информации компании «Вымпелком». Эксперты осветили вопросы использования технологий больших данных в телеком-операторе для решения различных задач, как например: определение внутреннего оттока абонентов, фильтрация SMS-спама, повышение качества обслуживания клиентов, построение карт перемещения абонентов.
Алексей Беднов глубоко убежден в том, что для пилотных проектов, проверки гипотез следует пользоваться опенсорсными решениями, которые позволяют существенно расширить практику больших данных в компании, найти стоящие проекты, не инвестируя значительных средств. «Покупая вендорское решение, вы становитесь зависимы от разработчиков вендора – патчи, доработки, новые технологии приходят с задержкой. Стоимость проекта на MPP-платформе и Hadoop отличается в разы в пользу Hadoop», – рассказал эксперт.
По словам Виктора Булгакова, раньше компания «Вымпелком» не могла начать подобные проекты, так как при реализации аналогичного решения на реляционной базах данных срок окупаемости достигал 6-7 лет, а эффекта могло не оказаться. Сейчас задачи, от которых отказывались несколько лет назад, начали решать на Hadoop. На сентябрь 2013 г. было запущено 44 пилота, и их число постоянно растет, что Виктор Булгаков считает хорошим признаком, подтверждающим востребованность аналитики со стороны бизнес-пользователей. Здесь эксперт считает важным обеспечивать быстрый результат, который подогревает интерес бизнеса к проектам больших данных.
ИТ-ландшафт сотового оператора для анализа больших данных
Источник: «Вымпелком», 2013
Живое внимание аудитории привлек кейс, представленный Дмитрием Букановым, директором по ИТ компании «Коттон Вэй». Он рассказал, как индустриальная прачечная, предоставляющая услуги по аренде и профессиональной обработке текстильных изделий, оптимизирует свою деятельность при помощи анализа данных RFID-меток и отзывов в социальных сетях. Построенная система для анализа данных из транзакционных систем, информации о заказчиках и отзывов в интернет от конечных потребителей стала для компании средством познания своей деятельности и помогла лучше понять потребности заказчика. На основе полученных знаний специалисты компании разработали новые сервисы, научились управлять дефицитом и рассчитывать риски новых проектов.
«Если в поезде, в котором используют наш текстиль, вы заметили брак и написали об этом в Facebook, то еще до окончания путешествия вам заменят комплект и извинятся», – утверждает Дмитрий Буканов. Классическая OLAP-аналитика в этой ситуации не помогала понять причины произошедшего и устранять проблемы, сопоставлять данные, потому что они слишком разрозненные – причины событий нельзя установить. «Большие данные позволяют решать задачи, на которые OLAP не способен», – резюмировал эксперт.
Многие участники конференции признали, что сталкивались с проблемами передачи терабайтов данных. По оценкам экспертов, трафик облачных дата-центров вырастет в 6 раз с 2011 по 2016 гг., достигнув приблизительно 5 ЗБ. В условиях, когда развитие оптоволоконных и кабельных сетей обходится очень дорого, спектральное уплотнение существующих линий связи при помощи специализированного оборудования может стать хорошим решением, считает Долгушин Павел, начальник технического отдела «Зетталайн».
Больше – лучше?
По мнению Алексея Благирева, получать ценные знания из больших данных трудно и затратно. Эксперту больше импонирует концепция «умных данных» (Smart data), в соответствии с которой собираются лишь факты, необходимые для решения конкретных бизнес-задач. Алексей рассказал о планах создать сообщество бизнес-аналитиков совместно с HP. Проекты больших данных позволили снизить риск хищений в банке «Открытие» и предоставить бизнес-пользователям доступ к оперативной отчетности для быстрого принятия решений.
Иван Гуз, руководитель направления аналитики Avito, считает, что есть две крайности: загружать в хранилище все данные и потом думать, что с ними делать, или сохранять лишь те данные, которые кажутся полезными. Эксперт рекомендует использовать для анализа немного больше данных, чем может понадобиться.
Прошедшая конференция показала, что российский рынок больших данных находится на начальной стадии формирования. Участники рынка еще не определились, что считать большими данными. Идут первые пилотные проекты, до массового применения технологий дело еще не дошло. Однако интерес к этой технологии колоссален, и первые истории успеха подогревают этот ажиотаж. Аналитики ожидают, что 2014 год станет годом массовых внедрений больших данных. Как это обычно бывает, эта технологическая волна должна докатиться до России в ближайшие несколько лет.
Александра Кирьянова