Thomson Reuters: В финансовой сфере большие данные созрели еще 30 лет назад
Подобно интернет-компаниям, которые одними из первых начали оперировать большими данными, компания Thomson Reuters приступила к созданию своей системы для хранения массивов финансовой информации еще в 80-х годах – необходимость в этом была продиктована требованиями рынка. О специфике больших данных в финансовой сфере рассказал технический директор Thomson Reuters в России Андрей Маслов.
CNews: Появление технологий Big Data на финансовых и биржевых рынках вызвало революцию или вписалось в естественное развитие сектора?
Андрей Маслов: В финансовой сфере, как и везде, рынок сам определяет развитие технологий. На протяжении многих лет финансовые рынки наращивали огромный объем данных, и, как следствие, возникла необходимость их анализировать.
Еще в 80-х годах наша компания спроектировала сеть, которая позволила накапливать и распределять большие объемы финансовой информации по всему миру. Мы долго работали над систематизацией и структурированием данных, предлагали собственные форматы и протоколы. Хотя сам термин Big Data родился позже, в 2007–2008 годах, для нас Big Data не стала проблемой, так как мы пришли к осознанию задач, связанных с управлением большими данными в результате органического развития нашей системы, что, в свою очередь, стало ответом на вызовы рынка.
Реалии наших дней заключаются в том, что все данные надо получать быстро, а для финансовой сферы это особенно важно, так как промедление может обернуться многомиллионными потерями. В то же время, очень важно не только быстро получить данные, но и быстро их обработать и принять решение. Человеческим глазом, человеческими руками сделать все это быстро невозможно. Нужны специальные алгоритмы, которые смогли быстро и качественно анализировать такие объемы данных.
CNews: Расскажите о своей Big Data – что подтолкнуло вас к технологиям больших данных?
Андрей Маслов: Для начала скажу несколько слов о специфике нашей работы. Thomson Reuters – это не только новостное агентство, но и поставщик аналитической информации, ИТ-решений и баз данных для принятия решений в сфере финансов и управления рисками. В коммерческой сети Thomson Reuters сотрудники банков и финансовых корпораций могут производить сделки в режиме онлайн, эта сеть доступна для огромного количества пользователей по всему миру.
Хотелось бы обратить ваше внимание на объем данных, обрабатываемый в нашей системе. В ней хранятся порядка 20 миллионов инструментов. В качестве примера можно привести такой быстроменяющийся инструмент, как котировка евро к доллару, которая может меняться несколько тысяч раз в минуту. Если умножить несколько тысяч апдейтов в минуту на 20 миллионов инструментов, то получим объем данных, которые циркулируют в нашей системе.
Объем сделок в нашей системе – один триллион долларов в неделю. Только представьте себе, эта сумма сопоставима с годовым бюджетом России, который составляет порядка двух триллионов долларов. А в тех случаях, когда открывается особо высокотехнологичная биржа, число обновлений растет экспоненциально. И даже такая нагрузка не прерывает доставку информации нашим пользователям в пиковые часы.
Мы понимаем термин Big Data прежде всего как проблему обработки больших данных: что нужно делать, чтобы данные были отформатированы, быстро доставлены и качественно проанализированы. Поэтому Big Data в понимании Thomson Reuters – это объем именно строго структурированных данных, вся наша система создана, исходя из того, что данные структурированы, к примеру, по типам: новости, котировки валют, ценных бумаг и т.д.
CNews: Как вы работаете с этим шквалом информации?
Андрей Маслов: Мы постоянно развиваемся, чтобы удовлетворять требованиям рынка и предлагать нашим заказчикам максимальную глубину данных рынка и высочайшую скорость доставки. Наша первая система, способная обрабатывать большие массивы информации, была построена еще в 80-х годах, когда о Big Data еще никто не знал. Эта система постоянно эволюционировала и в 2000-х годах мы приступили к разработке системы Elektron, которая отвечает всех новым стандартам рынка. Цель этого проекта – ускорить обработку и процесс доставки данных. Новая система позволит оперировать большими данными в разы быстрее. Elektron представлен во многих странах, в ближайшем будущем система будет запущена и в России.
CNews: Вы разрабатываете систему сами или пользуетесь решениями вендоров?
Андрей Маслов: Как я уже упомянул, система была разработана нашими силами, и мы же работаем над ее развитием. Когда нам потребовалось построить свою сеть, свое хранилище, подобных решений на рынке просто не было. Нам приходилось все строить с нуля. Сейчас наша инфраструктура рассчитана на более высокую производительность, чем существующие решения вендоров, являющихся системами широкого назначения. У нас очень специфическое решение для особых задач, и поэтому оно уникально.
Андрей Маслов: Мы сами занимаемся разработкой, потому что нашими клиентами являются профессионалы финансового рынка, и они предъявляют специальные требования к таким решениям
Мы сами занимаемся разработкой, потому что нашими клиентами являются профессионалы финансового рынка, и они предъявляют специальные требования к таким решениям. Наши клиенты готовы платить хорошие деньги за инструменты, помогающие им работать, но и требования у них достаточно высокие: им важна точность информации и своевременность ее доставки. Под точностью я подразумеваю, например, недопустимость попадания в систему ошибочной информации, оперируя которой наши пользователи могут принять решение о продаже. То есть данные должны быть точными и актуальными. Другой важный показатель – это доступность с минимальной задержкой. Как только открылась, скажем, Нью-Йоркская биржа, у пользователя в любом городе в любой стране котировки из Америки должны появиться максимально быстро. Решения широкого назначения, не имеющие узкопрофильной финансовой специфики, просто не справятся с этим. Вот почему мы разрабатываем собственные решения.
На тот момент, когда мы разрабатывали нашу систему, опираясь именно на эти два параметра – точность и своевременность, аналогов ей не было.CNews: Как вы находите специалистов для работы с Big Data?
Андрей Маслов: Квалифицированный ИТ-персонал очень тяжело найти на нашем рынке, а с фокусом на Big Data фактически невозможно. У нас проблемы с кадрами решаются следующим образом: наши зарубежные коллеги делятся с нами своими секретами и наработанной практикой, а мы внедряем ее уже здесь, в России. Помимо этого ищем молодых перспективных людей, которые через какой-то период времени становятся специалистами. Кроме того, мы предлагаем практику для перспективных студентов, которая позволяет молодым специалистам расти и развиваться в выбранной области. Очень часто они остаются у нас работать. То есть, даже если на рынках нет специалистов необходимого профиля, мы растим их внутри компании.
CNews: Внутри вашей компании есть идеологи Big Data? Кто двигает эти проекты?
Андрей Маслов: Изначально заказчик проектов Big Data в нашей компании – это всегда рынок. Есть специальный департамент, который изучает потребности финансового рынка в Big Data, прогнозирует тенденции его развития, более того для обеспечения непредвзятости таких исследований мы также привлекаем третьи компании. Результаты выливаются в стратегию развития Big Data. Эта работа проводится регулярно, что дает возможность скорректировать стратегию, если возникнет необходимость. Разработка инфраструктуры целиком происходит внутри компании. Таким образом, именно рынок направляет наши решения.
CNews: Насколько ощутим эффект от использования Big Data в финансовой сфере?
Андрей Маслов: Для нас самым важным фактором является то, что заказчики получают уровень сервиса, который им необходим. Мы даем пользователям нужный им инструмент, востребованный в данный момент. Однако надо отметить, что расходы на разработку, внедрение и поддержку достаточно высоки. Поэтому надо внимательно планировать расходы и проекты в целом. Можно ли подсчитать эффект от совершенно нового продукта? Мы делаем вложения и тратимся на технические средства, специалистов, проджект-менеджмент. Эти инвестиции позволяют нам достичь совершенно иного, более высокого уровня сервиса.
CNews: Насколько востребованы решения для алгоритмической торговли – так называемые «роботы»? Многие ли пользователи готовы на них полагаться?
Андрей Маслов: Необходимость использования алгоритмов для торговли назрела, когда финансовые пользователи начали работать с большим количеством данных. Человеку уже было не под силу проанализировать огромные объемы информации и принять правильное решение.
Мы предлагаем все необходимые для создания алгоритмов торговли средства – библиотеки данных и всевозможные интерфейсы пользователей. У нас есть большое количество партнеров, которые предлагают законченные решения для пользователей. Мы также предлагаем открытый код, то есть наши партнеры и пользователи могут использовать открытые библиотеки, чтобы написать свои приложения.
Необходимость в развитии такой экосистемы связана с тем фактом, что неспециалист в программировании вряд ли сможет создать надежное решение. Мы видели много примеров, когда робот начинал сам по себе торговать и приносил только убытки. В основном созданием роботов занимаются брокеры – отдельный класс наших пользователей, которым, естественно, нужны подобные очень быстрые решения.
CNews: Приведите конкретные примеры, что могут Big Data в финансовой сфере?
Андрей Маслов: Недавно наша платформа начала анализировать сообщения в Twitter. Система оценивает количество положительных и отрицательных твитов о любой компании, акции которой котируются на бирже, и выделяет события, воздействующие на рынок и компанию. Практика отслеживания новостей и настроений в социальных сетях, позволяющая оценивать и прогнозировать воздействие горячих новостей на биржевые котировки и волатильность, приобретала все большую популярность в течение последних пяти лет. Однако исторически сложилось так, что по этим каналам поступают слишком перегруженные деталями данные, которые с трудом воспринимаются трейдерами.
Сейчас наша система позволяет получить скользящий средний индекс реакции на новости о более чем 30 000 зарегистрированных на бирже компаниях. Эти данные накладываются на стоимость акций компании в наглядной форме. Такой визуальный формат дает представление о том, как развивается восприятие с течением времени и как оно воздействует на биржевые котировки.