SAS In-Memory Statistics for Hadoop обеспечит возможности высокопроизводительной аналитики
Компания SAS выпустила новый продукт SAS In-Memory Statistics for Hadoop. Анализ больших данных с помощью технологии in-memory, широкий спектр аналитических алгоритмов для исследования и моделирования в распределенной среде Hadoop — вот только некоторые из возможностей, которые получат пользователи новинки. Решение работает по принципу интерактивного программирования и позволяет сразу нескольким пользователям совместно изучать и анализировать данные, создавать и сравнивать модели, а также оперативно работать с большими объемами информации на базе технологии Hadoop, сообщили CNews в SAS.
«Сегодня многие компании прорабатывают бизнес-кейсы использования Hadoop. При этом важно иметь возможность применять самые разные методы анализа, включая углубленную аналитику, на огромных объемах данных, для которых потенциально предполагается использовать Hadoop. Именно для таких задач подходит новый продукт, — рассказали в компании. — Задачи подобного рода, когда требуется глубоко проникнуть в закономерности, существующие в данных, решают специалисты типа Data Scientist. Обычно графические интерфейсы им не нужны, изучить несколько новых верхнеуровневых процедур для них — не проблема, а вот разнообразие методов анализа и быстрый отклик на запрос в SAS In-Memory Statistics for Hadoop они оценят».
Новинка расширяет линейку продуктов SAS, построенных на базе технологии SAS LASR Server и использующих прогрессивный метод in-memory для обработки данных непосредственно в оперативной памяти. Первым из них стало решение SAS Visual Analytics для интерактивной визуализации данных. Применение SAS LASR Server дает возможность удерживать данные в оперативной памяти кластера блейд-серверов и работать с ними в интерактивном режиме, отметили в компании.
Пользователь SAS In-Memory Statistics for Hadoop получает доступ в режиме интерактивного программирования ко всем основным методам статистического анализа и машинного обучения. Среди них — линейная и логистическая регрессии, обобщенные линейные модели, деревья решений и случайный лес, прогнозирование временных рядов, анализ текстовых данных, кластеризация и др. При этом есть возможность выполнять вспомогательные и служебные задачи: готовить данные к анализу, выделять значимые предикторы, сравнивать модели, формировать код применения моделей.
По словам разработчиков, новшество, которое добавляет этот продукт к широкому спектру аналитики SAS — это возможность строить рекомендательные системы, используя большой набор методов их построения. Такие системы востребованы для решения широкого класса бизнес-задач, в том числе целевого маркетинга.
«На основе анализа информации о том, какими продуктами и услугами воспользовался или пользуется каждый клиент, определяются типовые профили потребления продуктов и услуг, на выходе для каждого клиента выдается продукт/услуга, которые являются для него наиболее востребованными. Такой способ эффективнее классических методов Cross-Sell и хорошо подходит для реализации концепции Next Best Offer в условиях широкого спектра предлагаемых продуктов и услуг, — считают в SAS. — Этот метод особенно понравится тем, у кого нет возможности построить отдельные модели Up-Sell для каждого продукта».
Технология Hadoop повышает надежность системы за счет использования кластера серверов, что позволяет обеспечивать сохранность данных при одновременном снижении стоимости аппаратного обеспечения, высокой степени масштабируемости, отсутствии жестких требований к формату данных и их предобработке, указали в компании.
Продукт SAS In-Memory Statistics for Hadoop был анонсирован компанией весной этого года, а поступил в продажу в конце августа уже с расширенной функциональностью.