Nvidia представила открытую платформу GPU-ускорения RAPIDS для анализа больших данных и машинного обучения
Nvidia анонсировала платформу GPU-ускорения для обработки больших массивов данных и машинного обучения, получившую широкую поддержку у лидеров индустрии. Новая платформа позволяет даже крупным компаниям анализировать огромные массивы данных и делать точные прогнозы для бизнеса.
Открытое ПО RAPIDS обеспечивает аналитикам большой прирост производительности в бизнес-задачах высокой сложности, таких как предсказание мошенничества в операциях с кредитными картами, прогноз запаса товаров на складе, прогнозирование покупательского поведения потребителей. RAPIDS уже получила широкую поддержку – от новичков в области разработки открытого ПО, таких, как Databricks и Anaconda, до технологических лидеров индустрии, таких как Hewlett Packard Enterprise, IBM и Oracle.
Аналитики оценивают ежегодный объем серверного рынок анализа данных и машинного обучения в 20 млрд долларов. Вместе с рынком решений для научных исследований и глубокого обучения совокупный объем рынка высокопроизводительных вычислений оценивается примерно в 36 млрд долларов.
«Анализ данных и машинное обучение – это крупнейшие сегменты рынка высокопроизводительных вычислений, которые до сегодняшнего дня не получали ускорение, – сказал Дженсен Хуанг (Jensen Huang), учредитель и генеральный директор Nvidia. – Крупнейшие мировые компании запускают алгоритмы, созданные с помощью машинного обучения, на многочисленных серверах, чтобы выявить сложные паттерны в сегментах, где они работают, и делать быстрые и точные прогнозы, оказывающие прямой эффект на результаты их деятельности. Взяв за основу CUDA с ее глобальной экосистемой, мы создали платформу GPU-ускорения RAPIDS в тесном сотрудничестве с разработчиками открытого ПО. Она легко интегрируется в самые распространенные библиотеки обработки данных и существующие процессы для ускорения машинного обучения. Мы разгоняем машинное обучение так же, как мы разгоняли глубокое обучение».
RAPIDS включает набор открытых библиотек для анализа, машинного обучения и, совсем скоро, визуализации данных с GPU-ускорением. Эта платформа разрабатывалась инженерами Nvidia более двух лет в тесном сотрудничестве с ключевыми разработчиками открытого ПО.
Специалисты впервые получают необходимые инструменты, чтобы целиком запустить конвейер обработки данных на GPU. Первые тесты RAPIDS с алгоритмом машинного обучения XGBoost для обучения на системе Nvidia DGX-2 показали 50-кратный прирост производительности по сравнению с системами на базе CPU. Это позволяет сократить время обучения с нескольких дней до нескольких часов и с нескольких часов до нескольких минут в зависимости от объема набора данных.
Платформа RAPIDS базируется на популярных открытых проектах, включая Apache Arrow, pandas и scikit-learn, наделяя GPU-ускорением самые популярные инструменты для обработки данных на Python. Чтобы добавить в RAPIDS новые библиотеки и возможности машинного обучения, Nvidia сотрудничает с такими ключевыми игроками рынка открытого ПО, как Anaconda, BlazingDB, Databricks, Quansight и scikit-learn, а также с Уэсом МакКинни (Wes McKinney), главой Ursa Labs и создателем Apache Arrow и pandas, самой быстро растущей библиотеки для обработки данных на Python.
«RAPIDS, платформа обработки данных с GPU-ускорением, - это вычислительная экосистема нового поколения на базе Apache Arrow, – сказал Уэс МакКинни. – Сотрудничество Nvidia с Ursa Labs ускорит процесс инноваций в ключевых библиотеках Arrow и поможет повысить производительность в задачах анализа и конструирования признаков».
Чтобы ускорить распространение платформы, Nvidia интегрирует RAPIDS в Apache Spark – ведущий открытый фреймворк для анализа и обработки данных.
«Мы в Databricks в восторге от того, как RAPIDS ускоряет работу Apache Spark, – сказал Матей Захария (Matei Zaharia), соучредитель и главный технолог Databricks, а также учредитель Apache Spark. – Мы работаем над несколькими проектами по интеграции Spark с нативными ускорителями, включая поддержку Apache Arrow и планирование ресурсов GPU с Project Hydrogen. Мы считаем, что RAPIDS – это отличный способ масштабирования задач обработки данных и ИИ для наших клиентов».