Разработчики: | Apache Software Foundation (ASF) |
Дата последнего релиза: | 2020/05/14 |
Технологии: | Средства разработки приложений |
Содержание |
Apache Spark - фреймворк для создания проектов распределённой обработки неструктурированных и слабо структурированных данных, входит в экосистему проектов Hadoop[1].
2020: Выход Apache Spark 3.0
14 мая 2020 года компания NVIDIA объявила о сотрудничестве с сообществом разработчиков ПО с открытым кодом, чтобы сообщить GPU-ускорение движку анализа и обработки больших массивов данных Apache Spark 3.0.
Со слов разработчика, с выходом Spark 3.0 специалисты по работы с данными и машинному обучению смогут применить GPU-ускорение к ETL-обработке (выборка, преобразование и загрузка), часто выполняемой с помощью операций базы данных SQL.
Как отметили в NVIDIA, обучение ИИ-модели можно проводить на том же кластере Spark, не перенося процессы на отдельную инфраструктуру. Это позволяет проводить высокоскоростной анализ данных на всех этапах конвейера анализа данных, ускоряя десятки и тысячи терабайт данных - от озера данных до обучения моделей. Более того, нет необходимости изменять существующий код, используемый для приложений Spark, работающих в локальной среде и облаке.
«Анализ данных – это самая большая вычислительная задача, стоящая перед компаниями и исследователями. Нативное GPU-ускорение для всего конвейера Spark 3.0 — от ETL до обучения и инференса — обеспечивает производительность и масштаб, необходимые для объединения потенциала больших данных и силы ИИ», отметил Манувир Дас (Manuvir Das), руководитель Enterprise Computing в NVIDIA |
Являясь стратегическим партнером NVIDIA в области ИИ, Adobe одной из первых получила доступ к Spark 3.0 на Databricks. Первая же серия тестов показала 7-кратный прирост производительности и 90% сокращение расходов, благодаря GPU-ускоренному анализу данных для разработки продуктов в Adobe Experience Cloud и поддержке возможностей, поддерживающих цифровые бизнесы.Метавселенная ВДНХ
Согласно заявлению разработчика, прирост производительности в Spark 3.0 повышает точность моделей, позволяя обучать их на более крупных наборах данных и чаще переобучать. Это дает возможность обрабатывать терабайты новых данных каждый день, что очень важно для специалистов, поддерживающих рекомендательные системы и анализирующих новые исследовательские данные. Кроме того, ускоренная обработка означает, что для получения результатов требуется меньше аппаратных ресурсов, а значит значительно сокращаются затраты.
NVIDIA и Databricks совместно оптимизируют Spark с помощью ПО RAPIDS для Databricks, обеспечивая GPU-ускорение для обработки данных и машинного обучения на Databricks в здравоохранении, финансах, рознице и многих других отраслях, подчеркнули в NVIDIA.
NVIDIA предоставляет RAPIDS для Apache Spark с открытым кодом, чтобы помочь специалистам увеличить производительность своих конвейеров. Ускоритель отменяет функции, ранее выполняемые на CPU, применяя GPU для следующих задач:
- ускорение ETL-конвейеров в Spark за счет повышения производительности операций Spark SQL и DataFrame без необходимости в изменении кода;
- ускорение подготовки данных и обучения моделей в той же инфраструктуре, без необходимости в отдельном кластере для машинного и глубокого обучения;
- ускорение переноса данных между узлами в распределенном кластере Spark. Эти библиотеки используют открытый фреймворк Unified Communication X (UCX) Консорциума UCF и минимизируют латентность, перемещая данные напрямую в памяти GPU.
На май 2020 года предварительная версия Spark 3.0 уже доступна у Apache Software Foundation. В ближайшие месяцы будет открыт доступ к основной версии.
2016: Описание Apache Spark
В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с дисковым хранилищем, Apache Spark использует специализированные примитивы для рекурентной обработки в оперативной памяти, посредством чего получает преимущество в скорости работы для некоторых классов задач, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения.
По информации на апрель 2016 года проект предоставляет программные интерфейсы для языков Java, Scala, Python, R. Написан в основном на Scala. Состоит из ядра и нескольких расширений:
- Spark SQL (позволяет выполнять SQL-запросы над данными),
- Spark Streaming (надстройка для обработки потоковых данных),
- Spark MLib (набор библиотек машинного обучения),
- GraphX (предназначен для распределённой обработки графов).
Может работать в среде кластера Hadoop под управлением YARN и без компонентов ядра Hadoop, поддерживает несколько распределённых систем хранения — HDFS, OpenStack Swift, NoSQL-СУБД Cassandra, Amazon S3.
Примечания
См. также
Заказчик | Интегратор | Год | Проект |
---|---|---|---|
- Mediascope (Медиаскоп, ранее TNS Россия, ТНС Гэллап Медиа) | Неофлекс (Neoflex) | 2020.02 | |
- Аэрофлот | Иннодата (Innodata) | 2020.01 | |
- Ассоциация Независимых Аптек (АСНА) | DIS Group - ДИС Групп - Дата Интегрейшн Софтвер - Data Integration Software | 2019.05 | |
- Uber | Uber | 2018.09 |
Подрядчики-лидеры по количеству проектов
Солар (ранее Ростелеком-Солар) (46)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (15)
Форсайт (11)
Axiom JDK (БеллСофт) ранее Bellsoft (10)
Бипиум (Bpium) (10)
Другие (387)
Солар (ранее Ростелеком-Солар) (8)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (4)
Консом групп, Konsom Group (КонсОМ СКС) (2)
ЛАНИТ - Би Пи Эм (Lanit BPM) (2)
IFellow (АйФэлл) (2)
Другие (30)
Солар (ранее Ростелеком-Солар) (10)
Форсайт (3)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
КРИТ (KRIT) (2)
Cloud.ru (Облачные технологии) ранее SberCloud (2)
Другие (13)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Солар (ранее Ростелеком-Солар) (2, 48)
Microsoft (41, 47)
Oracle (49, 26)
Hyperledger (Open Ledger Project) (1, 23)
IBM (33, 18)
Другие (589, 302)
Солар (ранее Ростелеком-Солар) (1, 8)
Финансовые Информационные Системы (ФИС, FIS, Финсофт) (1, 4)
Microsoft (4, 3)
Oracle (2, 3)
SAP SE (2, 2)
Другие (16, 19)
Солар (ранее Ростелеком-Солар) (1, 11)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 3)
Форсайт (1, 3)
Cloud.ru (Облачные технологии) ранее SberCloud (1, 2)
Сбербанк (1, 2)
Другие (9, 9)
Солар (ранее Ростелеком-Солар) (1, 6)
Unlimited Production (Анлимитед Продакшен, eXpress) (1, 6)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 4)
Мобильные ТелеСистемы (МТС) (1, 4)
РЖД-Технологии (1, 3)
Другие (14, 24)
Мобильные ТелеСистемы (МТС) (2, 3)
Unlimited Production (Анлимитед Продакшен, eXpress) (1, 3)
Солар (ранее Ростелеком-Солар) (1, 3)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 2)
Effective Technologies (Эффектив Технолоджис) (1, 1)
Другие (11, 11)
Распределение систем по количеству проектов, не включая партнерские решения
Solar appScreener (ранее Solar inCode) - 48
Hyperledger Fabric - 23
Windows Azure - 20
FIS Platform - 15
Форсайт. Мобильная платформа (ранее HyperHive) - 12
Другие 322
Solar appScreener (ранее Solar inCode) - 8
FIS Platform - 4
Siemens Xcelerator - 2
Парадокс: MES Builder - 2
Турбо X - 2
Другие 22
Solar appScreener (ранее Solar inCode) - 11
BSS Digital2Go - 3
Форсайт. Мобильная платформа (ранее HyperHive) - 3
Cloud ML Space - 2
Nexign Microservices Framework - 1
Другие 8