2024/12/01 12:58:04

Под капотом: на каком ПО Группы Arenadata построены Машины больших данных Скала^р

Объем накопленных данных постоянно растет, а компании самого различного профиля — от маркетплейсов до промышленников — используют ценность от получаемой информации для решения бизнес-задач. Поэтому им нужны эффективные инструменты, отвечающие как требованиям законодательства, так и внутренней безопасности. Группа Arenadata разрабатывает различные программные продукты для работы с данными. Ее решения широко представлены на российском рынке, и многие из них включены в программно-аппаратные комплексы Скала^р. ПАК выступают фундаментом ИТ-инфраструктур и позволяют сокращать сроки проектов в разы благодаря заложенным в них принципам совместимости, масштабируемости, отказо- и катастрофоустойчивости. В этой статье Александр Осипов, директор по маркетингу Arenadata, заглянет «под капот» Машин больших данных Скала^р МБД.8 и рассмотрит особенности технологий.

Содержание

Arenadata DB — реализация аналитических хранилищ размером в сотни терабайт

Arenadata DB (ADB) — аналитическая распределенная MPP-СУБД, построенная на базе проекта с открытым исходным кодом Greenplum. Применяется в критически важных системах, работающих с большими объемами данных. С Arenadata DB можно построить надежное, масштабируемое корпоративное хранилище данных, которое будет расти вместе с потребностями компании. Продукт активно используют ведущие российские банки, телеком-операторы, ритейлеры, промышленные компании и интернет-сервисы.

Решаемые задачи:

  • реализация аналитических хранилищ размером в сотни терабайт;
  • сложные запросы, обрабатывающие большие объемы, в том числе содержащие сложные аналитические функции;
  • эффективное соединение больших таблиц;
  • Data Science;
  • реализация аналитических функций на процедурных языках;
  • Ad-hoc-аналитика.

Arenadata DB подходит для компаний, имеющих более 3 ТБ данных с тенденцией к росту объема данных. С помощью продукта заказчики могут:

  • снизить Time to Market для новых разработок;
  • уменьшить время решения проблем;
  • оптимизировать TCO;
  • ускорить текущие процессы без значительного переписывания кода;
  • нанимать своих разработчиков благодаря широкой представленности технологии на рынке труда.

ADB стала популярной заменой системам управления данными, таким как Oracle и Teradata, а также одним из важнейших компонентов при замене SAP BW. Arenadata DB включена в состав Машины больших данных Скала^р МБД.Г — программно-аппаратного комплекса для параллельной обработки и распределенного хранения структурированных данных. Он специально предназначен для работы СУБД в высоконагруженных системах.

Arenadata Hadoop — хранение слабо структурированных и неструктурированных данных

Arenadata Hadoop (ADH) — это полноценный дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования, предназначенный для хранения и обработки слабо структурированных и неструктурированных данных.

Решаемые задачи:

  • распределенная обработка информации;
  • построение озер и фабрик данных (единый центр всех данных компании, быстрое развертывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде);
  • машинное обучение и искусственный интеллект;
  • хранение и обработка больших объемов слабоструктурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД);
  • источник данных для КХД;
  • импортозамещение западных систем.

Использование ADH позволяет компании обеспечить отказоустойчивость и высокую доступность данных. Данные, хранящиеся в любом узле, воспроизводятся в других узлах кластера. Это помогает избежать поломок. Если что-то случилось с одним из узлов, то всегда есть резервная копия данных, доступная в кластере.

Arenadata Hadoop подходит для компаний, хранящих от 10 ТБ данных. Среди них представители финансового, реального секторов, ритейлеры, государственные заказчики. ADH замещает такие решения, как Cloudera CDP, Hortonworks HDP, MapR (HPE Ezmeral Data Fabric), Яндекс.Облако Data Proc, RT.DataLake, SDP Hadoop и «ванильные» сборки Hadoop.

Arenadata Hadoop (ADH) стал частью Машины больших данных Скала^р МБД.Х. Эта высокопараллельная гипермасштабируемая система управления большими данными предоставляет пользователям широкие возможности масштабирования и интеграции с различными источниками информации. С ее помощью компания может построить системы хранилищ и обработки больших данных и озера данных.

Arenadata QuickMarts — очень быстрая аналитика

Arenadata QuickMarts (ADQM) — кластерная колоночная СУБД, созданная на основе технологии с открытым исходным кодом ClickHouse. Она позволяет выполнять аналитические запросы в режиме околореального времени на структурированных больших данных.

Решаемые задачи:

  • обработка запросов сотен одновременных пользователей витрин;
  • может работать в связке с Arenadata DB для витрин данных;
  • анализ временных рядов;
  • Data Science;
  • анализ серверных журналов.

ADQM подходит для крупных корпораций с большим количеством пользователей BI-системы и для компаний с потребностью в быстрой аналитике (банки, телеком, ритейл, e-commerce). Arenadata QuickMarts замещает такие решения, как «ванильный» ClickHouse, Oracle Exadata, Microsoft SQL, Teradata, SAP BW on HANA, Amazon Timestream, HCL Informix, InfluxDB Enterprise.

Arenadata QuickMarts входит в Машину больших данных Скала^р МБД.КХ — программно-аппаратный комплекс для быстрых аналитических витрин с реляционным доступом. Она обладает высокой надежностью и отказоустойчивостью, реализует колоночное хранение данных для аналитики. Пользователи решения могут обрабатывать большие объемы информации.

Arenadata Streaming — потоковая обработка данных в режиме реального времени

Arenadata Streaming (ADS) — масштабируемая отказоустойчивая система для потоковой обработки данных в режиме реального времени, адаптированная для корпоративного использования и построенная на базе Apache Kafka и Apache NiFi. ADS — универсальное средство для решения задач, связанных с потоковой обработкой данных в режиме реального времени.

Решаемые задачи:

  • корпоративная шина обмена данными для всех приложений;
  • потоковая обработка данных в реальном времени в большом объеме;
  • прием данных из разных источников;
  • Pub-Sub брокер сообщений;
  • среда консолидации больших потоков данных и управления ими в режиме реального времени;
  • инструмент разграничения прав доступа к потокам данных;
  • фреймворк для разработки потоковых аналитических приложений за считаные минуты в режиме реального времени и без единой строчки кода;
  • хранение потоков записей отказоустойчивым долговечным способом.

Arenadata Streaming подходит всем, кому нужно пересылать много данных из одного компонента в другой (общение между микросервисами, пересылка сигналов, трансфер данных до СУБД). Продукт активно используют компании, обладающие большим трафиком (банки, продуктовые компании, ИТ-аналитика), а также заказчики, которые для решения прикладных задач используют событийно-ориентированную архитектуру.

Arenadata Streaming замещает такие решения, как Confluent Kafka, IBM Streams, SAS Event Streams Processing, Azure Stream Analytics, TIBCO Streaming, Cloudera DataFlow, «ванильные» сборки Kafka и NiFi, Informatica PowerCenter.

ADS можно увидеть в составе Машины больших данных Скала^р МБД.С — программно-аппаратного комплекса для потоковой обработки данных в реальном времени. Она предоставляет практически неограниченное масштабирование по объему обрабатываемых данных и позволяет обеспечить экономию бюджетов за счет оптимального сочетания аппаратного и программного обеспечения.

Picodata — real-time сценарии обработки данных

Picodata — система распределенных вычислений в оперативной памяти, которая помогает реализовать real-time сценарии обработки данных в составе единой корпоративной платформы данных. Picodata создана на базе технологии Tarantool.

Решения Picodata (как изначально и Tarantool) построены на технологии IMDG (In-memory Data Grid). Это класс решений, объединяющих в себе высокоскоростную СУБД в оперативной памяти и распределенный сервер приложений. Они актуальны, когда:

  • поток событий превышает 10 000 запросов в секунду;
  • объем данных превышает 1–2 ТБ;
  • требуется принятие решений в режиме реального времени.

Решение Picodata интегрировано с ПО Arenadata (Arenadata DB, Arenadata Streaming).

Решаемые задачи:

  • корпоративная шина данных;
  • обнаружение мошенничества;
  • промышленный интернет вещей (IIoT);
  • повышение скорости выхода продукта на рынок (Time to Market);
  • унификация доступа к данным;
  • система хранения «золотой записи».

Picodata подходит компаниям, у которых поток запросов превышает 10 000 запросов в секунду, нагрузка на запись составляет до 1 миллиона транзакций в секунду на одном ядре ЦПУ, а объем данных превышает 1–2 ТБ.

Picodata замещает такие решения, как Tarantool Enterprise, Tarantool Data Grid, GridGain, Apache Ignite, Hazelcast, VMware Tanzu Gemfire, Apache Geode, Apache Kafka, «ванильный» Tarantool.

Picodata можно увидеть «под капотом» Машины больших данных Скала^р МБД.Т — программно-аппаратного комплекса для развертывания высокопроизводительных программных систем. Она обладает высокой надежностью и отказоустойчивостью, поддерживает катастрофоустойчивые решения, позволяет размещать базы данных большого объема в оперативной памяти.

Целевое единое хранилище ВТБ

Машины Скала^р на основе решений Arenadata стали фундаментом Целевого единого хранилища ВТБ с миграцией ИТ-инфраструктуры на новую платформу.

В проекте были задействованы следующие продукты:

  • Машины больших данных Скала^р МБД.Г на базе Arenadata DB. Это — основа для создания централизованного хранилища данных с единой бизнес-моделью, которое включает в себя специализированные витрины для ad-hoc-аналитики и банковских приложений, витрины с оперативными данными и пользовательские песочницы.
  • Машины больших данных Скала^р МБД.Х на базе хранилища для обработки слабоструктурированных и неструктурированных данных Arenadata Hadoop. Используется как решение для продвинутой аналитики направления Data Science.
  • Машины больших данных Скала^р МБД.С на базе масштабируемой отказоустойчивой системы Arenadata Streaming. Применяется для потоковой обработки данных в режиме реального времени.

Целями проекта банк ставил снижение стоимости владения ИТ-платформой, повышение качества и доступности данных, а также увеличение скорости предоставления сервисов для бизнеса.

Заключение

Аналитика данных сегодня становится необходимой задачей для большинства компаний, накапливающих значительные объемы информации. Вендоры стараются предоставить им наиболее эффективные продукты, которые можно легко интегрировать в сложившуюся ИТ-инфраструктуру. Сотрудничество Скала^р и Группы Arenadata — наглядный пример того, как технологическое партнерство позволяет создать активно используемые на российском рынке комплексные инструменты.