Распределенное хранилище аналитических данных для работы с OLAP-кубами

Продукт
Название базовой системы (платформы): Apache Kylin
Разработчики: Сбербанк-Технологии (СберТех)
Технологии: BI,  Big Data

«Сбертех», ИТ-«дочка» Сбербанка, занимается развитием нового продукта на базе софта с открытым кодом Apache Kylin – распределенного хранилища аналитических данных для работы с OLAP-кубами, следует из описания ряда вакансий, размещённых в июле 2023 года[1]. Этот продукт призван полностью заменить используемые в данный момент в банке OLAP-решения, с которыми ежедневно работает несколько тысяч пользователей, указано в описании.

Архитектору решения[2] и архитектору OLAP в рамках проекта предстоит решать «нетривиальные и интересные задачи в области DWH, Data engineering, BI и визуализации данных». От них требуется опыт работы с OLAP-хранилищами, такими как MS SQL Server Analysis Services, Hyperion, IBM Cognos, SAP BO и пр.

Apache Kylin – это движок OLAP на платформе больших данных Hadoop, который поддерживает работу с очень большими датасетами. Он предоставляет интерфейсы SQL-запросов и возможности многомерного анализа (OLAP) в Hadoop для поддержки крупномасштабных данных, подходит для аналитических задач, в которых задействованы терабайты и даже петабайты данных, может запрашивать огромные таблицы Hive за доли секунды и поддерживает высокий уровень параллелизма.

Софт Kylin изначально был разработан R&D-подразделением компании eBay и в 2014 году внесён в сообщество открытого исходного кода[3]. Помимо eBay среди пользователей продукта – Yahoo! и Xiaomi.

Сбербанк планирует сам использовать новый продукт и поставлять его на рынок (фото: Сергей Киселев / АГН «Москва»)

Сбербанк несколько лет разрабатывал собственную платформу для работы с большими данными – Sber Data Platform (SDP) и внедрял импортонезависимые решения, основанные на собственных сборках инструментов open source или на уникальных разработках своих специалистов. Собственная платформа работы с данными Сбербанка включает основные инструменты работы с данными: SDP Hadoop и SDP Greenplum – сервисы хранения и обработки больших данных различного типа; SDP Analytics — инструменты визуализации и анализа данных; SDP Data Quality – сервисы контроля качества данных; SDP DataFlow – инструменты интеграции и трансформации данных; DataLabAI — инструменты ML и ИИ и пр.[4].

По состоянию на июнь 2023 года объемы «Фабрики данных» Сбербанка колоссальны — свыше 150 Пбайт.

Стек технологий нового продукта, помимо Apache Kylin, включает: технологии для хранения бизнес данных PostgreSQL, HDFS, Hive и ClickHouse, а для интеграция данных – Hadoop, ClickHouse и Modrian. Рынок ИТ-услуг в России: оценки, тренды, крупнейшие участники. Обзор и рейтинг TAdviser 298.9 т

Помимо использования внутри банка, новый продукт будет поставляться также на внешний рынок в экосистеме Platform V – облачной платформы Сбербанка. Линейка продуктов Platform V пополняется новыми решениями ежегодно.

«
Нам предстоит адаптировать «ванильный» Open Source–продукт не только под требования банка но и enterprise-рынка (масштабируемость, аутентификация, аудит, безопасность и пр.), - говорится в описании вакансии архитектора OLAP Сбербанка.
»

В «Сбертехе» заявили TAdviser, что разрабатываемый продукт дополнит их портфолио и обеспечит анализ в режиме реального времени на основе данных из высоконагруженных баз.

Примечания



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Прогноз (250)
  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (125)
  RBC Group Украина (124)
  БизнесАвтоматика НПЦ (117)
  Консультационная группа АТК (100)
  Другие (2445)

  Сапиенс солюшнс (Sapiens solutions) (9)
  Форсайт (8)
  Navicon (Навикон) (7)
  Корус Консалтинг (6)
  Доверенная среда (5)
  Другие (98)

  БизнесАвтоматика НПЦ (13)
  Форсайт (8)
  ФТО (5)
  Manzana Group (М Софт) (4)
  Optimacros (Оптимакрос) (3)
  Другие (71)

  БизнесАвтоматика НПЦ (7)
  Инфомаксимум (Infomaximum) (6)
  Manzana Group (М Софт) (5)
  Форсайт (4)
  OptiTeam Consulting, Оптитим Консалтинг (ранее MCB Consulting, ЭмСиБи Консалтинг) (4)
  Другие (62)

  БизнесАвтоматика НПЦ (2)
  Первый Бит (2)
  Manzana Group (М Софт) (2)
  Optimacros (Оптимакрос) (1)
  Simetra (ранее А+С Транспроект) (1)
  Другие (12)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Qlik (QlikTech) (59, 464)
  Форсайт (19, 330)
  SAP SE (70, 301)
  Oracle (65, 267)
  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (4, 236)
  Другие (1086, 1522)

  SAP SE (6, 13)
  Qlik (QlikTech) (2, 8)
  Форсайт (2, 8)
  Microsoft (2, 6)
  Доверенная среда (1, 5)
  Другие (46, 72)

  БизнесАвтоматика НПЦ (1, 13)
  Форсайт (3, 8)
  Optimacros (Оптимакрос) (1, 6)
  Microsoft (1, 5)
  Manzana Group (М Софт) (3, 4)
  Другие (38, 47)

  Optimacros (Оптимакрос) (1, 11)
  БизнесАвтоматика НПЦ (1, 7)
  Форсайт (2, 6)
  Инфомаксимум (Infomaximum) (1, 6)
  Manzana Group (М Софт) (2, 5)
  Другие (34, 50)

  Optimacros (Оптимакрос) (1, 3)
  Manzana Group (М Софт) (1, 2)
  PIX Robotics (Пикс Роботикс) (1, 2)
  БизнесАвтоматика НПЦ (1, 2)
  Altcraft (Альткрафт) (1, 1)
  Другие (11, 11)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  QlikView - 370
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 316
  Deductor - 226
  Visary BI Платформа бизнес-аналитики - 117
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 101
  Другие 1934

  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 7
  Qlik Sense - 6
  Microsoft Power BI - 5
  Доверенная среда: Триафлай BI-платформа - 5
  Другие 84

  Visary BI Платформа бизнес-аналитики - 13
  Optimacros Платформа для оптимизационного и консолидационного планирования - 6
  Microsoft Power BI - 5
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 5
  Qlik Sense - 4
  Другие 49

  Optimacros Платформа для оптимизационного и консолидационного планирования - 11
  Visary BI Платформа бизнес-аналитики - 7
  Инфомаксимум: Proceset (Система класса Process mining) - 6
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 5
  Manzana Customer Data Platform (CDP) - 5
  Другие 49

  Optimacros Платформа для оптимизационного и консолидационного планирования - 3
  Manzana BI - 2
  Visary BI Платформа бизнес-аналитики - 2
  PIX BI - 2
  GoodsForecast.OSA - 1
  Другие 8

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (118)
  Большая Тройка (46)
  Умная Логистика (14)
  Доверенная среда (13)
  Инфосистемы Джет (11)
  Другие (417)

  Доверенная среда (5)
  Большая Тройка (4)
  Цифра (4)
  Ростелеком (3)
  БизнесАвтоматика НПЦ (3)
  Другие (54)

  БизнесАвтоматика НПЦ (13)
  РИР (Росатом Инфраструктурные решения) (3)
  OneFactor (Уанфактор) ЕдиныйФактор (3)
  Сбербанк (2)
  Яндекс (Yandex) (2)
  Другие (45)

  БизнесАвтоматика НПЦ (7)
  РИР (Росатом Инфраструктурные решения) (3)
  Департамент информационных технологий Москвы (ДИТ) (3)
  Инфосистемы Джет (2)
  Marketing Logic (Маркетинг Лоджик) (2)
  Другие (61)

  БизнесАвтоматика НПЦ (3)
  Университет Иннополис (2)
  VizorLabs (Визорлабс) (1)
  Группа компаний ЦРТ (Центр речевых технологий) (1)
  Мобильные ТелеСистемы (МТС) (1)
  Другие (20)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (2, 117)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Доверенная среда (1, 13)
  РИР (Росатом Инфраструктурные решения) (3, 8)
  Другие (246, 109)

  Доверенная среда (1, 5)
  Большая Тройка (2, 4)
  Цифра (1, 4)
  БизнесАвтоматика НПЦ (1, 3)
  Умная Логистика (2, 2)
  Другие (6, 8)

  БизнесАвтоматика НПЦ (1, 13)
  РИР (Росатом Инфраструктурные решения) (2, 3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (1, 2)
  МегаФон (2, 1)
  Yabbi (Ябби) (1, 1)
  Другие (6, 6)

  БизнесАвтоматика НПЦ (1, 7)
  РИР (Росатом Инфраструктурные решения) (3, 4)
  CM.Expert (АвтоЭксперт) (1, 2)
  Датакаталог (1, 2)
  Цифра (1, 2)
  Другие (12, 12)

  БизнесАвтоматика НПЦ (1, 2)
  Наносемантика (Nanosemantics Lab) (1, 1)
  Российская ассоциация экспертов рынка ритейла (1, 1)
  СПбГУ ИТМО (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики) (1, 1)
  Exodrive (Экзодрайв) (1, 1)
  Другие (6, 6)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 117
  Большая Тройка: АИС Редактор территориальных схем - 39
  Доверенная среда: Триафлай BI-платформа - 13
  ZIIoT Платформа для работы с промышленными данными - 8
  Умная Логистика Карго - 7
  Другие 116

  Доверенная среда: Триафлай BI-платформа - 5
  ZIIoT Платформа для работы с промышленными данными - 4
  Visary BI Платформа бизнес-аналитики - 3
  EMC Greenplum Data Computing Appliance - 2
  Большая Тройка: АСУ Управление отходами - 2
  Другие 10

  Visary BI Платформа бизнес-аналитики - 13
  PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2
  Росатом Цифровое теплоснабжение - 2
  RT.Datalake Решение для хранения и обработки данных любых объемов - 1
  МТС: Цифровой водоканал - 1
  Другие 6

  Visary BI Платформа бизнес-аналитики - 7
  Arenadata Catalog - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Росатом Цифровое теплоснабжение - 2
  CM.Expert Data Mining платформа - 2
  Другие 14

  Visary BI Платформа бизнес-аналитики - 2
  ZIIoT Платформа для работы с промышленными данными - 1
  Softline Digital: RozniTech Платформа для сетевого ритейла (ранее Retailix.Ai) - 1
  Росатом Цифровое ресурсоснабжение - 1
  Rocket Group: rTIM Платформа генеративного дизайна территорий - 1
  Другие 3