Databricks Cloud

Продукт
Разработчики: Databricks
Технологии: BI,  СУБД

Главный управляющий: Йон Стоика (Ion Stoica)

Одним из самых значительных успехов на арене «больших данных» был выпуск Apache Spark в мае 2014 года. Это механизм обработки-в-памяти с открытым кодом, превосходящий платформу Hadoop по производительности аналитики данных[1].

Компания Databricks была создана несколькими разработчиками Spark и в июне 2014 года предложила платформу Databricks Cloud, построенную на данной технологии. Эта хостинговая платформа, которая проходит бета-тестирование, упрощает развертывание и предоставление Spark и поставляется с набором встроенных приложений для сбора и анализа данных. Организация может, к примеру, использовать Databricks Cloud, чтобы быстро обрабатывать и анализировать данные, хранимые в Amazon S3.

Databricks имеет отношение к Apache Spark, однако компания в значительной степени модифицировала фреймворк, снабдив его более высоким уровнем абстракции API и более быстрой обработкой данных в памяти (in-memory processing), поэтому он не только дополняет возможности «традиционного» Hadoop, но и может выступать его заменой. Модификация Databricks — Delta Lake — это полностью управляемая Open Source-версия Spark, которая работает в облаке и поставляется с несколькими проприетарными расширениями[2].

Delta Lake — чисто облачный проект, который применяется рядом крупных клиентов по всему миру. По словам одного из создателей Apache Spark и технического директора Databricks Матея Захарии, клиенты мигрируют со Spark на платформу Databricks по разным причинам, но часто это продиктовано требованиями бизнеса, который все чаше ориентируется на работу с облачными сервисами. Желание клиентов связать озера данных, которые находятся как в облачном, так и в локальном хранилище, и стало для компании побудительным мотивом к созданию решения для обеспечения их надежности.

«
«Озеро данных сегодня есть почти у каждой компании. Они пытаются добыть из него информацию, но ее ценность и надежность часто вызывает сомнения. Delta Lake устраняет эти проблемы — об этом говорит интерес к этому решению сотен предприятий. Учитывая, что Delta Lake обладает открытым кодом, разработчики смогут беспрепятственно создавать надежные озера данных», — сказал соучредитель и генеральный директор Databricks Али Годси.
»

Он также пояснил, что из себя представляют «Delta-озера данных» и какие типы файловых систем и данных они поддерживают. «Delta Lake располагается поверх вашей СХД (но не заменяет ее) и предлагает транзакционный уровень хранения как в формате HDFS, так и в формате BLOB-объектов Azure, хранящихся в облачном хранилище, к примеру, S3. Пользователи могут скачать Delta Lake и совмещать его с HDFS в онпремис-варианте. Они также могут считывать данные из любой системы хранения, которая поддерживает источники данных Apache Spark, и записывать в Parquet — формат хранения, который понимает Delta Lake», — сказал Годси.Astra Configuration Manager: «управляющий» парком корпоративных устройств 7.9 т

Databricks отдала предпочтение Apache Parquet, потому что этот колоночно-ориентированный (столбцовый) формат хранения данных изначально создавался для экосистемы Hadoop и не зависит от выбора среды обработки данных. Delta Lake выступает в качестве слоя поверх поддерживаемых форматов хранения данных.

Примечания



СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Прогноз (250)
  Loginom Company (Аналитические технологии) (128)
  RBC Group Украина (124)
  БизнесАвтоматика НПЦ (122)
  Консультационная группа АТК (100)
  Другие (2635)

  AW BI (ОСТ) ранее Analytic Workspace (9)
  Manzana Group (М Софт) (7)
  БизнесАвтоматика НПЦ (4)
  Форсайт (4)
  OptiTeam Consulting, Оптитим Консалтинг (ранее MCB Consulting, ЭмСиБи Консалтинг) (4)
  Другие (58)

  Форсайт (8)
  БизнесАвтоматика НПЦ (5)
  Инфомаксимум (Infomaximum) (5)
  AW BI (ОСТ) ранее Analytic Workspace (5)
  Корус Консалтинг (5)
  Другие (69)

  Инфомаксимум (Infomaximum) (7)
  БизнесАвтоматика НПЦ (7)
  Navicon (Навикон) (5)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (4)
  Manzana Group (М Софт) (4)
  Другие (66)

  Триафлай (1)
  Форсайт (1)
  GMCS (1)
  Navicon (Навикон) (1)
  OptiTeam Consulting, Оптитим Консалтинг (ранее MCB Consulting, ЭмСиБи Консалтинг) (1)
  Другие (3)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Qlik (QlikTech) (59, 464)
  Форсайт (21, 342)
  SAP SE (71, 306)
  Oracle (65, 267)
  Loginom Company (Аналитические технологии) (4, 240)
  Другие (1179, 1680)

  AW BI (ОСТ) ранее Analytic Workspace (2, 9)
  Optimacros (Оптимакрос) (1, 9)
  Форсайт (2, 8)
  Manzana Group (М Софт) (2, 7)
  PIX Robotics (Пикс Роботикс) (1, 5)
  Другие (38, 53)

  Optimacros (Оптимакрос) (1, 11)
  Форсайт (2, 8)
  Инфомаксимум (Infomaximum) (1, 7)
  Полиматика (Polymatica) (5, 6)
  SL Soft (СЛ Софт) (5, 6)
  Другие (34, 57)

  Optimacros (Оптимакрос) (1, 11)
  БизнесАвтоматика НПЦ (1, 7)
  Инфомаксимум (Infomaximum) (1, 7)
  Manzana Group (М Софт) (3, 4)
  Visiology (Визиолоджи) (1, 4)
  Другие (37, 58)

  Optimacros (Оптимакрос) (1, 2)
  Hybris (1, 1)
  Триафлай (1, 1)
  Navicon (Навикон) (1, 1)
  SAP SE (1, 1)
  Другие (1, 1)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2023 год
2024 год
2025 год
Текущий год

  QlikView - 370
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 323
  Deductor - 226
  Visary BI Платформа бизнес-аналитики - 122
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 106
  Другие 2100

  Optimacros Платформа для оптимизационного и консолидационного планирования - 9
  Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 7
  Manzana Customer Data Platform (CDP) - 7
  AW BI: BI-платформа - 7
  PIX BI - 5
  Другие 51

  Optimacros Платформа для оптимизационного и консолидационного планирования - 11
  Инфомаксимум: Proceset (Система класса Process mining) - 7
  AW BI: BI-платформа - 5
  Visary BI Платформа бизнес-аналитики - 5
  PIX BI - 5
  Другие 51

  Optimacros Платформа для оптимизационного и консолидационного планирования - 11
  Visary BI Платформа бизнес-аналитики - 7
  Инфомаксимум: Proceset (Система класса Process mining) - 7
  Loginom - 4
  Navicon Дельта BI - 4
  Другие 56

  Optimacros Платформа для оптимизационного и консолидационного планирования - 2
  Триафлай BI-платформа - 1
  Navicon Дельта BI - 1
  SAP Marketing Cloud (ранее SAP Hybris Marketing Cloud) - 1
  Форсайт. Бюджетирование и консолидация - 1
  Другие 0

Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  SAP CIS (САП СНГ) (38)
  Softline (Софтлайн) (35)
  РДТЕХ (33)
  Arenadata (Аренадата Софтвер) (31)
  BeringPro (БерингПойнт) ранее BearingPoint Russia (28)
  Другие (814)

  Тантор Лабс (Tantor Labs) (3)
  ФОРС - Центр разработки (2)
  Arenadata (Аренадата Софтвер) (2)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (1)
  NDBC - ЭнДиБиСи (ранее НТТ ДАТА Бизнес Солюшнс, itelligence Россия, Ителлидженс) (1)
  Другие (16)

  Arenadata (Аренадата Софтвер) (7)
  TData (ТДата) (5)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (2)
  IBS (2)
  Гринатом (Greenatom) (2)
  Другие (24)

  Arenadata (Аренадата Софтвер) (8)
  Сбербанк-Технологии (СберТех) (4)
  Axenix (ранее Аксенчер Россия) Аксеникс (2)
  ITFB Group (АйТиЭфБи Групп) (2)
  VK Tech (ВК Технологии) (2)
  Другие (15)

  MaxSoft (Макссофт-24) (1)
  Диасофт (Diasoft) (1)
  Нанософт (1)
  Норбит (1)
  Ред Софт (Red Soft) (1)
  Другие (3)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  SAP SE (7, 181)
  Oracle (44, 180)
  PostgreSQL Global Development Group (14, 167)
  Microsoft (23, 143)
  Постгрес профессиональный (ППГ, Postgres Professional) (7, 54)
  Другие (292, 319)

  PostgreSQL Global Development Group (3, 12)
  Постгрес профессиональный (ППГ, Postgres Professional) (1, 6)
  Apache Software Foundation (ASF) (3, 4)
  Тантор Лабс (Tantor Labs) (2, 3)
  Arenadata (Аренадата Софтвер) (2, 2)
  Другие (9, 11)

  PostgreSQL Global Development Group (4, 15)
  Arenadata (Аренадата Софтвер) (3, 9)
  VMware (2, 9)
  Постгрес профессиональный (ППГ, Postgres Professional) (2, 7)
  TData (ТДата) (2, 4)
  Другие (7, 12)

  PostgreSQL Global Development Group (4, 14)
  Arenadata (Аренадата Софтвер) (4, 10)
  Apache Software Foundation (ASF) (3, 4)
  Сбербанк-Технологии (СберТех) (2, 4)
  Яндекс (Yandex) (2, 4)
  Другие (8, 15)

  Arenadata (Аренадата Софтвер) (2, 3)
  Cloud.ru (Облачные технологии) ранее SberCloud (1, 1)
  Диасофт (Diasoft) (1, 1)
  Microsoft (1, 1)
  Ред Софт (Red Soft) (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Oracle Database - 106
  SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 106
  Microsoft SQL Server - 105
  PostgreSQL СУБД - 97
  SAP HANA (High Performance Analytic Appliance) - 72
  Другие 440

  Postgres Pro СУБД - 6
  Tantor СУБД - 3
  PostgreSQL СУБД - 3
  Apache Kafka - 2
  ClickHouse - система управления базами данных (СУБД) - 2
  Другие 9

  ADB - Arenadata DB - 8
  PostgreSQL СУБД - 7
  Postgres Pro СУБД - 4
  Postgres Pro Enterprise - 3
  RT.WideStore СУБД - 3
  Другие 15

  PostgreSQL СУБД - 9
  ADB - Arenadata DB - 9
  СберТех: Platform V Pangolin - 4
  Arenadata QuickMarts (ADQM) - 3
  Газинформсервис: Jatoba (Ятоба) СУБД - 2
  Другие 12

  ADB - Arenadata DB - 2
  Cloud.ru Evolution Managed Arenadata DB - 1
  Microsoft SQL Server - 1
  Diasoft Digital Q.Database - 1
  Ред База Данных - 1
  Другие 0