HP Vertica СУБД

Продукт
Разработчики: Vertica
Дата последнего релиза: 2014/12/02
Технологии: СУБД

Содержание

Vertica 5.1

Колоночно-ориентированная аналитическая СУБД Vertica предназначена для быстрой загрузки и анализа больших объемов данных, и ее часто применяют для выполнения аналитики в реальном времени. В прошлом году Vertica была куплена компанией Hewlett-Packard. С тех пор ее интегрировали с системой индексации неструктурированных данных Autonomy IDOL (тоже приобретенной HP в 2011 году). В результате на свет появился пакет для анализа как структурированных, так и неструктурированных данных под названием HP Next Generation Information Platform.

В версии Vertica 5.1, помимо нового графического интерфейса (был основан на простом терминале xTerm) реализованы различные усовершенствования в драйверах и протоколах доступа к данным. Полностью переписаны драйвера ODBC и JDBC для подключения СУБД к приложениям на языках Си и Java, соответственно. В состав Vertica 5.1 включен и коннектор для чтения и записи данных в систему Apache Hadoop. Возможно, именно это является наиболее важной особенностью новой версии, отмечают аналитики Ovum. Средства анализа Больших Данных, подобные Apache Hadoop, до сих пор отсутствовали в объединенной платформе Vertica/IDOL.

Vertica 6

Vertica 6 позволяет компаниям подключаться к любым источникам данных, чтобы управлять ими и исследовать их. Уникальная архитектура Vertica FlexStore предоставляет гибкие средства анализа Больших Данных, тесно интегрируемые с технологиями Autonomy и Hadoop, а также с любыми источниками структурированной, неструктурированной или полуструктурированной информации.

В новой версии платформа распределенных вычислений Vertica расширена: она позволяет исполнять параллельные задачи, реализованные на аналитическом языке программирования R. Помимо этого, в Vertica 6 улучшена поддержка развертывания в облачном и SaaS-исполнении и расширены функции, рассчитанные на среды со смешанными рабочими нагрузками. Таким образом, Vertica 6 является самой полнофункциональной платформой анализа Больших Данных среди доступных на сегодняшний день.

В рамках стратегии HP, проводимой под девизом «100% данных предприятия», компания обеспечила возможность внедрения системы Autonomy Intelligent Data Operating Layer (IDOL) 10 в каждый узел Hadoop. Благодаря этому пользователи получают в свое распоряжение более 500 функций HP IDOL, в том числе средства автоматической классификации, кластеризации, извлечения сведений (eduction) и формирования гиперссылок. Комплект решений, состоящий из Autonomy IDOL, Vertica 6 и HP AppSystem for Apache Hadoop, представляет собой не имеющую аналогов платформу обработки и интерпретации огромных срезов разнородных данных.

2018

Технология flexible tables

В платформе для анализа больших данных Vertica, разработанной компанией Micro Focus, реализована технология для хранения данных в так называемом общем или гибком формате — flexible tables, или гибкие таблицы. Исходные данные загружаются в БД в «сыром» виде, без изменений. Об этом 24 апреля 2018 года рассказали в компании «Комплит».

Все необходимые преобразования задаются прямо в процессе обработки данных: с определением так называемых карт отображений (map) либо с использованием кастомизированных функций трансформации (transformation UDx). Первый вариант подходит для хранения и обработки форматов CSV, JSON и XML. Второй позволяет работать с любым другим форматом, например, обрабатывать данные в формате ASN.1 BER.

В результате аналитик имеет полный доступ ко всей исходной информации в рамках одной экосистемы — делается это с помощью обычного языка структурированных запросов SQL, который хорошо знаком специалистам.

Подход к организации «гибких данных» не был бы эффективен, если бы не кластерная инфраструктура с массово-параллельной обработкой данных (MPP). Гибкие таблицы в Vertica организованы как обычные таблицы. Методы распределения данных между узлами кластера применимы к этим типам таблиц точно так же, как к фиксированным. Трансформация данных в них происходит параллельно на задействованных узлах кластера. Это увеличивает производительность обработки за счет горизонтального масштабирования. Аналитик мгновенно получает информацию из гибких таблиц и на их основе может гораздо быстрее принять решение и пересмотреть действующие аналитические модели.

В Петербурге стенд Vertica развернут в демо-центре «Комплит». Там можно оперативно организовать любой пилотный и стендовый проект, на складе всегда в наличии оборудование нужной конфигурации. Компания предоставит подготовленные для технических испытаний площадки и собственный центр обработки данных.

2014

HP Vertica OnDemand

2 декабря HP анонсировала выход Vertica OnDemand - решение обладающее функционалом для аналитики Больших Данных корпоративного уровня посредством облака.

Пользователям доступен широкий набор встроенных аналитических функций с высочайшей гибкостью и производительностью. Простота, по мнению разработчиков, одно из главных преимуществ решения.

Ожидается, что HP Vertica OnDemand появится на рынке в 1 квартале 2015 года.

HP Vertica использует SQL для обращения к Hadoop

19 ноября 2014 года стало известно о присоединении компании HP к сообществу разработчиков, использующих SQL для обращений к Hadoop[1]. Компания выпустила дополнение HP Vertica for SQL on Hadoop к своей аналитической кластерной СУБД Vertica с колоночным хранением данных.

Согласно заявлению HP, решение компании поддерживает более широкий спектр операторов SQL, включая join и merge, масштабируется лучше основных конкурентов и способно интегрироваться со всеми популярными дистрибутивами Hadoop.

Сообщается также о поддержке файловых форматов Parquet и ORC и привлекательной модели ценообразования по числу узлов кластера. Для управления и администрирования Vertica for SQL on Hadoop использует собственный инструментарий, не полагаясь на стандартный для этой распределенной среды YARN (Yet Another Resource Negotiator).

HP Vertica "Dragline"

28 мая 2014 года HP анонсировала новый релиз аналитической платформы Vertica - "Dragline". Решение обеспечивает доступ к новым способам получения, исследования и хранения данных, отличается высоким быстродействием, экономической эффективностью и обслуживает большее число пользователей.

Решая задачи быстрого достижения успеха и снижения общей стоимости владения, организации должны иметь возможность размещения информации в наиболее подходящих условиях хранения, оперативно изучать данные с целью извлечения из них ценных сведений.

HP Vertica Dragline предлагает:

  • Технологии, созданные в рамках проекта Maverick компании HP, в том числе функцию Live Lookups, существенно ускоряющую выполнение множества одновременных запросов за счет обработки данных по мере их поступления. Механизм HP Dynamic Workload Management, в свою очередь, динамически выделяет необходимый объем ресурсов в зависимости от сложности поступившего запроса — это может быть как простой ситуативный запрос, так и составной, для которого требуется значительно больше времени;

  • Расширенная система поддержки SQL поверх Hadoop и механизм экономичного хранения информации устраняют потребность в переносе данных и поддерживают больше форматов, в том числе Parquet, Thrift, Avro и CEF. Используя наиболее подходящие для себя среды бизнес-анализа и визуализации, предприятия могут быстрее, без излишних сложностей загружать, исследовать и наглядно отображать данные.

  • Стратегический план управления жизненным циклом информации теперь можно выполнять с большей экономической эффективность за счет предоставления доступа к нескольким уровням хранения: более старые, редко востребованные производственные данные предлагается размещать в Hadoop, не перенося их и не применяя какие-либо адаптеры;

  • Широкие возможности специализированной аналитики. HP Vertica Dragline оснащена механизмом анализа эмоциональной окраски постов Twitter и любых коротких текстовых сообщений, а также улучшенной системой анализа геопространственной информации. Комбинируя сведения об эмоциональной окраске текста с бизнес-данными, организации могут быстро выяснять, как участники онлайн-сообществ оценивают тот или иной бренд, продукт или сервис;

Система текстового поиска позволяет анализировать текстовую информацию разных типов, в том числе обрабатывать автоматически сгенерированные журналы операций и выполнять анализ эмоционально-оценочной лексики коротких текстов, например твитов или отзывов о продуктах.

HP Vertica Dragline содержит аналитические инструменты, для решения задач:

  • Увеличение доли рынка и приобретение конкурентных отличий. Операторы коммунальных служб и энергетические компании смогут осуществлять установку «умных» счетчиков и информировать абонентов об уровне потребления и возможностях снижения расходов. Операторам связи, в свою очередь, будет проще внедрять персонализированные сервисы тарификации в соответствии с имеющимися в некоторых странах требованиями законодательства;

  • Экономия аппаратных и системных ресурсов. Аналитики, составители отчетов и эксперты по данным смогут управлять рабочими нагрузками смешанного типа с помощью механизмов динамического управления ресурсами, позволяющих снизить общую стоимость владения системами;

  • Прогнозирование и предотвращение оттока клиентов, благодаря использованию мощных средств анализа эмоциональной окрашенности высказываний в социальных СМИ. Эти инструменты позволяют выявлять неудовлетворенных заказчиков и оперативно предлагать им индивидуальные скидки;

  • Персонализированный маркетинг. Комбинируя Большие Данные с информацией о местонахождении клиентов, предприятия имеют возможность осуществлять адресную рекламную кампанию, ориентированную на различные географические районы. Теперь розничные продавцы могут пользоваться мобильными технологиями и привлекать наиболее перспективных покупателей, руководствуясь сведениями о том, где они находятся, а также какие товары и бренды предпочитают.

Продажи HP Vertica Dragline в странах мира начнутся в августе 2014 года.

2013

Vertica Crane

2 декабря 2013 года компания HP анонсировала выход обновленной платформы HP Vertica Analytics под номером версии 7 и названием HP Vertica Crane.


Описание

HP Vertica Crane существенно упрощает анализ полуструктурированных данных - «dark data»[2], отличается улучшенной интеграцией с Hadoop, а также предлагает более высокий уровень надежности и производительности.

Основной проблемой в достижении преимуществ использования платформ "больших данных" остается обработка полуструктурированной информации, поступающей из социальных сетей, веб-журналов, датчиков и «Интернета вещей». Подобные данные часто требуют чересчур продолжительной загрузки в традиционные средства аналитики и хранилища, чтобы стать структурированными и «понятыми», вследствие чего их просто не принимают в расчет.

Решение HP Vertica Crane решает проблему благодаря использованию HP Vertica Flex Zone — инновационного решения, позволяющего быстро загрузить, проанализировать и использовать различные полуструктурированные данные.

В составе HP Vertica Crane действуют функции автоматической систематизации, это снимает необходимость сложного и трудоемкого кодирования перед загрузкой данных. Помимо этого пользователь может быстро создать схему и применить ее к набору данных. Это позволяет аналитикам и бизнес-пользователям визуализировать информацию без необходимости использования неэффективных и дорогих инструментов преобразования данных из БД и хранилищ.

HP Vertica Analytics поддерживает различные стандартные средства аналитики и визуализации. Открытый подход помогает использовать различные контрольные панели для анализа шаблонов и зависимостей по всему массиву структурированных и полуструктурированных данных.

Информация, хранящаяся в Hadoop Distributed File System (HDFS), представляет собой ценный материал для бизнес-аналитики, однако зачастую ее сложно использовать в традиционных базах данных. Именно поэтому HP Vertica Crane предлагает самую открытую в отрасли архитектуру «SQL-on-Hadoop». В отличие от прочих решений SQL-on-Hadoop платформа HP Vertica совместима с крупнейшими инфраструктурами Hadoop, что гарантирует высокую производительность анализа данных любого типа и из любого источника.

Кроме того, HP Vertica Crane поддерживает прямую интеграцию с HCatalog, уровнем табличного хранения Hadoop. Это позволяет клиентам с легкостью находить нужные данные в Hadoop и загружать их в HP Vertica Analytics для анализа.


Преимущества

Преимущества платформы HP Vertica Crane:

  • Новый комплект разработчика Java в дополнение к имеющейся поддержке C/C++ и статистического языка R расширяет возможности аналитики и обеспечивает защиту инвестиций.
  • Поддержка сетевого протокола проверки подлинности Kerberos для всех драйверов БД, в том числе коннектора HDFS, позволяет выполнить самые строгие требования в плане безопасности.
  • Обновленный механизм Amazon Machine Image (AMI), включающий скрипты Cloud Scripts для гибкого управления кластерными средами Amazon EC2, упрощает развертывание в облаке.
  • Сообщество MyVertica предлагает всю необходимую информацию о функциях и улучшениях новой платформы.


Доступность

Платформа HP Vertica Analytics Platform 7 и HP Vertica Flex Zone выйдут в продажу по всему миру в декабре. Дополнительная информация доступна на сайте разработчика.

Примечания

  1. ПО материалам www.pcweek.ru/infrastructure/article/detail.php?ID=168821
  2. Под термином «dark data» Gartner понимает всю совокупность информационных ресурсов, которые организации собирают, обрабатывают и хранят в своих системах, но которые не используются для других целей (аналитика, управление взаимоотношениями и прямая монетизация). Подобно «темной материи» в физике, «темные данные» зачастую составляют значительную (если не подавляющую!) часть информационных активов организации. Часто организации не избавляются от темных данных только по соображениям обеспечения соответствия. Иными словами, расходы на хранение и защиту таких данных могут многократно перевесить ценность, которую организация в состоянии из них извлечь.


ПРОЕКТЫ (5) ИНТЕГРАТОРЫ (5) СМ. ТАКЖЕ (11)
ОТРАСЛИ (4)


Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2016 год
2017 год
2018 год
Текущий год

  Oracle (80, 209)
  Microsoft (46, 145)
  SAP SE (42, 128)
  PostgreSQL Global Development Group (9, 51)
  Apache Software Foundation (ASF) (25, 19)
  Другие (238, 115)

  Oracle (7, 19)
  SAP SE (6, 16)
  Microsoft (3, 8)
  PostgreSQL Global Development Group (1, 8)
  Dell EMC (2, 2)
  Другие (9, 10)

  Oracle (8, 29)
  Microsoft (3, 9)
  SAP SE (2, 8)
  PostgreSQL Global Development Group (1, 8)
  Apache Software Foundation (ASF) (3, 5)
  Другие (9, 11)

  Oracle (7, 26)
  PostgreSQL Global Development Group (2, 8)
  Microsoft (2, 8)
  SAP SE (2, 6)
  Apache Software Foundation (ASF) (3, 3)
  Другие (11, 13)

  Microsoft (1, 9)
  Oracle (6, 8)
  SAP SE (3, 7)
  PostgreSQL Global Development Group (2, 5)
  Mail.ru Group (2, 3)
  Другие (7, 7)

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2016 год
2017 год
2018 год
Текущий год

  Oracle Database - 23 (22, 1)
  PostgreSQL СУБД - 8 (8, 0)
  Microsoft SQL Server - 7 (6, 1)
  Apache Hadoop - 4 (3, 1)
  SAP HANA (High Performance Analytic Appliance) - 4 (4, 0)
  Другие 20

  Oracle Database - 19 (18, 1)
  PostgreSQL СУБД - 8 (7, 1)
  Microsoft SQL Server - 7 (7, 0)
  SAP HANA (High Performance Analytic Appliance) - 5 (5, 0)
  Tarantool - 3 (3, 0)
  Другие 19

  Microsoft SQL Server - 9 (9, 0)
  SAP HANA (High Performance Analytic Appliance) - 6 (5, 1)
  PostgreSQL СУБД - 5 (4, 1)
  Oracle Database - 4 (3, 1)
  Tarantool - 3 (2, 1)
  Другие 8