Сбер ruDALL-E
Мультимодальная нейросеть

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: Сбербанк, СберДевайсы (SberDevices), Облачные технологии (SberCloud СберКлауд)
Дата премьеры системы: 2021/11/02
Дата последнего релиза: 2021/12/15
Технологии: Big Data

Содержание

Основные статьи:

2022: В основе модели Kandinsky

Сбер 14 июня 2022 года представил модель генерации изображений по текстовому описанию на русском языке — Kandinsky. Это улучшенная версия мультимодальной нейросети ruDALL-E, которая генерирует картинки по описанию на русском языке. Подробнее здесь.

2021

Доступность на платформе ML Space

15 декабря 2021 года Сбер сообщил о том, что Нейросеть ruDALL-E, которая генерирует изображения по описанию на русском языке, стала доступна на платформе ML Space.

Промышленная версия нейронной сети ruDALL-E от SberDevices и Sber AI, которая создает изображения на основе текстового описания на русском языке, появилась в доступе на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud. Она содержит 12 миллиардов параметров и подходит для создания коммерческих материалов: иллюстраций для рекламы, архитектурного и промышленного дизайна, векторных и стоковых изображений.

ruDALL-E — мультимодальная нейросеть, которая генерирует оригинальные изображения по заданному русскоязычному описанию, моделируя совместное распределение текстов и изображений. Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ. Модель существует в двух вариантах: сверхбольшой — ruDALL-E XL с 1,3 миллиарда параметров — можно воспользоваться бесплатно, загрузив её код и набор параметров с Github; и гигантской нейросети ruDALL-E 12B XXL с 12 миллиардами параметров, которая доступна в подборке ruGPT-3 & family DataHub ML Space и позволяет создавать неограниченное число новых изображений по заданному описанию с меньшей степенью абстракции и более высокого качества.

Изображение создается в несколько этапов: сперва нейросеть принимает описание на вход и генерирует заданное число картинок, затем другая выбирает максимально подходящие под описание, после чего они увеличиваются в размере без потери качества.

«
Два месяца назад мы выложили в открытый доступ модель ruDALL-E XL, сделали демо-сайт и навык для ассистентов Салют, чтобы с ней можно было «поиграть», создавая любые картинки по запросу. Теперь же внешняя аудитория может воспользоваться и XXL-версией модели, которая позволяет получать не только абстрактные изображения, но и любое количество качественных уникальных иллюстраций, которые можно применять в разных сферах, - отметил Давид Рафаловский, CTO Сбербанк Груп, исполнительный вице-президент.
»

Возможность генерировать картинки по описанию на иностранных языках

11 ноября 2021 года компания «Сбербанк Груп» сообщила, что сайт открытой нейронной сети ruDALL-E, генерирующей изображения на основе текстового описания, теперь может работать с текстами не только на русском, но и на других языках. В мобильном приложении «Салют» и на устройствах Sber создать картинку можно даже по голосовому запросу, перевод на английский получил и демо-сайт, на котором можно попробовать модель.

По информации компании, за неделю с момента релиза ruDALL-E пользователи по всему миру сгенерировали более 3 млн изображений при помощи ruDALL-E, используя для формирования русскоязычных запросов различные системы машинного перевода, а теперь смогут делать запросы на английском и других языках. При вводе текста модель самостоятельно определяет язык ввода и генерирует соответствующее изображение.

Прототипом для создания ruDALL-E стала нейросеть DALL-E для английского языка, которая была представлена OpenAI в 2021 году. При этом исследователи из американской компании не стали выкладывать модель в открытый доступ, ограничившись общим описанием архитектуры и широким набором примеров работы модели, отобранных вручную. На основе публикации OpenAI команды SberDevices и Sber AI при содействии SberCloud создали аналогичное решение и запустили обучение нейросети на платформе ML Space на базе суперкомпьютера Christofari, получив аналогичный результат для русского языка, а позднее и мультиязычный вариант.Рынок ИТ-услуг в России: оценки, тренды, крупнейшие участники. Обзор и рейтинг TAdviser 298.7 т

Модель существует в двух вариантах: ruDALL-E XL, содержащая 1,3 миллиарда параметров, и ruDALL-E XXL с 12 миллиардами параметров. Возможностями меньшей можно воспользоваться бесплатно, загрузив её с сервиса Github и Hugging Face. Обе модели также можно найти в ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.

Большая модель может послужить для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, в то время, как уменьшенный вариант в приложении «Салют» и на демо-сайте призван скорее развлечь пользователей и показать им возможности нейросети. Чтобы создать изображение на устройствах Sber или в приложении «Салют» достаточно сказать: «Открой Далли» или «Запусти художника».

«
«После запуска ruDALL-E мы увидели большой интерес к модели со стороны аудитории. Поэтому мы решили создать мультиязычный вариант сервиса, который упростит пользователю путь к созданию изображения. На 11 ноября 2021 года моделью может воспользоваться практически любой желающий по всему миру. Поставить задачу нейросети можно и голосом, вызвав его в приложении «Салют» и на устройствах Sber», -

говорит Давид Рафаловский, «Сбербанк Груп», исполнительный вице-президент.
»

Создание ruDALL-E

Сбер 2 ноября 2021 года сообщил TAdviser о создании нейронной сети ruDALL-E, которая способна создавать изображения на основе текстового описания на русском языке. Использовать ее можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна.

В России создали нейросеть, генерирующую картинки по описанию на русском языке

Нейросеть одновременно обучается на двух видах данных — картинках и текстах, и позволяет создавать неограниченное число изображений по заданному описанию. Есть два варианта модели:

  • ruDALL-E XL, содержащая 1,3 миллиарда параметров;
  • ruDALL-E 12B с 12 миллиардами параметров.

Моделью ruDALL-E XL можно воспользоваться бесплатно, загрузив её с сервиса GitHub. Обе модели также вскоре будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.

Создание изображений при помощи ruDALL-E происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества. Таким образом можно получить неограниченное количество новых изображений, подходящих под указанные характеристики.

Архитектура модели DALL-E для английского языка была впервые представлена OpenAI в 2021 году, однако эта модель так и не была полностью выложена в открытый доступ. На основе публикации OpenAI команды SberDevices и Sber AI при содействии SberCloud воспроизвели код и запустили обучение нейросети на платформе ML Space на базе суперкомпьютера Кристофари, получив аналогичный результат для русского языка. В результате получилась модель, работающая с русским языком: обучение заняло 23 тысячи GPU-часов на массиве данных из 120 миллионов пар текст-изображение. Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ, отметили в Сбере.

«
Помимо вклада в прогресс в области ИИ, генерация изображений закрывает две важных потребности бизнеса — возможность получить уникальную картинку под собственное описание, а также в любой момент создавать необходимое количество licence-free-иллюстраций. При этом создание «мультимодальных» нейронных сетей, которые обучаются сразу на нескольких видах данных, даже в эпоху big data и огромных возможностей поиска, будет очень востребованным, поскольку решает задачи на принципиально ином уровне. Технология пока совсем молодая, первые шаги в этом направлении были сделаны только в 2020 году, а еще в 2018—2019 годах даже постановку такого рода задачи нельзя было себе представить. ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии,
сказал Давид Рафаловский, исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии».
»

Ссылки

Сайт ruDALL-E



РЕШЕНИЕ НА БАЗЕ (1) СМ. ТАКЖЕ (8)
Название решенияРазработчикКоличество
проектов
Технологии
Сбер Kandinsky Нейросеть для генерации изображений по описаниюСбербанк0Big Data


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (118)
  Большая Тройка (46)
  Умная Логистика (14)
  Доверенная среда (13)
  Инфосистемы Джет (11)
  Другие (416)

  Доверенная среда (5)
  Большая Тройка (4)
  Цифра (4)
  Ростелеком (3)
  БизнесАвтоматика НПЦ (3)
  Другие (54)

  БизнесАвтоматика НПЦ (13)
  РИР (Росатом Инфраструктурные решения) (3)
  OneFactor (Уанфактор) ЕдиныйФактор (3)
  Сбербанк (2)
  Яндекс (Yandex) (2)
  Другие (45)

  БизнесАвтоматика НПЦ (7)
  РИР (Росатом Инфраструктурные решения) (3)
  Департамент информационных технологий Москвы (ДИТ) (3)
  Яндекс.Облако (Yandex.Cloud) (2)
  Axenix (ранее Аксенчер Россия) Аксеникс (2)
  Другие (61)

  БизнесАвтоматика НПЦ (3)
  Университет Иннополис (2)
  Мобильные ТелеСистемы (МТС) (1)
  Моделирование и цифровые двойники (МЦД) (ранее CADFEM CIS, КАДФЕМ Си-Ай-Эс) (1)
  Наносемантика (Nanosemantics Lab) (1)
  Другие (19)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  БизнесАвтоматика НПЦ (2, 117)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Доверенная среда (1, 13)
  РИР (Росатом Инфраструктурные решения) (3, 8)
  Другие (246, 109)

  Доверенная среда (1, 5)
  Большая Тройка (2, 4)
  Цифра (1, 4)
  БизнесАвтоматика НПЦ (1, 3)
  Умная Логистика (2, 2)
  Другие (6, 8)

  БизнесАвтоматика НПЦ (1, 13)
  РИР (Росатом Инфраструктурные решения) (2, 3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (1, 2)
  МегаФон (2, 1)
  Нетрика Медицина (1, 1)
  Другие (6, 6)

  БизнесАвтоматика НПЦ (1, 7)
  РИР (Росатом Инфраструктурные решения) (3, 4)
  CM.Expert (АвтоЭксперт) (1, 2)
  Датакаталог (1, 2)
  Цифра (1, 2)
  Другие (12, 12)

  БизнесАвтоматика НПЦ (1, 2)
  Rocket Group (Рокет Групп) (1, 1)
  Наносемантика (Nanosemantics Lab) (1, 1)
  Российская ассоциация экспертов рынка ритейла (1, 1)
  СПбГУ ИТМО (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики) (1, 1)
  Другие (6, 6)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 117
  Большая Тройка: АИС Редактор территориальных схем - 39
  Доверенная среда: Триафлай BI-платформа - 13
  ZIIoT Платформа для работы с промышленными данными - 8
  Oracle Big Data Appliance - 7
  Другие 116

  Доверенная среда: Триафлай BI-платформа - 5
  ZIIoT Платформа для работы с промышленными данными - 4
  Visary BI Платформа бизнес-аналитики - 3
  EMC Greenplum Data Computing Appliance - 2
  Большая Тройка: АСУ Управление отходами - 2
  Другие 10

  Visary BI Платформа бизнес-аналитики - 13
  Росатом Цифровое теплоснабжение - 2
  PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2
  N3.Аналитика - 1
  МегаФон: Аналитика городской среды - 1
  Другие 6

  Visary BI Платформа бизнес-аналитики - 7
  Arenadata Catalog - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Росатом Цифровое теплоснабжение - 2
  CM.Expert Data Mining платформа - 2
  Другие 14

  Visary BI Платформа бизнес-аналитики - 2
  Rocket Group: rTIM Платформа генеративного дизайна территорий - 1
  Arenadata Catalog - 1
  Наносемантика NLab Marker - 1
  Softline Digital: RozniTech Платформа для сетевого ритейла (ранее Retailix.Ai) - 1
  Другие 3