VK-LSVD (Large Short-Video Dataset)

Продукт
Разработчики: VK (ранее Mail.ru Group)
Дата премьеры системы: 2025/08/27
Технологии: Big Data

Основная статья: Большие данные (Big Data)

2025: Представление VK-LSVD

Исследователи AI VK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы, чтобы делать сервисы и продукты более персонализированными. Об этом VK сообщила 27 августа 2025 года.

Датасет включает 40 миллиардов обезличенных уникальных взаимодействий 10 миллионов пользователей с 20 миллионами коротких видео за шесть месяцев (январь-июнь 2025) в том числе агрегированные лайки, дизлайки, шеры, продолжительность просмотра и контекст воспроизведения.

Все данные представлены в формате числовых идентификаторов, что обеспечивает полную конфиденциальность. Для каждого ролика предоставлен эмбеддинг (числовое описание содержимого), а для каждого пользователя предоставлены социально-демографические характеристики. Это позволяет исследователям строить модели, ориентированные и на поведенческие данные, и на контент.Как построить цифровой фундамент для мебельного ритейла будущего 8 т

Короткие видео – формат для рекомендательных алгоритмов. В отличие от музыки, подкастов или длинных видео они не могут потребляться в фоновом режиме, а каждый показанный ролик получает от пользователя некоторую реакцию. Даже если пользователь не оставит лайк, пропуск или досмотр видео уже считается обратной связью.

Датасет VK-LSVD

«
На август 2025 года не так много больших открытых датасетов, на базе которых можно обучать и оценивать модели. Для построения точных рекомендательных алгоритмов важно учитывать не только явные реакции пользователей, но и дополнительные сигналы: продолжительность просмотра, контекст, содержимое. VK-LSVD — важный шаг к формированию исследовательской среды, в которой можно проверять гипотезы и строить точные модели на основе реальных данных. Мы планируем развивать датасет, и уже совсем скоро проведем открытое соревнование для инженеров, – отметил Дмитрий Кондрашкин, директор по AI в VK.
»

Вместо деления на фиксированные размеры датасета, VK-LSVD позволяет гибко настраивать выборку под задачи конкретного исследования. Инженеры могут самостоятельно задать нужный объём данных, выбрать, как именно их отбирать — случайным образом или по популярности. Такой подход позволяет адаптировать датасет под реальные задачи и вычислительные мощности, которые есть у команд. И применять VK-LSVD как для академических проектов, так и для масштабных индустриальных экспериментов.



Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (123)
  Большая Тройка (46)
  Сбербанк (16)
  Умная Логистика (14)
  Доверенная среда (13)
  Другие (610)

  БизнесАвтоматика НПЦ (4)
  РИР (Росатом Инфраструктурные решения) (3)
  CM.Expert (АвтоЭксперт) (2)
  Сбер Бизнес Софт (2)
  Департамент информационных технологий Москвы (ДИТ) (2)
  Другие (60)

  БизнесАвтоматика НПЦ (6)
  Сбер Бизнес Софт (3)
  Университет Иннополис (2)
  TData (ТДата) (2)
  Наносемантика (Nanosemantics Lab) (2)
  Другие (75)

  БизнесАвтоматика НПЦ (7)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (6)
  Цифровые технологии и платформы (ЦТиП) (3)
  Ростелеком (3)
  Цифра (2)
  Другие (94)

  Ростелеком Центр (ЦентрТелеком) Макрорегиональный филиал (1)
  Т1 (1)
  Триафлай (1)
  Другие (4)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (3, 122)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Триафлай (1, 14)
  Цифра (2, 12)
  Другие (321, 168)

  РИР (Росатом Инфраструктурные решения) (3, 4)
  БизнесАвтоматика НПЦ (1, 4)
  Сбербанк (2, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Цифра (1, 2)
  Другие (17, 18)

  БизнесАвтоматика НПЦ (1, 5)
  Сбербанк (3, 3)
  DataCatalog (ДатаКаталог) (1, 3)
  Luxms (1, 3)
  TData (ТДата) (1, 2)
  Другие (19, 22)

  БизнесАвтоматика НПЦ (1, 7)
  РИР (Росатом Инфраструктурные решения) (2, 2)
  Data Sapience (Дата Сапиенс) (1, 2)
  Цифра (1, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Другие (11, 12)

  Триафлай (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 122
  Большая Тройка: АИС Редактор территориальных схем - 39
  Триафлай BI-платформа - 14
  ZIIoT Платформа для работы с промышленными данными - 12
  Luxms BI - 11
  Другие 161

  Visary BI Платформа бизнес-аналитики - 4
  ZIIoT Платформа для работы с промышленными данными - 2
  CM.Expert Data Mining платформа - 2
  Росатом Цифровое теплоснабжение - 2
  Arenadata Catalog - 2
  Другие 17

  Visary BI Платформа бизнес-аналитики - 5
  Luxms BI - 3
  Arenadata Catalog - 3
  Retail Rocket: Smart Placement Ads - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Другие 16

  Visary BI Платформа бизнес-аналитики - 7
  Luxms BI - 2
  Data Ocean Nova Платформа данных - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Arenadata Catalog - 2
  Другие 11

  Триафлай BI-платформа - 1
  Другие 0