| Разработчики: | Яндекс (Yandex) |
| Дата премьеры системы: | 2025/05/28 |
| Технологии: | Big Data |
Основная статья: Большие данные (Big Data)
2025: Представление Yambda
Учёные Яндекса разработали и выложили в опенсорс Yambda - один из крупных датасетов для развития рекомендательных систем. Об этом Яндекс сообщил 28 мая 2025 года.
С помощью датасета учёные, исследователи и вузы со всего мира смогут тестировать и улучшать рекомендательные алгоритмы.
Датасет представлен в трёх вариантах: полная версия содержит 5 миллиардов данных, уменьшенные — 500 миллионов и 50 миллионов. Разработчики и исследователи смогут выбрать тот вариант, который отвечает их задаче и имеющимся вычислительным ресурсам.
Коммерческие компании редко публикуют датасеты для рекомендательных систем, поэтому в общем доступе мало актуальных и качественных данных для исследований в этой сфере. Доступ к качественным большим данным открывает возможности для научных исследований и привлекает к области внимание молодых ученых.
Yambda создан на основе обезличенных данных Яндекс Музыки, но использовать его можно для оценки качества любых рекомендательных систем. Yambda включает агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков. Все данные о пользователях и треках анонимизированы.
