Разработчики: | Яндекс (Yandex) |
Дата премьеры системы: | июнь 2021 г |
Отрасли: | Интернет-сервисы, СМИ, теле- и радиовещание |
2021: Запуск нейросети для генерации текста
В начале июня 2021 года «Яндекс» представил нейросеть для генерации текстов YaLM, а также сервис «Зелибоба», основанный на этих языковых алгоритмах. Ресурс, основанный на искусственном интеллекте, способен «предсказывать» построение предложения. При этом можно задавать параметры и необходимую стилистику текста. На выходе получится афоризм, тост, анекдот, рекламный слоган, новость, публикация для социальной сети и т. п.
У такой модели ровно одна задача — генерировать каждое последующее слово в предложении. Чтобы текст получился связным и грамматически правильным, во время обучения модель оценивает каждое предсказанное слово: например, решает может ли после «Мама мыла...» идти слово «бегать» или слово «раму», — говорится в описании сервиса. |
YaLM обучена на индексируемых «Яндексом» страницах, включая «Википедию», новостные статьи и книги, а также записи пользователей в социальных сетях и на форумах. Для обучения языковой модели в общей сложности было задействовано несколько терабайт русскоязычных текстов.
В рамках проекта был создан ряд моделей, отличающихся количеством параметров — от 1 до 13 млрд (в «Зелибобе» используется версия с 3 млрд параметров). Все они обучались на разнообразных образцах русскоязычных текстов. Разработчики использовали как свои, так и общедоступные датасеты, в том числе Taiga и RDT.Дмитрий Бородачев, DатаРу Облако: Наше преимущество — мультивендорная модель предоставления облачных услуг
К 7 июня 2021 года доступ к «Зелибобе» закрыт, хотя сервис работал тремя днями ранее. В «Яндексе» пояснили, что технология всё ещё находится в стадии внутреннего тестирования. Издание «N+1» успело попробовать работу платформы и поделилось соответствующими результатами:
В «Яндексе» утверждают, что алгоритм крайне быстро дообучается для работы в новом стиле — для этого ему необходимо от пяти до нескольких десятков примеров в целевом стиле.[1]