Название базовой системы (платформы): | Наносемантика NLab Speech |
Разработчики: | Наносемантика (Nanosemantics Lab) |
Дата последнего релиза: | 2022/09/15 |
Технологии: | Речевые технологии |
Содержание |
Основные статьи:
- Синтез речи
- Распознавание речи (технологии, рынок)
- Речевые технологии: на пути от распознавания к пониманию
NLab Speech TTS - технология синтеза речи.
2023
В основе голосовой модели Левитана
Разработчик нейросетевых решений «Наносемантика» в год 110-летия со дня рождения знаменитого советского диктора Юрия Левитана представит синтез его голоса. К юбилею человека, чей голос объявлял по Всесоюзному радио о победе в Великой Отечественной войне, компания представит голосовую модель, созданную на базе платформы NLab TTS и обученную на редких записях, из архива Левитана. Подробнее здесь.
Как разработать чат-бота на основе современной диалоговой платформы
Для создания полноценного виртуального помощника нужно серьезно подойти к поиску платформы, позволяющей компаниям самостоятельно делать ботов под свои потребности. Российский разработчик ИИ-технологий компания «Наносемантика» на примере собственного продукта DialogOS рассказывает, какие возможности должна предоставлять клиенту среда разработки и обучения ботов. Подробнее здесь.
2022
Обновление словарей NLab Speech TTS
«Наносемантика» непрерывно оптимизирует технологию синтеза речи NLab Speech TTS, регулярно обновляя словари, экспериментируя с параметрами голосовых моделей и средствами обработки сигнала.
Чтобы понять клиента и ответить ему, голосовой помощник должен обладать хорошим словарным запасом. Специалисты «Наносемантики» постоянно отслеживают лексические единицы, которые часто употребляются в медийном пространстве, профессиональных сообществах и речи простых людей. Их добавляют в датасеты, используемые для обучения голосовой модели. Часто бывает, что NLab Speech TTS «узнает» неологизмы раньше, чем их фиксируют лексикографы.Экосистема PROMT: больше, чем перевод
В 2022 году в орфографический словарь ИРЯ им. В.В. Виноградова РАН вошло 151 слово, например: стендап, кроссфит, джетлаг, стобалльник, прокрастинация. И голосовой помощник Наташа (обученная голосовая модель, в основе которой - NLab Speech TTS) уже знает все эти слова и умеет правильно произносить, сообщили 15 сентября 2022 года представители «Наносемантики».
«Наносемантика» работает и над другими аспектами синтеза речи, а также интеллектуальными функциями помощников. Ведь «живой» голос автоматического собеседника и его способность самостоятельно отвечать на нестандартные вопросы может повысить лояльность клиентов в 2-3 раза, подчеркнули в компании.
Чтобы улучшить качество датасетов и расширить возможности кастомизации, «Наносемантика» расширяет пул дикторов: собирает речь известных людей, мужские и женские голоса. Для естественного звучания речи и правильного интонирования на русском и английском языке компания работает со средствами синтеза и обработки речевого сигнала: вокодерами, фонетизаторами, нормализаторами, постпроцессингом.
Аналитики ожидают, что к 2024 году количество голосовых устройств сравняется с населением Земли. По заявлению представителей «Наносемантики», компания работает над тем, чтобы искусственные голоса звучали естественно, мелодично и грамотно.
Как работает NLab Speech TTS
- Обучение голосовой модели: для разработки и запуска технологии синтеза речи «Наносемантикой» были обучены две голосовые модели (Наташа и Артём), используя для этого нейронные сети.
- Поэтапный процесс синтеза речи:
- Сначала NLP-препроцессор отвечает за подготовку данных и используется в ситуациях когда, например, необходимо расставить ударения, «е/ё» и так далее. Этот процесс осуществляется автоматически с помощью словарей и нейронных сетей;
- Движок переводит текст в мелспектограммы;
- Вокодер переводит мелспектограммы в голос (для каждого диктора обучается обучается своя модель);
- Постобработка — корректируется скорость, тон и громкость синтезируемого аудио.
(данные на сентябрь 2022г.)
Включение в Реестр отечественного ПО
В марте 2022 года технология NLab Speech ASR была включена в Единый реестр российских программ для электронных вычислительных машин и баз данных. Одновременно с NLab Speech ASR в Единый реестр также была включена NLab Speech TTS.
Подрядчики-лидеры по количеству проектов
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение систем по количеству проектов, не включая партнерские решения
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)