Разработчики: | |
Дата премьеры системы: | июль 2019 г |
Отрасли: | Интернет-сервисы |
Технологии: | Речевые технологии |
2019: Анонс
В середине июля 2019 года Google анонсировала программное обеспечение, которое помогает людям с нарушениями речи полноценно общаться. Инструмент получил название Parrotron.
Он использует глубокую нейронную сеть, обученную преобразовывать нетипичную речь в свободную и понятную. Технология конвертирует голос в текст и обратно, не прибегая к распознаванию движения губ и другим визуальным сигналам.
Google подключила к нейросети аудиоматериалы суммарной продолжительностью 30 тыс. часов, которые содержат миллионы анонимных фрагментов разговоров. По словам разработчиков, Parrotron значительно уменьшает количество ошибок при распознании речи для глухих — вероятность ошибки снизили с 89% до 25%. В Google не намерены останавливаться на достигнутом и обещают дорабатывать технологию.
Как пишет издание VentureBeat, к июлю 2019 года миллионы людей по всему миру имеют нарушения речи. В США такие отклонения замечены у 7,5 млн человек, примерно 5% американских первоклассников испытывают проблемы с высотой, громкостью и качеством звукопроизношения. Многообразие отклонений осложняет разработчикам ИИ-систем понимание вопроса и создание систем распознавания и синтеза речи. Им приходится приспосабливать свои технологии к отклонениям, по которым доступны небольшие наборы данных для обучения.
Parrotron облегчает пользователям с нетипичной речью возможность общаться с другими людьми и быть понятыми ими и речевыми интерфейсами. Для этого используют комплексный метод преобразования речи, который с большей вероятностью воспроизводит предполагаемую речь пользователя… А поскольку Parrotron не сильно настроен на воспроизведение слов из предопределенного словарного набора, входные данные для модели могут содержать совершенно новые слова, иностранные слова, имена и даже бессмысленные слова, — сообщили работающие в Google исследователь Фади Биадси (Fadi Biadsy) и инженер-программист Рон Вайс (Ron Weiss).[1] |
Примечания
Подрядчики-лидеры по количеству проектов
Группа компаний ЦРТ (Центр речевых технологий) (43)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (27)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (25)
Naumen (Наумен консалтинг) (14)
Voice Systems Robotics (VSR, VS Robotics) (9)
Другие (148)
Группа компаний ЦРТ (Центр речевых технологий) (5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
Voice Systems Robotics (VSR, VS Robotics) (2)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2)
3iTech (ранее 3i Technologies) (2)
Другие (15)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
Naumen (Наумен консалтинг) (3)
Voice Systems Robotics (VSR, VS Robotics) (3)
Мегапьютер Интелидженс (Megaputer Intelligence) (2)
Другие (11)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Группа компаний ЦРТ (Центр речевых технологий) (16, 46)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 28)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (11, 27)
Яндекс (Yandex) (9, 14)
Avaya (4, 13)
Другие (300, 145)
Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
3iTech (ранее 3i Technologies) (1, 2)
Naumen (Наумен консалтинг) (1, 2)
Другие (7, 9)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
Naumen (Наумен консалтинг) (1, 3)
Voice Systems Robotics (VSR, VS Robotics) (1, 3)
Voximplant (Фастком) (2, 2)
Другие (9, 11)
МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
Unlimited Production (Анлимитед Продакшен) (1, 6)
Naumen (Наумен консалтинг) (2, 4)
Другие (12, 13)
Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 4)
SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
Ростелеком (1, 2)
Группа компаний ЦРТ (Центр речевых технологий) (1, 1)
Наносемантика (Nanosemantics Lab) (1, 1)
Другие (6, 6)
Распределение систем по количеству проектов, не включая партнерские решения
МТТ VoiceBox - 24
BSS Digital2Speech - 20
Voice2Med Система распознавания речи в медицине - 14
SmartLogger II - 12
Naumen Erudite - 12
Другие 160
BSS Digital2Speech - 5
Voice2Med Система распознавания речи в медицине - 4
Neuro.net Голосовой робот - 2
3i TouchPoint Analytics - 2
Naumen Erudite - 2
Другие 9
МТТ VoiceBox - 11
BSS Digital2Speech - 6
Naumen Erudite - 3
VS Robotics: VS Робот-оператор - 3
PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2
Другие 12
МТТ VoiceBox - 9
BSS Digital2Speech - 7
EXpress Защищенный корпоративный мессенджер - 6
SmartLogger II - 4
Naumen Erudite - 3
Другие 17