3i Speech Recognition API

Продукт
Разработчики: 3i Technologies
Дата премьеры системы: 2017/02/14
Дата последнего релиза: 2017/07/20
Технологии: ИБ - Биометрическая идентификация,  Средства разработки приложений

Содержание

3i Speech Recognition API — облачный сервис для распознавания речи из медиаконтента и последующей профессиональной обработки.

2017

3i Speech Recognition: финальная версия

20 июля консорциум 3i Technologies объявил о завершении формирования функционала облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition, предназначенного для работы с медиаконтентом и потоками голосовой информации в контакт-центрах. Сервис позволяет с точностью более 90% переводить «речь» в текстовый формат, параллельно редактируя его в пользовательском интерфейсе.

На финальной стадии 3i Speech Recognition дополнился личным кабинетом, хранилищем и редакторским интерфейсом, в котором можно обрабатывать текстовую информацию. Сервис позволяет работать с записями ТВ и радиоэфиров, материалами продакшн-студий, обращениями в контакт-центры и т.д. По словам разработчиков, 3i Speech Recognition дает возможность загружать в персонализированное облачное хранилище до 18 часов аудиоинформации, обрабатывая ее в несколько раз быстрее реального времени звучания. Затем выдается «стройный» текст, разбитый на предложения с расставленными знаками препинания. При прослушивании исходного материала система автоматически «подсвечивает» произносимый фрагмент в текстовом блоке.

В целом, по словам председателя совета директоров консорциума 3i Technologies Алексея Любимова, сервис ориентирован на специалистов, работающих с голосовой информацией и будет полезен службам контроля качества в контакт-центрах или консультантам, создающим сценарии телемаркетинговых акций, а также подразделениям телеканалов, которые занимаются расшифровкой телеэфиров.

Сервис отличают высокая точность распознавания речи, автоматическая расстановка знаков препинания, удобный редакторский интерфейс, который позволяет вносить правки в распознанный текст, и возможность интеграции с наиболее распространенными программными платформами автоматизации совместной деятельности рабочих групп.

В 3i Speech Recognition используются языковые и акустические модели, построенные с применением машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU.

Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область. Например, для перевода в текст телепередач определенной тематики или для обработки узкоспециализированных телемаркетинговых сценариев.

Сервис поддерживает русский, английский, китайский, немецкий и испанский языки. Кроме того, в 3i Speech Recognition может быть интегрирован сервис машинного перевода.

Тестовая версия сервиса доступна по ссылке.

Представлена бета-версия 3i Speech Recognition

14 февраля пресс-служба консорциума 3i Technologies сообщила о разработке облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition API. Сервис с точностью более 90% переводит теле- и радиоэфиры, медиа-архивы ТВ-каналов и радиостанций в текстовый формат.

3i Speech Recognition API работает с аудио и видео любой длительности, обрабатывает загруженные в облако файлы в несколько раз быстрее реального времени звучания и формирует на выходе текст, разбитый на предложения, включая знаки препинания.

Осциллограмма звука, (2015)
Осциллограмма звука, (2015)

Бета-версия 3i Speech Recognition API открыта для публичного тестирования.

«
Это специализированный сервис, ориентированный на обработку именно телевизионного или радио-контента. Мы разработали уникальные модели, которые позволили добиться очень высокой точности распознавания. Надеемся, что сервис будет полезен профессионалам, которые работают с медиа-контентом. В дальнейшем он может стать частью высокотехнологичных решений для массового потребителя, например, основой для перевода иностранных каналов и субтитрирования в режиме реального времени. Все технологии для создания такого продукта у компаний, входящих в консорциум, уже есть.

Алексей Любимов, председатель совета директоров консорциума 3i Technologies
»

В сервисе используются языковые и акустические модели, созданные с использованием машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована на основе GPU, что дает многократный прирост производительности, в сравнении с CPU.

Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область, например, для перевода в текст «экономических» или «отраслевых» передач, в которых спикеры используют профессиональную лексику.

Бета-версия 3i Speech Recognition поддерживает русский и английский язык. По мнению создателей сервиса, 3i Speech Recognition будет полезен для разработчиков программного обеспечения, системных интеграторов, специалистов в области создания и обработки медиаконтента (телерадиовещательные компании, продакшн-студии, креативные агентства, фрилансеры и т.д.).



СМ. ТАКЖЕ (1)


Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2016 год
2017 год
2018 год
Текущий год

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2016 год
2017 год
2018 год
Текущий год

  BioLink BioTime - 15 (14, 1)
  Indeed Access Manager (Indeed AM) - 6 (6, 0)
  JaCarta - 4 (2, 2)
  FPS.Bio - 3 (3, 0)
  Vocord FaceControl - 3 (3, 0)
  Другие 18

Подрядчики-лидеры по количеству проектов

За всю историю
2016 год
2017 год
2018 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2016 год
2017 год
2018 год
Текущий год

  Oracle (3, 4)
  IBM (2, 3)
  Диасофт (Diasoft) (2, 2)
  Abbyy Россия (Аби) (2, 2)
  Haulmont (Хоулмонт) (2, 2)
  Другие (13, 15)

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2016 год
2017 год
2018 год
Текущий год

  CUBA.platform - 2 (1, 1)
  Hyperledger Fabric - 2 (2, 0)
  IBM API Connect - 2 (2, 0)
  Java - 2 (2, 0)
  Diasoft MeNext - 2 (1, 1)
  Другие 17