2021/03/25 08:49:30

Юрий Ледаков, BSS:
С помощью нашего робота становится возможен режим персонального обслуживания для каждого клиента

Современный виртуальный ассистент – это помощник-работяга для бизнеса без претензий на сверхспособности. Пока бизнес не особо доверяет роботам, зато у его клиентов ожидания, наоборот, превышают существующие технические возможности умных машин. О том, где стоит искать прорывные идеи в области нейротехнологий, TAdviser рассказал Юрий Ледаков, руководитель направления развития голосовых продуктов и интеллектуальных сервисов компании BSS[1].

Содержание

Юрий
Ледаков
Наша задача – не распознать речь, потому что это всего лишь одна из функций голосовой ИТ-системы, а понять смысл сказанного и намерение человека

О мифах и реальности в сфере распознавания голоса

Юрий, в последние годы все, что связано с искусственным интеллектом, машинным обучением и прочими нейросетевыми технологиями, приобрело некий сакральный смысл, и ожидания обывателей при этом явно завышены. В этой связи очень полезна точка зрения профессионала на нынешний взлет развития коммуникативных технологий – на какой высоте проходит этот полет?

ЮРИЙ ЛЕДАКОВ: Коммуникативные технологии – это, в первую очередь, новый машинный интерфейс, который позволяет человеку общаться с компьютером на привычном языке, вести свободный диалог. Мы вошли в эру естественных интерфейсов коммуникации.

На март 2021 года на рынке присутствует огромное количество продуктов, использующих машинное обучение для реализации чат-ботов, голосовых консультантов и так далее – ими уже никого не удивишь. Главный драйвер дальнейшего развития, как я это вижу, максимальная персонализация общения в рамках человеко-машинных коммуникаций с применением биометрических технологий, которые помогают точно и быстро «узнавать» собеседника.

Технологии имитируют наши естественные циклы взаимодействия с окружающей средой. Когда нам поступает звонок с незнакомого номера, а мы слышим знакомый голос, то достаточно быстро понимаем, кто на том конце провода. Мы быстро узнаем голоса друзей, родственников, близких нам людей, но в отличии от компьютера запомнить все, что мы слышали в своей жизни невозможно. Машина обладает безграничной по сравнению с человеческой памятью и огромной скоростью обработки данных. С помощью биометрической технологии мы стали способны идентифицировать личность за несколько мгновений в базах с миллионами образцов голосов. Российский рынок CRM-систем: оценки, тренды, крупнейшие поставщики и перспективы. Обзор TAdviser 149 т

Машина способна анализировать то, о чем говорит человек, тем самым идентифицируя его по косвенным признакам, опираясь не только на характерную акустику речи индивидуума. Биометрический анализ дополняется когнитивными способностями технологий искусственного интеллекта.

Робот способен мгновенно получать данные из информационных системам, например, CRM или АБС по номеру телефона звонящего или продиктованному номеру карты.

Используя множество связанных знаний, полученных в ходе общения, мы получаем полный портрет личности и способны эффективно управлять разговором.

Клиент доволен - ведь его сразу узнают и обслуживают индивидуально, без лишних вопросов. Персонификация в большинстве случаев воспринимается крайне позитивно. Создается эффект естественной коммуникации с живым человеком, другом, знакомым.

По уровню и качеству обслуживания такой подход очень сильно напоминает VIP-обслуживание, когда за каждым клиентом закреплен персональный менеджер.

Помните легенду про Александра Македонского? Говорят, что он помнил имена всех солдат своего войска. Обычному человеку это не доступно, а голосовая ИТ-система может стать таким «Александром Македонским» и помнить всех клиентов банка «в лицо», по голосу и другим деталям.

Вы нарисовали картинку идеального виртуального ассистента. Наверное, не все существующие на рынке коммуникативные ИТ-системы работают на таком уровне? Но в то же время описания различных голосовых технологий обещают уровень распознавания голоса не ниже 98% и даже выше 99%. Как следует относиться к утверждению о качестве распознавания голоса практически на уровне 100%?

ЮРИЙ ЛЕДАКОВ: Я совершенно точно скажу, что не бывает распознавания голоса 100% даже у человека. В естественных условия мы в среднем слышим 95% речи. Наш мозг восстанавливает смысл, нивелируя потери и искажения акустического сигнала.

В реальной жизни есть много факторов, которые ухудшают уровень распознавания, но, в целом, можно говорить, что адекватными является 85-95%, этого достаточно чтобы точно понять смысл или восстановить искаженные помехой фрагменты речи.

Человеческий мозг адаптируется, применяет когнитивные механизмы для восстановления смысла. Аналогично функционирует распознавание речи - с помощью машинного обучения дополняет смысл высказывания. Поэтому, подчеркну, наша задача – не просто распознать речь (хотя соответствующая технология именно так и называется - это всего лишь одна из функций коммуникативной ИТ-системы), главное - максимально точно понять смысл и намерения человека.

Машина, наделенная свойствами понимания, опознавания и распознавания становится нашим двойником с неограниченными ресурсами памяти и быстродействия, реализуя главную задачу технологии – улучшение естественных способностей человека. Единственное, что следует отметить: этот цифровой двойник не обладает какой-либо креативностью в той форме, которая присуща человеку, он может некоторым образом лишь эмулировать эту свойство.

На рынке сейчас есть понятие «продающий робот». Это проще реализовать?

ЮРИЙ ЛЕДАКОВ: Это, скорее, маркетинговый термин. На самом деле машина сама ничего не продает. Она, условно говоря, настраивается таким образом, чтобы реализовывать (скопировать) наилучшие практики успешной команды продавцов организации.

В ходе разговора в нужный момент в системе срабатывает «флажок», что именно сейчас клиент с высокой вероятностью готов приобрести товар. Внимание системы сосредоточено на том, в какой момент времени и какие мотивационные аргументы предлагать.

Мы управляем ожиданиями и потребностями, четко понимаем, как необходимо доносить информацию. Система Natural Language Proceccing (NLP) должна быть релевантна каждой конкретной ситуации, способна в режиме онлайн вести естественный диалог и использовать весь спектр технологий: распознавания речи, смысла, биометрии.

Когда начинается коммуникация, мы понимаем, кто с нами общается, его пол, возраст, система «поднимает» весь бэкграунт взаимодействия клиента с компанией. Понимаем, о чем он говорит и быстро адаптируемся под нужную тематику.

Если беседа выходит за ожидаемые рамки и робот видит, что в этом направлении есть высокая вероятность продажи, он может развить успех, адаптивно подстроившись под новую тему диалога.

Гармоничный ансамбль технологий, предоставляет возможность общаться с виртуальным ассистентом естественно, комфортно, что в числе прочего позволяет достичь успеха даже в холодных продажах.

Для качественной работы виртуального помощника его необходимо обучить. А для этого нужно обеспечить его информацией – загрузить в систему записи разговоров с клиентами (чем больше и качественнее записи, тем лучше), разметить разговоры по тематикам, описать скрипты и т.п. От количества исходной информации зависит качество «обучения» и последующая эффективность помощников.

О роли процессного управления

Получается, что главная линия конкуренции между поставщиками голосовых решений на март 2021 года состоит в умении конкретного вендора и заказчика создать всеобъемлющую базу знаний?

ЮРИЙ ЛЕДАКОВ: Я бы сказал про умение создать ансамбль технологий и выстроить процесс общения с клиентами, то есть фактически предугадать, как этот процесс будет «проигрываться» на конкретном человеке еще до коммуникации, а потом применить эти знания во внедряемой системе. Вновь используем аналогию с реальным миром. Переговорщик всегда готовится к предстоящим переговорам: изучает, кто будет в них участвовать, уточняет свои задачи, анализирует, какие гипотезы будут адекватно восприняты, выявляет слабые и сильные стороны участников, понимает точные цели и способы их достижения. Вычисляет точку баланса интересов - «золотую середину» и с этим приходит на переговоры. А когда коммуникация в процессе переговоров начинает развиваться в неожиданном ключе, то он обращается к копилке жизненного опыта, определяя набор паттернов которые в прошлом обеспечили необходимый результат, синтезирует новые. Примерно таким образом обучается наша нейросеть: хороший паттерн! Можно применить в следующий раз.

Искусство синтеза максимального количества успешных паттернов из доступных данных, в онлайн режиме – основная задача для игроков рынка, в том числе и компании BSS.

О специфике конкуренции среди поставщиков когнитивных технологий для коммуникаций

Сложность задачи говорит о том, что на нашем рынке могут найти себе место под солнцем, как компании, которые узко заточены на определенные предметные области и прикладные задачи, так и крупные компании с большими финансовыми возможностями и хорошей научной базой, которые могут создавать универсальные платформенные решения. Ваша компания в каком сегменте работает?

ЮРИЙ ЛЕДАКОВ: Мы выступаем за платформенный подход. Идем по принципу формирования единого ансамбля технологий и комплексного управления этим ансамблем - это наша омниканальная диалоговая платформа Digital2Speech[2]. Подобно дирижеру в оркестре, единая система управления задачами/процессами/технологиями позволяет эффективно достигать желаемого результата.

Наша система способна работать, как говорится, на одном дыхании. Единая система управления, хорошо согласованные технологии – наш рецепт успеха. У нас присутствуют все необходимые технологии для реализации коммуникаций с клиентами на основе искусственного интеллекта. Много наработок для решения различных отраслевых задач.

Наши решения применяются и востребованы в различных отраслях экономики: в финансовой сфере, госсекторе, здравоохранении, контакт-центрах, телекоме, электронной коммерции, страховом бизнесе, транспорте, торговле, логистике, недвижимости и образовании.

Кстати, в 2020 году мы отметили кратный взрывной рост проектов с использованием наших голосовых решений[3] по сравнению с предыдущим периодом. И это далеко не предел: пул проектов в разной стадии проработки уже обеспечил полную загрузку производственных подразделений компании.

Особый интерес наша диалоговая платформа Digital2Speech представляет для банков, поскольку ее можно развернуть на базе уже апробированной омниканальной платформы дистанционного обслуживания BSS BSS Digital2Go[4]. В итоге это дает возможность реализовать бесшовную коммуникацию с клиентами в самых разных каналах ДБО. Стек голосовых продуктов, основанный на собственных разработках BSS, позволяет избежать «лоскутной» автоматизации и использования зарубежного ПО.

Кроме того, Digital2Speech интегрирована с распространенными в банках АБС, CRM и роботизированными бизнес-процессами (RPA), что позволяет быстро запустить виртуального ассистента, готового к полноценной работе - в коробочном варианте от 48 часов. Скажу, что уже на март 2021 года десятки банков внедряют голосовой банк[5] от BSS.

О практических аспектах создания идеального голосового робота

Как выглядят на март 2021 года главные проблемы создания интеллектуального голосового робота?

ЮРИЙ ЛЕДАКОВ: На март 2021 года существует два пути внедрения голосовых технологий в компаниях. Первый – это когда компания покупает решения от различных вендоров и объединяют их в одну платформу.

Это однозначно провальный путь, т.к. объединяемые решения имеют разную идеологию и не достигается главное - транспарентность и переиспользование знаний. Мы видим, что в ходе развития технологий компании уходят от специализации на отдельных компонентах в пользу объединённых решений. Использование решений от нескольких различных вендоров, построенных на разных языковых и когнитивных моделях, является главным препятствием для построения зрелых решений в бизнесе.

Другой подход – эволюционный, когда принципы сыгранного ансамбля закладываются еще при проектировании. Поставщики платформенных решений обладают наиболее развитым функционалом, возможностями для кастомизации, наиболее современными языковыми моделями, адаптированными к конкретным нуждам и всеохватывающей интеграционной поддержкой.

Лидерство не достигается на основе комбинирования отдельных компонентов от разных вендоров.

Как ваш принцип создания ансамбля реализуется в конкретной предметной области на конкретном примере?

ЮРИЙ ЛЕДАКОВ: Расскажу на примере близкой нам банковской отрасли. В нашем ансамбле омниканальной диалоговой платформе Digital2Speech есть модули распознавания речи, извлечения смысла, ведения диалога на естественном языке, синтеза речи, речевой аналитики, голосовой биометрии. Digital2Speech также интегрирована с банковскими АБС, CRM и другими бизнес-бэкенд-системами

Как это работает на примере поддержки процесса коммуникации в банке?

Клиент обратился в контактный центр. Наша система, с первой секунды, начинает управление процессом коммуникации, получая данные о клиенте с внутрикорпоративной информационной среды. Наш робот не просто строит коммуникации на основе данных реального времени, то есть относящихся именно к текущему моменту. Он анализирует историческую информацию, хранящуюся в компании. Это позволяет обслужить большинство клиентов без переключения на оператора. Машина также может отработать сценарий продажи, сделав это самостоятельно или же подключив в нужный момент наиболее опытного сотрудника в данном вопросе.

Если разговор передан оператору, робот не отключается, а присутствует как стенографист беседы или коммуникационный суфлер-помощник, выдающий оператору краткие фоновые подсказки, советующий, как вести диалог.

Машина записывает и анализирует весь разговор клиента с оператором или сотрудником банка, обеспечивает полный цикл контроля качества и аналитики.

В итоге мы получаем все знания о коммуникациях в компании. Аккумулируем, обогащаем историю клиента, взаимоотношения с ним, их развитие в динамике. Речевая аналитика[6] формирует полный портрет не только клиента, но и сотрудника. Мы способны выявить лучшие практики, применяемые нашими менеджерами и на их примере обучить новичков. Мы можем выявить успешных и неуспешных сотрудников. Мы можем увидеть, как передается опыт успешных сотрудников. Робот аккумулирует опыт успешных сделок, обучается лучшим практикам для реализации автоматических сервисов. Представляете: человек уволился, а его лучшие практики и знания остались.

Об аспектах управления всем ансамблем технологий и бизнес-аналитике

Скажите, а может ли ансамбль коммуникативных технологий помогать бизнесу больше, чем просто поддерживать беседу с клиентом или подсказывать оператору?

ЮРИЙ ЛЕДАКОВ: Возьмем, для примера, вывод на рынок нового продукта. Для анализа его эффективности часто используют опросы и другие косвенные инструменты оценки. Получение обратной связи от рынка, как правило, сопряжено с большой задержкой и частыми искажениями при интерпретации информации.

Наш робот позволит, при выводе продукта на рынок, мгновенно получить актуальную информацию о том, как на него реагирует потребитель. Всю информацию мы получаем из единой автоматической аналитической системы с единым центром управления.

Наш робот способен в режиме онлайн фиксировать и понимать все 100% коммуникаций, видеть проблемные места, подсказывать варианты действий, улучшать процессы и стимулировать продажи.

Менеджеры, используя набор простых и эффективных инструментов анализа и управления, способны максимально быстро реагировать - менять новый продукт, опираясь на живой отклик клиента - нивелировать слабые стороны, усиливать позитивные аспекты продукта и совершенствовать стратегию продаж в целом. Мы можем вносить необходимые корректировки, мгновенно получать результат и сразу передавать эти сведения в канал продаж, вырабатывать наиболее успешные стратегии.

О возможностях применения системы в разных отраслях экономики

Получается своеобразный центр управления для бизнеса и мощный инструмент анализа социальной сферы в рамках государственного управления?

ЮРИЙ ЛЕДАКОВ: Да, именно так. Возьмите, например, типовой функционал ЦУР (Центра управления регионом). Основная идея – возможность быстрого реагирования и глубокое понимание проблем граждан. Сбор обратной связи осуществляется на принципах, скажем так, традиционных социологических подходов, сбора сведений в интернете и т.п. Граждане обращаются к государству не только через интернет или портал государственных услуг. Есть еще звонки в контактные центры, физическое посещение различных ведомств или многофункциональных центров госуслуг (МФЦ), которые сопровождаются естественными вербальными коммуникациями – это и есть важная первичная информация, именно она в большинстве случаев содержит более полную информацию о сути проблемы и недовольства гражданина.

Но, как правило, это разрозненные коммуникационные каналы, они не позволяют построить единую картину реальных процессов. В результате человек может не решить свой вопрос, хотя отдельные сегменты коммуникации выглядят идеально. Требуется организация бесшовного контроля всего цикла обслуживания гражданина, который можно создать с помощью унифицированной аналитической среды с учетом различных способов взаимодействия. Требуется расширение способов контроля и анализа для различных типов коммуникационных каналов. Например, перспективное направление – получать исходную речевую информацию не только с телефона, но, скажем, с помощью переносного устройства, которое стоит на столе или крепится к петличке форменной одежды, и с помощью которого осуществляется постоянный сбор информации. Это направление начинает динамично развиваться. Наша система готова к подключению таких каналов и реализации подобных проектов. Готова обеспечить обработку новых данных и их комплексный анализ.

Как независимый наблюдатель наш голосовой робот может присутствовать во всех точках обслуживания. Начиная от появления первичных потребностей гражданина, когда обращение поступает в электронный канал, до посещения ведомств и получения услуг. Весь жизненный путь обращения оказывается под полным контролем единой системы.

Осталось узнать у вас, над чем сегодня работают поставщики коммуникационных технологий в мире? На какие вызовы готовят ответы? И каких новостей ожидать российскому рынку от компании BSS в ближайшем будущем?

ЮРИЙ ЛЕДАКОВ: На март 2021 года я бы выделил несколько ключевых технологических трендов в сфере коммуникационных технологий.

Первое - обучение моделей для понимания речи на малых объемах данных. Технологический прорыв в этой области позволяет обучить робота понимать сказанное и извлекать из речи информацию на нескольких десятках примеров. В то время как еще недавно для этого требовалось вручную размечать десятки тысяч записей.

Второе – это переход на использование end-to-end подхода в обучении моделей искусственного интеллекта. Чтобы было понятно неспециалистам – традиционный подход предполагает разбивку задач для искусственного интеллекта на подзадачи, обучение отдельной модели для каждой подзадачи и объединение результатов работы каждой модели для получения общего результата.

Например, для распознавания речи тренируется акустическая модель которая умеет превращать аудио сигнал в так называемые фонемы, кирпичики устной речи заменяющие буквы в тексте, языковая модель складывает получившиеся фонемы в слова и предложения, а смысловая модель понимает смысл сказанного. Но ведь наш мозг не делает таких операций – вы слышите речь и понимаете суть сказанного. Точнее, все эти операции скрыты внутри нейронной сети человеческого мозга. Так же действует и end-to-end подход – модель обучается всего на двух уровнях – на входе аудио сигнал, на выходе – текст и его смысл. Фонемы, слова, предложения – вся логика скрыта внутри одной большой нейросетевой модели как это происходит в человеческом мозге.

Внедрение end-to-end моделей в технологию распознавания речи позволяет добиться недостижимой ранее точности и, главное, требует существенно меньше данных для обучения на конкретной предметной области, сокращая срок разработки и внедрения голосовых роботов. End-to-end подход может применяться и в построении диалоговых моделей, когда вместо написания сценариев что робот должен сказать в ответ на какую реплику клиента в данной ситуации, вы просто обучаете модель на примерах диалогов как они происходили между клиентом и оператором, и робот учится вести диалог в похожем русле.

Также последние исследования рынка подтверждают что одно из активно развивающихся направлений это голосовая биометрия. К примеру, в недавнем отчете Forrester говорится, что современные решения голосовой биометрии предлагают режимы работы, основанные на парольных фразах и одноразовой аутентификации по свободной речи в первых фразах диалога, но при этом, будущее - за решениями, которые слушают и аутентифицирует клиента в течение всего разговора с сотрудником организации или с системой IVR.

Все обозначенные тренды многим компаниям только предстоит открыть для себя и освоить, а компания BSS уже на март 2021 года предлагает работающие решения по этим технологическим направлениям. Для нас это свершившийся факт.

Мы лидеры в сфере разработки систем дистанционного банковского обслуживания (ДБО) и 26 лет сохраняем свои позиции. Мы нацелены на лидерство в части разработки и развития коммуникационной платформы. Серьезно инвестируем в это направление, собрали одну из лучших команд и чувствуем поддержку и доверие наших заказчиков и партнеров.

Примечания