Ваш город Москва?

24 января 2024

Что такое распознавание речи и нужно ли оно бизнесу

Что такое распознавание речи и нужно ли оно бизнесу Что такое распознавание речи и нужно ли оно бизнесу

Распознавание речи: что это и как это работает

Технология распознавания речи облегчает взаимодействие пользователя со многими сервисами. Большинство из нас сталкивается с ней каждый день. Мы используем голосовой поиск в Google и «Яндексе», просим «Алису» включить музыку в колонке или проложить кратчайший маршрут от дома до работы, записываемся онлайн к врачу или к парикмахеру, общаемся с голосовым помощником в техподдержке или на горячей линии.

Поговорим о том, как работает распознавание речи, что это такое, где применяется, и расскажем о современных сервисах для бизнеса, использующих эту технологию.

Что представляет собой распознавание речи

Основа технологии Speech-to-Text — нейросеть, умеющая переводить голос в текст с помощью сложного механизма обработки и анализа аудиоконтента. Искусственный интеллект помогает преобразовать звуки человеческой речи в буквы и слова, а затем строить на их основе фразы и предложения, которые в итоге складываются в связный текст.

Речевые технологии в бизнесе

Принципы работы Speech-to-Text

Главная задача нейросети, преобразующей человеческую речь в текст, — установить соответствие между буквой и картинкой на спектрограмме аудиозаписи. Чтобы искусственный интеллект мог отождествлять звуки и буквы, нейросеть обучают на первичном датасете, состоящем из голосовых аудиозаписей в сочетании с размеченным текстом. На входе она получает пару из текста и аудио, помогающую установить соответствие между аудиотреком и набором букв. 

На этапе обучения нейросети ИИ разбивает аудиозапись на отрезки из звуков и предсказывает вероятность соответствия их разным буквам. После этих вычислений машина пытается понять слово, сравнивая наборы из вероятных букв со словами в словаре.

Распознанные слова, в свою очередь, складываются в предложения и обрабатываются по смыслу с учетом контекста и знаков препинания.

Чем больше образцов человеческой речи (от людей разного пола, возраста, с разными особенностями произношения и интонациями) собрано в датасете, тем точнее она может распознавать сказанное. Если ИИ обучали на одном языке, вместо распознавания речи на другом получится непонятный набор слов. Чтобы решить эту проблему, нейросеть нужно дополнительно переобучить на данных другого языка.

Применение технологий распознавания речи

Перечислим, в каких повседневно используемых сервисах используются технологии распознавания речи:

  • голосовой поиск (поисковые системы, карты, навигаторы, сервисы вызова такси и каршеринга);
  • голосовые помощники (в банковских приложениях, в технической поддержке, на телефонных линиях);
  • системы умного дома (управление бытовой техникой, светом, домофоном с помощью голосового ассистента); 
  • голосовой ввод текстов и сообщений, в том числе со знаками препинания и разделением на предложения (удобен людям с нарушениями зрения и подвижности, а также тем, кто проводит много времени за рулем, находится в дороге или работает руками).

Речевые технологии в бизнесе

Технологии распознавания голоса широко применяются на телефонных линиях для взаимодействия с клиентами: в банках, медицинских учреждениях, государственных инстанциях, интернет-магазинах, техподдержке мобильных и интернет-провайдеров. Но этим их использование в бизнесе не ограничивается. Приведем еще ряд примеров практического применения сервисов Speech-to-Text для прикладных задач.

  • Голосовые меню. Человек звонит по телефону и общается вместо оператора с голосовым помощником, периодически нажимая нужные цифры. Робот легко заменяет на этом этапе администратора или сотрудника техподдержки. Он способен определить вопрос клиента, когда тот нажимает на цифру необходимого пункта. Современные голосовые помощники уже способны на большее и могут работать голосом с клиентскими запросами. Нейросеть фиксирует слова клиента, затем быстро распознает их и ищет самый релевантный ответ по ключевым словам в базе. Если ничего не находится либо клиента не удовлетворяет ответ, робот переключает запрос на оператора.
  • Социологические исследования и опросы. Стандартный набор вопросов и варианты ответов для опроса по телефону можно наговорить заблаговременно и проводить обзвоны без участия живого человека. Ответы респондентов тоже будут записаны автоматически.
  • Анализ и оценка работы телефонных операторов и менеджеров. Работу людей, общающихся с клиентами по телефону, дополнительно оценивают супервизоры. Они проверяют соответствие разговоров скрипту и работают со списком обязательных для работы менеджера или оператора составляющих: приветствием и представлением, объяснением цели звонка, наводящими вопросами. Искусственный интеллект способен обработать текст автоматически и определить наличие всех пунктов. Также обработанная информация о звонках может стать наглядным материалом, позволяющим совершенствовать скрипты продаж.
  • Автоматизация ввода информации в CRM. Телефонные операторы или роботы часто собирают личные данные клиентов. Технология распознавания речи позволяет автоматизировать этот процесс.
  • Персональные предложения. Искусственный интеллект может идентифицировать голос клиента при обзвоне, определить его пол и персонализировать предложения товаров и услуг на основе этой информации.

Взаимосвязь между распознаванием и синтезом речи

В основе технологий синтеза и распознавания речи лежит один и тот же механизм: соотношение слов и звуков при помощи нейросети. А вот порядок действий при обучении и нюансы различаются.

Чтобы искусственный интеллект смог научиться «говорить», нужно подсказать нейросети механизмы правильного перевода текста в аудио. В ходе обучения модель осваивает произношение разных текстов и пробует самостоятельно повторять похожие сочетания звуков.

Технология синтеза несколько сложнее: от робота требуется не только распознавание звуков, но и точная имитация человеческой речи. Мало просто прочитать текст: нужно расставить ударения, произнести каждое слово с нужной интонацией, выдержать паузы, обработать знаки препинания, различать омонимы и паронимы.

В распространенных в современном мире голосовых помощниках технологии распознавания и синтеза речи взаимосвязаны друг с другом и работают в паре. Обмен запросами происходит моментально. В результате получается имитация живого диалога.

Voicebox МТТ: распознавание речи для колл-центров

Сервис распознавания речи Voicebox от компании МТТ предназначен для улучшения качества работы колл-центров, интернет-магазинов, медицинских учреждений, служб доставки — всех организаций, где работа с клиентами завязана на постоянные телефонные звонки. Она помогает получать информацию от клиентов с помощью робота, без участия живого оператора, что значительно сокращает расходы на персонал.

Благодаря использованию искусственного интеллекта система позволяет получить информацию, которую невозможно получить при использовании стандартных телефонных кнопок: например, расписание общественного транспорта или календарь мероприятий.

При помощи технологии Yandex SpeechKit нейросеть легко подстраивается под беседу с человеком в режиме реального времени. Если человек продолжает говорить или перебивает, робот способен на время замолчать и возобновить диалог, выслушав собеседника.

Сервис может работать по заранее записанным звуковым файлам или синтезировать живую человеческую речь по готовому скрипту, используя 8 голосов от SpeechKit, интегрироваться с CRM и совершать действия при смене статуса. Кроме того, специалисты компании MTT помогут своим клиентам написать либо отредактировать скрипт продаж, собрать сценарии и проанализировать эффективность рекламных кампаний.

Стоимость работы Voicebox рассчитывается для каждого клиента индивидуально в зависимости от:

  • объема трафика;
  • обработки разных видов звонков (входящих или исходящих);
  • использования разных видов аудиофайлов (предзаписанных или синтезированных) в работе робота.

Автоматизация речевых технологий повышает скорость и результативность работы колл-центров. Такие рутинные задачи, как обработка и подтверждение онлайн-заказов, спецпредложения по телефону, подтверждение заявок на посещение, происходят намного быстрее и без лишних усилий. Это приводит к росту числа клиентов и добавляет доверия телефонным сервисам.


Вам может быть интересно

/promotions/protestiruyte-rabotu-voicebox/
2 2

Протестируйте работу VoiceBox

Испытайте возможности умного робота VoiceBox в интерактивных демо-кейсах.

В статье также упоминается

Читайте также

Оставьте заявку, и наш менеджер проконсуль­тирует вас и поможет с выбором услуг

Нажимая на кнопку, я даю согласие на обработку персональных данных в соответствии с политикой обработки персональных данных

Решения, которые вам помогут

Файл cookie – это небольшой фрагмент текста, передава­емый в браузер с сайта, который вы посетили. Он помо­гает сайту запомнить информацию о вас, например то, на каком языке вы предпочитаете его просматривать.