Синтез речи: что это такое и как работает, где применяется синтез речи

Чтобы научить разговаривать навигатор, «Алису» или любой другой виртуальный помощник, нужно использовать технологию синтеза речи. Разбираемся, что это такое, как работает и где можно применять.

Что такое синтез речи

Синтез речи — это преобразование текстовых данных в речевой сигнал. Технология Text-to-Speech (TTS) обрабатывает цифровую информацию, генерирует слова и фразы и воспроизводит аудио для озвучивания текста.

Программа с модулем TTS синтезирует речь «в прямом эфире», благодаря чему может общаться с пользователем в режиме реального времени. Виртуальные ассистенты и голосовые боты с TTS умеют:

отвечать на вопросы;
формулировать сложные предложения;
говорить с определенной интонацией;
расставлять ударения.

При разработке голосовых помощников используются разные методы акустического моделирования. Выбор метода зависит от ресурсов, технических возможностей и назначения робота. Рассмотрим основные подходы к решению задачи по синтезу речи.

Два подхода к синтезу речи

Метод компилятивного синтеза

Диктор заранее записывает множество звуковых фрагментов, из которых программа «склеивает» нужный текст. Как правило, размер каждого образца — меньше слова, то есть буквы и слоги. Все предзаписанные фрагменты хранятся в базе данных.

Данный метод позволяет синтезировать речь высокого качества, он несложен в реализации, но имеет недостатки:

низкая вариативность: у робота могут возникать проблемы с озвучиванием длинных предложений — монотонная речь, некорректные интонации, отсутствие смысловых пауз, неестественный ритм и темп;
ресурсоемкость: нейросети требуется много данных для тренировки, а для хранения словаря нужен большой объем памяти.

Метод компилятивного синтеза применялся при разработке голосового помощника Siri и в прошлом считался «золотым стандартом» речевых технологий. Сейчас данный подход тоже популярен: на его основе работают умные телефонные автоответчики, виртуальные ассистенты, онлайн-переводчики, озвучивания книг и другого текстового контента.

Метод параметрического представления сигнала

Параметрический синтез позволяет генерировать речь, почти неотличимую от человеческой. Метод решает проблемы компилятивного подхода:

программе нужно меньше данных для обучения;
база данных занимает меньший объем памяти;
речь звучит более естественно: робот генерирует верную интонацию, правильно расставляет акценты даже в сложных предложениях.

В основе параметрического синтеза — создание вероятностной модели, прогнозирующей акустические свойства речевого сигнала для конкретного текста. Система оперирует такими параметрами, как тон, длительность произношения каждого звука (фонемы), амплитуда звуковой волны.

Речевые технологии, использующие метод параметрического представления сигнала, имеют следующие преимущества:

более эмоциональная и выразительная речь;
разнообразие интонаций;
плавное звучание без заметных переходов в местах склейки, характерных для модели компилятивного синтеза.

Подход применяется в создании виртуальных помощников, способных поддержать живой диалог: например, для организации телефонного общения с клиентами, при автоматизации кол-центров, в сфере цифровых услуг.

Иногда в одном решении доступно несколько методов. Пример — голосовые боты VoiceBox от МТТ. Робот может преобразовывать текст в аудиосигнал двумя способами:

комбинируя предзаписанные MP3-файлы

или

синтезируя речь по заранее заданному скрипту.

Формат подбирается на основании функций будущего бота, а также ресурсов и потребностей вашей компании.

Как работает Text-to-Speech

Программы, умеющие разговаривать с пользователями, состоят из нескольких компонентов:

модуль распознавания речи пользователя;
центр обработки;
синтезатор речи.

Технология распознавания речи оцифровывает реплику пользователя, то есть преобразует речь в формат, доступный для понимания и анализа.

В центре обработки происходит определение смысла фразы и выбор нужного действия. Программа решает, какую операцию нужно выполнить и что сказать пользователю, то есть формирует ответ.

Затем алгоритм готовит выбранный ответ к озвучиванию: делит текст на фразы, которые нужно выделить интонацией, переводит цифры и числа в слова.

Чтобы сделать речь робота максимально грамотной, используется фонетическая транскрибация. Это описание предельно точного произношения, по которому программа понимает:

где ставить ударение;
какие буквы нужно озвучивать, а какие нет;
какой следует воспроизвести звук: мягкий или твердый, долгий или короткий.

Например, мы знаем, что в слове «здравствуйте» первая буква «в» не произносится, «е» звучит как «и», а ударение ставится на «а». Программа может узнать все эти нюансы из фонетической транскрипции, поэтому произнесёт это слово так же, как сказал бы живой человек.

Когда ответ сформирован, разобран на фонемы и готов к произношению, в работу вступает модуль синтеза речи. Робот читает текст, для чтения используется заранее заложенный голос. Пол, тембр и звучание можно выбрать на этапе создания программы. Например, VoiceBox МТТ может говорить одним из восьми премиум-голосов от Yandex SpeechKit.

Для каких задач пригодится перевод текста в аудио

Коммуникации с клиентами

Если сервис не предполагает полноценного общения с пользователями, то можно обойтись без TTS и искусственного интеллекта. Нужно заранее записать все реплики и задать правила их воспроизведения. Но чем сложнее сервис, тем больше сценариев развития диалога придётся предусмотреть.

Пример — виртуальный консультант интернет-магазина. Программа принимает входящие звонки от клиентов и предоставляет запрашиваемую информацию. Что может интересовать клиентов:

ассортимент, цены, скидки;
наличие товаров;
адреса и режим работы торговых точек;
способы оплаты и доставки;
статус уже оформленного заказа;
расположение ближайшего пункта самовывоза;
возможность вернуть или заменить бракованный товар.

Задач, которые решает бот, много, и спрогнозировать все возможные варианты ответов не получится. Для реализации столь многофункционального помощника лучше использовать голосовые технологии на базе ИИ.

В этом случае программа сможет:

отвечать на большую часть вопросов пользователей;
использовать в разговоре персональную информацию клиента из базы CRM: например, обращаться по имени, называть последний адрес доставки, озвучивать размер скидки или количество бонусных баллов;
повторять информацию, только что полученную от клиента: например, подтверждать состав заказа или дату и время доставки.

Аналогичные возможности доступны и в других сферах бизнеса. Кроме торговли, речевые боты широко используются в медицине, сфере услуг, дистанционного образования, при организации линии техподдержки, для проведения опросов и сбора обратной связи.

Виртуальные ассистенты

Разговорные технологии широко используются в умных помощниках. С помощью таких программ можно проложить маршрут, забронировать отель, вызвать такси или заказать еду на дом. Приложения и сервисы распознают голосовые команды пользователя, повторяют информацию для подтверждения, а затем озвучивают стоимость услуги, дату и время брони.

Озвучка текстового контента

Голосовой бот можно внедрить в мобильное приложение, онлайн-сервис или на сайт для преобразования текста в аудио. Это позволит повысить лояльность той части аудитории, которая предпочитает воспринимать информацию на слух. Технология используется в создании аудиокниг, озвучке лекций, презентаций, интерфейсов, субтитров.

Маркетинг и холодные звонки

Можно запустить автоматический обзвон клиентской базы для информирования аудитории о новых услугах, продуктах и акциях. Робот с технологией TTS сможет не только озвучить маркетинговое сообщение, но и ответить на вопросы, принять заказ, оформить запись или бронирование.

Эффективность голосовых ботов при холодном обзвоне может быть выше, чем у операторов и менеджеров. Во-первых, программа способна одновременно общаться сразу с несколькими абонентами. Она не отлучается на перерыв, не теряет концентрацию и не делает ошибок. Во-вторых, бот не расстраивается, получив отказ, сохраняет доброжелательность и спокойствие в любых обстоятельствах. Информация, полученная от клиентов, сразу заносится в CRM, поэтому вы не потеряете ни одного контакта из-за того, что сотрудник забыл внести запись в базу.

Посмотреть кейсы и другие варианты применения речевых сервисов можно на странице VoiceBox от МТТ. Там же вы можете протестировать технологию и подать заявку на консультацию об услуге.