Компонент Распознавание речи (Azure Cloud Speech)

Содержание

Описание
Свойства
См. также

Описание

Осуществляет распознавание речи абонента в текстовый вид.
Сервис предоставляется облаком Microsoft Azure Speech STT по протоколу HTTP. Не имеет технических ограничений по производительности.

Порядок регистрации учетной записи MS Azure и стоимость сервиса см. на https://learn.microsoft.com/en-us/azure/ai-services/speech-service/.

Настройка токенов производится в разделе настройки домена, поле 'azure_cloud'..

Позволяет прерывать по тишине после произнесенной фразы.

Table 1. Системные характеристики

Индекс	`231`
Краткое название	`asr_azure`
Типы сценариев	`IVR`
Стартовый модуль	`r_sip_ivr_script_component_asr_azure`
Режим	Асинхронный
Иконка
Характер разветвления	Разветвляющий, прерывающий

Свойства

Table 2. Свойства
Спецификация	Описание
Название: `Аккаунт Azure` Код: `accountKey` Усл. видимости: `нет` По умолчанию: `default`	Указание на аккаунт Azure, опции которого берутся для подключения к облаку. В список попадает значение 'default', устанавливающее к использованию корневое поле 'speech' в объекте 'settings.azure_cloud'. Дополнительно в список попадают ключи объекта 'settings.azure_cloud.accounts', за каждым из которых также находится объект с отдельно настроенными параметрами доступа к облаку.
Название: `Язык` Код: `lang` Усл. видимости: `нет` По умолчанию: `Английский`	Параметр сервиса распознавания Azure Speech: язык распознавания. Возможные варианты: `Авто` (`100`) – Автоматическое определение языка `de-DE` (`1`) – Немецкий `en-US` (`2`) – Английский `es-ES` (`3`) – Испанский `fi-FI` (`4`) – Финский `fr-FR` (`5`) – Французский `he-HE` (`6`) – Иврит `it-IT` (`7`) – Итальянский `kk-KZ` (`8`) – Казахский `nl-NL` (`9`) – Голландский `pl-PL` (`10`) – Польский `pt-PT` (`11`) – Португальский `pt-BR` (`12`) – Бразильский португальский `ru-RU` (`13`) – Русский `sv-SE` (`14`) – Шведский `tr-TR` (`15`) – Турецкий `other` (`100`) – Другой
Название: `Другой язык` Код: `langCustom` Усл. видимости: `да` По умолчанию: `en-US`	Код языка в формате ISO 639-1 из списка поддерживаемых.
Название: `Фильтр ненормативной лексики` Код: `profanityFilter` Усл. видимости: `нет` По умолчанию: `Выключить`	Параметр сервиса распознавания Azure Speech ASR: режим работы фильтра ненормативной лексики. Возможные варианты: `raw` (`0`) - Оставлять ненормативную лексику `masked` (`1`) - Маскировать ненормативную лексику `removed` (`2`) - Удалять ненормативную лексику
Название: `CID (custom model enpoint id)` Код: `cid` Усл. видимости: `нет` По умолчанию: empty	When you’re using the Speech Studio to create custom models, you can take advantage of the Endpoint ID value from the Deployment page. Use the Endpoint ID value as the argument to the cid query string parameter.
Название: `Pronunciation scores` Код: `pronunciation` Усл. видимости: `нет` По умолчанию: `false`	Specifies the parameters for showing pronunciation scores in recognition results. These scores assess the pronunciation quality of speech input, with indicators like accuracy, fluency, and completeness. Возможные варианты: `false` (`0`) - Нет. Ответ не содержит pronunciation scores. `true` (`1`) - Да. В ответ включаются pronunciation scores, ниже открываются параметры для настройки.
Название: `ReferenceText` Код: `referenceText` Усл. видимости: `да` По умолчанию: empty	The text that the pronunciation is evaluated against. Применяется только если включен режим вывода в ответ информации с pronunciation scores.
Название: `GradingSystem` Код: `gradingSystem` Усл. видимости: `да` По умолчанию: `fivepoint`	The point system for score calibration. Применяется только если включен режим вывода в ответ информации с pronunciation scores. Возможные варианты: `fivepoint` (`0`) - FivePoint. Gives 0-5 floating point score `hundreedmark` (`1`) - HundreedMark. Gives 0-100 floating point score
Название: `Granularity` Код: `granularity` Усл. видимости: `да` По умолчанию: `phoneme`	The evaluation granularity. Применяется только если включен режим вывода в ответ информации с pronunciation scores. Возможные варианты: `phoneme` (`0`) - Phoneme. Shows the score on the full-text, word, and phoneme levels. `word` (`1`) - Word. Shows the score on the full-text and word levels. `fulltext` (`2`) - FullText. Shows the score on the full-text level only.
Название: `Dimension` Код: `dimension` Усл. видимости: `да` По умолчанию: `basic`	Defines the output criteria. Применяется только если включен режим вывода в ответ информации с pronunciation scores. Возможные варианты: `basic` (`0`) - Basic. Shows the accuracy score only. `comprehensive` (`1`) - Comprehensive. Shows scores on more dimensions (for example, fluency score and completeness score on the full-text level, and error type on the word level).
Название: `EnableMiscue` Код: `enableMiscue` Усл. видимости: `да` По умолчанию: `false`	Enables miscue calculation. With this parameter enabled. Применяется только если включен режим вывода в ответ информации с pronunciation scores. Возможные варианты: `false` (`0`) - False. Мatching to reference text is not used. `true` (`1`) - True. The pronounced words are compared to the reference text. They are marked with omission or insertion based on the comparison.
Название: `ScenarioId` Код: `scenarioId` Усл. видимости: `да` По умолчанию: __empty	A GUID that indicates a customized point system. Применяется только если включен режим вывода в ответ информации с pronunciation scores.
Название: `Таймаут записи, с` Код: `recordTimeoutSec` Усл. видимости: `нет` По умолчанию: `30`	Максимально допустимое время записи с момента завершения предварительного воспроизведения, в секундах.
Название: `Прерывать по DTMF` Код: `checkDTMF` Усл. видимости: `нет` По умолчанию: `нет`	Выключатель детектора DTMF. Открывает настройки режимов сохранения символов и прерывания операции.
Название: `Буфер для DTMF` Код: `dtmfBuffer` Усл. видимости: `да` По умолчанию: —	Переменная для сохранения получаемых DTMF-символов.
Название: `Очистить буфер DTMF` Код: `clearDtmfBuffer` Усл. видимости: `да` По умолчанию: `Да`	Выключатель предварительной очистки буфера DTMF.
Название: `Количество символов` Код: `maxSymbolCount` Усл. видимости: `да` По умолчанию: —	Аргумент, содержащий ограничение на количество вводимых символов. После получения во время исполнения компонента указанного количества символов DTMF производится автоматическое завершение записи и отправка последней порции голосовых данных сервису распознавания.
Название: `Символы прерывания` Код: `interruptSymbols` Усл. видимости: `да` По умолчанию: —	Строка, содержащая последовательности символов прерывания через запятую. После обнаружения на конце буфера DTMF последовательности символов, совпадающей с одной из указанных последовательностей прерывания, производится автоматическое завершение записи и отправка последней порции данных сервису распознавания. Например, `*, 7, 123, 9395`.
Название: `Прерывать при обнаружении тишины` Код: `abortOnSilence` Усл. видимости: `нет` По умолчанию: `Да`	Выключатель детектора голоса (VAD) для автоматического завершения записи и отправки последней порции голосовых данных сервису распознавания. Критерием для остановки является наличие голоса в течение не менее чем 300 мс и последующее его отсутствие в течение указанного интервала.
Название: `Интервал тишины, с` Код: `silenceTimeoutSec` Усл. видимости: `да` По умолчанию: `2`	Аргумент, содержащий время таймаута при обнаружении тишины в секундах. При появлении голоса выше порога чувствительности в течение указанного таймаута, таймер сбрасывается вплоть до обнаружения тишины снова. В большинстве случаев 2 секунды - комфортный интервал. Может указываться в формате десятичной дроби, например, '1.6'.
Название: `Порог VAD, -дБ` Код: `vadThreshold` Усл. видимости: `да` По умолчанию: `30`	Аргумент, устанавливающий порог VAD. Параметр VAD-детектора. Указанное значение применяется с отрицательным знаком (в децибеллах) для определения порога отсечения тишины относительно возможного максимума. Поток анализируется фреймами по 20 мс. Каждый звуковой фрейм на основании порога отсечения рассматривается либо как голос, либо как тишина (средний уровень громкости фрейма). Таким образом, детектор имеет два состояния: голос и тишина. При переходе между состояниями генерируется событие о переходе в другое состояние. Изначально детектор находится в состоянии тишины. Генерация сигнала обнаружения голоса происходит в состоянии тишины тогда, когда несколько фреймов подряд являются голосовыми (параметр 'Порог голоса, мс'). Генерация сигнала обнаружения тишины происходит в состоянии голоса тогда, после того, как несколько фреймов подряд признаны тишиной (параметр 'Порог тишины, мс'). При значении 30 детектор лучше определяет тишину, при значении 40 детектор лучше определяет появление голоса. Выход из компонента происходит по истечении таймаута, указанного в поле `Интервал тишины, с`, отсчитывая с начала отрезка тишины, обнаруженного детектором из состояния голоса.
Название: `Голос, мин. длительность, мс` Код: `vadVoiceMinMs` Усл. видимости: `да` По умолчанию: `120`	Аргумент, устанавливающий минимальную пороговую длительность VAD для генерации сигнала VAD UP. Параметр VAD-детектора. Для генерации сигнала необходимо несколько фреймов по 20 мс подряд со средним уровнем выше установленного порога VAD. Через указанное значение определяется количество фреймов.
Название: `Голос, допустимое отклонение, %` Код: `vadVoiceTol` Усл. видимости: `да` По умолчанию: `20`	Аргумент, устанавливающий допустимое отклонение в последовательности голосовых фреймов. Параметр VAD-детектора. Например минимальная длительность задана 210 (мс), отклонение 20 (%). Таким образом для сигнализации о наличии голоса будет требоваться последовательность из 11 фреймов, 9 из которых должны быть голосовыми. Значение 0 означает что все 11 фреймов подряд должны быть голосовыми (иметь средний уровень выше порога VAD).
Название: `Тишина, мин. длительность, мс` Код: `vadSilenceMinMs` Усл. видимости: `да` По умолчанию: `500`	Аргумент, устанавливающий минимальную пороговую длительность фреймов с тишиной для генерации сигнала VAD DOWN. Параметр VAD-детектора. Для генерации сигнала необходимо несколько фреймов по 20 мс подряд со средним уровнем ниже установленного порога VAD. Через указанное значение определяется количество фреймов.
Название: `Тишина, допустимое отклонение, %` Код: `vadSilenceTol` Усл. видимости: `да` По умолчанию: `10`	Аргумент, устанавливающий допустимое отклонение в последовательности голосовых фреймов. Параметр VAD-детектора. Например минимальная длительность задана 210 мс, отклонение 20%. Таким образом для сигнализации о наличии голоса будет требоваться последовательность из 11 фреймов, 9 из которых должны быть голосовыми. Значение 0 означает что все 11 фреймов подряд должны быть тишиной (иметь средний уровень ниже порога VAD).
Название: `Таймаут ожидания ответа, с` Код: `responseTimeoutSec` Усл. видимости: `нет` По умолчанию: `5`	Таймаут ожидания ответа от сервиса распознавания Azure Speech после отправки ему последней порции голосовых данных. По истечении таймаута управление передается следующему компоненту по ветке `Время`.
Название: `Результат в переменную` Код: `varText` Усл. видимости: `нет` По умолчанию: —	Переменная для сохранения текстового результата распознавания.
Название: `Код ответа в переменную` Код: `varHttpCode` Усл. видимости: `нет` По умолчанию: —	Переменная для сохранения кода HTTP-ответа сервиса распознавания.
Название: `Тело ответа в переменную` Код: `varHttpBody` Усл. видимости: `нет` По умолчанию: —	Переменная для сохранения полного содержания HTTP-ответа сервиса распознавания.
Название: `Сохранить файл записи` Код: `saveRec` Усл. видимости: `нет` По умолчанию: `Нет`	Выключатель сохранения файла записи, отправленного сервису распознавания.
Название: `Путь к файлу в переменную` Код: `varRecordPath` Усл. видимости: `да` По умолчанию: —	Переменная для сохранения пути к файлу записи. Файл размещается во временном каталоге сценария и будет удален после завершения работы сценария. Для длительного сохранения файла требуется дальнейшее перемещение файла сценарием в место стационарного хранения. Запись осуществляется на сервере с ролью mg, обслуживающим текущий звонок, а затем переносится на сервер с ролью ivr, обслуживающей текущий сценарий. Перенос всегда происходит внутри сайта.
Название: `Предварительное воспроизведение` Код: `prePlayFile` Усл. видимости: `нет` По умолчанию: —	Звуковой файл предварительного воспроизведения абоненту, во время которого также активирован голосовой детектор. При отсутствии голоса от абонента (с учетом шумового порога VAD-детектора), отправка данных на сервис распознавания не производится. Может быть выбран в одном из режимов: статический файл, приложенный к сценарию (загружается из приложения Редактор сценариев или через API); сформированный аргументами путь, который должен включать одну из файловых категорий; в качестве аргумента может быть задан JSON-список из макро-путей к файлам.
Название: `Переход` Код: `transfer` Усл. видимости: `нет` По умолчанию: —	Компонент, которому передается упраление в случае успешного завершения операции.
Название: `Переход, время` Код: `transferTimeout` Усл. видимости: `нет` По умолчанию: —	Компонент, которому передается управление в случае истечения времени ожидания HTTP-ответа от сервиса распознавания.
Название: `Переход, ошибка` Код: `transferError` Усл. видимости: `нет` По умолчанию: —	Компонент, которому передается управление в случае возникновения ошибки.

Компонент Распознавание речи (Azure Cloud Speech)

Описание

Свойства

См. также