Поддерживаемые теги SSML в Silero TTS

Материал из Call Office Wiki
Перейти к навигации Перейти к поиску

Speech Synthesis Markup Language (SSML) - это язык разметки текста для управления синтезом речи.

Разметка

Для использования разметки, текст должден быть обёрнут в корневой тег <speak>%s</speak>. Без него, встретив любые теги в тексте, сервер ответит ошибкой.

Пример:

'<speak>Привет!</speak>'

Ударение

"+" перед глаcной дает на неё ударение (акцент). Данную возможность можно использовать и в простом тексте, без корневого тега <speak>.

Паузы разметки

<p>
 Длинные паузы между параграфами
</p>
<p>
  <s>Более короткие паузы.</s>
  <s>Между предложениями.</s>
</p>

Пауза с таймером

Вы можете делать паузы в произнесении и упралять их продолжительностью при помощи тега

<break time="2000ms"/>
<break strength="x_weak">
<break strength="x-strong">

Весь список акцентуаций:

'x_weak': 25, 'weak': 75, 'medium': 150, 'strong': 300, 'x-strong': 1000

Пример

'<speak>Привет!<break time="2000ms"/>Как Ваши дела?</speak>'
'<speak>Привет!<break time="x-strong"/>Как Ваши дела?</speak>'

Скорость

Вы можете упралять скоростью произнесения отдельных фрагментов текста

<prosody rate="x-slow">Очень медленно</prosody>
<prosody rate="fast">Быстро</prosody>

Весь список скоростей:

'x-slow': 0.5, 'slow': 0.8, 'medium': 1., 'fast': 1.2, 'x-fast': 1.5

Пример:

'<speak>Привет!<prosody rate="fast">Как Ваши дела?</prosody></speak>'

Тональность

Вы можете управлять высотой тональности произнесения (от писка до баса)

<prosody pitch="x-high">Высокий тон</prosody>
<prosody pitch="medium">Нормальный тон</prosody>

Весь список тональностей:

'x-low': 0.6, 'low': 0.8, 'medium': 1., 'high': 1.2, 'x-high': 1.4, 'robot': 0.

Пример:

'<speak>Привет!<prosody pitch="x-high">Как Ваши дела?</prosody></speak>'