АСПЕКТЫ ЧЕЛОВЕКО-МАШИННОГО ВЗАИМОДЕЙСТВИЯ В TTS-СИСТЕМАХ РЕАЛЬНОГО ВРЕМЕНИ

АСПЕКТЫ ЧЕЛОВЕКО-МАШИННОГО ВЗАИМОДЕЙСТВИЯ В TTS-СИСТЕМАХ РЕАЛЬНОГО ВРЕМЕНИ
Авторы: Белоножко П. Е., Федоров В. О.
Аннотация:

Рассмотрено человеко-машинное взаимодействие в системах преобразования текста в речь (TTS) с использованием анализа мел-спектрограмм. Представлены основные концепции в TTS-системах, построенных на генеративных архитектурах WaveNet и Tacotron-2. Показан конвейерный процесс преобразования текста в речь, в котором ключевые функции выполняют WaveNet и Tacotron. Анализ мел-спектрограммы рассмотрен как важный метод для понимания звукового содержания, внесший изменения в представление спектральной информации. Подчеркнуто влияние распределения энергии по частотам и динамики изменений во времени на выделение звуковых элементов и контекста звука. Сделан вывод о уникальности платформы, позволяющей обучение моделей отдельно на различных наборах данных для повышения устойчивости к шуму.

Ключевые слова: Мел-спектрограмма, человеко-машинное взаимодействие, преобразование текста в речь, Tacotron, WaveNet
Страницы в выпуске: 65-72

Журнал "Оригинальные исследования (ОРИС)" (включен в РИНЦ) ведет прием статей в ближайший номер до 30 апреля 2026 г.