АСПЕКТЫ ЧЕЛОВЕКО-МАШИННОГО ВЗАИМОДЕЙСТВИЯ В TTS-СИСТЕМАХ РЕАЛЬНОГО ВРЕМЕНИ

Авторы: Белоножко П. Е., Федоров В. О.

Аннотация:

Рассмотрено человеко-машинное взаимодействие в системах преобразования текста в речь (TTS) с использованием анализа мел-спектрограмм. Представлены основные концепции в TTS-системах, построенных на генеративных архитектурах WaveNet и Tacotron-2. Показан конвейерный процесс преобразования текста в речь, в котором ключевые функции выполняют WaveNet и Tacotron. Анализ мел-спектрограммы рассмотрен как важный метод для понимания звукового содержания, внесший изменения в представление спектральной информации. Подчеркнуто влияние распределения энергии по частотам и динамики изменений во времени на выделение звуковых элементов и контекста звука. Сделан вывод о уникальности платформы, позволяющей обучение моделей отдельно на различных наборах данных для повышения устойчивости к шуму.

Ключевые слова: Мел-спектрограмма, человеко-машинное взаимодействие, преобразование текста в речь, Tacotron, WaveNet

Страницы в выпуске: 65-72

Скачать полный текст статьи

Содержание выпуска

Текущий выпуск "Том 16, Выпуск 2"

Журнал "Оригинальные исследования (ОРИС)" (включен в РИНЦ) ведет прием статей в ближайший номер до 30 апреля 2026 г.

Архив выпусков

Все выпуски

АСПЕКТЫ ЧЕЛОВЕКО-МАШИННОГО ВЗАИМОДЕЙСТВИЯ В TTS-СИСТЕМАХ РЕАЛЬНОГО ВРЕМЕНИ

Текущий выпуск "Том 16, Выпуск 2"

Архив выпусков

Отправить заявку Чтобы с вами связаться

Оформить заявку Чтобы с вами связаться

Отправить заявку
Чтобы с вами связаться

Оформить заявку
Чтобы с вами связаться