В данной статье описывается архитектура многоэтапной генеративно состязательной сети, которая используются для генерации изображений по текстовому описанию. Данная модель состоит из многоэтапной композиции блоков, состоящих из генератора и дискриминатора. Первый генератор создает грубую форму изображения на основе текстовых описаний, а второй генератор уточняет детали и создает финальное изображение. Дискриминатор оценивает качество изображений, и обучение происходит путем улучшения качества изображений для их более точной классификации дискриминатором. В процессе обучения генератор старается создать изображение, которое будет максимально близко к своему текстовому описанию, тогда как дискриминатор старается различать настоящие изображения от сгенерированных. Многоэтапная архитектура стековых генеративно состязательных сетей позволяет избежать проблем с градиентным затуханием, что обеспечивает более стабильное обучение и повышение качества сгенерированных изображений.