Я хотел бы поделиться нашими новыми публичными моделями синтеза речи. Они стали радикально лучше, качественнее и обзавелись целым рядом фич:
Модели в 10 раз быстрее и в 2 раза меньше (и все голоса внутри одной модели)
Теперь там появился новый высококачественный диктор, а также модель умеет генерировать случайных дикторов (пример на видео ниже)
Мы научили их делать паузы, менять скорость и тон речи
Они могут генерировать аудио разного качества - от телефонии до диктора из студии (8, 24, 48 kHz)
Теперь нет детских болячек таких как зависание или пропуск слов
Насколько Пикабу позволяет, вот примеры звучания моделей: