08 ноября 2016 09:15 Олег Илюхин

"Фотошоп для речи" произнесёт вашим голосом любую фразу

Компания Adobe на ежегодной конференции MAX представила экспериментальную технологию, которая позволяет редактировать оцифрованную речь так же легко, как обычный текст. При помощи нового приложения, VoCo, можно будет не только менять слова местами, но и вставлять новые фразы.

Компания Adobe на ежегодной конференции MAX представила экспериментальную технологию, которая позволяет редактировать звук так же легко, как обычный текст. При помощи нового приложения, VoCo, можно будет не только менять слова местами, но и вставлять новые фразы — даже те, что человек в действительности не произносил.

При этом пользоваться "фотошопом для речи" предельно просто: достаточно ввести слова в текстовое поле. Главный недостаток аудиоредактора заключается в том, что для генерации звука ему требуется большой объем исходных голосовых данных, на данный момент — около 20 минут. Взятый за образец аудиофайл программа раскладывает на фонемы (отдельные звуки, из которых состоят слова), пытаясь воссоздать голосовую модель говорящего.

VoCo чем-то похожа на Content-Aware Fill (заливка с учетом содержимого) — некогда казавшийся инновационным инструмент в Photoshop, который тоже позволяет "из ничего" пририсовывать к изображению "недостающие" фрагменты. Слова, сгенерированные VoCo с нуля, звучат очень близко к оригиналу, но несколько искусственно. Тем не менее, в Adobe осознают потенциал новой разработки, и уже задумались о вставке в аудиопоток водяных знаков, чтобы предотвратить использование программы мошенниками.

Пока что VoCo находится на стадии прототипа. Компания не называет дату релиза новой программы, однако она, скорее всего, будет включена в профессиональный пакет Adobe Audition, который служит для микширования музыки, очистки звука в фильмах, редактирования подкастов и другой работы с аудиоданными.

Источник: Ars Technica