Компанія Microsoft представила штучний інтелект VALL-E, який може повторити будь-який людський голос. Для цього штучному інтелекту
(ШІ-імітатору) необхідно проаналізувати приклад, тривалістю всього три секунди.
Як наголосили розробники штучного інтелекту VALL-E, голос повторюється достовірно, зі збереженням як тембру, так і емоційного забарвлення оригіналу.
У компанії Microsoft VALL-E називають «мовною моделлю нейронного кодеку», адже його розробка базується на технології EnCodec.
На відміну від інших методів перетворення тексту, які часто синтезують мову неподібно до оригіналу, ШІ від компанії Microsoft аналізує як саме звучить голос людини, розбиває отриману голосову інформацію на окремі «блоки» та використовує навчальні дані, щоб зіставити свої знання про те, як цей голос має звучати, якщо ШІ вимовить інші фрази.
VALL-E навчали на бібліотеці LibriLight, що містить 60000 годин англомовного мовлення більш ніж від 7000 осіб. Приклади імітації голосів VALL-E можна послухати на: https://valle-demo.github.io/.
Дослідники Microsoft вважають, що VALL-E у майбутньому можна застосовувати як інструмент перетворення тексту на голос, спосіб редагування мовлення та систему створення аудіо, поєднавши його з іншими генеративними моделями ШІ.