VALL-E AI от Microsoft может имитировать ваш голос, используя 3-секундный аудиосэмпл

Компьютерные новости и новости технологий на Game-Zoom

Ребята из Microsoft создали модель синтеза звука на основе искусственного интеллекта под названием VALL-E, которая должна слышать человеческий голос всего три секунды, прежде чем он начнет говорить так же, как они. Теперь Microsoft не привыкать к передовым технологиям искусственного интеллекта, особенно в 2023 году. Помните Chat GPT, разговорный искусственный интеллект, который может общаться как ученый человек со знанием всего мира? Что ж, ChatGPT работает исключительно на серверах Microsoft Azure, а его модель естественного языка будет превосходить такие продукты, как поиск Bing и пакет приложений Office. Представьте, что вы просите Outlook написать официальное электронное письмо об отпуске с простой однострочной подсказкой!

В то время как разговоры о том, что Microsoft вложила 10 миллиардов долларов в создателя ChatGPT, ходят повсюду, ее эксперты также уделяют пристальное внимание звуковой стороне дела. Результатом стала VALL-E, модель преобразования текста в речь, которой требуется всего лишь трехсекундный аудиоклип человеческого голоса, чтобы создать удивительно похожий синтетический звук, говорящий все, что передается ему в виде текстовых подсказок. Потенциал такой инновации огромен. Представьте, что вы слушаете, как Ганди читает свою книгу после обучения ВАЛЛ-И, используя один из его редких аудиоклипов. VALL-E опирается на технику, называемую языковой моделью нейронного кодека, которая учится не только на произносимых словах, но и на уникальном способе их произношения и тональности предложений.

VALL-E пугающе хорош

Изображение: ДАЛЛ-Э 2

VALL-E является «первым, который использует коды аудиокодеков в качестве промежуточных представлений и предоставляет возможность обучения в контексте». Команда, стоящая за ним, пишет в исследовательском документе, что VALL-E предлагает те же возможности контекстного обучения, что и платформа OpenAI ChatGPT. Однако самая большая победа VALL-E не в том, как быстро он может учиться, а в естественности речи, которую он предлагает, и в том, насколько он устрашающе похож на эталонный человеческий голос. Еще одним достижением является то, что команда называет поддержанием акустической среды. Короче говоря, если голос обучающего образца имеет какую-либо форму реверберации в фоновом режиме, синтезированная речь, созданная программой, также будет иметь эти звуковые характеристики.

Но что действительно беспокоит — и то, из-за чего будет труднее отделить настоящую речь от декламации ВАЛЛ-И, — это сохранение эмоций. В исследовательском документе отмечается, что «VALL-E может сохранять эмоции в подсказке при нулевой настройке». Чтобы понять эмоции, он опирается на набор данных под названием EmoV-DB, который фокусируется на пяти основных эмоциях, которые отражаются в естественных разговорах человека. Создавая свои собственные аудиоклипы, VALL-E может копировать те же эмоции, которые можно было идентифицировать в исходной подсказке. Но ВАЛЛ-И не идеальна, и есть еще несколько технических ограничений. Например, слова могут иногда дублироваться или просто звучать непонятно. Кроме того, обучение данным на 60 часов аудио может показаться большим, но оно по-прежнему недостаточно разнообразно, особенно если учитывать разные акценты и тона.

Технология Microsoft впечатляет. На самом деле, это ужасно впечатляет, и команда признает возможность неправильного использования. В исследовательском документе отмечается, что злоумышленники могут использовать его для спуфинга или выдачи себя за другое лицо без их ведома. Все рушится, когда мошенники получают в свои руки такие технологии. Это также объясняет, почему нет общедоступной версии VALL-E, с которой можно было бы поиграть, в отличие от других популярных инструментов искусственного интеллекта, таких как ChatGPT, DALL-E и Stable Diffusion. К счастью, в исследовательской работе упоминается, что создание модели, способной распознавать реальную речь из речи, сгенерированной VALL-E, возможно. На данный момент Microsoft не сообщила, планирует ли она выпустить общедоступную версию VALL-E и когда.

Последнее обновление 12.01.2023