Sesame, стартап, стоящий за вирусным виртуальным ассистентом Майей, выпускает свою базовую модель искусственного интеллекта

AI-компания Sesame выпустила базовую модель, которая приводит в движение Майю, впечатляюще реалистичного голосового ассистента.

Модель, которая имеет размер 1 миллиард параметров («параметры» относятся к отдельным компонентам модели), находится под лицензией Apache 2.0, что означает, что ее можно использовать коммерчески с небольшими ограничениями. Называемая CSM-1B, модель генерирует «RVQ аудио-коды» из текстовых и аудио-входов, согласно описанию Sesame на платформе разработки искусственного интеллекта Hugging Face.

RVQ означает “residual vector quantization”, техника кодирования аудио в дискретные токены, называемые кодами. RVQ используется в нескольких недавних технологиях искусственного интеллекта для аудио, включая Google SoundStream и Encodec от Meta.

CSM-1B использует модель из семейства Llama от Meta в качестве опоры в сочетании с компонентом «декодер» звука. Вариант CSM с тонкой настройкой подает пищу Майе, утверждает Sesame.

“Модель, опубликованная здесь, является базовой моделью генерации,” пишет Sesame в репозиториях CSM-1B на Hugging Face и GitHub. “Она способна производить разнообразные голоса, но не была тонко настроена на какой-либо конкретный голос […] Модель имеет некоторую способность к не-англоязычным языкам из-за загрязнения данных в тренировочных данных, но скорее всего это не сработает хорошо.”

Неясно, какие данные использовала Sesame для обучения CSM-1B. Компания не сообщила.

Следует отметить, что у модели нет реальных защитных мер. У Sesame есть система чести и она лишь призывает разработчиков и пользователей не использовать модель для имитации голоса человека без его согласия, создавать вводящий в заблуждение контент, такой как фейковые новости, или заниматься «вредными» или «злонамеренными» действиями.

Я попробовал демоверсию на Hugging Face, и клонирование моего голоса заняло менее минуты. Затем было легко создать речь по моему усмотрению, включая контроверзиальные темы, такие как выборы и российская пропаганда.

Consumer Reports недавно предупредил, что многие популярные инструменты клонирования голоса на базе искусственного интеллекта на рынке не имеют «существенных» мер защиты от мошенничества или злоупотреблений.

Sesame, основанная соучредителем Oculus Бренданом Айрибом, стала вирусной в конце февраля из-за своей технологии ассистентов, которая приближается к территории тревожного дола. Майя и другой ассистент Sesame, Майлз, дышат и говорят с дисфлюенциями, и их можно прервать во время речи, подобно Voice Mode от OpenAI.

Sesame привлекла неизвестное количество капитала от Andreessen Horowitz, Spark Capital и Matrix Partners. Помимо разработки технологии голосовых ассистентов, компания говорит, что прототипирует AI-очки «предназначенные для ношения в течение всего дня», которые будут оснащены их собственными моделями.