OpenAI говорит, что строит инструмент, позволяющий создателям контента 'отказаться' от обучения ИИ

OpenAI говорит, что разрабатывает инструмент, который позволит создателям лучше контролировать то, как их контент используется при обучении генеративного ИИ.

Инструмент под названием Media Manager позволит создателям и владельцам контента идентифицировать свои работы перед OpenAI и указать, как они хотят, чтобы эти работы включались или не включались в исследования и обучение ИИ.

Цель, по словам OpenAI, заключается в том, чтобы инструмент был введен в 2025 году, поскольку компания работает с 'создателями, владельцами контента и регуляторами' на пути к стандарту - возможно, через комитет по стратегическому управлению в индустрии, в который недавно вступила.

'Это потребует передового исследования машинного обучения для создания уникального инструмента своего рода, который поможет нам идентифицировать защищенный законом текст, изображения, аудио и видео из различных источников и учитывать предпочтения создателя', - написала OpenAI в блоге. 'Со временем мы планируем внедрить дополнительные варианты выбора и функции'.

Похоже, что Media Manager, в какой бы форме он ни принялся в конечном итоге, является ответом OpenAI на растущую критику своего подхода к разработке ИИ, который основывается на широком использовании публично доступных данных из Интернета. Недавно восьмеро выдающихся американских газет, включая Chicago Tribune, подали в суд на OpenAI по обвинению в нарушении интеллектуальной собственности в отношении использования компанией генеративного ИИ, обвинив OpenAI в хищении статей для обучения моделей генеративного ИИ, которые затем коммерциализировались без компенсации - или указания авторства - на источники публикаций.

Генеративные модели ИИ, включая OpenAI, - это модели, способные анализировать и генерировать текст, изображения, видео и многое другое, которые обучаются на огромном количестве примеров, обычно берущихся из публичных сайтов и наборов данных. OpenAI и другие поставщики генеративного ИИ утверждают, что доктрина о 'добросовестном использовании', юридическая доктрина, разрешающая использование защищенных авторским правом работ для создания вторичных творений, покрывает их практику сканирования общедоступных данных и использования их для обучения моделям. Но не все согласны.

Фактически OpenAI недавно заявила, что без защищенного авторским правом материала невозможно создать полезные модели ИИ.

Однако, чтобы успокоить критиков и защитить себя от будущих судебных исков, OpenAI предприняла шаги для встречи с создателями контента напополам.

В прошлом году OpenAI разрешила художникам 'отказаться' и убрать свои работы из наборов данных, которые компания использует для обучения своих моделей, генерирующих изображения. Компания также позволяет владельцам сайтов указать с помощью распространенного стандарта robots.txt, который дает инструкции веб-паукам, может ли контент на их сайте быть сканирован для обучения моделей ИИ. И OpenAI продолжает заключать лицензионные соглашения с крупными владельцами контента, включая новостные организации, библиотеки стоковых медиа и сайты вопросов и ответов, такие как Stack Overflow.

Некоторые создатели контента говорят, что OpenAI не пошла достаточно далеко, однако.

Художники описали процесс 'отказа' от изображений OpenAI, который требует представления индивидуальной копии каждого изображения для удаления вместе с описанием, как мучительный. По сообщениям, OpenAI платит относительно мало за лицензирование контента. И, как сама OpenAI признает во вторник в блоге, нынешние решения компании не решают сценариев, в которых произведения создателей цитируются, ремикшируются или размещаются на платформах, которыми они не управляют.

Помимо OpenAI, несколько сторонних организаций пытаются создать универсальные инструменты происхождения и функции 'отказа' для генеративного ИИ.

Стартап Spawning AI, партнеры которого включают Stability AI и Hugging Face, предлагает приложение, которое идентифицирует и отслеживает IP-адреса ботов для блокировки попыток сканирования, а также базу данных, в которой художники могут зарегистрировать свои работы для запрета на обучение поставщиками, которые решают учитывать запросы. Steg.AI и Imatag помогают создателям установить собственность на свои изображения, нанося невидимые глазу водяные знаки. И Nightshade, проект Университета Чикаго, 'травит' изображения, чтобы сделать их бесполезными или недоступными для обучения моделей ИИ.