Открытая исходная инициатива (Open Source Initiative, OSI) опубликовала официальное определение “открытого” искусственного интеллекта, что приводит к столкновению с гигантами технологической отрасли, такими как Meta, чьи модели не соответствуют установленным правилам. OSI долгое время устанавливала стандарты открытого программного обеспечения, но системы искусственного интеллекта включают элементы, которые не охватываются обычными лицензиями, такие как данные обучения модели. Теперь, чтобы система искусственного интеллекта считалась действительно открытой, она должна предоставлять: доступ к деталям о данных, использованных для обучения ИИ, чтобы другие могли понять и воссоздать его; полный код, используемый для создания и запуска ИИ; настройки и веса от обучения, которые помогают ИИ производить свои результаты.
Это определение напрямую вызывает противостояние со стороны Meta и их модели Llama, широко рекламируемой как крупнейшая открытая модель искусственного интеллекта. Llama доступна для загрузки и использования, но она имеет ограничения на коммерческое использование (для приложений с более чем 700 миллионами пользователей) и не предоставляет доступ к данным обучения, что не соответствует стандартам OSI по свободе использования, изменения и обмена.
Представитель Meta Фейт Айшенен заявила The Verge, что хотя “мы согласны с нашим партнером OSI во многом”, компания не согласна с этим определением. “Нет единого определения открытого искусственного интеллекта, и его определение представляет собой вызов, потому что предыдущие определения открытого исходного кода не охватывают сложности современных моделей ИИ”.
“Мы продолжим работать с OSI и другими отраслевыми группами, чтобы сделать ИИ более доступным и свободным ответственно, независимо от технических определений”, – добавила Айшенен.
На протяжении 25 лет определение открытого программного обеспечения OSI было широко принято разработчиками, которые хотят строить на основе работ других без страха перед судебными и лицензионными ловушками. Теперь, по мере того, как ИИ переформатирует ландшафт, гиганты технологической отрасли сталкиваются с решающим выбором: принять эти установленные принципы или отвергнуть их. Фонд Linux также недавно попытался определить “открытый искусственный интеллект”, сигнализируя о растущем дебате о том, как традиционные ценности открытого исходного кода адаптируются к эпохе искусственного интеллекта.
“Теперь, когда у нас есть надежное определение на месте, возможно, мы сможем более агрессивно противостоять компаниям, которые ‘отмывают’ и объявляют свою работу открытым исходным кодом, когда это на самом деле таковым не является”, – сказал The Verge независимый исследователь и создатель мульти-инструмента с открытым исходным кодом Datasette Саймон Уиллисон.
Генеральный директор Hugging Face Клемент Деланг назвал определение OSI “огромной помощью в формировании диалога вокруг открытости в ИИ, особенно когда речь идет о ключевой роли данных обучения”.
Исполнительный директор OSI Стефано Маффулли говорит, что инициативе потребовалось два года, чтобы уточнить это определение через коллективный процесс, консультируясь с экспертами со всего мира. Это включало работу с экспертами из академии по машинному обучению и обработке естественного языка, философами, создателями контента из мира Creative Commons и другими.
В то время как Meta ссылается на проблемы безопасности для ограничения доступа к своим данным обучения, критики видят более простую мотивацию: минимизацию своей юридической ответственности и защиту своего конкурентного преимущества. Многие модели ИИ, скорее всего, обучаются на защищенных авторским правом материалах; в апреле The New York Times сообщил, что Meta внутренне признала наличие защищенного авторским правом контента в своих данных обучения “потому что у нас нет способа не собирать его”. Существует целый ряд судебных исков против Meta, OpenAI, Perplexity, Anthropic и других за предполагаемые нарушения. Но за редкими исключениями – такими как Stable Diffusion, который раскрывает свои данные обучения – истцам в настоящее время приходится полагаться на косвенные доказательства, чтобы продемонстрировать, что их работа была скопирована.
Тем временем Маффулли видит повторение истории открытого исходного кода. “Meta использует те же аргументы”, что и Microsoft в 1990-х годах, когда видела открытый исходный код как угрозу своей бизнес-модели, – сказал Маффулли The Verge. Он вспоминает, как Meta рассказывала ему о своих интенсивных инвестициях в Llama, спрашивая его: “Кто, по вашему мнению, сможет сделать то же самое?” Маффулли увидел знакомую картину: гигант технологической отрасли использует стоимость и сложность для обоснования того, что его технология остается недоступной. “Мы возвращаемся к начальным дням”, – сказал он.
“Это их секретный ингредиент”, – сказал Маффулли о данных обучения. “Это ценное интеллектуальное собственность”.
