Fair Use та тренування AI: як судове рішення може встановити правила гри
Останніми роками точаться активні дискусії про те, чи можна тренувати штучний інтелект (AI) на матеріалах, захищених авторським правом, і називати це “добросовісним використанням” (“fair use”). Автори хвилюються, що їхні роботи використовують без дозволу, а компанії – розробники AI кажуть, що це законно для цілей тренування їх систем. У центрі цієї суперечки опинилася справа Bartz v. Anthropic PBC, яка дала важливу відповідь на це питання.
“Fair use” doctrine
“Fair use” – це правило законодавства про авторське право США, яке дозволяє використовувати чужі роботи, захищені авторським правом, без дозволу, але тільки в особливих випадках. Наприклад, якщо ви пишете критику, коментуєте щось, робите репортаж, навчаєте чи досліджуєте, це може бути добросовісним використанням.
Головна ідея — знайти баланс: щоб творці не втрачали свої права (наприклад, в контексті комерціалізації їх творів), і використання творів водночас відбувалося з корисною метою. Але тут є складність: не завжди зрозуміло, коли використання відповідає “fair use”. Судді зазвичай дивляться на мету використання, що саме взяли, скільки взяли і чи не шкодить це продажам оригіналу.
Тренування AI
AI-сервіси нерідко прямо говорять, що тренуються на книгах, статтях, інших матеріалах. Так, наприклад, OpenAI у статті “Language Models are Few-Shot Learners” детально описує такі набори даних, використані для тренування моделі GPT-3, яка є базовою для ChatGPT.
Це цілком закономірно, оскільки, щоб AI вмів писати чи малювати, йому потрібні приклади, і компанії беруть ці приклади звідусіль.
Читайте більше: Тренування моделі штучного інтелекту персональними даними та GDPR: що сказав EDPB?

Рішення суду в справі Bartz v. Anthropic PBC
У справі Bartz v. Anthropic PBC кілька авторів подали до американського суду (Northern District of California) на компанію Anthropic (була заснована колишніми співробітниками OpenAI), яка розробила AI під назвою “Claude”. Автори доводили, що Anthropic взяла їхні книги без дозволу, щоб навчити свою модель. Компанія загалом зібрала мільйони книг — деякі купила законно, а деякі завантажила з піратських сайтів.
Позивачі стверджували, що Anthropic витратила мільйони доларів, зокрема, на придбання вживаних друкованих книг. Далі було зняття обкладинок, обрізання сторінок до потрібного розміру та сканування в цифрову форму. Anthropic створила власний каталог бібліографічних метаданих, що використовувала для тренування AI.
Суд вирішив, що тренувати AI на книгах — це добросовісне використання, бо це щось нове і корисне, але використовувати піратські копії цих книг — це порушення закону. Тобто AI можна вчити, але не можна красти матеріали для цього.
Читайте більше: Захист авторського права в суді
Чому суд дозволив тренувати AI?
Суддя пояснив, що тренування AI — це не просто копіювання. AI не видає книги такими, якими вони були, а вчиться на них і створює щось своє, наприклад, нові тексти. Це не шкодить авторам, бо AI не продає їхні книги і не забирає в них читачів. Було визнано, що тренування AI на книгах має “трансформаційний характер”.
Але з піратськими копіями все інакше. Anthropic не просто вчила AI, а й тримала мільйони книг, завантажених незаконно, у своїй бібліотеці. Суд вказав, що для тренування можна було купити книги або законно отримати їх в інший спосіб. Зберігання піратських копій порушує права авторів, і це не можна виправдати добросовісним використанням.
Читайте більше: Як авторське право захищає штучний інтелект?

Що це означає для AI-компаній?
Це рішення — доволі хороша новина для бізнесу, який розробляє та тренує свої AI-інструменти. Суд визначив, що тренування AI моделей на творах, якщо це робиться для створення чогось нового, підпадає під правило “fair use”. В той же час, компанії мають витрачати кошти на придбання книг чи домовлятися з авторами. Це може зробити тренування AI дорожчим, але чеснішим.
Думки розділилися
Мережею шириться буря емоцій навколо судового рішення. Ті, хто працює над тренуванням AI, радіють, бо їм дали зелене світло на тренування моделей. Але автори переймаються, що їхні роботи все одно використовуватимуть без дозволу, особливо якщо хтось сховає піратство.
Рішення також може стати прецедентом для вирішення інших справ, таких як The New York Times v. OpenAI. У цій справі OpenAI стверджує, що використання статей The New York Times для тренування ChatGPT є “fair use” через трансформаційну природу AI. Рішення у справі Bartz v. Anthropic PBC підтримує цей аргумент у частині тренування, але підкреслює, що законність джерел даних буде важливим фактором.
Це рішення суду може вплинути на те, як компанії працюють з даними для тренування AI, і, можливо, стане прикладом для інших судів. У світі, де AI стає все важливішим, такі судові справи допомагають шукати баланс між технологіями та справедливістю.
Звісно, не виключений варіант, що це рішення буде оскаржуватися в апеляції. Legal IT Group буде спостерігати за новинами навколо цієї судової суперечки.
