Тренування моделі ші персональними даними та GDPR що сказав EDPB

Тренування моделі штучного інтелекту персональними даними та GDPR: що сказав EDPB?

Цифрова епоха – це наша реальність, в якій інтеграція штучного інтелекту  набуває все більших обертів. 

Плануєте розробку ШІ моделі для оптимізації бізнес-процесів та послуг? Серед низки юридичних питань постає захист персональних даних, які використовуватимуться для розробки та реалізації таких моделей. 

Європейська рада з захисту даних (“European Data Protection Board” або “EDPB”) опублікувала рішення про захист персональних даних у процесі розробки та використання ШІ моделей і як процес їх навчання та застосування регулюється положеннями GDPR. 

Розглянемо 3 питання описані у рішенні та відповіді на них з точки зору розробника чи власника ШІ моделі.

Загальні рекомендації на відповідність положенням GDPR

У рамках захисту персональних даних, процес створення ШІ моделі можна розділити на два основі етапи: обробка даних на етапі створення та навчання і обробка даних під час використання такої моделі на практиці. 

Найперше, до початку реалізації проекту ШІ моделі, потрібно визначити:

  •  на основі якої інформації ця модель навчатиметься та працюватиме;
  • яка сторона виступатиме контролером/ процесором/ які взаємовідносини між спільними контролерами; а також 
  • розподілити обовʼязки між сторонами.

З огляду на складність залучених технологій, та з метою дотримання принципу прозорості, інформацію про обробку персональних даних у ШІ моделях потрібно довести до користувача в доступній, зрозумілій та зручній формі. 

Відповідно до принципу мінімізації даних, «мета збору має бути чітко та конкретно визначена» контролером(ами). 

Контролер(и) має детально описати інформацію:

  •  про тип розроблюваної ШІ-моделі; 
  • контекст впровадження (чи розробляється модель для внутрішнього використання, чи контролер має намір продавати чи поширювати модель третім сторонам після її розробки, включаючи те, чи призначена модель переважно для впровадження в дослідницьких або комерційних цілях); 
  • мету впровадження (за можливості);
  • очікувані функціональні можливості ШІ моделі;
  • будь-який інший відповідний контекст, який вже відомий на цьому етапі.

Питання анонімності ШІ моделі. GDPR Compliance

Анонімність ШІ моделі виводить проект за межі регулювання GDPR. Але постає питання як саме визначити, що ваша модель є анонімною?

Специфіка ШІ моделей полягає в тому, що вони зазвичай не містять записів, які можуть бути безпосередньо ізольовані або пов’язані для анонімізації, а натомість містять параметри, що представляють ймовірні взаємозв’язки між даними. 

Навіть якщо ШІ модель не була навмисно створена для надання інформації про певну фізичну особу, інформація з навчального набору даних, включно з персональними даними, може залишатися «поглинутою» в параметрах моделі. Ці параметри можуть відрізнятися від оригінальних точок даних навчального набору, але все ж можуть зберігати початкову інформацію з цих даних, яка в кінцевому підсумку може бути вилучена або отримана, прямо чи опосередковано, з моделі.

З огляду на складність технології, Європейська рада із захисту даних вважає, що якщо ШІ модель, навчена з використанням персональних даних, оцінка її анонімності, а саме оцінка відповідних та ефективних заходів, впроваджених контролером для забезпечення та доведення анонімності такої моделі, проводиться в індивідуальному порядку у кожному окремому випадку. 

Якщо ж мова йде про ШІ модель спеціально створену для надання персональних даних про осіб, чиї дані використовувалися для навчання моделі, або для того, щоб певним чином зробити такі дані доступними, таку ШІ модель взагалі не можна вважати анонімною.

AI COMPLIANCE
Це стосується, наприклад, генеративної моделі, спеціально налаштованої на голосові записи певної особи для імітації її голосу; або будь-якої моделі, створеної для надання персональних даних із навчальних даних у відповідь на запит про конкретну особу.

Критерії анонімності моделі штучного інтелекту

Європейська рада з захисту даних виділила наступні критерії для можливого анонімного характеру ШІ моделі: 

1)   Незначна ймовірність прямого вилучення персональних даних щодо осіб, чиї дані використовувалися для навчання моделі.

2)   Незначна ймовірність отримання таких персональних даних, навмисно чи ні, через запити до моделі.

Щоб визначити «рівень ймовірності», потрібно оцінити ШІ модель окремо на етапі розробки та застосування, враховуючи «всі засоби, які можуть бути розумно використані» контролером або іншою особою, а також враховувати можливе ненавмисне (повторне) використання або надання публічного доступу до моделі.

Для такої оцінки потрібно врахувати:

  • характеристики самих навчальних даних, процедури навчання; 
  • контекст, в якому модель ШІ випускається та/або обробляється; 
  • додаткову інформацію, яка дозволяє ідентифікацію і може бути доступна цій особі; 
  • ризик ідентифікації як контролером, так і різними «іншими особами», які можуть отримати доступ до моделі ШІ;
  •  доступні технології на момент обробки, а також технологічні розробки;

Елементи оцінки EDPB та «Заходи для зменшення ризиків» 

Додатково, Європейська комісія з захисту даних виділяє наступні аспекти для оцінки анонімності ШІ моделі, які водночас можуть виступати «заходами для зменшення ризиків» під час проведення тесту оцінки законності інтересу:

  1. дизайн ШІ моделі, а саме:
    1. Вибір джерел, що використовуються для навчання моделі ШІ (доцільність, актуальність, доречність вибору джерел, тощо);
    2.  Підготовка даних для етапу навчання: 
  • Чи розглядалося використання анонімних та/або персональних даних, що пройшли псевдонімізацію (якщо було вирішено не використовувати такі заходи, то причини такого рішення, з урахуванням передбачених цілей); 
  • Стратегії та методи мінімізації даних, застосовані для обмеження обсягу персональних даних, що включаються в процес навчання; та 
  • Будь-які процеси фільтрації даних, що були застосовані перед навчанням моделі для видалення недоречних персональних даних.
  1. Вибір надійних методів при розробці моделі ШІ: техніки захисту конфіденційності, тощо;
  2. Методи або заходи, додані до самої моделі ШІ, які можуть не впливати на ризик прямого витягнення персональних даних з моделі, але які можуть знизити ймовірність отримання персональних даних, пов’язаних з навчальними даними, через запити.
  1. відповідність дизайну ШІ моделі розробленому плану та наявність ефективного управління інженерними процесами;
  2. наявність будь-яких задокументованих аудитів (внутрішніх чи зовнішніх), що включають оцінку вибраних заходів та їхнього впливу на обмеження ймовірності ідентифікації (аналіз звітів про перевірки коду; теоретичний аналіз, що документує доречність вибраних заходів для зменшення ймовірності повторної ідентифікації відповідної моделі);
  3. обсяг, частота, кількість та якість структурованого тестування проти ексфільтрації, інверсії моделі, атак на реконструкцію, тощо.
  4. наявність підготовленої необхідної документації (задокументовані операції з обробки даних, поради та відгуки DPO, тощо).

Питання законного інтересу як правової основи під час обробки персональних даних для навчання ШІ моделі у процесі розробки та використання

Для визначення законного інтересу як правової основи для обробки персональних даних на етапі розробки чи застосування ШІ моделі, контролер, за загальним правилом, у кожному окремому випадку проводить триступеневий тест оцінки законності такого інтересу. 

Три кумулятивні умови мають бути оцінені та відповідно задокументовані:

  • наявність законного інтересу;
  • необхідність обробки персональних даних для досягнення мети законного інтересу;
  • баланс між правами суб’єктів даних та інтересами контролера.

Наявність законного інтересу 

1)    У підтвердження наявності законного інтересу входять три аспекти:

  • інтерес є законним;  
  • інтерес чітко і точно сформульований;  
  • інтерес є реальним і наявним, а не спекулятивним.

У контексті ШІ-моделей, Європейська рада з захисту даних наводить три приклади законного інтересу: розробка служби розмовного агента для допомоги користувачам, розробка системи ШІ для виявлення шахрайського контенту або поведінки, покращення виявлення загроз в інформаційних системах.

Необхідність обробки даних для досягнення мети законного інтересу

2)    Оцінка необхідності (тест на необхідність) включає два елементи:  

  • чи дозволяє обробка досягти мети;  
  • чи не існує менш інвазивного способу досягти цієї мети.

При оцінці необхідності, рекомендується звернути увагу як на обсяг оброблених персональних даних та його пропорційність для досягнення законного інтересу, так і на ширший контекст передбачуваної обробки персональних даних (чи має контролер прямі відносини із суб’єктами даних чи ні (дані третьої сторони)).

Якщо досягнення мети також можливе через ШІ модель, яка не передбачає обробку персональних даних, то обробка персональних даних повинна вважатися непотрібною. 

Впровадження технічних заходів безпеки для захисту персональних даних може сприяти виконанню тесту на необхідність. Такі заходи вказані вище – «заходи для зменшення ризиків». Таким чином, анонімізація не досягається, але при цьому зменшується ймовірність того, що суб’єкти даних будуть ідентифіковані. 

Баланс між правами суб’єктів даних та інтересами контролера

3)    Тест на балансування включає в себе детальний опис та оцінку:

  • з одного боку: інтересів, прав та свобод субʼєктів даних, вплив обробки персональних даних на таких субʼєктів, статус субʼєктів даних та їхні розумні очікування;
  • а з іншого боку: інтереси контролера або третьої сторони. 

Інтереси суб’єктів даних – це ті, які можуть бути порушені в результаті обробки. 

У контексті етапу розробки ШІ моделі ці інтереси можуть включати:

інтерес до самовизначення;

інтерес до збереження контролю над власними персональними даними (даними, зібраними для розробки моделі).

У контексті етапу використання ШІ моделі інтереси можуть включати:

інтереси в збереженні контролю над власними персональними даними;

фінансові інтереси (ШІ модель використовується для отримання доходу або використовується індивідом у рамках його професійної діяльності);

особисті вигоди (ШІ модель покращує доступу до певних послуг);

соціально-економічні інтереси (ШІ модель забезпечує доступ до кращого медичного обслуговування).

Серед ризиків для прав та свобод суб’єктів даних при розробці та впровадженні ШІ моделей можна виокремити наступні: 

–       права на приватне і сімейне життя;

–       права на захист персональних даних; 

–       права на свободу вираження думок;

–       права особи на працю, тощо.

До прикладу: великомасштабний і безвідповідальний збір даних моделями на етапі розробки може створити відчуття нагляду для суб’єктів даних, особливо з огляду на труднощі в запобіганні скрейпінгу публічних даних.  Це може призвести до самоцензури та становити ризики для свободи вираження думок. 
При використанні ШІ моделі для блокування публікації контенту від суб’єктів даних існує ризик для свободи вираження думок. Крім того, ШІ модель, яка рекомендує неприязний контент вразливим особам, може створити ризики для їх психічного здоров’я.
Коли заявки на роботу попередньо відбираються за допомогою ШІ моделі завжди існує ризик негативних наслідків на право особи на працю.
У випадку дискримінації ШІ моделлю користувачів за певними особистісними характеристиками національності чи статі, існує ризик порушення заборони дискримінації. 

Європейська рада з захисту даних також зазначає про можливий позитивний вплив ШІ моделей на суб’єктів даних, зокрема про сприяння доступу до інформації, доступу до освіти та підтримку права на психічну цілісність особи, тощо.

Вплив обробки на суб’єктів даних залежить від характеру даних, що обробляються ШІ моделями, контексту обробки та подальших наслідків, які може мати ця обробка.

Наприклад: фінансові дані або дані про місцезнаходження повинні розглядатись як такі, що можуть мати серйозний вплив на суб’єктів даних. Використання веб-скрейпінгу на етапі розробки може призвести, за відсутності достатніх заходів захисту, до значних наслідків для осіб через великий обсяг зібраних даних, велику кількість суб’єктів даних та безвідповідальне збирання персональних даних.

Важливо, що при оцінці наслідків, контролер повинен оцінити які технічні та організаційні заходи вжиті для уникнення потенційних ризиків та обставини конкретної ситуації.

Тренування моделі ші персональними даними та GDPR: що сказав EDPB?

Наприклад, для генеративних ШІ-моделей, це може включати запровадження обмежень для уникнення використання таких моделей для шкідливих практик: створення deepfakes, чат-ботів, які використовуються для дезінформації, фішингу та інших видів шахрайства, маніпулятивних ШІ-агентів.

Ключову роль при проведенні тесту відіграють розумні очікування суб’єктів даних. Тому контролеру важливо враховувати ширший контекст обробки, який включатиме в себе:

  •  характер відносин між суб’єктом даних і контролером (чи існує зв’язок між ними);
  •  характер послуги, контекст, у якому були зібрані персональні дані;
  • джерело, з якого були зібрані дані (вебсайт чи сервіс, де були зібрані персональні дані, та налаштування конфіденційності, які вони пропонують); 
  • потенційне подальше використання моделі; та 
  • чи є суб’єкти даних насправді обізнаними щодо того, що їхні персональні дані знаходяться в Інтернеті, тощо.

В результаті детального опису всіх критеріїв тесту на балансування, контролер проводить оцінку чи інтереси, права та свободи суб’єктів даних здаються такими, що перевищують законні інтереси, що переслідуються контролером або третьою стороною. У випадку перевищення інтересів, прав та свобод субʼєктів даних, контролер може розглянути можливість застосування «заходів для зменшення ризиків» обробки на цих суб’єктів даних.

«Заходи для зменшення ризиків» є додатковими, і відмінними від основних заходів, передбачених GDPR.

Які наслідки незаконної обробки персональних даних на етапі розробки ШІ-моделі будуть для подальшої життєдіяльності такого ШІ-проєкту? 

Випадок 1

Компанія, яка є контролером персональних даних, незаконно та без правової підстави використовує такі дані для розробки та навчання ШІ моделі. В подальшому ці дані, які не є анонімізованими, залишаються в ШІ моделі і обробляються цією ж компанією – контролером (до прикладу – використання ШІ моделі на практиці).

Міркування EDPB: у таких випадках наглядовий орган наділений повноваженнями накладати коригувальні заходи щодо початкової обробки даних.

Наслідки: незаконність обробки даних на етапі розробки (початкової обробки) матиме вплив на подальшу обробку. Вплив визначатиметься на основі індивідуального аналізу, проведеного наглядовим органом, з урахуванням всіх особливостей конкретної справи. 

До прикладу: щодо правової підстави статті 6(1)(f) GDPR, коли подальша обробка ґрунтується на законному інтересі, факт, що початкова обробка була незаконною, повинен бути врахований при оцінці законного інтересу (наприклад, щодо ризиків для суб’єктів даних або того, що суб’єкти даних можуть не очікувати такої подальшої обробки). У таких випадках незаконність обробки на етапі розробки може вплинути на законність подальшої обробки.

Випадок 2

Компанія, яка є контролером персональних даних, незаконно та без правової підстави використовує такі дані для розробки та навчання ШІ моделі. В подальшому ці дані, які не є анонімізованими, залишаються в ШІ моделі. Використання ШІ моделі та подальша обробка даних здійснюється іншою компанією-контролером.

Міркування EDPB: наглядовий орган може провести розслідування конкретної ШІ моделі. У такому випадку, наглядовий орган окремо оцінюватиме законність первинної обробки на етапі розробки та законність обробки на етапі використання. 

Контролер, який здійснює обробку даних на етапі використання ШІ моделі, повинен провести належну оцінку, щоб підтвердити, що модель ШІ не була розроблена шляхом незаконної обробки персональних даних, при цьому враховуючи, чи дані походять із витоку персональних даних або чи первинна обробка була визнана порушенням GDPR наглядовим органом або судом. 

Наглядовий орган, на основі цієї оцінки, має врахувати чи модель ШІ є результатом порушення GDPR, особливо якщо це було встановлено наглядовим органом або судом, що може свідчити, що контролер не міг ігнорувати незаконність початкової обробки. 

Наслідки: незаконність обробки даних на етапі розробки (початкової обробки) матиме вплив на подальшу обробку. Вплив визначатиметься на основі індивідуального аналізу, проведеного наглядовим органом, з урахуванням всіх особливостей конкретної справи. 

До прикладу: щодо правової підстави статті 6(1)(f) GDPR, коли подальша обробка ґрунтується на законному інтересі: незаконна початкова обробка, повинна бути врахована при оцінці законного інтересу обробки на етапі застосування ШІ моделі. 

Різні аспекти, як технічного характеру (наявність фільтрів або обмежень доступу, запроваджених під час розробки моделі, які наступний контролер не може обійти чи вплинути на них, і які можуть запобігти доступу або розголошенню персональних даних), так і юридичного характеру (природа та серйозність незаконності початкової обробки), мають бути належним чином враховані в рамках тесту на балансування інтересів. 

Випадок 3

Компанія, яка є контролером персональних даних, незаконно та без правової підстави використовує такі дані для розробки та навчання ШІ моделі. При цьому перед реалізацією та використанням ШІ моделі цією ж компанією-контролером чи іншою компанією-контролером, вжиті заходи для анонімізації використаних даних.

Міркування EDPB: на етапі розробки ШІ моделі – наглядовий орган залишає за собою право застосувати коригувальні заходи та втручатися у початкову обробку.

Ситуація 1: контролер може продемонструвати, що на етапі використання ШІ моделі не відбувається обробка персональних даних – положення GDPR не застосовується.

Наслідки: незаконність обробки даних на етапі розробки не впливатиме на подальше використанні ШІ моделі.

Ситуація 2: контролер обробляє персональні дані, зібрані на етапі використання ШІ моделі, після того як модель була анонімізована – GDPR буде застосовуватися.

Наслідки: У таких випадках, відповідно до GDPR, на законність обробки, здійсненої на етапі використання ШІ моделі, не впливає незаконність початкової обробки.

Отже, тренування ШІ моделей вимагає ретельного підходу до питань захисту персональних даних. Першочергово необхідно визначити, чи є модель анонімною, та обґрунтувати правову основу для обробки даних. Це дозволить забезпечити відповідність законодавству, мінімізувати ризики порушення прав суб’єктів даних і створити стійку правову базу для функціонування моделі.

Фахівці Legal IT Group готові надати практичні рекомендації щодо відповідності вашого проекту законодавчим вимогам і допомогти вирішити будь-які юридичні питання. Звертайтеся до нас за консультацією – ми радо допоможемо!