Privacy by design: як використовують GDPR в AI технологіях

Що таке АІ і чому про це говоримо?

Коли average person бачить словосполучення штучний інтелект, в її уяві постає такий собі Джарвіс, який навчає сам себе і розвивається так швидко, що в результаті захоплює все людство і контролює його.

Однак, таке бачення на штучний інтелект популяризують письменники, сценаристи і режисери, але коли мова йде про людей зі сфери IT, то для них AI – це певний рівень розвитку технологій, при якому зменшується рівень залучення людей до виконання окремих процесів, а не якийсь один конкретний супер-робот.

Як не дивно, але термін «artificial intelligence» – це не продукт ХХІ чи навіть кінця ХХ століття. Він був створений ще в 1955 році американським інформатиком Джоном Маккарті, коли той готувався до свого виступу на конференції в Дартмуті. Але чому тоді ми так часто обговорюємо питання штучного інтелекту зараз, через більш ніж 60 років після його виникнення?

Одна із основних причин для такої актуалізації – це надзвичайне збільшення обсягів наявної у світі інформації. Десь із 2010-х років суспільство усвідомило, що кількість інформації, яка ним продукується, настільки велика (і настільки стрімко збільшується), що для того, щоб ефективно обробляти і аналізувати хоч якусь вагому частку із цього масиву даних, людських зусиль вже недостатньо. Тому компанії почали залучати до цього AI платформи. Використання штучного інтелекту для обробки даних дозволило провідним компаніям оптимізувати значну кількість процесів і зробило їх аналітику надзвичайно ефективною. На цьому моменті ви всі маєте згадати, як швидко звичайну рекламу в мережі змінила винятково таргетована, і як частиною вашого дня стали музичні сервіси, які вмикають саме ті пісні, які вам так подобаються («звідки воно знаааає?»).

До чого тут GDPR і Privacy by design?

Звісно ж, активне залучення AI в різні процеси породило і нові проблеми. Адже серед інформації, яку почали активно передавати на обробку і аналіз AI, є не лише загальна чи технічна інформація. Найчастіше це саме дані, які ми називаємо персональними, тобто такі, що стосуються якихось конкретних осіб і часто є складовою їхнього приватного життя. А безпека і «правильна» обробка цих даних дуже важлива, тому необхідними є як технічні, так і юридичні заходи, для того, щоб ці аспекти можна було гарантувати.

І саме на виконання цих завдань спрямовані норми GDPR.  В статті 25 цього акту закріплена вимога, що має назву «privacy by design». В межах цієї концепції зазначається, що необхідно інтегрувати у системи (на всіх стадіях їх створення та існування) приватність і дотримання інших важливих принципів обробки персональних даних. Ці правила застосовуються і при розробці AI, і ставлять перед розробниками програм і алгоритмів вимоги впровадження таких технічних заходів, щоб важливі аспекти, що стосуються обробки персональних даних, були буквально вбудовані у їхнє функціонування.

При цьому, норми GDPR вплинули на процеси такої розробки не лише в Європі, адже більшість провідних компаній світу, які займаються розвитком штучного інтелекту, зробили цей документ своєю настільною книгою і використовують закріплені там принципи як best practice, незалежно від того, зобов’язані вони це робити чи ні. Саме тому GDPR відіграє таку важливу роль у визначенні напрямів розвитку AI у всьому світі.

Скажемо одразу, концепцію privacy by design часто критикують за відсутність чіткості, тому до кінця дізнатись, що вкладається в неї нелегко. Але до її розуміння можна наблизитись, проаналізувавши практику компаній, які займаються розвитком artificial intelligence з дотриманням вимог GDPR.

4 основні вимоги, на які треба звернути увагу AI-розробникам

 Отож, що довелось змінити в своїй діяльності компаніям і девелоперам  під час розробки AI для того, щоб забезпечити реалізацію privacy by design?

Менше автоматизованого опрацювання

Перш за все, перед розробниками постало завдання створити умови для дотримання вимог статті 22 GDPR – щоб суб’єкт даних мав можливість не підлягати рішенню, що ґрунтується винятково на автоматизованому опрацюванні. Тобто, щоб реалізовувати концепцію privacy by design компаніям довелось відійти від розуміння artificial intelligence як використання лише машинного інтелекту, і залучати туди інтелект людський (тобто працювати за системою human-in-the-loop). Залучення людей для нагляду і контролю за процесами обробки даних машинним інтелектом дозволяє зменшити ризики в роботі останніх. Як результат – персональні дані, що обробляються AI є більш захищеними, а висновки, які робить машинний інтелект за результатами такої обробки позбавлені можливих упередженостей чи неточностей. Для кращого розуміння як працює система human-in-the-loop, наведемо такий приклад:

Уявіть платформу AI, яку було створено для того, щоб аналізувати дані грошових переказів та інших транзакцій, які здійснюють користувачі, і блокувати ті, які мають ознаки шахрайських. Як вигідно і зручно було б, щоб машинний інтелект робив все сам – сам проаналізував, сам знайшов ознаки шахрайства, сам заблокував. Швидко і дешево! Однак, тоді вимоги статті 22 GDPR дотриманими не будуть. Тоді як цю систему можна організувати по-іншому: машинний інтелект аналізує дані, виділяє ознаки шахрайства, і в зручному вигляді це представляє людині – типу ось в нас є така транзакція, і ось тут таку в ній штуку я вважаю підозрілою – блокувати чи ні? І людина дивиться на картинку в цілому, чи висновки машини мають сенс і приймає рішення про блокування.

Звісно, така організація процесу не дуже вигідна для економії часу і фінансів, але це дозволяє зменшити ризик того, що машина вирішить заблокувати чиюсь транзакцію, поклавши в основу рішення не ті дані, що треба (юридичною мовою: це дозволяє обмежити дискримінаційний вплив на фізичних осіб на основі расового або етнічного походження, політичних поглядів, релігії або переконань, членства в профспілках, генетичного або медичного статусу, або сексуальної орієнтації). Окрім цього, залучені за такою системою люди зможуть наглядати, щоб в процесі всіх цих аналізів не було інших порушень (типу якогось витоку даних, який машина з різних причин не зможе виявити).

Логіка АІ ? Прошу пояснити

Другий момент – для реалізації концепції privacy by design розробники і компанії, які використовують AI, повинні використовувати штучний інтелект так, щоб логіку його рішення можна було пояснити. Цей аспект дуже пов’язаний із попереднім, але важливо наголосити окремо, що норми GDPR встановлюють, що за наявності автоматизованого вироблення й ухвалення рішень має бути надано достовірну інформацію про логіку такого опрацювання для суб’єкта даних. В розробників AI (які займаються технічними аспектами) часто очікувано виникає запитання – а що саме вам пояснювати?

Як штучний інтелект обирає і передає дані, як він здійснює їх аналіз? Ну і що вам з того буде зрозумілим? (спойлер: майже нічого). Насправді пояснювати тут треба не технічні процеси, а причини, чому машина вирішує саме так, а не інакше. З прив’язкою до попереднього прикладу, то AI має бути розроблена так, щоб у випадку необхідності можна було показати – ця транзакція була заблокована через те, що вона здійснювалась ось так і отак, а за логікою машини це є ознакою шахрайства, тому що вона проаналізувала такі от шахрайські транзакції і ось такий відсоток з них містив таку ознаку. Це також добавляє роботи розробникам штучного інтелекту при його створенні, оскільки такі речі треба в них закладати (час і гроші!), але переваги такого підходу для дотримання прав людини, думаю, пояснювати не потрібно.

Диференційна приватність

Третє – це зменшення можливості ідентифікації осіб під час доступу до інформації, яка наявна в AI. Що це значить? А те, що потрібно організовувати роботу AI так, щоб персональні, а особливо, чутливі дані були максимально деперсоніфікованими і зашифрованими, де це можливо. Наприклад, коли AI платформа для певних цілей займається аналізом розміру заробітної плати чи сексуальної орієнтації в певній групі осіб, то важливо, щоб особа, яка отримує результат такого аналізу, не могла прослідкувати зворотній шлях і зіставити дані про осіб і їхню заробітну плату чи орієнтацію. Такий підхід називається differential privacy (яку перекладають як диференційна приватність) і якщо ви подумали, що це зробити дуже легко, то ви помиляєтесь. Але над вдосконаленням процесів диференційної приватності працюють, тому ця проблема має шанси бути вирішеною в найближчому майбутньому.

Деперсоніфікація також критично важлива при витоку даних. Шкоду, яка завдається витоком даних, можна звести до мінімуму, якщо інформація буде зберігатись розділено, і її буде нелегко зіставити в єдиний ряд, щоб ідентифікувати конкретну людину.  

Право на забуття?

І останнє, але дуже важливе при використанні AI для аналізу даних – це право на забуття, що закріплене в статті 17 GDPR. Виникає проблема – як забезпечити стирання персональної інформації, якщо AI використовує інформацію, що в нього закладена, для того, щоб навчатись? І чи взагалі повне видалення якоїсь інформації з пам’яті машини можливе?  А як доводити, що така інформація була видалена, а не просто глибоко прихована в пам’яті AI? Щоб відповісти на ці питання потрібні окремі глибинні дослідження, тому в межах даної статті ми залишимо їх відкритими.

Але факт залишається фактом – GDPR це не просто акт, який використовують десь там в ЄС деякі окремі суб’єкти, це те, що змінює правила розробки і використання artificial intelligence у всьому світі, а отже – змінює і ваше з нами майбутнє.

Безкоштовна первинна консультація по ІТ праву у твоєму кейсі. Не зволікай ;)Твоє запитання ІТ юристам


Отримуй сповіщення про нові статті :)