Privacy by design: как используют GDPR в AI технологиях

Что такое АІ и почему об этом говорим?

Когда average person видит словосочетание искусственный интеллект, в воображении возникает некий Джарвис, который учит себя сам и развивается так быстро, что в результате захватывает все человечество и контролирует его.

Однако, такое видение на искусственный интеллект популяризируют писатели, сценаристы и режиссеры, но когда речь идет о людях из сферы IT, то для них AI — это определенный уровень развития технологий, при котором уменьшается уровень привлечения людей к выполнению отдельных процессов, а не какой-то один конкретный супер-робот.

Как ни странно, но термин «artificial intelligence» — это не продукт ХХ или даже конца ХХ века. Он был создан еще в 1955 году американским информатиком Джоном Маккарти, когда тот готовился к своему выступлению на конференции в Дартмуте. Но почему тогда мы так часто обсуждаем вопросы искусственного интеллекта сейчас, спустя более чем 60 лет после его возникновения?

Одна из основных причин для такой актуализации — это чрезвычайное увеличение объемов имеющейся в мире информации. Где-то с 2010-х годов общество осознало, что количество информации, которое производится, настолько велико (и столь стремительно увеличивается), что для того, чтобы эффективно обрабатывать и анализировать хоть какую-то весомую долю из этого массива данных, человеческих усилий уже недостаточно. Поэтому компании начали привлекать к этому AI платформы. Использование искусственного интеллекта для обработки данных позволило ведущим компаниям оптимизировать значительное количество процессов и сделало их аналитику чрезвычайно эффективной. На этом моменте вы все можете вспомнить, как быстро обычную рекламу в сети сменила исключительно таргетированная, и как частью вашего дня стали музыкальные сервисы, которые включают именно те песни, которые вам так нравятся ( «откуда они знаааают?»).

При чем тут GDPR и Privacy by design?

Конечно же, активное привлечение AI в различные процессы породило и новые проблемы. Ведь среди информации, которую начали активно передавать на обработку и анализ AI, появилась не только общая или техническая. Чаще всего это именно данные, которые мы называем персональными, то есть такие, которые касаются каких-то конкретных лиц и часто являются составляющей их частной жизни. А безопасность и «правильная» обработка этих данных очень важна, так как необходимы как технические, так и юридические меры для того, чтобы эти аспекты можно было гарантировать.

И именно на выполнение этих задач направлены нормы GDPR. В статье 25 этого акта закреплено требование, что называется «privacy by design». В рамках этой концепции отмечается, что необходимо интегрировать в системы (на всех стадиях их создания и существования) приватность и соблюдения других важных принципов обработки персональных данных. Эти правила применяются и при разработке AI, и ставят перед разработчиками программ и алгоритмов требования внедрения таких технических мероприятий, чтобы важные аспекты, касающиеся обработки персональных данных, были буквально встроены в их функционирование.

При этом, нормы GDPR влияют на процессы такой разработки не только в Европе, ведь большинство ведущих компаний мира, занимающихся развитием искусственного интеллекта, сделали этот документ своей настольной книгой и используют закрепленные там принципы как best practice, независимо от того, обязаны они это делать или нет. Именно поэтому GDPR играет такую ​​важную роль в определении направлений развития AI во всем мире.

Скажем сразу, концепцию privacy by design часто критикуют за отсутствие четкости, поэтому до конца узнать, что вкладывается в нее нелегко. Но к ее пониманию можно приблизиться, проанализировав практику компаний, которые занимаются развитием artificial intelligence с соблюдением требований GDPR.

4 основные требования, на которые надо обратить внимание AI-разработчикам

Итак, что пришлось изменить в своей деятельности компаниям и девелоперам при разработке AI для того, чтобы обеспечить реализацию privacy by design?

Меньше автоматизированной обработки

Прежде всего, перед разработчиками встала задача создать условия для соблюдения требований статьи 22 GDPR — чтобы субъект данных имел возможность не подвергаться решению, основанному исключительно на автоматизированной обработке. То есть, чтобы реализовывать концепцию privacy by design компаниям пришлось отойти от понимания artificial intelligence как использования только машинного интеллекта, и привлекать туда интеллект человеческий (то есть работать по системе human-in-the-loop). Привлечение людей для наблюдения и контроля за процессами обработки данных машинным интеллектом позволяет уменьшить риски в работе последних. Как результат — персональные данные, обрабатываемые AI более защищенные, а выводы, которые делает машинный интеллект по результатам такой обработки лишены возможных предвзятости или неточностей. Для лучшего понимания как работает система human-in-the-loop, приведем такой пример:

Представьте платформу AI, которая была создана для того, чтобы анализировать данные денежных переводов и других транзакций, которые совершают пользователи, и блокировать те, которые имеют признаки мошеннических. Как выгодно и удобно было бы, чтобы машинный интеллект делал все сам — сам проанализировал, сам нашел признаки мошенничества, сам заблокировал. Быстро и дешево! Однако, тогда требования статьи 22 GDPR соблюдены не будут. Тогда как эту систему можно организовать по-другому: машинный интеллект анализирует данные, выделяет признаки мошенничества, и в удобном виде это представляет человеку — типа вот у нас есть такая транзакция, и вот тут такую ​​в ней штуку я считаю подозрительным — блокировать или нет? И человек смотрит на картинку в целом, и делает вывод и принимает решение о блокировании средств.

Конечно, такая организация процесса не очень выгодна для экономии времени и денег, но это позволяет уменьшить риск того, что машина решит заблокировать чью транзакцию, положив в основу решения не те данные, что надо (юридическим языком: это позволяет ограничить дискриминационное влияние на физических лиц на основе расового или этнического происхождения, политических взглядов, религии или убеждений, членства в профсоюзах, генетического или медицинского статуса или сексуальной ориентации). Кроме этого, привлеченные по такой системе люди смогут наблюдать, чтобы в процессе всех этих анализов не было других нарушений (типа какой-то утечки данных, которые машина по разным причинам не сможет обнаружить).

Логика АІ ? Прошу объяснить

Второй момент — для реализации концепции privacy by design разработчики и компании, которые используют AI, должны использовать искусственный интеллект так, чтобы логику его решений можно было объяснить. Этот аспект очень связан с предыдущим, но важно отметить, что нормы GDPR устанавливают, что при наличии автоматизированной выработки и принятия решений должно быть предоставлено достоверную информацию о логике такой обработки для субъекта данных. У разработчиков AI (которые занимаются техническими аспектами) часто возникает вопрос — а что именно вам объяснять?

Как искусственный интеллект выбирает и передает данные или как он осуществляет их анализ? Ну и что вам с того будет понятно? (Спойлер: почти ничего). На самом деле объяснять здесь надо не технические процессы, а причины, почему машина решает именно так, а не иначе. С привязкой к предыдущему примеру, то AI должна быть разработана так, чтобы в случае необходимости можно было показать — эта транзакция была заблокирована из-за того, что она осуществлялась вот так и так, а по логике машины это является признаком мошенничества, так как она проанализировала такие вот мошеннические транзакции и вот такой процент из них содержал такой признак. Это также добавляет работы разработчикам искусственного интеллекта при его создании, поскольку такие вещи надо в них закладывать (время и деньги!), Но преимущества такого подхода для соблюдения прав человека, думаю, объяснять не нужно.

Дифференциальная приватность

Третье — это уменьшение возможности идентификации лиц при доступе к информации, которая имеется в AI. Что это значит? А то, что нужно организовывать работу AI так, чтобы персональные, особенно, чувствительные данные были максимально деперсонифицированы и зашифрованы, где это возможно. Например, когда AI платформа для определенных целей занимается анализом размера заработной платы или сексуальной ориентации в определенной группе лиц, то важно, чтобы лицо, получающее результат такого анализа, не могло проследить обратный путь и сопоставить данные о лицах и их заработной плате или ориентации. Такой подход называется differential privacy (которую переводят как дифференциальная приватность) и если вы подумали, что это сделать очень легко, то вы ошибаетесь. Но над совершенствованием процессов дифференциальной приватности работают, поэтому эта проблема имеет шансы быть решенной в ближайшем будущем.

Деперсонификация также критически важна при утечке данных. Ущерб, наносимый утечкой данных, можно свести к минимуму, если информация будет храниться разделены, и ее будет нелегко сопоставить в единый ряд, чтобы идентифицировать конкретного человека.

Право на забвение?

И последнее, но очень важно при использовании AI для анализа данных — это право на забвение, что закреплено в статье 17 GDPR. Возникает проблема — как обеспечить удаление персональной информации, если AI использует информацию, у него заложена, для того, чтобы учиться? И вообще полное удаление какой-либо информации из памяти машины возможно? А как доказывать, что такая информация была удалена, а не просто глубоко скрыта в памяти AI? Чтобы ответить на эти вопросы нужны отдельные глубинные исследования, поэтому в рамках данной статьи мы оставим их открытыми.

Но факт остается фактом — GDPR это не просто акт, который используют где-то в ЕС некоторые отдельные субъекты, это то, что меняет правила разработки и использования artificial intelligence во всем мире, а следовательно — меняет и ваше с нами будущее.

    Твой вопрос ІТ юристам


    Хочешь получать крутую инфу по IT-праву,
    без спама и надоедливых акций?