Дилемма защиты данных: решение компании Apheris

Июнь 2022 г.

Джеймс Нертон, независимый журналист

Как применять высокотехнологичные инструменты искусственного интеллекта (ИИ), соблюдая конфиденциальность и охраняя интеллектуальную собственность на информационные активы? В берлинском стартапе уверены, что ответ дает федеративное обучение.

Федеративное обучение основано на убеждении,
что «закрытые данные лучше всего хранить
локально и под контролем их оператора» и что
оно дает такие же результаты, «как если бы все
данные находились на ваших собственных
серверах», — Люси Арнц, руководитель правового
отдела Apheris.
(Фото используется с разрешения компании Apheris)

В своем вступительном слове в ходе четвертого раунда дискуссии ВОИС по вопросам ИС и передовых технологий, состоявшегося в сентябре 2021 года (см. «Данные: движущая сила, преобразующая мировую экономику»), Генеральный директор ВОИС Дарен Танг сравнил данные с топливом, питающим цифровизацию. Для успешной работы алгоритмам машинного обучения требуются большие объемы данных, но что происходит, когда «топливо» перестает поступать, т. е. когда данные нельзя передавать из соображений конфиденциальности, безопасности или охраны интеллектуальной собственности (ИС)?

Одним из решений этой проблемы является федеративное обучение, во время которого данные всегда находятся под контролем их владельца. Алгоритмы машинного обучения тренируются обрабатывать данные локально, поэтому они никуда не передаются. Простой пример: при разработке нового препарата фармацевтическая компания может использовать закрытые данные, например из медицинских карт пациентов, но больнице не придется разглашать эти сведения. В более сложных случаях один и тот же алгоритм может обучаться на данных из нескольких источников, что дает преимущества в объеме и разнообразии материала.

Для федеративного обучения требуется доверенная третья сторона, которая станет связующим звеном между алгоритмом и владельцами данных. Берлинский стартап Apheris, основанный в 2019 году, является одной из таких компаний. В ее команду входят около 20 разработчиков, аналитиков данных и специалистов по защите конфиденциальности, создавших надежную платформу для безопасного обмена данными. Люси Арнц, руководитель правового отдела Apheris, недавно рассказала Журналу ВОИС о бизнес-модели компании, а также защите и безопасности данных.

Преимущества федеративного обучения

Г-жа Арнц работает в Apheris с лета 2020 года; она — первый сотрудник компании, который решает не научные, а административные задачи, в том числе связанные с обеспечением надлежащей правовой базы, защитой прав клиентов и контролем исполнения контрактов. Г-жа Арнц пояснила, что федеративное обучение основано на убеждении, что «закрытые данные лучше всего хранить локально и под контролем их оператора» и что оно дает такие же результаты, «как если бы все данные находились на ваших собственных серверах».

До сих пор преимущества такого подхода были наиболее очевидны в сфере здравоохранения, где развиты методы ИИ и существует серьезная проблема защиты конфиденциальных и закрытых данных пациентов. Но г-жа Арнц подчеркивает, что федеративное обучение полезно и в тех случаях, когда закрытые персональные данные (ПД) не задействованы. Так, сейчас Apheris работает с производителем химических веществ над проектом, где используются данные о продукции и клиентах, составляющие коммерческую тайну. Федеративное обучение также может применяться в ситуациях, когда те или иные сведения охраняются правами ИС.

«Централизация данных устаревает», — утверждает г-жа Арнц, добавляя, что многие компании располагают огромными объемами ценных данных, которые не используются в полной мере из-за опасений открывать к ним доступ: «У вас может быть множество данных, которые очень важны кому-то кроме вас, поэтому без совместной работы вся ценность таких данных теряется».

В некоторых случаях значимость данных выявляется только в сочетании с материалами из других источников и благодаря их совместной обработке методами федеративного обучения. Например, медицинские данные пациентов из США можно сопоставить со сведениями из Африки или Азии, чтобы получить более разнообразную картину клинических испытаний. «Выбирайте нужный масштаб, и начнется магия», — говорит г-жа Арнц.

Однако она добавляет, что для реализации потенциала федеративного обучения понадобится еще примерно три года. Одна из причин тому — необходимость дополнительной стандартизации процессов сбора и форматирования данных. Хотя растущие вычислительные мощности позволяют обрабатывать большие массивы данных, для достижения оптимальных результатов данные должны быть хорошо структурированы, чтобы защитить их при совместной работе. Здесь опять же лидирует сфера здравоохранения, но другие отрасли тоже стараются не отставать. В частности, г-жа Арнц выделяет автомобильную промышленность, которая при разработке частично и полностью автономных транспортных средств полагается на анализ огромного разнообразия данных из различных источников, включая сведения от самих транспортных средств, водителей, дорожных ведомств, правоохранительных органов и страхователей. «Автомобильная промышленность уделяет большое внимание внедрению такой стандартизации, — отмечает г-жа Арнц. — Существует огромный интерес к совместной работе с этими данными, поэтому крупнейшие производители предпринимают попытки объединить свои усилия по стандартизации. Эта сфера особенно интересна, т. к. предполагает взаимодействие государственного и частного секторов». Таким образом, решение автомобильного сектора, скорее всего, будет добровольным и самостоятельным, но для его разработки понадобится время.

Хотя растущие вычислительные мощности позволяют обрабатывать большие массивы данных, для достижения оптимальных результатов данные должны быть хорошо структурированы, чтобы защитить их при совместной работе.

Проблема обезличивания

При разработке инструментов ИИ большую проблему представляет степень обезличивания. Люди по понятным причинам обеспокоены защитой своих персональных данных (будь то их история болезни, семейный анамнез, финансовая информация или другие личные данные), но г-жа Арнц предупреждает: «Чем больше данные обезличены, тем менее они полезны. Будущее машинного обучения не в обезличивании». Например, чтобы разработка и испытания лекарств были эффективны, необходимо учесть возраст пациентов, их этническую принадлежность, наличие аллергии, принимаемые препараты и другие факторы; для автономного управления автомобилем нужны сведения о том, куда вы направляетесь, какие характеристики у вашей машины и как быстро вы хотите добраться. Г-жа Арнц уверена, что федеративное обучение способно обеспечить баланс интересов и показать, что «конфиденциальность и инновации не исключают друг друга».

Для преодоления таких трудностей требуется комплекс технологических и юридических решений: технологии гарантируют безопасность данных благодаря строгим и тщательно испытанным процессам, а законодательство позволяет указывать в контрактах, кто контролирует данные, кто получает результаты их обработки и в какой степени подробными они будут.

Сравнение централизованного и федеративного обучения

«Централизация данных устаревает», — утверждает г-жа Арнц. «У вас может быть множество данных, которые очень важны кому-то кроме вас, поэтому без совместной работы вся ценность таких данных теряется».

Практическая сторона защиты данных остается сложным вопросом: хотя законодательство об авторском праве и такие инструменты sui generis, как права в отношении баз данных, установленные в ЕС, предоставляют некоторую защиту, сфера их действия не вполне определена, и большинство организаций предпочитают обеспечивать безопасность данных, руководствуясь договорными положениями и защитой на основании коммерческой тайны или законодательства о конфиденциальной информации. Однако г-жа Арнц отмечает, что из вопроса, защищены ли данные вообще и если да, то как именно, не стоит делать проблему: «Если у вас есть данные, скорее всего, вы считаете их важными и хотите защитить. При федеративном обучении не имеет значения, защищены данные официально или нет. Мы действуем без риска».

По ее мнению, более актуальна проблема «широкого согласия». В GDPR признается, что исследователи не всегда могут определить все цели, для которых собираются данные. Соответственно, ученые могут не конкретизировать свои планы в других областях, однако должны предоставлять субъектам данных возможность дать обоснованное согласие на дальнейшее научное использование передаваемых сведений. «Нам необходимо более четкое определение того, что относится к “исследовательским целям”. В настоящий момент исследователи и университеты сталкиваются с неопределенностью, и она сдерживает инновации», — говорит г-жа Арнц.

Прокладывая путь к справедливому регламентированию

Г-жа Арнц убеждена, что GDPR является примером правового акта, который «много критикуют, но при этом очень ценят»: в нем заложена прочная основа для защиты данных, однако его нужно будет обновлять по мере развития технологий. «Прежде всего, нам нужна ясность: даже если что-то запрещается, по крайней мере так устанавливаются четкие границы дозволенного».

Г-жа Арнц также указывает, что GDPR служит примером того, как отдельно взятый регион — в данном случае ЕС — может «проложить путь» для распространения справедливого регламентирования: по ее словам, использование данных недостаточно регламентировать только на государственном уровне — нужны решения международного или общемирового масштаба, даже если для их выработки потребуются некоторые компромиссы. Г-жа Арнц надеется, что новые инициативы ЕС, такие как недавно принятый Закон об управлении данными и предлагаемый Закон об ИИ, дополнительно прояснят ситуацию: «Возможность оптимизации регламентирующих документов должна оставаться всегда. В будущем нам потребуется их корректировать и пересматривать свои цели».

Apheris позволяет компаниям безопасно анализировать данные сразу нескольких сторон, сохраняя конфиденциальность их внутренней информации. Однако г-жа Арнц предупреждает, что этот процесс должен быть недискриминационным и многопрофильным: зачастую предприниматели, юристы, политики.

Однако г-жа Арнц предупреждает, что этот процесс должен быть недискриминационным и многопрофильным: зачастую предприниматели, юристы, политики и технические эксперты не встречаются друг с другом и даже говорят на разных языках, а мнение представителей стартапов, малого и среднего бизнеса не всегда берется в расчет. «Органы власти активно консультируются с крупными корпорациями, но без контакта со стартапами инновационные технологии упускаются из виду», — поясняет г-жа Арнц.

Она подчеркивает, что диалог важен потому, что технологии усложняются все больше, и для новых продуктов и услуг, разработанных на основе ИИ и анализа данных, предлагается обширное финансирование. Важность данных очевидна во всех сферах: от борьбы с пандемией COVID-19 до оценки последствий изменения климата. «Мы будем наблюдать стремительное развитие анализа данных, и оно должно быть отражено в регламентирующих документах», — заявила г-жа Арнц.

Существующее и предлагаемое законодательство ЕС о данных

Общий регламент по защите данных (GDPR): данный документ 2016 года заменил собой Директиву ЕС о защите данных и регулирует обработку персональных данных в Европейской экономической зоне. Примеру ЕС последовали многие другие страны и регионы — так, в 2018 году был принят Закон штата Калифорния о защите персональных данных потребителей.

Закон об управлении данными: принят Европейским парламентом 6 апреля 2022 года. Парламентарии приветствовали его как меру, которая «будет стимулировать инновации и поможет стартапам и предприятиям использовать большие данные». Бизнес выиграет от установленных норм, потому что сократятся стоимость данных и барьеры для выхода на рынок. Потребители, среди прочего, получат преимущества в виде более рационального энергопотребления и уменьшения выбросов. Принятые нормы также направлены на укрепление доверия, т. к. делают обмен данными более простым и безопасным, обеспечивая его соответствие законодательству о защите данных. Кроме того, новые нормы облегчат повторное использование определенных категорий данных государственного сектора, повысят доверие к посредникам в обработке данных и поощрят альтруизм в этой сфере (предоставление доступа к данным на благо общества). Закон создаст «процессы и структуры», благодаря которым компаниям, физическим лицам и государственному сектору будет проще обмениваться данными. Для вступления в силу закон должен быть одобрен всеми странами-участницами на заседании Совета ЕС.

Закон ЕС о данных: известен также как «Проект Регламента по единообразным правилам справедливого доступа к данным и их использования». Принят Европейской комиссией в феврале 2022 года и является ключевым элементом европейской стратегии в области данных. В документе разъясняется, кто имеет право создавать ценность с помощью данных и при каких условиях это разрешается делать.

Закон об искусственном интеллекте: проект Регламента по ИИ, устанавливающий для ЕС единообразные правила в этой сфере, входит в разработанный Европейской комиссией пакет ИИ, опубликованный в апреле 2021 года. Это первая попытка «ввести горизонтальное регулирование ИИ», pdf которое должно превратить Европу в глобальный центр ориентированного на человека и надежного ИИ.

«Журнал ВОИС» призван помочь читателям улучшить свое понимание интеллектуальной собственности и деятельности ВОИС и не является официальным документом ВОИС. Используемые в этой публикации обозначения и представляемые материалы никоим образом не выражают мнение ВОИС относительно правового статуса каких бы то ни было стран, территорий или районов или их органов власти или относительно делимитации их границ. Данная публикация не преследует цели отразить точку зрения государств-членов или Секретариата ВОИС. Упоминание в публикации конкретных компаний или продуктов определенных производителей не означает, что ВОИС их поддерживает или рекомендует или отдает им предпочтение перед другими аналогичными компаниями и продуктами, которые в материалах не упомянуты.