Apheris : résoudre le dilemme de la confidentialité des données

Juin 2022

James Nurton, rédacteur indépendant

Comment mettre en œuvre des outils sophistiqués fondés sur l’intelligence artificielle tout en respectant la confidentialité et en protégeant la propriété intellectuelle des données? Une start-up basée à Berlin est convaincue que la réponse réside dans l’apprentissage fédéré.

L’apprentissage fédéré repose sur l’idée selon
laquelle “il est préférable de conserver les données
sensibles au niveau local et sous le contrôle du
gestionnaire des données”, et offre des résultats
“aussi satisfaisants que si vous aviez toutes les
données sur vos propres serveurs”, explique Lucie
Arntz, responsable du service juridique chez Apheris.
(Photo : avec l’aimable autorisation d’Apheris)

Dans son discours d’ouverture à la quatrième session du Dialogue de l’OMPI sur la propriété intellectuelle et les technologies de pointe en septembre 2021 (lire l’article intitulé “Les données, véritable combustible de l’économie mondiale”), le Directeur général de l’OMPI, Daren Tang, a décrit les données comme le “combustible” qui alimente la numérisation. Les algorithmes d’apprentissage automatique ont besoin de grands volumes de données pour apprendre. Mais que se passe-t-il lorsque ce flux de combustible est interrompu, en d’autres termes lorsque les données ne peuvent pas être partagées pour des raisons de confidentialité, de sécurité ou de protection de la propriété intellectuelle?

Une solution à ce problème est l’apprentissage fédéré, où les données restent en permanence sous le contrôle de leur propriétaire. Dans ce cas, les algorithmes d’apprentissage automatique sont formés localement à partir des données, sans que celles-ci soient jamais partagées. Pour prendre un exemple simple, des données sensibles telles que les dossiers des patients d’un hôpital peuvent être utilisées par une entreprise pharmaceutique aux fins de l’élaboration d’un nouveau médicament, sans que l’hôpital ait à divulguer la moindre donnée. Dans des cas plus complexes, des données provenant de plusieurs sources peuvent être utilisées pour former le même algorithme, ce qui apporte des avantages en matière de volume et de diversité.

L’apprentissage fédéré requiert l’intervention d’un tiers de confiance pour réunir les propriétaires de l’algorithme et des données. Lancée en 2019, la start-up berlinoise Apheris est l’un d’eux. Apheris, qui dispose d’une équipe d’une vingtaine de développeurs, d’experts en protection de la vie privée et de spécialistes des données, offre une plateforme sécurisée pour le partage des données. La responsable du service juridique, Mme Lucie Arntz, s’est récemment entretenue avec le Magazine de l’OMPI au sujet du modèle économique de l’entreprise, de la protection des données et de la sécurité.

Avantages de l’apprentissage fédéré

Première employée non scientifique à rejoindre l’équipe d’Apheris au cours de l’été 2020, Mme Arntz est chargée d’assurer une base juridique appropriée, de protéger les droits des clients et de superviser les contrats. Selon elle, l’apprentissage fédéré repose sur l’idée selon laquelle “il est préférable de conserver les données sensibles au niveau local et sous le contrôle du gestionnaire des données” et offre des résultats “aussi satisfaisants que si vous aviez toutes les données sur vos propres serveurs”.

Jusqu’à présent, les avantages étaient surtout visibles dans le secteur de la santé, où les techniques fondées sur l’intelligence artificielle sont avancées et où les données confidentielles et sensibles des patients soulèvent des préoccupations fondamentales. Mme Arntz souligne toutefois que l’apprentissage fédéré offre des avantages même lorsque les données à caractère personnel ne sont pas de nature sensible. Par exemple, Apheris travaille actuellement sur un projet pour un fabricant de produits chimiques, qui implique des données sur les produits et les clients qui sont commercialement sensibles et confidentielles. L’apprentissage fédéré pourrait également s’appliquer lorsque certaines données sont protégées par des droits de propriété intellectuelle.

“La centralisation des données devient obsolète”, explique Mme Arntz, qui ajoute que bon nombre d’entreprises possèdent des données précieuses qui ne sont pas exploitées en raison de préoccupations que soulève le partage de données : “il se peut que vous possédiez de nombreuses données qui sont très importantes pour un tiers, mais pas pour vous, de sorte que sans partenaire, ces données n’ont aucune valeur”.

Dans certains cas, la valeur des données se révèle uniquement lorsque celles-ci sont associées, au moyen de l’apprentissage fédéré, à des données provenant d’autres sources. Par exemple, les données médicales des patients aux États-Unis d’Amérique pourraient être associées aux données provenant d’Afrique ou d’Asie, ce qui permettrait d’obtenir un ensemble de données plus diversifié sur les essais cliniques. “Vous pourriez étendre cette solution à l’infini et c’est là que la magie opère”, explique Mme Arntz.

Elle ajoute cependant que le potentiel de l’apprentissage fédéré ne sera probablement pas réalisé avant trois ans. Cela est dû, entre autres, à la nécessité de normaliser davantage la collecte et le formatage des données. Bien que l’augmentation de la capacité informatique permette de traiter de plus grands volumes de données, pour obtenir des résultats optimaux, ces données doivent être bien structurées afin de permettre des collaborations sécurisées. Là encore, le secteur des soins de santé montre la voie, mais d’autres secteurs sont en train de rattraper leur retard. Mme Arntz cite le secteur automobile, où le développement de véhicules partiellement ou totalement autonomes dépend de l’analyse d’une grande variété de données provenant de diverses sources, parmi lesquelles figurent les conducteurs, les véhicules, les autorités routières, les organismes chargés de faire respecter la loi ou encore les assureurs. “L’industrie automobile souhaite vivement que cette normalisation soit mise en place”, dit-elle. “Il y a un grand intérêt à pouvoir collaborer sur ces données et des efforts sont faits pour que les grands constructeurs se réunissent pour mettre en place des normes. C’est un domaine particulièrement intéressant, car il nécessite une interaction avec les secteurs public et privé.” Dans le secteur automobile, la solution sera probablement volontaire et proposée par l’industrie, mais sa mise en place prendra du temps.

Bien que l’augmentation de la capacité informatique permette de traiter de plus grands volumes de données, pour obtenir des résultats optimaux, ces données doivent être bien structurées afin de permettre des collaborations sécurisées.”

Le casse-tête de l’anonymisation

Un des principaux défis pour la mise au point d’outils fondés sur l’intelligence artificielle réside dans le niveau d’anonymisation des données. Chacun est naturellement soucieux de protéger ses données personnelles (qu’il s’agisse d’antécédents médicaux ou familiaux, d’informations financières ou d’autres renseignements personnels) mais, comme le dit Mme Arntz, “plus les données sont anonymisées, moins elles sont pertinentes. L’anonymisation n’est pas l’avenir de l’apprentissage automatique”. Par exemple, la mise au point de médicaments et les essais cliniques doivent, pour être efficaces, tenir compte de l’âge du patient, de son origine ethnique, de ses allergies, des médicaments qu’il prend et d’autres facteurs; les voitures autonomes doivent connaître votre destination, le type de véhicule que vous conduisez et la vitesse à laquelle vous souhaitez rouler. Mme Arntz estime que l’apprentissage fédéré peut aider à concilier ces éléments et démontrer que “le respect de la vie privée et l’innovation ne sont pas contradictoires”.

Pour surmonter de tels défis, il faut un ensemble de solutions technologiques et juridiques : la technologie peut garantir la sécurité des données grâce à des processus rigoureux et rigoureusement testés, tandis que le droit permet de conclure des contrats qui précisent qui contrôle les données, qui peut recevoir les résultats et le niveau de détail de ces derniers.

Comparatif entre l’apprentissage centralisé et l’apprentissage fédéré

"La centralisation des données devient obsolète," explique Mme Arntz. “Il se peut que vous possédiez de nombreuses données qui sont très importantes pour un tiers, mais pas pour vous, de sorte que sans partenaire, ces données n’ont aucune valeur.”

La question qui se pose est de savoir comment les données sont réellement protégées : bien que la législation sur le droit d’auteur et les outils sui generis tels que les droits sur les bases de données dans l’Union européenne (UE) offrent une certaine protection, les limites sont peu claires et la plupart des organisations préfèrent généralement assurer la sécurité des données en s’appuyant sur les dispositions contractuelles et la protection conférée par les secrets d’affaires ou les lois sur la protection des informations confidentielles. Mais Mme Arntz est d’avis que la question de savoir si les données sont protégées et comment elles le sont ne doit pas être un obstacle : “Si vous avez des données, vous pensez probablement qu’elles sont importantes et qu’elles doivent être protégées. Pour l’apprentissage fédéré, il importe peu que les données soient protégées de manière officielle ou non. Nous optons pour la sécurité”.

Une question plus urgente, selon elle, concerne le “consentement général”. Le RGPD reconnaît qu’il n’est pas toujours possible pour les chercheurs scientifiques de déterminer à quelles fins les données sont collectées. Par conséquent, il se peut qu’ils ne soient pas très précis quant à leurs projets dans d’autres domaines, mais doivent néanmoins proposer des options afin que les personnes concernées puissent donner leur consentement en connaissance de cause pour les utilisations futures de la recherche. “Il nous faut des orientations plus précises sur ce que sont les ‘fins de recherche’. Pour l’instant, les universités et les chercheurs sont dans l’incertitude, ce qui limite l’innovation”, ajoute-t-elle.

Promouvoir une réglementation équitable

Mme Arntz estime que le RGPD est un exemple de législation “très critiquée mais aussi très appréciée” : il fournit une base solide pour la protection des données, mais devra être mis à jour à mesure que la technologie évolue. “Avant tout, nous avons besoin de clarté : même si les orientations indiquent que vous ne pouvez pas faire quelque chose, il est bon au moins d’avoir une ligne claire.”

Elle affirme également que le RGPD est un exemple de la manière dont une région, en l’occurrence l’UE, peut promouvoir une réglementation équitable : comme elle le dit, les données ne peuvent pas simplement être réglementées au niveau national, c’est pourquoi des solutions multinationales ou internationales sont nécessaires, même si des compromis sont possibles en cours de route. Mme Arntz est optimiste quant au fait que les nouvelles mesures de l’UE, telles que la loi sur la gouvernance des données récemment adoptée et la proposition de législation sur l’intelligence artificielle, apporteront davantage de clarté : “la politique devrait toujours être prête à être optimisée. Nous devrons l’adapter à l’avenir et revenir sur ce que nous essayons d’atteindre”.

Apheris permet aux entreprises d’analyser en toute sécurité les données de plusieurs parties tout en préservant la confidentialité des informations exclusives.

Elle rappelle toutefois que le processus doit être inclusif et interdisciplinaire : trop souvent, les experts commerciaux, juridiques, politiques et techniques ne sont pas dans la même pièce ou ne parlent pas le même langage, et la voix des start-up et des PME n’est pas toujours entendue. “Les gouvernements parlent beaucoup aux grandes entreprises, mais s’ils ne parlent pas aux start-up, ils n’entendent pas parler des technologies innovantes”, explique-t-elle.

Ce dialogue est important, dit-elle, car les technologies sont de plus en plus sophistiquées et les financements sont abondants pour les nouveaux produits et services dérivés de l’intelligence artificielle et de l’analyse des données. L’importance des données est manifeste dans tous les domaines, qu’il s’agisse de lutter contre la pandémie de COVID-19 ou d’évaluer les incidences du changement climatique. Et d’ajouter, “Nous allons assister à une forte croissance de l’analyse des données, et les politiques devront réagir en conséquence”.

Les données dans l’UE : législation en vigueur et projets de législation

Règlement général sur la protection des données (RGPD) : le RGPD de 2016 a remplacé la directive européenne sur la protection des données et réglemente le traitement des données à caractère personnel des personnes concernées dans l’Espace économique européen. Il a été suivi dans de nombreux autres pays et régions, par exemple dans le California Consumer Privacy Act (2018).

Loi sur la gouvernance des données : cette loi a été adoptée par le Parlement européen le 6 avril 2022. Elle est annoncée par le Parlement européen comme une mesure qui “stimulera l’innovation et aidera les start-up et les entreprises à utiliser le big data”. Ces règles profiteront aux entreprises en réduisant le coût des données et en levant les obstacles à l’accès au marché. Les consommateurs en bénéficieront, par exemple, en ayant accès à une consommation d’énergie plus intelligente et à des émissions plus faibles. Ces règles sont également conçues pour instaurer la confiance en facilitant et en sécurisant le partage des données, en garantissant leur conformité avec la législation sur la protection des données. Elles faciliteront également la réutilisation de certaines catégories de données du secteur public, renforceront la confiance dans les intermédiaires de données et favoriseront l’altruisme en matière de données (le partage de données au profit de la société). La législation créera “les processus et les structures” qui permettront aux entreprises, aux particuliers et au secteur public de partager plus facilement leurs données. Elle devra être adoptée par tous les pays de l’UE au Conseil avant d’avoir force de loi.

Règlement sur les données de l’UE : ce règlement, également connu sous le nom de Proposition de règlement établissant des règles harmonisées relatives à l’accès et à l’utilisation équitables des données, a été adopté par la Commission européenne en février 2022, et constitue un pilier essentiel de la stratégie européenne en matière de données. Il indique clairement quelles sont les personnes qui peuvent créer de la valeur à partir des données et les conditions à respecter pour ce faire.

Législation sur l’intelligence artificielle : cette proposition de règlement établissant des règles harmonisées en matière d’intelligence artificielle pour l’UE s’inscrit dans le train de mesures sur l’intelligence artificielle de la Commission européenne publié en avril 2021. Elle marque une première tentative visant à “adopter un règlement horizontal pour les règles relatives à l’intelligence artificielle”pdf et a pour but de faire de l’Europe le centre mondial de l’intelligence artificielle centrée sur l’humain et digne de confiance.

Le Magazine de l’OMPI vise à faciliter la compréhension de la propriété intellectuelle et de l’action de l’OMPI parmi le grand public et n’est pas un document officiel de l’OMPI. Les désignations employées et la présentation des données qui figurent dans cette publication n’impliquent de la part de l’OMPI aucune prise de position quant au statut juridique des pays, territoires ou zones concernés ou de leurs autorités, ni quant au tracé de leurs frontières ou limites territoriales. Les opinions exprimées dans cette publication ne reflètent pas nécessairement celles des États membres ou du Secrétariat de l’OMPI. La mention d’entreprises particulières ou de produits de certains fabricants n’implique pas que l’OMPI les approuve ou les recommande de préférence à d’autres entreprises ou produits analogues qui ne sont pas mentionnés.