Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models
Le développement actuel des modèles d’IA – en particulier les IA génératives – provoque de nombreux commentaires et analyses et impose notamment aux autorités de protection des données de prioriser ce sujet de publication. En France, la CNIL avait pris un peu d’avance en lançant ses premiers travaux dès 2017, en se dotant par la suite d’un service spécialisé sur l’IA, et en publiant plus récemment de nombreuses fiches pratiques sur le développement des systèmes d’intelligence artificielle (voir nos articles précédents : ici et ici). Au niveau européen, le CEPD vient de publier sa première position sur le sujet.
Dans cette position, le CEPD aborde trois thèmes : (i) les conditions dans lesquelles les modèles d’IA eux-mêmes peuvent être considérés anonymes ; (ii) le recours à la base légale de l’intérêt légitime pour développer ou utiliser des modèles d’IA ; et (iii) l’impact d’un développement illicite de modèle d’IA sur son utilisation.
- Un modèle d’IA peut lui-même constituer un traitement de données personnelles
Par principe, un modèle d’IA ne contient pas directement de données à caractère personnel. Il s’agit d’une construction mathématique comprenant des paramètres qui représentent des relations probabilistes entre certaines données. L’on serait donc tenté de considérer a priori qu’un modèle d’IA ne peut jamais, en lui-même (c’est-à-dire en faisant abstraction des phases d’entrainement et de son utilisation), constituer un traitement de données à caractère personnel.
Ce n’est toutefois pas la position du CEPD, qui considère qu’un modèle d’IA ne peut pas être considéré comme « anonyme » – au sens de la règlementation sur la protection des données personnelles – dans trois cas.
Tout d’abord, le CEPD met de côté les modèles d’IA qui ont été spécifiquement conçus pour fournir des données personnelles concernant les mêmes personnes que celles dont les données ont été utilisées pour entrainer le modèle. Cela concerne par exemple les modèle d’IA générative conçus pour reproduire la voix des personnes sur lesquelles ils ont été entrainés. Pour le CEPD, ces modèles incluent intrinsèquement des données personnelles relatives aux personnes concernées visées par la phase d’entrainement.
Ensuite, le CEPD considère que, pour être considéré anonyme, il convient de vérifier si, en déployant « tous les moyens pouvant être raisonnablement utilisés » il est très peu probable : (i) d’extraire des données à caractère personnel du modèle d’IA lui-même ; et (iii) d’obtenir des résultats en sortie – outputs – qui concernent les mêmes personnes que celles visées par la phase d’entrainement.
Afin de mener l’analyse, les autorités de protection sont invitées à se référer aux lignes directrices pertinentes du CEPD (ou de l’ex G29), au premier rang desquelles les lignes directrices 05/2014 sur les techniques d’anonymisation. Les autorités de protection devront également tenir compte de « tous les moyens raisonnablement susceptibles d’être utilisés » par le responsable du traitement ou un tiers, pour extraire des données personnelles du modèle ou obtenir de telles données – concernant les personnes visées par la phase d’entrainement – en sortie. Cette notion – très élastique – de « moyens raisonnables » est centrale en données personnelles. Le considérant 26 du RGPD y fait notamment référence afin de déterminer si une personne concernées peut être directement ou indirectement « identifiée ou identifiable » à partir d’information de toute nature. Enfin, les autorités de protection doivent tenir compte des analyses de risques préalablement réalisées par les responsables de traitement sur ce point.
Le CEPD livre ensuite une liste – non exhaustive – d’éléments plus précis qui devraient être vérifiés :
- Les mesures prises lors de la sélection des sources de données pour s’assurer de leur caractère pertinent et adéquat en fonction des buts poursuivis.
- La manière dont les données d’entrainement ont été « préparées » : anonymisation/pseudonymisation, stratégies de minimisation des données, filtrage systématique, etc.
- Les méthodes de développement des modèles qui ont été suivies, en particulier sur le point de savoir si ces méthodes garantissent que le modèle sera suffisamment générique (c’est-à-dire qu’il ne soit pas trop ciblé en fonction des données personnelles d’entrainement).
- Les mesures mises en œuvre pour réduire les risques d’obtenir, dans les résultats du modèle, les données personnelles utilisées lors de l’entrainement.
- Les évaluations et audits menés par les responsables de traitement pour tester le caractère anonyme des modèles, y compris pour tester leur résistance aux attaques externes.
- La documentation établie par les responsables de traitement : analyses d’impact relative à la protection des données (AIPD), retours du DPD, description des mesures techniques et organisationnelles mises en place pour réduire les risques d’identification (y compris par attaques extérieures), etc.
Au regard des critères d’évaluation proposés par le CEPD, il apparait désormais très important pour les entreprises développant des modèles d’IA (y compris uniquement en interne) de mener leur propre analyse relative au caractère anonyme – ou non – de ces modèles et de la documenter. Dès lors que le modèle ne peut pas être considéré comme anonyme, cela signifie que le RGPD s’appliquera et entrainera l’application de l’ensemble des obligations de ce texte : information des personnes concernées, base légale, exercice de leurs droits par les personnes concernées, etc.
- Le recours à la base légale de l’intérêt légitime dans le cadre du développement et du déploiement des modèles d’IA
Dans cette seconde partie, le CEPD livre des considérations générales sur les critères dont il faut tenir compte pour pouvoir faire reposer les traitements de développement ou déploiement des modèles d’IA sur la base légale de l’intérêt légitime.
Le premier apport du CEPD sur ce point est une confirmation – dont personne ne doutait vraiment – que l’intérêt légitime peut, si les conditions sont réunies, constituer la base légale pour ces traitements. Le consentement des personnes concernées – ou la nécessité de l’exécution d’un contrat entre elles et le responsable de traitement – n’est donc pas requis dans tous les cas.
Le CEPD commente ensuite chacun des critères du test en trois étapes pour pouvoir fonder un traitement sur l’intérêt légitime :
- L’intérêt poursuivi par le responsable du traitement ou un tiers doit être légitime :
Le Comité estime en l’occurrence que, par exemple, le développement d’un agent conversationnel pour assister les utilisateurs d’un système pour détecter la fraude, ou encore d’un système pour améliorer la détection des menaces cyber, constituent a priori des intérêts légitimes.
- Le traitement doit être nécessaire à la poursuite des intérêts légitimes.
De manière classique, le CEPD rappelle ici que le traitement doit effectivement permettre d’atteindre les finalités du traitement et que cela ne serait pas possible via des moyens de traitement moins intrusifs. Ce second critère est particulièrement important s’agissant des modèles d’IA dont la performance est dans de nombreux cas proportionnelle au nombre de données (dont des données personnelles) ingérées lors de l’entrainement. Les responsables du traitement devront ici veiller à ne pas être excessivement « gourmands », alors que les sources de données publiquement accessibles n’ont jamais été aussi nombreuses et volumineuses.
- La balance des intérêts et droits en présence.
Le Comité livre tout d’abord quelques exemples d’intérêts et de libertés et droits fondamentaux des personnes concernées dont il convient de tenir compte dans le contexte du développement et du déploiement des modèles d’IA : autodétermination et maintien du contrôle sur ses propres données personnelles, risques pour la vie privée et familiale que ces modèles peuvent présenter, etc. Le CEPD indique par ailleurs que certains modèles, en particulier ceux basés sur une collecte à grande échelle de données personnelles, peuvent présenter d’autres risques, comme celui d’une surveillance des personnes concernées. Le Comité note cependant qu’il faut également tenir compte des bénéfices que peuvent retirer les personnes concernées de l’utilisation des modèles d’IA (bénéfices financiers, meilleure accessibilité des services, aide à l’identification de contenus offensants sur internet, etc.).
Il convient ensuite d’évaluer l’impact des traitements sur les intérêts, libertés et droits fondamentaux des personnes concernées. Selon le Comité, cela dépend notamment de la nature des données traitées (ex : des données particulièrement privées comme la localisation devrait être considérées comme ayant un impact potentiel sérieux sur les personnes concernées), et du contexte du traitement (ex : est-ce que le traitement implique des combinaisons de différentes sources de données, est-ce que les personnes concernées sont des enfants ou d’autres personnes vulnérables, etc.).
Le CEPD décrit ensuite les critères à vérifier pour déterminer si les personnes concernées peuvent raisonnablement s’attendre à l’utilisation de leurs données dans le cadre du développement et/ou du déploiement des modèles d’IA, dont par exemple : le caractère public des sources de données, les relations entre les personnes concernées et le responsable du traitement, le type de service fourni, les utilisations ultérieures potentielles du modèle, etc.
Enfin, le Comité dresse une liste d’exemples de mesures et garanties pouvant être mises en place pour atténuer les risques pour les personnes.
- Le développement d’un modèle d’IA en violation du RGPD peut-il impacter la licéité de son utilisation ?
La réponse du CEPD à cette question est très nuancée et laissera les responsables de traitement dans le doute : tout dépend des parties en cause (ex : est-ce que le développement et l’utilisation du modèle sont réalisées par le même responsable du traitement ?), des finalités de traitement (ex : est-ce que le développement et l’utilisation du modèle poursuivent les mêmes finalités ?) ainsi que de la gravité de la violation du RGPD commise dans le cadre du développement du modèle d’IA.
Les responsables de traitement devront donc mener une analyse au cas par cas, en la documentant. Par exemple, si l’utilisation du modèle d’IA repose sur la base légale de l’intérêt légitime, le fait que son développement ait été mené en violation du RGPD devrait nécessairement impacter négativement la balance des intérêts (mais le CEPD ne ferme pas totalement la porte, puisque cela dépendra notamment des mesures mises en place pour limiter l’impact de l’utilisation du modèle d’IA sur les personnes concernées).
Le seul scénario sur lequel le CEPD livre une réponse claire est celui dans lequel le responsable de traitement qui a développé un modèle en violation du RGPD anonymise ensuite complètement ce modèle. Dans ce cas, la licéité des traitements de données personnelles ultérieurs, dérivés de l’utilisation du modèle d’IA, ne sera pas impacté par l’illicéité de son développement.