Sept nouveaux projets de fiches sur l’IA soumis à consultation publique par la CNIL (1/2)

Publication de la CNIL sur son site

La CNIL a engagé un travail de fond sur l’intelligence artificielle depuis plusieurs années. En 2017, l’autorité publiait déjà un rapport sur les enjeux éthiques des algorithmes et de l’intelligence artificielle. Ses travaux se sont poursuivis en 2022 notamment par la publication de premières fiches sur les grands principes de l’IA et comprenant également un guide pour accompagner les professionnels dans leur conformité. En mai 2023, la CNIL a engagé un important travail sur la conception des systèmes d’IA et la constitution de bases de données pour l’apprentissage automatique. Une première série de fiches a été publiée en avril 2024 sur ce thème.

La CNIL complète à présent ces recommandations par la soumission de sept nouvelles fiches à un processus de consultation publique jusqu’au 1^er septembre 2024. Ce premier article présente les trois premières fiches, qui portent sur la base légale de l’intérêt légitime, la diffusion des modèles d’IA en open source et le web scraping.

La base légale de l’intérêt légitime pour développer un système d’IA

Dans cette fiche, l’autorité détaille, dans le cadre du développement d’un système d’IA, les trois conditions qui doivent être réunies pour pouvoir mobiliser cette base légale très souvent utilisée : la « légitimité » de l’intérêt poursuivi, la nécessité du traitement et l’absence d’atteinte disproportionnée aux droits et intérêts des personnes concernées.

S’agissant du premier critère, la CNIL considère que certains intérêts pourraient être a priori considérés comme légitimes dans le cadre du développement d’un système d’IA : par exemple : mener des travaux de recherches, faciliter l’accès du public à certaines information, proposer un service d’agent conversationnel, assister les utilisateurs, ou encore détecter des contenus ou comportements frauduleux. En revanche, le développement d’un système d’IA pour adresser à des mineurs de la publicité ciblée en fonction de leur profil ne pourrait pas être considéré légitime, étant rappelé que cette pratique est interdite par l’article 28.2 du DSA s’agissant des plateformes en ligne.

Concernant la nécessité, la CNIL indique que cela impose de vérifier qu’il n’existe pas de moyens moins intrusifs pour la vie privée. La condition de nécessité devra donc être notamment évaluée au regard du principe de minimisation des données, en vertu duquel les responsables de traitement doivent veiller à ne pas collecter plus de données que ce qui est strictement nécessaire pour atteindre les finalités du traitement.

La CNIL livre ensuite un mode d’emploi détaillé pour opérer la balance entre les intérêts du responsable de traitement et ceux des personnes concernées. En premier lieu, le responsable de traitement devra lister les bénéfices apportés par le système d’IA, comme par exemple l’amélioration des soins de santé, la facilitation de l’exercice des droits fondamentaux, etc. Puis, ces bénéfices devront être mis en balance avec les incidences potentielles des traitements sur les personnes concernées. Dans ce cadre, la CNIL distingue trois types de risques pour celles-ci : ceux liés aux modalités de collecte des données pour développer le système d’IA (ex : collecte illicite, collecte d’un grand volume de données), ceux liés aux modalités d’entrainement des systèmes d’IA (ex : difficulté de garantir l’exercice des droits des personnes), et enfin les risques pouvant se matérialiser lors de l’utilisation du système (ex : les risque de mémorisation puis de régurgitation de données personnelles, voire même de génération de telles données lors de l’utilisation d’un agent conversationnel supporté par l’IA).

Enfin, l’autorité française insiste sur la nécessité de tenir également compte des « attentes raisonnables » des personnes concernées et de prévoir dès que cela est nécessaire des mesures compensatoires ou additionnelles pour limiter les impacts éventuels du traitement sur les personnes concernées. Sur ce dernier point, la CNIL livre dans la fiche une liste détaillée des mesures qui peuvent être envisagées en fonction des risques.

La diffusion des modèles d’IA en open source

Dans cette fiche, la CNIL met en avant les bénéfices de l’ouverture des modèles d’IA tout en évoquant aussi les risques que cela peut présenter. Parmi les nombreux bénéfices de l’ouverture des modèles, la commission note que cela peut permettre au responsable de traitement de profiter des contributions de la communauté et faciliter l’adoption du modèle par certains acteurs. Elle indique également que cela peut permettre d’augmenter la transparence et rendre possible certaines vérifications par les tiers (capacités et limitations, présence de biais, vulnérabilité, etc.). La CNIL estime ainsi que l’ouverture du modèle peut notamment amener à renforcer l’intérêt légitime du responsable de traitement, lorsque cette base légale est mobilisée.

L’autorité relève toutefois que l’ouverture peut permettre dans certaines conditions à des tiers de faciliter la réutilisation de systèmes d’IA à des fins malveillantes, ou encore l’exploitation des failles de sécurité. De ce fait, elle préconise la mise en place de garanties additionnelles pour limiter ces risques, comme la mise en place de licences permettant de limiter certaines réutilisations des modèles, ou encore la mise en place de mesures de sécurisation des données.

Les conseils de la CNIL en matière de web scraping

La CNIL a déjà eu l’occasion de développer sa position sur le web scraping – c’est-à-dire l’aspiration de données personnelles librement accessibles sur internet – dans de précédentes publications. Elle dresse dans cette troisième fiche la liste des mesures minimales à mettre en œuvre pour pouvoir utiliser cette technique sur le fondement de l’intérêt légitime.

En premier lieu, la commission indique qu’il est obligatoire dans tous les cas de mettre en place certaines mesures garantissant la conformité au principe de minimisation : définir des critères précis et appliquer des filtres permettant d’exclure les données non nécessaires de la collecte, et veiller à supprimer très rapidement celles qui auraient pu être collectées par erreur.

Des garanties supplémentaires devront le plus souvent être mises en œuvre. Par exemple, la CNIL préconise d’exclure par défaut la collecte de données à partir de certains sites contenant des données particulièrement intrusives (ex : forums de santé), ou de ceux qui s’opposent clairement au web scraping. L’autorité encourage également à diffuser le plus largement possible les informations relatives à la collecte et aux droits des personnes, et à permettre à ces dernières de s’opposer au traitement de manière discrétionnaire. La CNIL évoque également un projet de « registre des organisations traitant des données collectées par moissonnage à des fins de développement de systèmes d’IA » qu’elle envisage de lancer. Ce registre aurait pour objet de faciliter l’information des personnes et l’exercice de leurs droits auprès des organisations traitant des données collectées, via la technique du web scraping, dans le cadre du développement d’un système d’IA. La CNIL précise toutefois que l’inscription serait facultative et qu’elle ne préjugerait en rien de la licéité des traitements opérés par les responsables de traitement.

Nous présenterons les quatre autres fiches récemment publiées par la CNIL dans un second article. Ces fiches, également soumises au processus de consultation publique, portent sur l’information des personnes concernées, l’exercice des droits, l’annotation des données et la sécurité.