Skip to main content
Imprimer

Publication de la CNIL sur son site

Dans un premier article (https://www.lexology.com/library/detail.aspx?g=9d8400a1-9911-4618-9e01-43fc63338351) nous vous présentions les trois premières fiches de la CNIL portant sur la conception des systèmes d’IA que l’autorité a soumis à un processus de consultation publique jusqu’au 1er septembre 2024. Ce second article aborde les quatre autres fiches, qui portent sur l’information des personnes, l’exercice de leurs droits, l’annotation des données et la sécurité.

  1. L’information des personnes

L’intérêt de cette fiche réside dans les exemples d’application et bonnes pratiques déclinés par la CNIL en matière d’IA. L’autorité propose ainsi des modèles de mentions d’information en cas de collecte indirecte de données, provenant de tiers ou de sources publiquement accessibles, par exemple en cas de web scraping. Elle présente également les éléments d’information spécifiques à mettre en avant lorsque des données personnelles d’entrainement sont mémorisées par le modèle où peuvent être reconstituées par celui-ci.

La CNIL détaille ensuite les conditions dans lesquelles le responsable du traitement pourrait se fonder sur deux dérogations prévues par le RGPD pour ne pas avoir à fournir l’information aux personnes concernées. En premier lieu, le Règlement permet de ne pas répéter l’information lorsque les personnes concernées l’on déjà obtenue (articles 13(4) et 14(5)(a) du RGPD). Cependant, l’information initiale doit être suffisamment précise pour dispenser le second responsable de traitement de la compléter. Par exemple, la simple mention que les données pourront faire l’objet d’une ré-exploitation par des tiers au sein de l’information générale d’un site web est jugé insuffisante par la CNIL.

La Commission s’intéresse ensuite à la disposition du RGPD permettant de ne pas fournir l’information individuelle lorsque celle-ci « se révèle impossible ou exigerait des efforts disproportionnés » (article 14(5)(b) du RGPD). Pour se fonder sur cette dérogation, le responsable du traitement doit préalablement opérer une balance entre l’ampleur des efforts que la fourniture des informations représenterait (ex : absence de coordonnées des personnes concernées, ancienneté des données, nombre de personnes concernées) et l’atteinte à la vie privée que le traitement présente (ex : traitement particulièrement intrusif, données sensibles). La CNIL donne deux exemples en matière de web scraping : si la collecte ne porte que sur des données pseudonymisées, l’autorité estime qu’il serait disproportionné de collecter des données plus identifiantes pour pouvoir informer individuellement les personnes concernées. En revanche, une analyse au cas par cas devra être effectuée en cas de collecte de données directement identifiantes. En tout état de cause, une information générale devra être publiée par le responsable du traitement. La CNIL recommande en outre de mettre en place des mesures additionnelles, comme la réalisation d’une AIPD, l’application de techniques de pseudonymisation ou d’autres mesures de sécurité.

Enfin, la CNIL dresse une liste des bonnes pratiques pour améliorer la transparence sur le développement des modèles d’IA. Parmi ces mesures figurent la publication de l’AIPD réalisée, ou encore l’application de certaines pratiques issues du monde des licences ouvertes (ex : publication du code source).

  1. L’exercice des droits des personnes concernées

La CNIL distingue deux situations pour l’exercice des droits : d’un côté les demandes portant sur les données d’apprentissage, et de l’autre celles portant sur le modèle d’IA lui-même.

S’agissant de la première situation, la CNIL estime tout d’abord que dans de nombreux cas le fournisseur n’a pas besoin de données directement identifiantes pour l’entrainement de l’IA. Ainsi, le fournisseur ne sera donc pas toujours en mesure de retrouver les données concernant la personne faisant une demande. Ce principe est accepté mais les personnes doivent en être informées. L’autorité envisage cependant deux cas dans lesquels le responsable de traitement pourrait être tenu de répondre à la demande en recherchant activement les données personnelles se rapportant à la personne l’ayant formulée : (i) lorsque cette dernière fournit elle-même des informations complémentaires permettant de la réidentifier parmi les données d’entrainement ; et (ii) lorsque la conservation de données permettant cette réidentification est décidée en amont par le responsable de traitement, afin d’apporter une garantie supplémentaire pour les droits des personnes et pouvoir ainsi fonder le traitement sur la base de l’intérêt légitime.

La CNIL passe ensuite en revue les différentes informations devant être fournies en réponse à une demande d’accès. Elle envisage en particulier deux difficultés pour le responsable de traitement : l’identification exhaustive de l’ensemble des destinataires ainsi que des sources de données – en particulier lorsqu’elles ont été collectées par web scraping. S’agissant de la première difficulté, la Commission recommande de mettre en place des mécanismes d’authentification ou d’API permettant d’enregistrer l’identité des destinataires tiers. Pour la seconde, elle admet que dans certains cas l’identification de l’ensemble des sources puisse être impossible, mais considère que le responsable de traitement doit tout de même essayer de fournir toute information pertinente permettant de comprendre le type de sources utilisées.

S’agissant de l’exercice des droits sur les modèles eux-mêmes, la CNIL soulève en premier lieu la difficulté de déterminer si le modèle, en particulier les modèles d’IA génératifs, sont soumis eux-mêmes au RGPD. Cela pourra être le cas si le modèle a mémorisé des données personnelles lors de son apprentissage, et que ces données peuvent être régurgitées telles quelles ou de manière modifiée lors de son utilisation. Cela pourra également être le cas si le modèle a été conçu spécifiquement pour générer des informations synthétiques et fictives mais pouvant concerner un individu réel de manière fortuite. La CNIL recommande donc de conduire une analyse au cas par cas, ce qui ne sera pas sans difficulté technique, notamment pour les déployeurs qui n’ont pas nécessairement de visibilité sur la manière dont la modèle a été construit.

Si le modèle est soumis au RGPD, cela ne signifie pas pour autant que le responsable peut effectivement identifier les personnes en son sein. Les mêmes considérations que pour la base de données d’apprentissage se retrouvent ici (information des personnes sur le fait qu’ils ne pourront pas exercer leurs droits et/ou possibilité de fournir des informations complémentaires pour permettre la réidentification, etc.).

Dans cette fiche, la CNIL rappelle également qu’il est possible, dans certains cas limités, de se fonder sur une dérogation du RGPD pour refuser de faire droit aux demandes des personnes concernées : demandes excessives, dérogations spécifiques prévues par le droit français ou européen, ou encore la possibilité de faire valoir un motif impérieux pour faire échec au droit d’opposition.

  1. L’annotation des données

L’annotation des données, qui peut être manuelle ou (semi)automatique, est essentielle pour développer un modèle d’IA fondé sur l’apprentissage. La CNIL livre plusieurs exemples d’annotations, incluant l’identification du locuteur lors de l’entrainement d’un modèle d’IA de reconnaissance des personnes ou encore l’annotation d’images médicales pour un système d’IA d’aide au diagnostic.

Lorsqu’elles concernent des personnes physiques, les annotations doivent respecter le RGPD et en premier lieu ses principes fondamentaux. L’autorité française insiste sur les principes de minimisation et d’exactitude. La minimisation des annotations suppose que les informations annotées soient pertinentes au regard de la fonctionnalité prévue du système d’IA. La CNIL estime notamment qu’une information est pertinente dès lors que son lien avec les performances du modèle est prouvé ou « suffisamment plausible ». Les annotations doivent également être exactes, de façon à éviter la reproduction d’erreurs à propos des personnes par le système d’IA, pouvant mener à des sorties dégradantes voire discriminantes.

Afin de s’assurer du respect de ces principes, la CNIL recommande d’instaurer une procédure de vérification continue des annotations et l’implication d’un référent ou d’un comité éthique, et livre quelques détails sur les modalités de ces solutions.

L’autorité rappelle ensuite que, l’annotation étant en elle-même un traitement de données personnel (lorsqu’elle se rapporte à des personnes physiques), les personnes concernées doivent en être informées et être en mesure d’exercer leurs droits. Concernant l’information, la CNIL recommande de renforcer la transparence du traitement en livrant des informations allant en partie au-delà de la liste des articles 13 et 14 du RGPD : (i) l’objectif de l’annotation ; (ii) l’organisme en charge de cette annotation ; (iii) les critères de responsabilité sociale suivis par les entreprises en charge de l’annotation ; et (iv) les mesures de sécurité prises concernant la phase d’annotation.

La fiche aborde enfin la situation ou l’annotation révèle des données sensibles (ex : origines ethniques, santé, opinions politiques), y compris lorsque les données sources ne sont pas en elles-mêmes des données sensibles au sein de l’article 9 du RGPD. Dans ce cadre, la CNIL rappelle que le traitement de ces annotations sera interdit à moins de pouvoir se fonder sur l’une des exceptions du RGPD ou de la loi informatique ou libertés. La CNIL cite en particulier l’exemple d’utilisateurs ayant manifestement rendu publiques leurs opinions politiques sur internet, et où cette appartenance est utilisée pour annoter les publications concernées et entrainer un modèle d’IA. La CNIL livre aussi quelques préconisations à appliquer même lorsque le traitement des annotations sensibles peut légalement être mis en œuvre : utiliser des critères objectifs et factuels pour l’annotation, limiter l’annotation au contexte des données, renforcer la vérification des annotations, augmenter la sécurité et veiller d’autant plus aux risques de régurgitation et d’inférence des données sensibles.

  1. La sécurité

Dans cette fiche, la Commission détaille les points à prendre en compte pour assurer la sécurité non seulement de l’environnement du système d’IA (infrastructures, habilitations IT, sécurité physique) mais également la sécurité dans le cadre du développement et de la maintenance du système.

L’autorité insiste sur le fait que le développement des systèmes d’IA, pour la plupart récents, induit des risques spécifiques dont il faut tenir compte. Elle cite en particulier l’exemple des sources externes de données n’ayant pas nécessairement fait l’objet d’une évaluation de sécurité approfondie. La CNIL recommande en conséquence de réaliser une analyse d’impact sur la protection des données, même dans les cas où une telle analyse n’est pas obligatoire en vertu du RGPD.

Parmi les points abordés par la CNIL dans cette fiche, l’autorité liste les facteurs qui, selon elle, doivent être considérés pour évaluer le niveau de risque : (i) la nature des données – ex : données sensibles ou non sensibles ; (ii) la maitrise sur les données, modèles outils utilisés – ex : les modèles collaboratifs peuvent contenir des fichiers corrompus non identifié ; (iii) les modalités d’accès au système et le contenu de ses sorties – ex : selon la CNIL, la diffusion en source ouverte d’un modèle susceptible de mémoriser ou d’inférer des données personnelles augmentera la possibilité de telles attaques ; et (iv) le contexte d’utilisation prévu pour le système d’IA – ex : un système utilisé dans le domaine de la santé requerra une attention particulière en termes de sécurité.

Dans la dernière partie de la fiche, la CNIL livre une série de mesures de sécurité pouvant être envisagées en pratique. Ces sept fiches, très fournies, devraient permettre de guider la réflexion des responsables de traitement. Il peut toutefois être anticipé que la technicité des fiches, alliée à celle des modèles d’IA et à leur grande variété nécessitera des analyses détaillées au cas par cas et que les fiches ne pourront à elles seules répondre à toutes les questions de conformité.

Imprimer