Publication de la CNIL sur son site
Après avoir créé un service dédié aux questions posées par l’intelligence artificielle en janvier, la CNIL en dévoile à présent le plan d’action, qui inclut des travaux de recherche, l’accompagnement des professionnels, mais également des contrôles. La publication de ce plan fait suite à l’essor récent et très important des systèmes d’IA génératifs tels que ChatGPT (pour le langage) ou MidJourney (pour l’image).
Le plan d’action de la CNIL s’articule autour de quatre thèmes :
- « Appréhender les systèmes d’IA et leurs impacts » : La CNIL se penchera sur certaines des principales questions posées par l’intelligence artificielle en matière de protection des données. L’on comprend que ce thème se matérialisera essentiellement par des travaux de recherche et d’analyse internes à la CNIL, le cas échéant avec son laboratoire d’innovation numérique (LINC).
L’autorité décrit les questions qu’elle étudiera comme étant « nouvelles ». En détail, il s’agit de questions relativement classiques qui se posaient déjà dans certains contextes, mais qui sont mobilisées par l’intelligence artificielle, ensemble et à un niveau inédit. Cela comprend notamment les problématiques suivantes :
- En amont de l’utilisation des systèmes d’IA : la loyauté et la transparence de la collecte des données utilisées pour l’entrainement des systèmes et de leur traitement, et en particulier des données accessibles publiquement sur internet.
L’on sait en effet que les systèmes d’IA fondés sur l’apprentissage (« machine learning »), en particulier les systèmes complexes à vocation généraliste, ont en principe besoin d’apprendre sur d’énormes quantités de données afin d’atteindre les meilleurs résultats possibles (1). Par exemple, il semble que le modèle de traitement du langage naturel « GPT » développé par OpenAI ait été entrainé sur des quantités massives de données publiquement accessibles sur le Web – dont celles de l’organisation « Common Crawl » (2).
Cette utilisation en masse de données – dont des données personnelles –, posent des difficultés évidentes notamment en matière d’information préalable des personnes et de détermination de la base légale appropriée.
- En aval de l’utilisation des systèmes d’IA : les systèmes d’IA reçoivent également les données personnelles de leurs utilisateurs et, dans certain cas, s’en servent à la fois pour effectuer la tâche qui leur est demandée et pour parfaire leur entrainement. C’est notamment le cas des modèles de traitement du langage naturel exploités sous la forme d’un chatbot tel que ChatGPT (OpenAI/Microsoft) ou Bard (Google).
La protection des données personnelles transmises par les utilisateurs de ses systèmes doit donc être assurée par leurs concepteurs. A titre d’exemple, l’autorité italienne des données a récemment imposé à OpenAI d’intégrer la possibilité pour les utilisateurs de ChatGPT de s’opposer à la réutilisation de leurs données pour l’entrainement du modèle de langage (3).
- La CNIL se penchera également sur des questions plus globales relatives à la protection contre les biais et les discriminations pouvant être générées par les systèmes d’IA, ainsi que leur sécurité.
La protection contre les biais et les discriminations est une question récurrente des systèmes d’IA utilisant des données du monde réel pour leur apprentissage et pouvant donc reprendre tout ou partie des biais et discriminations qui s’y trouvent. C’est l’une des raisons pour lesquelles la phase d’entrainement de ces modèles est très importante. L’une des solutions actuelles pour réduire les risques est celle de l’apprentissage par renforcement humain dans lequel des utilisateurs/testeurs passent de nombreuses heures à affiner l’apprentissage de la machine en détectant et corrigeant au passage les biais et discriminations pouvant apparaitre.
- « Permettre et encadrer le développement d’IA » : Dans le cadre de ce second thème, la CNIL affirme sa volonté d’accompagner les acteurs du domaine via différentes publications thématiques.
En premier lieu, la CNIL rappelle qu’elle a déjà publié plusieurs fiches sur l’IA en 2022 (4), ainsi qu’une position dédiée spécifiquement à l’utilisation de la vidéosurveillance dite « augmentée » (5).
La CNIL annonce également travailler sur de nouveaux sujets qui devraient faire l’objet de communications prochaines. Tout d’abord, un guide sur les « règles applicables au partage et à la réutilisation de données » devrait bientôt être soumis à la consultation publique. Ce guide devrait porter en particulier sur la réutilisation des données librement accessibles sur internet, et donc adresser l’une des questions les plus sensibles pour les systèmes d’IA reposant sur l’apprentissage (voir ci-dessus). La CNIL devrait également publier plusieurs nouvelles fiches sur des thèmes spécifiques : recherche scientifique, application du principe de finalité aux IA à usage général, règles et bonnes pratiques pour la sélection des données d’entrainement, gestion des droits des personnes, etc.
- « Fédérer et accompagner les acteurs innovants » : La volonté d’accompagnement de la CNIL prendra également la forme du suivi par l’autorité de projets réels reposant sur l’IA.
L’accompagnement des projets pourra être réalisée dans plusieurs cadres. Tout d’abord, la CNIL a annoncé le lancement d’un appel à projet pour l’édition 2023 du programme « bac à sable ». Cette initiative de l’autorité française existe depuis 2021 et est renouvelée chaque année. Les projets sélectionnés bénéficient d’un accompagnement spécifique par les équipes de la CNIL pour une durée déterminée. En 2021 et 2022, certains des projets sélectionnés reposaient déjà sur l’IA. Selon la CNIL, l’édition 2023 concernera notamment l’usage de l’IA dans le secteur public.
Plus généralement, la CNIL a lancé en février 2023 un nouveau dispositif appelé « accompagnement renforcé », destiné aux entreprises du numérique présentant un fort potentiel de développement économique ou d’innovation. Ce dispositif a donc naturellement vocation à inclure des projets autour de l’IA. Enfin, un accompagnement spécifique sera fourni par la CNIL aux fournisseurs de vidéosurveillance « augmentée » dans le cadre des Jeux olympiques et paralympiques 2024.
- « Auditer et contrôler les systèmes d’IA » : La CNIL annonce qu’une partie de ses actions de contrôle en 2023 portera sur des thèmes liés à l’intelligence artificielle.
En premier lieu, l’autorité indique qu’elle veillera au « respect » de sa position sur l’usage de la vidéosurveillance « augmentée » publiée en 2022. L’on relèvera la formule employée par l’autorité, s’agissant d’une position publiée sur son site internet qui n’aurait par principe pas de caractère obligatoire.
Les contrôles porteront également sur le thème de la lutte contre la fraude (par exemple : fraude à l’assurance sociale), au regard, selon l’autorité, des enjeux liés à l’usage des algorithmes d’intelligence artificielle pour ce type de traitement. En effet, les traitements de lutte contre la fraude entrainent souvent la collecte d’un volume important de données provenant de sources hétérogènes (achats effectués, activité sur les réseaux sociaux, etc.) et peuvent donc être particulièrement intrusifs pour les personnes concernées.
Enfin, la CNIL continuera de traiter les plaintes relatives à des outils fondés sur l’IA. Parmi celles-ci, l’autorité confirme notamment avoir reçu des plaintes à l’encontre de la société OpenAI qui opère ChatGPT, et avoir ouvert une procédure de contrôle à son égard. Cette procédure de contrôle est menée en parallèle du groupe de travail dédié à ChatGPT qui a été créé au sein du CEPD afin d’assurer une démarche coordonnée. Cela confirme que la récente clôture de la procédure d’interdiction intentée par l’autorité italienne de protection des données contre OpenAI ne signifie pas pour autant que la conformité au RGPD de son outil ChatGPT soit totalement acquise.
(1) Certains chercheurs alertent tout de même sur les dangers, d’un point de vue scientifique et éthique, de construire des modèles toujours plus gros : https://dl.acm.org/doi/10.1145/3442188.3445922
(2) https://medium.com/@dlaytonj2/chatgpt-show-me-the-data-sources-11e9433d57e8
(3) https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9881490
(4) https://www.cnil.fr/fr/intelligence-artificielle-ia
(5) https://www.cnil.fr/fr/deploiement-de-cameras-augmentees-dans-les-espaces-publics-la-cnil-publie-sa-position