Le commissaire fédéral à la protection de la vie privée Philippe Dufresne et ses homologues provinciaux Naomi Ayotte (Québec), Michael Harvey (Colombie-Britannique) et Diane McLeod (Alberta) ont présenté les conclusions de leur enquête conjointe sur ChatGPT d’OpenAI.
L’enquête a conclu que la collecte initiale de renseignements personnels à partir d’Internet pour entraîner les modèles GPT-3.5 et GPT-4 était trop large.
« Nous estimons que la façon dont OpenAI a initialement recueilli les renseignements personnels à partir de sources Internet et auprès de tiers aux fins de l’entraînement de ses modèles GPT-3.5 et GPT-4, de même que l’ampleur et la nature des renseignements personnels recueillis et utilisés provenant de ces sources, étaient trop larges et donc inappropriées, ce qui contrevient aux Lois », indique l’enquête conjointe.
Bien que le développement de l’intelligence artificielle (IA) soit un objectif légitime, l’ampleur de la collecte a entraîné l’utilisation de renseignements sensibles (médicaux, financiers, opinions, données sur les enfants) sans mesures d’atténuation adéquates au moment du préentraînement.
Les commissaires disent aussi avoir constaté « qu’OpenAI n’a pas obtenu un consentement valide pour la collecte, l’utilisation et la communication des renseignements personnels aux fins de développement et de déploiement de ses modèles GPT-3.5 et GPT-4. »
« OpenAI a lancé ChatGPT sans avoir pleinement pris en compte les risques connus en matière de protection de la vie privée. Ce lancement a exposé les Canadiennes et les Canadiens à des risques de préjudice, comme des atteintes à la vie privée et de la discrimination fondée sur des renseignements fournis à leur sujet », a ajouté le Commissaire à la protection de la vie privée du Canada, Philippe Dufresne.
L’enquête a de plus confirmé que ChatGPT peut générer des renseignements personnels inexacts ou fabriqués, des « hallucinations » sont évoquées, ce qui peut porter atteinte à la réputation des individus.
Manque de transparence
OpenAI n’a pas fait preuve d’une transparence suffisante concernant les sources de données et le fonctionnement interne de ses modèles.
« Bien que nous convenions qu’une divulgation complète de chaque source de données ne serait pas pratique ou nécessaire pour se conformer aux Lois, nous estimons que la description générale faite par OpenAI des catégories de renseignements personnels qu’elle recueille ne respecte pas le degré de transparence exigé par les Lois », peut-on lire dans l’enquête.
Également, OpenAI n’offrait pas de moyens adéquats pour corriger ou supprimer des renseignements personnels intégrés dans les modèles d’entraînement en raison de défis techniques.
À noter que sauf dans certains cas liés à des fins de lutte contre la fraude, de conformité aux lois ou à d’autres fins semblables, OpenAI supprime les renseignements ou les conversations liés au compte dans un délai de 30 jours si un utilisateur supprime son compte ou désactive l’historique de ses conversations.
Et, la durée maximale de conservation des conversations utilisées pour l’entraînement des modèles (après dissociation du compte et filtrage) est de trois ans.
OpenAI apporte des corrections
À la suite de l’enquête conjointe, OpenAI a mis en œuvre plusieurs changements et s’est engagée à respecter une série de mesures correctives pour se conformer aux lois canadiennes.
Par exemple, OpenAI a développé et déployé un nouvel outil de filtrage interne plus performant que les solutions tierces précédentes.
Cet outil permet par exemple de détecter et masquer des renseignements personnels (noms, adresses, numéros de téléphone) dans les données d’entraînement provenant du Web avant qu’elles ne soient utilisées.
OpenAI dit d’ailleurs avoir informé « les Commissariats qu’elle a abandonné (c’est-à-dire retiré) les modèles GPT-3.5 et GPT-4 et elle a confirmé que les nouvelles mesures d’atténuation, y compris l’outil de filtrage mentionné ci-dessus, ont été appliquées tout au long de l’entraînement des modèles actuels qui alimentent ChatGPT. »


