
4 minute read
Les recommandations de Data For Good
Fort de leurs expériences, les rédacteurs du présent document partagent des recommandations, adressées à trois destinataires : les utilisateurs, les data scientists, qui élaborent et diffusent les modèles, et les décideurs, qui influencent l’utilisation et l’encadrement de ces modèles.
Pour les utilisateurs : « Don’t believe the hype »
L’engouement récent pour les modèles génératifs n’est pas sans enjeux pour les utilisateurs. Entre la performance qui n’est pas toujours au rendez-vous et les multiples lacunes déjà évoquées, les recommandations de Data For Good pour les utilisateurs prennent la forme d’appels à la prudence et à la sobriété.
Concernant la véracité des contenus générés, afin d’établir et maintenir un usage des modèles textuels qui ne soit pas trompeur, nous appelons les utilisateurs à :
• Ne pas faire une confiance aveugle aux modèles génératifs, et plus généralement à l’information diffusée sur internet. Quand cela est possible, il faut vérifier la qualité de la production, notamment en multipliant les sources d’informations.
• Toujours préciser le modèle utilisé et les conditions d’usage lors de la réutilisation du résultat produit par un modèle génératif. Il est important d’être transparent sur le travail effectivement réalisé, pour que le lecteur final puisse choisir le niveau de confiance à accorder aux contenus générés.
• Concernant leur propre sécurité, nous invitons les utilisateurs à ne pas transmettre d’informations confidentielles aux modèles. Que cela soit des éléments de propriété intellectuelle, des données personnelles, des identifiants et mots de passe, il est important de limiter les données transmises aux entités déployant les modèles pour éviter des situations potentiellement dangereuses.
• Sur les questions d’attributions des travaux, une grande question est celle de la réutilisation de travaux d’artistes originaux. Ceux-ci sont collectés par défaut pour l’entraînement des modèles, sans pour autant leur en attribuer la reconnaissance (financière). Les enjeux seraient donc de :
• Se renseigner sur l’utilisation ou non de modèles génératifs pour l’élaboration des productions artistiques. En particulier, demander des détails sur le modèle utilisé, les conditions d’entraînement de celui-ci ainsi que la licence de réutilisation. L’idéal est d’être transparent sur le processus créatif afin de favoriser et mettre en avant les artistes originaux
• Pour les créateurs, il s’agit de vérifier le statut juridique et la disponibilité en ligne de ses propres œuvres. S’il y a lieu, identifier les potentiels ré-utilisateurs et la cohérence entre le statut de vos productions et l’utilisation qui en est faite. Une approche est de tester les différents modèles disponibles avec son propre nom d’artiste en suggestion de style.
• Sur la question des biais, nous invitons les utilisateurs à surveiller les usages, notamment à rester vigilant et questionner les réponses données par les ChatBot des entreprises et administrations . Il faut ainsi vérifier quelles réponses pourraient reposer sur des modèles biaisés. En cas de soupçon de biais, ne pas hésiter à saisir l’autorité compétente (CNIL, Autorité de la Concurrence).

• Dans un contexte d’urgence climatique, l’utilisateur doit s’interroger sur ses pratiques et ses besoins en termes d’IA générative, et limiter l’usage des de ces modèles, très gourmands en énergie, au nécessaire. Il faut aussi préciser les impacts indirects des usages, et préférer des solutions techniques moins gourmandes quand cela est possible (recours à des templates, des moteurs de recherches classiques).
Pour les data scientists : « Keep on working »
Au cœur de la construction et du déploiement de ces modèles se trouvent des data scientists, auxquels nous adressons un certain nombre de recommandations. Il est important que la construction et la diffusion de ces modèles reposent sur des bonnes pratiques, et que celles-ci soient diffusées le plus largement dans la communauté. Les recommandations formulées ici concernent principalement les modèles génératifs. Pour un ensemble de recommandation plus large, les intéressés pourront consulter le Serment d’Hippocrate du data scientist [1] diffusé par l’association Data For Good. Comme pour d’autres approches, la qualité des données utilisées pour l’entrainement des modèles est primordiale. Dans le contexte des modèles génératifs, ce questionnement sur la qualité doit s’étendre aux prompts utilisés et aux réponses apportées. Nous suggérons les bonnes pratiques suivantes:
• Lors de l’entraînement des modèles, porter attention à la véracité des sources utilisées. Certaines contre-vérités pourraient être évitées en entraînant les modèles sur des données de meilleure qualité.
• Favoriser des approches pouvant citer leurs sources précisément. En attendant le développement de modèles dotées de meilleure capacité de raisonnement, il est important d’avoir des modèles étant capables de rapprocher leurs dires d’une source vérifiée.
• Suivre les demandes effectuées par les utilisateurs et les réponses apportées par le modèle, notamment concernant les sujets sensibles (sécurité, politique…). L’idée est de pouvoir prévenir des usages inadaptés via des solutions généralisées de détection et/ou des filtres de l’information.

• Nous conseillons de vérifier les cadres juridiques de réutilisation des jeux de données d’entraînement des modèles. Les sources de données et licences associées doivent être, dans la mesure du possible, documentées. Il est important que toutes les parties prenantes (artistes, utilisateurs, publics) soient informées des sources et de leur cadre d’utilisation.
• Pour la constitution du jeu de données d’entraînement, mais aussi pour l’inférence, il faut prévoir des solutions pouvant détecter les informations personnelles ou biaisées et de limiter leur diffusion. Cela est d’autant plus important à cause des hallucinations des modèles génératifs, qui peuvent diffuser de fausses informations personnelles. Comme pour la véracité des modèles, l’absence de biais doit être contrôlée et documentée à chaque étape de la construction et de la diffusion du modèle, c.-à-d. dans les données d’entraînement, prompts des utilisateurs, et réponses apportées.
• D’autres approches que les modèles génératifs peuvent être considérées pour éviter leurs biais et difficultés d’interprétation. En particulier, selon les besoins et usages, il est possible de considérer des modèles plus simples et plus explicables.
• Enfin, et comme pour les utilisateurs, l’impact environnemental doit être considéré à plusieurs niveaux. Nous suggérons distinctement aux data scientists de préciser et d’évaluer les impacts directs et indirects des modèles, être transparent sur ces évaluations et questionner l’utilisation de modèles trop gourmands. Pour les data scientists il s’agirait donc de:
• Mieux évaluer l’impact environnemental des modèles. Cela doit inclure une évaluation de l’impact direct de l’entraînement (les data scientists pourront utiliser des outils comme Code Carbon [2]) mais ne pas s’y limiter. En particulier, l’impact de l’inférence doit être évalué. De même, d’autres impacts indirects doivent être intégrés (recours à des terres rares pour le matériel technique, impact publicitaire / politique indirect, mais aussi greenwashing).
• Une fois évalués, les impacts écologiques (directs ou indirects) doivent être documentés, comme pour les autres limites des modèles génératifs. Les utilisateurs doivent être informés de l’impact écologique pour éventuellement préférer une solution moins coûteuse.
• Au-delà d’informer les utilisateurs, il est important de proposer des solutions plus efficaces et moins impactantes pour l’environnement. Étant souvent à l’origine du choix technique retenu pour l’utilisateur, les data scientists doivent prendre en compte la contrainte environnementale dans leur arbitrage et pas seulement la performance finale.