Comment les IAg sont-elles construites ?

Les IAg sont pour l'essentiel des outils statistiques. Leurs contenus sont générés à partir de la proximité des mots (ou éléments graphiques ou sonores) observés dans des quantités astronomiques de textes (et d'images et de sons).
Ce sont en fait des machines à compléter du texte (ou image ou son) en fonction du contexte. De plus elles sont entraînées pour imiter le langage humain, ce qui fait leur succès et amène à leur accorder trop de confiance.

Il n'y a évidemment aucune forme d'"intelligence" dans ces programmes informatiques, ni raisonnement ni compréhension de quoi que ce soit.

Pour obtenir un résultat les IAg ont été entraînées à partir de données massives (et grâce aux travailleurs du clic, sous-payés, chargés d'étiquetter les données ou de faire le tri entre les bonnes réponses et les mauvaises !). Dans la plupart des cas ces données sont récoltées à partir des sites web, des réseaux sociaux, des sessions de visio-conférences, des documents et photos personnels stockés sur les clouds (OneDrive®, Google Drive®, Apple iCloud®...), etc. Ce sont vos données, récoltées à votre insu, qui bien souvent servent de "carburant" à ces modèles.
À l'inverse les IAg libres n'utilisent que des données accessibles sous licence libre (comme par exemple le contenu de Wikipedia, la littérature tombée dans le domaine public ou des publications scientifiques). Ces IA vraiment libres sont rares, la plupart des modèles se réclamant de l'Open source ne publient pas toutes leurs données et introduisent des restrictions d'usages.

Problématiques

La phase d'entraînement est extrêmement énergivore (lire par exemple cet article de Reporterre) et consommatrice d'eau pour le refroidissement (autre article de Reporterre).

La provenance des données et les a priori des concepteurs peuvent générer des biais, notamment racistes et sexistes.

Le programme résultant de l'apprentissage n'est pas lisible par un humain (ce ne sont que des millions de paramètres - les poids d'un réseau de neurones virtuels) et donc ne peut être ni compris ni corrigé.

Le contenu produit donne l'illusion d'une source fiable alors qu'aucune véracité n'est assurée. Se sont par construction des machines à générer du contenu trompeur : des Bullshit Machines (lien vers un cours en ligne en anglais pour mieux comprendre les limites de ces IA).
Elles ne devraient donc jamais être utilisées pour générer de l'"information". Google peut intèger des résultats générés par IA dans son moteur de recherche, ceux-ci peuvent donner des informations erronées !
D'autant plus que les IA peuvent être nourries à l'insu de leurs développeurs par des contenus de propagande, et relayer ceux-ci.

Les IAg sont utilisées pour générer facilement et rapidement des faux contenus difficilement discernables (deep fake), utilisés pour manipuler l'opinion, notamment les élections.

Intérêt des IAg

Elles sont efficaces pour transcrire la parole en texte (Speech To Text), et inversement pour lire un texte écrit (Text To Speech). De même pour la traduction automatique (avec des limites), pour la reconnaissance faciale et la reconnaissance de caractères manuscrits.

Transcription de parole en texte (STT) :
Lokas : une application mobile de transcription de réunion à l'aide d'une IA pour tester le concept d'IA libre au service du public, basé sur le logiciel Whisper. Développé par l'association Framasoft.
Il existe également un service en ligne libre : Scribe, basé sur le logiciel Vosk et le modèle de langue Common Voice de Mozilla.
Ces services n'exploitent pas vos données personnelles, contrairement à la quasi-totalité des autres.

Les autres IA : décision et prédiction automatisée

Les IA génératives ne sont qu'une petite partie des IA. Les IA les plus problématiques sont celles qui prétendent prédire des comportements individuels.
Les IA prédictives peuvent être utilisées dans des domaines qui touchent directement aux libertés, tels que la police, la justice, l'embauche, l'orientation scolaire et professionnelle, l'attribution de crédit bancaire, l'attribution d'aide sociale, la prise en charge des soins de santé, l'accès au soins, etc. et conduire à des prises de décision dangereuses ou discriminatoires.

Or à l'heure actuelle les études montrent que contrairement à ce que prétendent leurs concepteurs, ces IA prédictives sont totalement inefficaces ! Cela n'empêchent pas qu'elles soient de plus en plus utilisées, et dans bien des cas elles discriminent les personnes les plus défavorisées. Lire cet article du blog dans les algorithmes, qui rend compte de l'ouvrage AI Snake Oil.

Revoir la conférence de Hubert Guillaud au NEC 2024 "Peut-on croire en un numérique au service de la justice sociale ?" Il montre au travers de nombreux exemples que la plupart des algorithmes mis en oeuvre (attribution des allocations familiales, des places en enseignement supérieur (ParcourSup), des emplois, de l'accès aux soins) renforcent les discriminations.

La Défenseure des droits s'en inquiéte dans son rapport annuel du 25 mars 2025 (article de Médiapart, payant).

L'usage de l'IA augmente la complexité et l'opacité, pour un résultat qui n'est pas significativement meilleur que le simple usage de statistiques.

Diapo de Hubert Guillaud, animateur du site dans les algorithmes.

Ressources documentaires et réflexions

Pour tester

Voici quelques prompt libres que vous pouvez utiliser :

HuggingFace

prompt : huggingface.co/chat

site de l'entreprise : huggingface.co

LMSYS (Université de Berkeley)

prompt : lmarena.ai (compare les réponses données par différents modèles, pas tous libres)

site du laboratoire : lmsys.org

Infomaniak

Cet hébergeur éthique propose d'interroger les différents modèles libres

prompt : www.infomaniak.com/fr/hebergement/ai-tools/open-source-models

 

Remarque générale : même s'il est possible de rédiger un prompt en français, pour l'instant les résultats semblent plus pertinents si on le rédige en anglais. Vous pouvez ensuite traduire la réponse avec l'un des services libres de traduction.

Impact écologique : interroger une IA consomme au moins 10 fois plus d'énergie que d'interroger un moteur de recherche ordinaire : la modération s'impose !

Mais pas de panique : il paraît que l'IA va résoudre tous nos problèmes !

Naturellement, ce blog ne contient aucun contenu généré par IA !