Comment les IAg sont-elles construites ?

Les IAg sont pour l'essentiel des outils statistiques. Leurs contenus sont générés à partir de la proximité des mots (ou éléments graphiques ou sonores) observés dans des quantités astronomiques de textes (et d'images et de sons).

Pour obtenir un résultat les IAg ont été entraînées à partir de données massives (et grâce aux travailleurs du clic, sous-payés, chargés de faire le tri entre les bonnes réponses et les mauvaises !). Dans la plupart des cas ces données sont récoltées à partir des sites web, des réseaux sociaux, des sessions de visio-conférences, des documents et photos personnels stockés sur les clouds (OneDrive, Google Drive...), etc. Ce sont vos données, récoltées à votre insu, qui bien souvent servent de "carburant" à ces modèles.
À l'inverse les IAg libres n'utilisent que des données accessibles sous licence libre (comme par exemple le contenu de Wikipedia, la littérature tombée dans le domaine public ou des publications scientifiques).

Problématiques

La phase d'entraînement est extrêmement énergivore (lire par exemple cet article de Reporterre) et consommatrice d'eau pour le refroidissement (autre article de Reporterre).

La provenance des données et les a priori des concepteurs peuvent générer des biais, notamment racistes et sexistes.

Les IAg sont utilisées pour générer des faux contenus difficilement discernables (deep fake).

Les GAFAM médiatisent beaucoup ce nouveau sujet pour faire oublier que leur modèle économique repose encore et toujours sur la captation des données personnelles à des fins d'influence et de manipulation.

En savoir plus : des documentaires sur Arte.tv.

Pour tester

Voici quelques prompt libres que vous pouvez utiliser :

HuggingFace

prompt : huggingface.co/chat

site de l'entreprise : huggingface.co

LMSYS (Université de Berkeley)

prompt : chat.lmsys.org (compare les réponses données par différents modèles, pas tous libres)

site du laboratoire : lmsys.org

 

Remarque générale : même s'il est possible de rédiger un prompt en français, pour l'instant les résultats semblent plus pertinents si on le rédige en anglais. Vous pouvez ensuite traduire la réponse avec l'un des services libres de traduction.

Impact écologique : interroger une IA consomme environ 10 fois plus d'énergie que d'interroger un moteur de recherche ordinaire : la modération s'impose !