Le Traitement du Langage Naturel (NLP) est la branche de l'IA dédiée à l'interaction entre les ordinateurs et le langage humain. C'est la technologie qui permet à ChatGPT de comprendre vos questions et d'y répondre, a Google Translate de traduire des langues, et a Siri de comprendre vos commandes vocales.
Intelligence Artificielle (IA) — Un domaine de l'informatique qui crée des programmes capables de réaliser des tâches nécessitant normalement l'intelligence humaine : comprendre le langage, reconnaître des images, prendre des décisions.
ChatGPT — L'assistant IA le plus utilisé au monde, créé par OpenAI et lancé en novembre 2022. Accessible sans inscription basique, il peut écrire, analyser des documents, générer du code, créer des images et bien plus.
NLP / Traitement du langage naturel — La branche de l'IA qui permet aux ordinateurs de comprendre, analyser et générer du texte humain (le « langage naturel »). Les LLMs sont la dernière avancée majeure dans ce domaine.
Le NLP comprend plusieurs étapes : la tokenisation (découpage du texte en morceaux), l'analyse syntaxique (grammaire), l'analyse sémantique (sens), et la génération (production de nouveau texte).
Token — L'unité de base qu'un LLM utilise pour lire et écrire du texte — environ ¾ d'un mot en français. Les LLMs facturent souvent à la consommation de tokens : plus votre échange est long, plus vous en utilisez.
NLP / Traitement du langage naturel — La branche de l'IA qui permet aux ordinateurs de comprendre, analyser et générer du texte humain (le « langage naturel »). Les LLMs sont la dernière avancée majeure dans ce domaine.
La tokenisation est fondamentale : elle détermine comment le modèle "voit" votre texte. Le mot "intelligence" peut être un seul token, tandis qu'un mot rare peut nécessiter plusieurs tokens.
Le NLP est passe des systèmes a règles manuelles (1960-2000) aux méthodes statistiques (2000-2017), puis à l'ère des Transformers (2017-présent). Les modèles pre-entraînés comme BERT, GPT et Claude ont révolutionné le domaine en apprenant les structures du langage à partir de milliards de textes.
Entraînement (d'une IA) — Le processus par lequel une IA apprend à partir d'une grande quantité de données, un peu comme un étudiant qui révisé des milliers d'exercices avant un examen. Plus le jeu de données est grand, meilleur est le résultat.
Architecture Transformer — La structure technique inventée par Google en 2017 qui est à la base de tous les grands modèles de langage modernes (ChatGPT, Claude, Gemini…). Elle permet au modèle de comprendre le contexte complet d'un texte, et non mot par mot.
GPT — Acronyme de « Generative Pre-trained Transformer » : la famille de modèles IA créée par OpenAI. GPT-3 (2020), GPT-4 (2023) et GPT-5.4 (2026) sont les versions successives. ChatGPT en est l'interface principale.
Claude (Anthropic) — L'assistant IA créé par la société Anthropic, connu pour la qualité de ses analyses longues, sa sécurité et sa précision. Disponible sur claude.ai avec des versions Haiku (rapide), Sonnet (équilibré) et Opus (le plus puissant).
NLP / Traitement du langage naturel — La branche de l'IA qui permet aux ordinateurs de comprendre, analyser et générer du texte humain (le « langage naturel »). Les LLMs sont la dernière avancée majeure dans ce domaine.
Pipeline du Traitement NLP
Tokenisation
Découpage du texte en tokens
Analyse syntaxique
Structure grammaticale
Analyse sémantique
Sens et intention
Génération
Production de nouveau texte
4 questions — 70% pour valider ce chapitre