Table des matières
- BitNet b1.58
- Falcon LLM
- Grok
- Llama 3.3 / 3.2 / 3.1
- Mistral Small 3.1
- Qwen2.5
- DeepSeek-R1
- Gemma 3
- Phi-4
- Code Llama
- DeepSeek-Coder-V2
- Qwen2.5-Coder
- Llama 3.2 Vision
- TinyLlama
- Phi-3.5
- Llama 3 (assistant)
- Mistral (assistant)
- BERT
- RoBERTa
- XLNet
- T5
- ALBERT
- GPT-2
- GPT-3
- GPT-4
- Claude / Claude 3 Opus
- Modèles OpenAI
- Modèles Google Gemini
- Modèles DeepSeek
- Modèles Anthropic
- Modèles Alibaba Qwen
- Autres modèles notables
-
BitNet b1.58 2B4T (Microsoft)
Premier modèle LLM open-source en 1-bit natif avec 2 milliards de paramètres, entraîné sur 4 000 milliards de tokens. Il offre une efficacité remarquable en mémoire, énergie et latence, tout en maintenant des performances comparables aux modèles en pleine précision.
SOURCES : Rapport technique SOURCES : Hugging Face -
Falcon LLM (Technology Innovation Institute)
Famille de modèles open-source avec des tailles allant de 1,3B à 180B paramètres, entraînés sur des corpus de haute qualité. Falcon-180B se distingue par ses performances proches des meilleurs modèles propriétaires.
SOURCES : Site officiel SOURCES : Hugging Face -
Grok (xAI)
Assistant conversationnel développé par xAI, avec une personnalité distinctive et des capacités avancées en raisonnement. Grok-3, la dernière version, offre des performances améliorées et est disponible via abonnement sur la plateforme X.
SOURCES : Site officiel SOURCES : GitHub
Modèles généralistes
-
Llama 3.3 / 3.2 / 3.1 (Meta)
Famille de modèles open source de Meta (8B à 405B paramètres), multilingues, multimodaux, avec une fenêtre de contexte étendue et des performances state-of-the-art.
SOURCES : Wikipédia SOURCES : Meta AI (constructeur) -
Mistral Small 3.1
Modèle open source SOTA de Mistral AI, multimodal, multilingue, rapide et optimisé pour l’inférence locale avec une fenêtre de contexte jusqu’à 128k tokens.
SOURCES : Mistral AI (constructeur) -
Qwen2.5
Famille de modèles multilingues d’Alibaba, préentraînés sur 18 000 milliards de tokens, spécialisés en suivi d’instructions, code, maths et génération structurée.
SOURCES : Qwen (constructeur) -
DeepSeek-R1
Modèle open source MoE axé sur le raisonnement, les mathématiques et le code, aux performances comparables aux meilleurs modèles propriétaires.
SOURCES : DeepSeek (constructeur) -
Gemma 3 (Google)
Modèle open source léger de Google, inspiré de Gemini, multilingue, multimodal, optimisé pour un seul GPU/TPU, fenêtre de contexte de 128k tokens.
SOURCES : Blog du Modérateur -
Phi-4 (Microsoft)
Petit modèle open source (14B paramètres) performant en raisonnement mathématique et général, surpassant certains modèles plus grands.
SOURCES : Le Monde Informatique
Modèles spécialisés en code
-
Code Llama (Meta)
Version spécialisée de Llama 2 pour la génération, complétion et débogage de code, supportant 80+ langages de programmation.
SOURCES : Wikipédia SOURCES : Le Monde Informatique -
DeepSeek-Coder-V2
Modèle open source spécialisé dans la génération de code, surpassant GPT-4 Turbo sur certains benchmarks.
SOURCES : DeepSeek (constructeur) -
Qwen2.5-Coder
Modèle spécialisé entraîné sur 5,5T tokens de code, performant même dans ses versions compactes.
SOURCES : Qwen (constructeur)
Modèles multimodaux (vision/langage)
-
Llama 3.2 Vision (Meta)
Version multimodale de Llama 3, capable de traiter texte et images pour le raisonnement visuel.
SOURCES : Wikipédia
Modèles compacts
-
TinyLlama
Micro-modèle open source entraîné sur 3 000 milliards de tokens, conçu pour les usages embarqués.
SOURCES : Wikipédia (famille Llama) -
Phi-3.5 (Microsoft)
Micro-modèle performant de Microsoft, adapté aux appareils à ressources limitées.
SOURCES : Le Monde Informatique
Assistants conversationnels
-
Llama 3 (Meta)
Utilisé comme base pour de nombreux assistants open source et commerciaux.
SOURCES : Wikipédia -
Mistral Small 3.1
Base idéale pour assistants virtuels multilingues et multimodaux.
SOURCES : Mistral AI (constructeur)
Autres grands modèles de langage
BERT
Modèle préentraîné pour classification et génération de texte.
SOURCES : Lien d’informationRoBERTa
Variante de BERT avec entraînement amélioré.
SOURCES : Lien d’informationXLNet
Variante de BERT conçue pour le multilingue.
SOURCES : Lien d’informationT5
Modèle universel pour tâches de génération et classification.
SOURCES : Lien d’informationALBERT
Version légère de BERT, plus rapide à entraîner.
SOURCES : Lien d’informationGPT-2
Précurseur des GPT modernes.
SOURCES : Lien d’informationGPT-3
Modèle génératif de 175B paramètres.
SOURCES : Lien d’informationGPT-4
Architecture avancée, capacités multimodales.
SOURCES : Lien d’informationClaude / Claude 3 Opus
Modèles d’Anthropic axés sur la sécurité et le raisonnement complexe.
SOURCES : Lien d’information
-
Modèles OpenAI
OpenAI a lancé plusieurs modèles majeurs en 2024-2025, dont la série « o » (o1, o3, o3-mini, o4-mini), GPT-4.1 (et ses variantes mini/nano) et GPT-4.5. Ces modèles sont en tête des classements, avec des capacités avancées en raisonnement, multimodalité et traitement de contextes longs.
SOURCES : OpenAI Research -
Modèles Google Gemini
Les différentes versions de Gemini (notamment 2.0, 2.5 et leurs variantes Pro/Flash) dominent les classements de performance internationaux, avec des capacités multimodales (texte, image, audio, vidéo) et des fonctions de raisonnement avancé.
SOURCES : Google DeepMind – Gemini -
Modèles DeepSeek
DeepSeek, laboratoire chinois, a marqué le secteur avec R1 et V3, modèles open source très performants, qui rivalisent avec OpenAI en efficacité et coût d’utilisation.
SOURCES : DeepSeek GitHub -
Modèles Anthropic
La série Claude (notamment Claude 3.5) est reconnue pour ses performances en génération de texte et sa conception axée sur la sécurité et l’éthique.
SOURCES : Anthropic -
Modèles Alibaba Qwen
Bien que Qwen2.5 soit listé, la version Max (Qwen 2.5-Max) est l’un des modèles les plus puissants d’Alibaba et se classe dans le top 10 mondial.
SOURCES : Qwen Blog -
Autres modèles notables
GLM-4-Plus (Zhipu AI)
Modèle chinois performant, notamment dans les tâches multilingues et la génération structurée.Step-2.16K-Exp (StepFun)
Modèle performant, classé dans le top 20 mondial en 2025.Yi:Lightning (01.AI)
SOURCES : Zhipu AI sur Hugging Face, 01.AI sur Hugging Face
Modèle chinois open source, reconnu pour sa rapidité et ses performances.