Modèles
Le catalogue des modèles d'IA — grands modèles de langage (LLM) et modèles d'embeddings — classés par éditeur. Chaque fiche détaille caractéristiques, benchmarks, tarifs et empreinte d'entraînement.
Modèles
417 modèles publiés, classés par éditeur.
Benchmarks
257 benchmarks publiés, classés par éditeur.
| Éditeur | Benchmark | Compétences évaluées | Modèles évalués |
|---|---|---|---|
| OpenAI | SWE-Bench Verified | Code, Développement frontend, Raisonnement | 100 |
| HumanEval | Code, Raisonnement | 65 | |
| BrowseComp | Agents, Raisonnement, Recherche | 51 | |
| MMMLU | Connaissances générales, Langage, Mathématiques, Raisonnement | 49 | |
| GSM8k | Mathématiques, Raisonnement | 47 | |
| SimpleQA | Connaissances générales, Factualité, Raisonnement | 45 | |
| Epoch: SWE-Bench verified | — | 32 | |
| MATH-500 | Mathématiques, Raisonnement | 31 | |
| Graphwalks BFS <128k | Raisonnement, Raisonnement spatial | 10 | |
| Graphwalks parents <128k | Raisonnement, Raisonnement spatial | 10 | |
| MRCR v2 (8-needle) | Connaissances générales, Contexte long, Raisonnement | 10 | |
| Graphwalks BFS >128k | Contexte long, Raisonnement, Raisonnement spatial | 8 | |
| MRCR v2 | Connaissances générales, Contexte long, Raisonnement | 8 | |
| OpenAI-MRCR: 2 needle 128k | Contexte long, Raisonnement | 8 | |
| Graphwalks parents >128k | Contexte long, Raisonnement, Raisonnement spatial | 7 | |
| Internal API instruction following (hard) | Connaissances générales, Sortie structurée | 7 | |
| MRCR | Connaissances générales, Contexte long, Raisonnement | 7 | |
| HealthBench Hard | Santé | 6 | |
| SWE-Lancer (IC-Diamond subset) | Code, Raisonnement | 6 | |
| HealthBench | Santé | 5 | |
| BrowseComp Long Context 128k | Raisonnement, Recherche | 4 | |
| HealthBench Professional | Santé | 4 | |
| OpenAI-MRCR: 2 needle 1M | Contexte long, Raisonnement | 4 | |
| SWE-Lancer | Code, Raisonnement | 4 | |
| IFEval | Connaissances générales, Sortie structurée, Suivi d'instructions | 65 | |
| Epoch: SimpleQA Verified | — | 52 | |
| MBPP | Connaissances générales, Raisonnement | 33 | |
| MGSM | Mathématiques, Raisonnement | 30 | |
| WMT24++ | Langage | 23 | |
| ERQA | Raisonnement, Raisonnement spatial, Vision | 22 | |
| IMO-AnswerBench | Mathématiques, Raisonnement | 18 | |
| FACTS Grounding | Ancrage factuel, Factualité, Raisonnement | 13 | |
| HiddenMath | Mathématiques, Raisonnement | 13 | |
| BIG-Bench Extra Hard | Connaissances générales, Langage, Raisonnement | 11 | |
| BoolQ | Langage, Raisonnement | 10 | |
| AndroidWorld_SR | Agents, Connaissances générales, Multimodal, Raisonnement | 8 | |
| ECLeKTic | Langage, Raisonnement | 8 | |
| Natural2Code | Connaissances générales, Raisonnement | 8 | |
| Natural Questions | Connaissances générales, Raisonnement, Recherche | 7 | |
| RefCOCO-avg | Ancrage factuel, Raisonnement spatial, Vision | 7 | |
| CountBench | Raisonnement, Raisonnement spatial, Vision | 6 | |
| DeepSearchQA | Agents, Raisonnement, Recherche | 6 | |
| FLEURS | Langage, Reconnaissance vocale | 6 | |
| Allen Institute (AI2) | ARC-C | Connaissances générales, Raisonnement | 34 |
| AI2D | Multimodal, Raisonnement, Vision | 32 | |
| DROP | Mathématiques, Raisonnement | 29 | |
| HellaSwag | Raisonnement | 27 | |
| IFBench | Connaissances générales, Suivi d'instructions | 27 | |
| Winogrande | Langage, Raisonnement | 22 | |
| Social IQa | Créativité, Psychologie, Raisonnement | 9 | |
| ARC-E | Connaissances générales, Raisonnement | 8 | |
| Wild Bench | Communication, Connaissances générales, Raisonnement | 8 | |
| ZebraLogic | Raisonnement | 7 | |
| OpenBookQA | Connaissances générales, Raisonnement | 5 | |
| LiveBench | LiveBench: Agentic Coding | — | 76 |
| LiveBench: Coding | — | 76 | |
| LiveBench: Data Analysis | — | 76 | |
| LiveBench: Global average | — | 76 | |
| LiveBench: IF | — | 76 | |
| LiveBench: Language | — | 76 | |
| LiveBench: Mathematics | — | 76 | |
| LiveBench: Reasoning | — | 76 | |
| LiveBench | Connaissances générales, Mathématiques, Raisonnement | 38 | |
| LiveBench 20241125 | Connaissances générales, Mathématiques, Raisonnement | 14 | |
| Benchable | Benchable : Email Classification (Baseline) | — | 255 |
| Benchable : Instruction Following (Baseline) | — | 253 | |
| Benchable : General Knowledge (Baseline) | — | 251 | |
| Benchable : Coding (Baseline) | — | 249 | |
| Benchable : Ethics (Baseline) | — | 249 | |
| Benchable : Reasoning (Baseline) | — | 240 | |
| Benchable : Hallucinations (Baseline) | — | 230 | |
| Benchable : Mathematics (Baseline) | — | 218 | |
| Benchable : Keyword Topic Relevance Classification | — | 9 | |
| Epoch AI | Epoch: OTIS Mock AIME 2024-2025 | — | 111 |
| Epoch: FrontierMath-2025-02-28-Private | — | 69 | |
| Epoch: FrontierMath-2025-02-28-Public | — | 64 | |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | — | 55 | |
| Epoch: Chess Puzzles | — | 43 | |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | — | 36 | |
| Epoch: FrontierMath-Tier-4-v2-Private | — | 32 | |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | — | 31 | |
| FrontierMath | Mathématiques, Raisonnement | 13 | |
| Sierra | Tau2 Telecom | Appels d'outils, Communication, Raisonnement | 34 |
| Tau2 Retail | Appels d'outils, Communication, Raisonnement | 25 | |
| TAU-bench Retail | Appels d'outils, Communication, Raisonnement | 24 | |
| t2-bench | Agents, Appels d'outils, Raisonnement | 23 | |
| TAU-bench Airline | Appels d'outils, Communication, Raisonnement | 22 | |
| Tau2 Airline | Appels d'outils, Communication, Raisonnement | 22 | |
| Tau-bench | Agents, Appels d'outils, Connaissances générales, Raisonnement | 6 | |
| TAU3-Bench | Agents, Appels d'outils, Raisonnement | 5 | |
| ByteDance | SuperGPQA | Chimie, Connaissances générales, Finance, Juridique, Mathématiques, Physique, Raisonnement, Santé, Économie | 34 |
| SWE-bench Multilingual | Code, Raisonnement | 32 | |
| OCRBench-V2 (zh) | Image vers texte, Vision | 11 | |
| WideSearch | Agents, Raisonnement, Recherche | 8 | |
| Multi-SWE-Bench | Code, Raisonnement | 6 | |
| Beyond AIME | Mathématiques, Raisonnement | 5 | |
| Qwen (Alibaba) | CC-OCR | Multimodal, Sortie structurée, Text-to-image, Vision | 18 |
| WritingBench | Communication, Créativité, Finance, Juridique, Rédaction | 15 | |
| NOVA-63 | Connaissances générales | 11 | |
| DeepPlanning | Agents, Raisonnement | 9 | |
| CSimpleQA | Connaissances générales, Langage | 7 | |
| Gorilla (UC Berkeley) | BFCL-v3 | Agents, Appels d'outils, Connaissances générales, Finance, Raisonnement, Sortie structurée | 19 |
| BFCL-V4 | Agents, Appels d'outils | 13 | |
| BFCL | Appels d'outils, Connaissances générales, Raisonnement | 11 | |
| BFCL v2 | Appels d'outils, Connaissances générales, Raisonnement | 5 | |
| MAA (AMC) | AIME 2025 | Mathématiques, Raisonnement | 108 |
| AIME 2024 | Mathématiques, Raisonnement | 52 | |
| AIME 2026 | Mathématiques, Raisonnement | 17 | |
| AMC_2022_23 | Mathématiques, Raisonnement | 6 | |
| Princeton | CharXiv-R | Multimodal, Raisonnement, Vision | 42 |
| CharXiv-D | Multimodal, Raisonnement, Sortie structurée, Vision | 16 | |
| COLLIE | Langage, Raisonnement, Rédaction | 10 | |
| SUNRGBD | 3D, Raisonnement spatial, Vision | 4 | |
| Scale AI | Humanity's Last Exam | Mathématiques, Raisonnement, Vision | 86 |
| SWE-Bench Pro | Agents, Code, Raisonnement | 34 | |
| Multi-Challenge | Communication, Raisonnement | 28 | |
| MCP Atlas | Agents, Appels d'outils, Code, Raisonnement | 27 | |
| Shanghai AI Lab | MMBench-V1.1 | Multimodal, Raisonnement, Vision | 18 |
| MVBench | Multimodal, Raisonnement, Raisonnement spatial, Vidéo, Vision | 17 | |
| MMBench | Multimodal, Raisonnement, Vision | 9 | |
| MMT-Bench | Connaissances générales, Multimodal, Raisonnement, Vision | 4 | |
| Zhipu AI | LVBench | Contexte long, Multimodal, Vision | 23 |
| LongBench v2 | Connaissances générales, Contexte long, Raisonnement, Sortie structurée | 15 | |
| ComplexFuncBench | Appels d'outils, Contexte long, Raisonnement, Sortie structurée | 7 | |
| AlignBench | Connaissances générales, Créativité, Jeu de rôle, Langage, Mathématiques, Raisonnement, Rédaction | 4 | |
| Aider | Aider-Polyglot | Code, Connaissances générales | 22 |
| Aider-Polyglot Edit | Code, Connaissances générales | 10 | |
| Aider | Code, Raisonnement | 4 | |
| Cohere | Include | Connaissances générales | 31 |
| Global-MMLU-Lite | Connaissances générales, Langage, Raisonnement | 14 | |
| Global-MMLU | Connaissances générales, Langage, Raisonnement | 5 | |
| Communauté MTEB | MTEB: MVEB Video-Only | — | 33 |
| MTEB: MVEB Video-Text | — | 24 | |
| MTEB: MVEB | — | 16 | |
| Laude Institute | Terminal-Bench 2.0 | Agents, Appels d'outils, Code, Raisonnement | 48 |
| Terminal-Bench | Agents, Code, Raisonnement | 25 | |
| Terminal-Bench 2.1 | Agents, Appels d'outils, Code, Raisonnement | 6 | |
| LiveCodeBench | LiveCodeBench v6 | Connaissances générales, Raisonnement | 53 |
| LiveCodeBench v5 | Connaissances générales, Raisonnement | 9 | |
| LiveCodeBench Pro | Code, Connaissances générales, Raisonnement | 4 | |
| LMArena | Arena Hard | Connaissances générales, Créativité, Raisonnement, Rédaction | 26 |
| Arena-Hard v2 | Connaissances générales, Créativité, Raisonnement, Rédaction | 16 | |
| MT-Bench | Communication, Connaissances générales, Créativité, Jeu de rôle, Raisonnement | 12 | |
| MathArena | HMMT 2025 | Mathématiques | 33 |
| HMMT25 | Mathématiques | 25 | |
| HMMT Feb 26 | Mathématiques, Raisonnement | 11 | |
| Meta | Multi-IF | Communication, Langage, Raisonnement, Sortie structurée, Suivi d'instructions | 20 |
| TextVQA | Image vers texte, Multimodal, Vision | 15 | |
| CoVoST2 | Audio, Langage, Reconnaissance vocale | 4 | |
| ARC Prize | ARC-AGI v2 | Raisonnement, Raisonnement spatial, Vision | 16 |
| ARC-AGI | Raisonnement, Raisonnement spatial, Vision | 7 | |
| Artificial Analysis | GDPval-AA | Agents, Connaissances générales, Finance, Juridique, Raisonnement | 33 |
| AA-LCR | Contexte long, Raisonnement | 14 | |
| BAAI | MLVU-M | Connaissances générales | 8 |
| RefSpatialBench | Ancrage factuel, Raisonnement spatial, Vision | 6 | |
| HKUST | Toolathlon | Agents, Appels d'outils, Raisonnement | 23 |
| C-Eval | Connaissances générales, Raisonnement | 18 | |
| Microsoft | ODinW | Vision | 16 |
| AGIEval | Connaissances générales, Juridique, Mathématiques, Raisonnement | 10 | |
| Vals AI | Finance Agent v2 | Agents, Finance, Raisonnement | 25 |
| Finance Agent | Agents, Finance, Raisonnement | 8 | |
| Apple | Hypersim | 3D, Raisonnement spatial, Vision | 4 |
| Codeforces | CodeForces | Mathématiques, Raisonnement | 16 |
| Databricks | OfficeQA Pro | Agents, Connaissances générales, Raisonnement | 5 |
| EQ-Bench | Creative Writing v3 | Créativité, Rédaction | 12 |
| EvalPlus | HumanEval+ | Raisonnement | 10 |
| EvolvingLMMs-Lab | VideoMMMU | Multimodal, Raisonnement, Santé, Vision | 26 |
| Harvey AI | Legal Agent Benchmark | Agents, Juridique, Raisonnement | 11 |
| Kilo Code | PinchBench : agentique (OpenClaw, 147 tâches) | — | 52 |
| Meituan | VITA-Bench | Agents, Raisonnement | 10 |
| Mercor | APEX-Agents | Agents, Raisonnement | 5 |
| Mistral AI | MM-MT-Bench | Communication, Multimodal | 17 |
| Moonshot AI | OJBench | Raisonnement | 9 |
| Nexusflow | Nexus | Appels d'outils, Connaissances générales | 4 |
| NVIDIA | RULER | Contexte long, Raisonnement | 4 |
| OpenDataLab | OmniDocBench 1.5 | Multimodal, Raisonnement, Sortie structurée, Vision | 13 |
| OPPO / Waseda | MAXIFE | Connaissances générales | 11 |
| Proximal | FrontierSWE | Agents, Code | 13 |
| Reka AI | Vibe-Eval | Connaissances générales, Multimodal, Vision | 8 |
| SkillsBench | SkillsBench | Agents, Code | 5 |
| TIGER Lab | MMLU-Pro | Connaissances générales, Finance, Juridique, Langage, Mathématiques, Raisonnement, Santé | 125 |
| Wayve | LingoQA | Langage, Multimodal, Raisonnement, Vision | 4 |
| WMT | WMT23 | Langage, Santé | 4 |
| xAI | RealWorldQA | Raisonnement spatial, Vision | 25 |
| Recherche académique | GPQA | Biologie, Chimie, Connaissances générales, Physique, Raisonnement | 213 |
| Epoch: GPQA diamond | — | 132 | |
| MMLU | Connaissances générales, Finance, Juridique, Langage, Mathématiques, Raisonnement, Santé | 98 | |
| Epoch: MATH level 5 | — | 84 | |
| LiveCodeBench | Code, Connaissances générales, Raisonnement | 72 | |
| MATH | Mathématiques, Raisonnement | 70 | |
| MMMU | Connaissances générales, Multimodal, Raisonnement, Santé, Vision | 61 | |
| MMMU-Pro | Connaissances générales, Multimodal, Raisonnement, Vision | 60 | |
| MMLU-Redux | Connaissances générales, Langage, Mathématiques, Raisonnement | 48 | |
| MathVista | Mathématiques, Multimodal, Vision | 38 | |
| MMLU-ProX | Connaissances générales, Finance, Juridique, Langage, Mathématiques, Raisonnement, Santé | 32 | |
| MathVision | Mathématiques, Multimodal, Vision | 31 | |
| DocVQA | Image vers texte, Multimodal, Vision | 26 | |
| ChartQA | Multimodal, Raisonnement, Vision | 24 | |
| MathVista-Mini | Mathématiques, Multimodal, Vision | 23 | |
| PolyMATH | Mathématiques, Multimodal, Raisonnement, Raisonnement spatial, Vision | 23 | |
| ScreenSpot Pro | Ancrage factuel, Multimodal, Raisonnement spatial, Vision | 23 | |
| MMStar | Connaissances générales, Multimodal, Raisonnement, Vision | 22 | |
| OCRBench | Image vers texte, Vision | 22 | |
| BIG-Bench Hard | Langage, Mathématiques, Raisonnement | 20 | |
| OSWorld | Agents, Connaissances générales, Multimodal, Vision | 20 | |
| SciCode | Biologie, Chimie, Code, Mathématiques, Physique, Raisonnement | 18 | |
| TriviaQA | Connaissances générales, Raisonnement | 18 | |
| TruthfulQA | Connaissances générales, Finance, Juridique, Raisonnement, Santé | 18 | |
| OSWorld-Verified | Agents, Connaissances générales, Multimodal, Vision | 17 | |
| Video-MME | Multimodal, Raisonnement, Vision | 17 | |
| Hallusion Bench | Raisonnement, Vision | 16 | |
| ScreenSpot | Ancrage factuel, Multimodal, Raisonnement spatial, Vision | 16 | |
| BLINK | 3D, Multimodal, Raisonnement, Raisonnement spatial, Vision | 13 | |
| BrowseComp-zh | Raisonnement, Recherche | 13 | |
| Global PIQA | Connaissances générales, Physique, Raisonnement | 13 | |
| MultiPL-E | Connaissances générales, Langage | 13 | |
| SimpleVQA | Connaissances générales, Image vers texte, Multimodal, Vision | 13 | |
| BBH | Langage, Mathématiques, Raisonnement | 12 | |
| CharadesSTA | Langage, Multimodal, Vidéo, Vision | 12 | |
| Claw-Eval | Agents, Code | 12 | |
| InfoVQAtest | Multimodal, Vision | 12 | |
| MedXpertQA | Multimodal, Raisonnement, Santé, Vision | 12 | |
| OCRBench-V2 (en) | Image vers texte, Vision | 12 | |
| DocVQAtest | Multimodal, Vision | 11 | |
| MMMU (val) | Connaissances générales, Multimodal, Raisonnement, Santé, Vision | 11 | |
| MuirBench | Multimodal, Raisonnement, Vision | 11 | |
| PIQA | Connaissances générales, Physique, Raisonnement | 11 | |
| MLVU | Contexte long, Multimodal, Vidéo, Vision | 10 | |
| VideoMME w/o sub. | Multimodal, Vidéo, Vision | 10 | |
| CyberGym | Agents, Code, Sûreté | 9 | |
| EgoSchema | Contexte long, Raisonnement, Vision | 9 | |
| InfoVQA | Multimodal, Vision | 9 | |
| VideoMME w sub. | Multimodal, Vidéo, Vision | 9 | |
| EmbSpatialBench | IA incarnée, Raisonnement spatial, Vision | 8 | |
| MCP-Mark | Agents, Appels d'outils | 8 | |
| ZEROBench | Multimodal, Raisonnement, Vision | 8 | |
| BabyVision | Multimodal, Raisonnement, Vision | 7 | |
| Bird-SQL (dev) | Raisonnement | 7 | |
| DynaMath | Mathématiques, Multimodal, Raisonnement, Vision | 7 | |
| OCRBench_V2 | Image vers texte, Vision | 7 | |
| V* | Multimodal, Raisonnement, Vision | 7 | |
| CMMLU | Connaissances générales, Langage, Raisonnement | 6 | |
| MATH (CoT) | Mathématiques, Raisonnement | 6 | |
| MathArena Apex | Mathématiques, Raisonnement | 6 | |
| Seal-0 | Raisonnement, Recherche | 6 | |
| TheoremQA | Finance, Mathématiques, Physique, Raisonnement | 6 | |
| MMLongBench-Doc | Contexte long, Multimodal, Vision | 5 | |
| Multilingual MMLU | Connaissances générales, Langage, Raisonnement | 5 | |
| SQuALITY | Contexte long, Langage, Résumé | 5 | |
| ZEROBench-Sub | Multimodal, Raisonnement, Vision | 5 | |
| Codegolf v2.2 | Code | 4 | |
| MMMU (validation) | Connaissances générales, Multimodal, Raisonnement, Santé, Vision | 4 | |
| MMMUval | Connaissances générales, Multimodal, Raisonnement, Santé, Vision | 4 | |
| SlakeVQA | Image vers texte, Multimodal, Raisonnement, Santé, Vision | 4 | |
| TIR-Bench | Agents, Appels d'outils, Multimodal, Raisonnement | 4 | |
| VLMsAreBlind | Multimodal, Raisonnement, Vision | 4 | |
| Inconnu | NL2Repo | Agents, Code | 11 |