Modèles

Le catalogue des modèles d'IA — grands modèles de langage (LLM) et modèles d'embeddings — classés par éditeur. Chaque fiche détaille caractéristiques, benchmarks, tarifs et empreinte d'entraînement.

Modèles

417 modèles publiés, classés par éditeur.

ÉditeurModèleTypeDate de sortie
QwenQwen3.7-PlusLLM2026-05-31
Qwen3.7 MaxLLM2026-05-19
Qwen: Qwen3.6 FlashLLM2026-04-27
Qwen: Qwen3.6 Max PreviewLLM2026-04-27
Qwen3.6-27BLLM2026-04-21
Qwen 3.6 MaxLLM2026-04-20
Qwen3.6-35B-A3BLLM2026-04-16
Qwen3.6 PlusLLM2026-03-31
Qwen3.5-0.8BLLM2026-03-02
Qwen3.5-2BLLM2026-03-02
Qwen3.5-4BLLM2026-03-02
Qwen3.5-9BLLM2026-03-02
Qwen: Qwen3.5-FlashLLM2026-02-25
Qwen3.5-122B-A10BLLM2026-02-24
Qwen3.5-27BLLM2026-02-24
Qwen3.5-35B-A3BLLM2026-02-24
Qwen 3.5 PlusLLM2026-02-16
Qwen3.5-397B-A17BLLM2026-02-16
Qwen3 MaxLLM2026-02-09
qwen3-coder-next-2025-02-03LLM2026-02-04
Qwen3-Max-InstructLLM2025-09-24
Qwen: Qwen3 Coder PlusLLM2025-09-23
Qwen3 VL 235B A22B InstructLLM2025-09-22
Qwen3 VL 235B A22B ThinkingLLM2025-09-22
Qwen3 VL 30B A3B InstructLLM2025-09-22
Qwen3 VL 30B A3B ThinkingLLM2025-09-22
Qwen3 VL 32B InstructLLM2025-09-22
Qwen3 VL 32B ThinkingLLM2025-09-22
Qwen3 VL 4B InstructLLM2025-09-22
Qwen3 VL 4B ThinkingLLM2025-09-22
Qwen3 VL 8B InstructLLM2025-09-22
Qwen3 VL 8B ThinkingLLM2025-09-22
Qwen: Qwen3 Coder FlashLLM2025-09-17
Qwen3-Next-80B-A3B-InstructLLM2025-09-10
Qwen3-Next-80B-A3B-ThinkingLLM2025-09-10
qwen-plusLLM2025-09-08
Qwen: Qwen3 30B A3B Thinking 2507LLM2025-08-28
Qwen: Qwen3 Coder 30B A3B InstructLLM2025-07-31
Qwen: Qwen3 30B A3B Instruct 2507LLM2025-07-29
Qwen3 235B A22BLLM2025-07-25
Qwen3-235B-A22B-Thinking-2507LLM2025-07-25
Qwen3-235B-A22B-Instruct-2507LLM2025-07-22
Qwen3 30B A3BLLM2025-04-29
Qwen3 32BLLM2025-04-29
QWQ-PlusLLM2025-04-08
Qwen2.5-Omni-7BLLM2025-03-27
QwQ-32BLLM2025-03-05
Qwen2.5 VL 32B InstructLLM2025-02-28
Qwen: Qwen-TurboLLM2025-02-01
Qwen3-Coder 480B A35B InstructLLM2025-01-31
Qwen2.5 VL 72B InstructLLM2025-01-26
Qwen2.5 VL 7B InstructLLM2025-01-26
qwen2.5-maxLLM2025-01-25
QvQ-72B-PreviewLLM2024-12-25
QwQ-32B-PreviewLLM2024-11-28
Qwen2.5 14B InstructLLM2024-09-19
Qwen2.5 32B InstructLLM2024-09-19
Qwen2.5 72B InstructLLM2024-09-19
Qwen2.5 7B InstructLLM2024-09-19
Qwen2.5-72BLLM2024-09-19
Qwen2.5-Coder 32B InstructLLM2024-09-19
Qwen2.5-Coder 7B InstructLLM2024-09-19
Qwen2.5-32BLLM2024-09-17
Qwen2-VL-72B-InstructLLM2024-08-29
Qwen2 72B InstructLLM2024-07-23
Qwen2 7B InstructLLM2024-07-23
Qwen2-72BLLM2024-06-07
Qwen1.5-32BLLM2024-04-03
Qwen1.5-72BLLM2024-02-04
qwen3-14b-04-28LLM
qwen3-235b-a22b-04-28LLM
qwen3-235b-a22b-07-25LLM
qwen3-30b-a3b-04-28LLM
qwen3-32b-04-28LLM
qwen3-8b-04-28LLM
qwen3-coder-480b-a35b-07-25LLM
qwen3-next-80b-a3b-instruct-2509LLM
qwen3-next-80b-a3b-thinking-2509LLM
qwen3.6-plus-04-02LLM
OpenAIGPT-5.5 InstantLLM2026-05-05
OpenAI: GPT Chat LatestLLM2026-05-05
GPT-5.5LLM2026-04-23
GPT-5.5 ProLLM2026-04-23
GPT-5.4 miniLLM2026-03-17
GPT-5.4 nanoLLM2026-03-17
GPT-5.4LLM2026-03-05
OpenAI: GPT-5.4 ProLLM2026-03-05
GPT-5.3 ChatLLM2026-03-04
GPT-5.3 CodexLLM2026-02-05
GPT-5.2 CodexLLM2026-01-14
GPT-5.2LLM2025-12-11
GPT-5.2 ProLLM2025-12-11
OpenAI: GPT-5.2 ChatLLM2025-12-10
OpenAI: GPT-5.1-Codex-MaxLLM2025-12-04
GPT-5.1 CodexLLM2025-11-19
GPT-5.1LLM2025-11-13
OpenAI: GPT-5.1 ChatLLM2025-11-13
GPT-5.1 Codex MiniLLM2025-11-12
GPT-5.1 InstantLLM2025-11-12
OpenAI: gpt-oss-safeguard-20bLLM2025-10-29
OpenAI: GPT-5 ProLLM2025-10-06
GPT-5 CodexLLM2025-09-15
GPT-5LLM2025-08-07
GPT-5 miniLLM2025-08-07
GPT-5 nanoLLM2025-08-07
gpt-5-chat-2025-08-07LLM2025-08-07
GPT OSS 120BLLM2025-08-05
GPT OSS 20BLLM2025-08-05
o3LLM2025-04-16
o4-miniLLM2025-04-16
GPT-4.1LLM2025-04-14
GPT-4.1 miniLLM2025-04-14
GPT-4.1 nanoLLM2025-04-14
GPT-4oLLM2025-03-27
gpt-4o-mini-search-preview-2025-03-11LLM2025-03-12
gpt-4o-search-preview-2025-03-11LLM2025-03-12
OpenAI: GPT-4.5 (Preview)LLM2025-02-27
o3-miniLLM2025-01-30
o1LLM2024-12-17
o1-proLLM2024-12-17
o1-miniLLM2024-09-12
o1-previewLLM2024-09-12
GPT-4o miniLLM2024-07-18
ChatGPT-4o LatestLLM2024-05-13
GPT-4 TurboLLM2024-04-09
OpenAI: GPT-4 Turbo PreviewLLM2024-01-25
OpenAI: GPT-3.5 Turbo InstructLLM2023-09-28
GPT-4LLM2023-08-28
OpenAI: GPT-3.5 Turbo 16kLLM2023-08-28
GPT-3.5 TurboLLM2023-03-21
gpt-3.5-turbo-0613LLM
GPT-5.3 InstantLLM
Mistral AIMistral Medium 3.5LLM2026-04-29
Mistral Small 4LLM2026-03-16
Mistral: Devstral 2 2512LLM2025-12-09
Min istral 3 (3B Reasoning 2512)LLM2025-12-04
Ministral 3 (14B Base 2512)LLM2025-12-04
MiniStral 3 (14B Instruct 2512)LLM2025-12-04
Ministral 3 (14B Reasoning 2512)LLM2025-12-04
Ministral 3 (3B Base 2512)LLM2025-12-04
Ministral 3 (3B Instruct 2512)LLM2025-12-04
Ministral 3 (8B Base 2512)LLM2025-12-04
Ministral 3 (8B Instruct 2512)LLM2025-12-04
Ministral 3 (8B Reasoning 2512)LLM2025-12-04
Mistral Large 3 (675B Base)LLM2025-12-04
Mistral Large 3 (675B Instruct 2512 Eagle)LLM2025-12-04
Mistral Large 3 (675B Instruct 2512 NVFP4)LLM2025-12-04
Mistral Large 3 (675B Instruct 2512)LLM2025-12-04
Mistral: Voxtral Small 24B 2507LLM2025-10-30
Mistral Large 3LLM2025-09-01
Mistral: Mistral Medium 3.1LLM2025-08-13
Mistral: Codestral 2508LLM2025-08-01
Devstral Small 1.1LLM2025-07-11
Devstral MediumLLM2025-07-10
Mistral Small 3.2 24B InstructLLM2025-06-20
Magistral MediumLLM2025-06-10
Magistral Small 1.1LLM2025-06-10
Magistral Small 2506LLM2025-06-10
Mistral: Mistral Medium 3LLM2025-05-07
Mistral Small 3.1LLM2025-03-17
Mistral Small 3.1 24B BaseLLM2025-03-17
Mistral Small 3.1 24B InstructLLM2025-03-17
Mistral Small 3 24B BaseLLM2025-01-30
Mistral Small 3 24B InstructLLM2025-01-30
Mistral Small 3LLM2025-01-25
Mistral Large 2407LLM2024-11-19
Pixtral LargeLLM2024-11-18
Mistral: Ministral 3BLLM2024-10-17
Mistral: Ministral 8BLLM2024-10-17
Ministral 8B InstructLLM2024-10-16
Pixtral-12BLLM2024-09-17
Mistral Large 2LLM2024-07-24
Mistral NeMoLLM2024-07-18
Mistral NeMo InstructLLM2024-07-18
Codestral-22BLLM2024-05-29
Mistral 7BLLM2024-05-27
Mistral: Mixtral 8x22B InstructLLM2024-04-17
Mixtral 8x22BLLM2024-04-17
Mistral LargeLLM2024-02-26
Mixtral 8x7BLLM2023-12-11
Devstral 2LLM
GoogleDiffusionGemma 26B-A4BLLM2026-06-10
Gemma 4 12BLLM2026-05-23
Gemini 3.5 FlashLLM2026-05-19
Gemma 4 26B-A4BLLM2026-04-02
Gemma 4 31BLLM2026-04-02
Gemma 4 E2BLLM2026-04-02
Gemma 4 E4BLLM2026-04-02
Gemini 3.1 Flash-LiteLLM2026-03-03
Google: Gemini 3.1 Pro Preview Custom ToolsLLM2026-02-25
Gemini 3.1 Pro PreviewLLM2026-02-19
Gemini 3 FlashLLM2025-12-17
Gemini 3 ProLLM2025-11-18
Gemini 2.5 Flash Lite PreviewLLM2025-09-25
Gemma 3n E2BLLM2025-06-26
Gemma 3n E2B InstructedLLM2025-06-26
Gemma 3n E4BLLM2025-06-26
Gemma 3n E4B InstructedLLM2025-06-26
Gemini 2.5 Flash-LiteLLM2025-06-17
Gemini 2.5 Pro Preview 06-05LLM2025-06-05
Gemini 2.5 FlashLLM2025-05-20
Gemini 2.5 ProLLM2025-05-20
Gemini DiffusionLLM2025-05-20
Gemma 3n E2B Instructed LiteRT (Preview)LLM2025-05-20
Gemma 3n E4B Instructed LiteRT PreviewLLM2025-05-20
MedGemma 4B ITLLM2025-05-20
Gemma 3 12BLLM2025-03-12
Gemma 3 1BLLM2025-03-12
Gemma 3 27BLLM2025-03-12
Gemma 3 4BLLM2025-03-12
Gemini 2.0 Flash-LiteLLM2025-02-05
Gemini 2.0 FlashLLM2025-01-21
Gemini 2.0 Flash ExperimentalLLM2025-01-21
Gemma 2 27BLLM2024-06-27
Gemma 2 9BLLM2024-06-27
Gemini 1.5 FlashLLM2024-05-01
Gemini 1.5 ProLLM2024-05-01
Gemini 1.5 Flash 8BLLM2024-03-15
Gemini 1.0 ProLLM2024-02-15
gemini-2.5-pro-preview-03-25LLM
gemini-3-pro-imageLLM
gemini-3-pro-image-previewLLM
gemini-3-pro-preview-11-2025-highLLM
gemini-3.1-flash-imageLLM
gemini-3.1-flash-image-previewLLM
DeepSeekDeepSeek V4 FlashLLM2026-04-24
DeepSeek V4 ProLLM2026-04-24
DeepSeek-V4-Flash-MaxLLM2026-04-23
DeepSeek-V4-Pro-MaxLLM2026-04-23
DeepSeek-V3.2LLM2025-12-01
DeepSeek-V3.2 (Thinking)LLM2025-12-01
DeepSeek-V3.2-SpecialeLLM2025-12-01
DeepSeek-V3.2-ExpLLM2025-09-29
DeepSeek V3.1 TerminusLLM2025-09-22
DeepSeek-R1LLM2025-05-28
DeepSeek-R1-0528LLM2025-05-28
DeepSeek-V3 0324LLM2025-03-25
DeepSeek-V3LLM2025-03-24
DeepSeek R1 Distill Llama 70BLLM2025-01-20
DeepSeek R1 Distill Llama 8BLLM2025-01-20
DeepSeek R1 Distill Qwen 1.5BLLM2025-01-20
DeepSeek R1 Distill Qwen 14BLLM2025-01-20
DeepSeek R1 Distill Qwen 32BLLM2025-01-20
DeepSeek R1 Distill Qwen 7BLLM2025-01-20
DeepSeek R1 ZeroLLM2025-01-20
DeepSeek-V3.1LLM2025-01-10
DeepSeek VL2LLM2024-12-13
DeepSeek VL2 SmallLLM2024-12-13
DeepSeek VL2 TinyLLM2024-12-13
DeepSeek-V2.5LLM2024-05-08
DeepSeek LLM 67BLLM2023-11-29
deepseek-chat-v3LLM
deepseek-chat-v3-0324LLM
deepseek-chat-v3.1LLM
AnthropicClaude Fable 5LLM2026-06-09
Claude Opus 4.8LLM2026-05-28
Claude Opus 4.7LLM2026-05-12
Claude Opus 4.6LLM2026-04-07
Claude Sonnet 4.6LLM2026-02-17
Claude Opus 4.5LLM2025-11-24
Claude Haiku 4.5LLM2025-10-15
Claude Sonnet 4.5LLM2025-09-29
Claude Opus 4.1LLM2025-08-05
Claude Opus 4LLM2025-05-22
Claude Sonnet 4LLM2025-05-22
Claude 3.7 SonnetLLM2025-02-24
Claude 3.5 HaikuLLM2024-11-04
Claude 3.5 SonnetLLM2024-10-22
Claude 3 HaikuLLM2024-03-13
Claude 3 OpusLLM2024-02-29
Claude 3 SonnetLLM2024-02-29
Claude 2.1LLM2023-11-21
Claude 2LLM2023-07-11
Claude Mythos PreviewLLM
xAIxAI: Grok Build 0.1LLM2026-05-20
Grok 4.3LLM2026-05-06
Grok 4.3 BetaLLM2026-04-17
Grok 4.20LLM2026-03-31
xAI: Grok 4.20 BetaLLM2026-03-12
Grok-4.20 BetaLLM2026-03-09
Grok 4.1 FastLLM2025-11-19
Grok-4.1LLM2025-11-17
Grok 4 FastLLM2025-08-28
Grok Code Fast 1LLM2025-08-28
Grok-4 HeavyLLM2025-07-10
Grok-4LLM2025-07-09
Grok-3LLM2025-02-17
Grok-3 MiniLLM2025-02-17
Grok-2LLM2024-08-13
Grok-2 miniLLM2024-08-13
Grok-1.5VLLM2024-04-12
Grok-1.5LLM2024-03-28
Grok Code FastLLM
MetaMuse SparkLLM2026-04-08
Llama 4 MaverickLLM2025-04-05
Llama 4 ScoutLLM2025-04-05
Llama 3.3 70BLLM2024-12-06
Llama 3.3 70B InstructLLM2024-12-06
Llama 3.2 11B InstructLLM2024-09-25
Llama 3.2 3B InstructLLM2024-09-25
Llama 3.2 90B InstructLLM2024-09-25
Llama 3.2 90BLLM2024-09-24
Llama 3.1 405B InstructLLM2024-07-23
Llama 3.1 70B InstructLLM2024-07-23
Llama 3.1 8B InstructLLM2024-07-23
Llama 3.1-405BLLM2024-07-23
Llama 3.1-70BLLM2024-07-23
Llama 3.1-8BLLM2024-07-23
Llama 3-70BLLM2024-04-18
Llama 3-8BLLM2024-04-18
Llama 2-70BLLM2023-07-18
MicrosoftMAI-Code-1-FlashLLM2026-06-02
MAI-Thinking-1LLM2026-06-02
Phi 4 MiniLLM2025-04-30
Phi 4 ReasoningLLM2025-04-30
Phi 4 Reasoning PlusLLM2025-04-30
Phi-4-multimodal-instructLLM2025-02-01
Phi 4LLM2024-12-12
Phi-3.5-mini-instructLLM2024-08-23
Phi-3.5-MoE-instructLLM2024-08-23
Phi-3.5-vision-instructLLM2024-08-23
phi-3-medium 14BLLM2024-04-23
WizardLM-2 8x22BLLM2024-04-16
phi-4-mini-instructLLM
AmazonNova 2 LiteLLM2025-12-02
Nova 2 OmniLLM2025-12-02
Nova 2 ProLLM2025-12-02
Nova 2 SonicLLM2025-12-02
Nova LiteLLM2024-11-20
Nova MicroLLM2024-11-20
Nova ProLLM2024-11-20
nova-2-lite-v1LLM
nova-micro-v1LLM
nova-premier-v1LLM
nova-pro-v1LLM
NVIDIANemotron 3 Ultra (550B A55B)LLM2026-06-04
Nemotron 3 Super (120B A12B)LLM2026-03-11
Nemotron 3 Nano (30B A3B)LLM2025-12-15
nemotron-nano-12b-v2-vlLLM2025-10-28
NVIDIA: Llama 3.3 Nemotron Super 49B V1.5LLM2025-10-10
Nemotron Nano 9B v2LLM2025-08-18
Llama 3.1 Nemotron Ultra 253B v1LLM2025-04-07
Llama 3.1 Nemotron Nano 8B V1LLM2025-03-18
Llama-3.3 Nemotron Super 49B v1LLM2025-03-18
Llama 3.1 Nemotron 70B InstructLLM2024-10-01
Zhipu AIGLM-5.2LLM2026-06-16
GLM-5.1LLM2026-04-07
GLM-5V-TurboLLM2026-04-02
GLM-5LLM2026-02-11
GLM-4.7-FlashLLM2026-01-19
GLM-4.7LLM2025-12-22
GLM-4.6LLM2025-09-30
GLM-4.5LLM2025-07-28
GLM-4.5-AirLLM2025-07-28
Moonshot AIKimi K2.7 CodeLLM2026-06-12
Kimi K2.6LLM2026-04-20
Kimi K2.5LLM2026-01-27
Kimi K2 0905LLM2025-09-05
Kimi K2-Instruct-0905LLM2025-09-05
Kimi K2 BaseLLM2025-07-11
Kimi K2 InstructLLM2025-07-11
Kimi-k1.5LLM2025-01-20
MiniMaxMiniMax M3LLM2026-06-01
MiniMax M2.7LLM2026-03-18
MiniMax M2.5LLM2026-02-12
MiniMax M2.1LLM2025-12-23
MiniMax M2LLM2025-10-27
MiniMax M1LLM2025-06-17
XiaomiMiMo-V2.5-ProLLM2026-04-27
MiMo-V2.5LLM2026-04-22
MiMo-V2-OmniLLM2026-03-18
MiMo-V2-ProLLM2026-03-18
MiMo-V2-FlashLLM2025-12-16
bytedanceSeed 2.1 ProLLM2026-06-24
Seed 2.1 TurboLLM2026-06-24
Seed 2.0 LiteLLM2026-02-14
Seed 2.0 ProLLM2026-02-14
MeituanLongCat-Flash-LiteLLM2026-02-05
LongCat-Flash-Thinking-2601LLM2026-01-14
LongCat-Flash-ThinkingLLM2025-09-22
LongCat-Flash-ChatLLM2025-08-29
BaiduERNIE 5.0LLM2026-01-22
Baidu: ERNIE 4.5 VL 424B A47B LLM2025-06-30
ERNIE 4.5LLM2025-06-25
cohereNorth Mini Code 1.0LLM2026-06-09
Command A+LLM2026-05-20
Cohere: Command R (08-2024)LLM2024-08-30
IBMIBM Granite 4.0 Tiny PreviewLLM2025-05-02
Granite 3.3 8B BaseLLM2025-04-16
Granite 3.3 8B InstructLLM2025-04-16
StepFunStepFun: Step 3.7 FlashLLM2026-05-28
Step-3.5-FlashLLM2026-02-02
Step3-VL-10BLLM2026-01-15
AI21Jamba 1.5 LargeLLM2024-08-22
Jamba 1.5 MiniLLM2024-08-22
aion-labsAionLabs: Aion-2.0LLM2026-02-23
AionLabs: Aion-1.0LLM2025-02-04
arcee-aiArcee AI: Trinity Large ThinkingLLM2026-04-01
Arcee AI: Coder LargeLLM2025-05-05
inclusionaiinclusionAI: Ring-2.6-1TLLM2026-05-08
inclusionAI: Ling-2.6-1TLLM2026-04-23
sarvamaiSarvam-105BLLM2026-03-06
Sarvam-30BLLM2026-03-06
ByteDance-SeedSeed 1.6LLM2025-12-23
deepcogitoDeep Cogito: Cogito v2.1 671BLLM2025-11-13
Google DeepMindAI co-mathematicianLLM2026-05-08
Google,Google DeepMindGemini 2.5 Deep ThinkLLM2025-08-01
InceptionMercury 2LLM2026-02-24
LG AI ResearchK-EXAONE-236B-A23BLLM2025-12-31
Nex AGINex AGI: Nex-N2-ProLLM2026-06-08
Nous ResearchHermes 3 70BLLM2024-08-15
OpenBMBMiniCPM-SALALLM2026-02-11
perceptronPerceptron: Perceptron Mk1LLM2026-05-12
rekaaiReka Flash 3LLM2025-03-12
sakanaSakana: Fugu UltraLLM2026-06-24
WriterWriter: Palmyra X5LLM2025-04-28
Z.aiZ.ai: GLM 5 TurboLLM2026-03-15

Benchmarks

257 benchmarks publiés, classés par éditeur.

ÉditeurBenchmarkCompétences évaluéesModèles évalués
OpenAISWE-Bench VerifiedCode, Développement frontend, Raisonnement100
HumanEvalCode, Raisonnement65
BrowseCompAgents, Raisonnement, Recherche51
MMMLUConnaissances générales, Langage, Mathématiques, Raisonnement49
GSM8kMathématiques, Raisonnement47
SimpleQAConnaissances générales, Factualité, Raisonnement45
Epoch: SWE-Bench verified32
MATH-500Mathématiques, Raisonnement31
Graphwalks BFS <128kRaisonnement, Raisonnement spatial10
Graphwalks parents <128kRaisonnement, Raisonnement spatial10
MRCR v2 (8-needle)Connaissances générales, Contexte long, Raisonnement10
Graphwalks BFS >128kContexte long, Raisonnement, Raisonnement spatial8
MRCR v2Connaissances générales, Contexte long, Raisonnement8
OpenAI-MRCR: 2 needle 128kContexte long, Raisonnement8
Graphwalks parents >128kContexte long, Raisonnement, Raisonnement spatial7
Internal API instruction following (hard)Connaissances générales, Sortie structurée7
MRCRConnaissances générales, Contexte long, Raisonnement7
HealthBench HardSanté6
SWE-Lancer (IC-Diamond subset)Code, Raisonnement6
HealthBenchSanté5
BrowseComp Long Context 128kRaisonnement, Recherche4
HealthBench ProfessionalSanté4
OpenAI-MRCR: 2 needle 1MContexte long, Raisonnement4
SWE-LancerCode, Raisonnement4
GoogleIFEvalConnaissances générales, Sortie structurée, Suivi d'instructions65
Epoch: SimpleQA Verified52
MBPPConnaissances générales, Raisonnement33
MGSMMathématiques, Raisonnement30
WMT24++Langage23
ERQARaisonnement, Raisonnement spatial, Vision22
IMO-AnswerBenchMathématiques, Raisonnement18
FACTS GroundingAncrage factuel, Factualité, Raisonnement13
HiddenMathMathématiques, Raisonnement13
BIG-Bench Extra HardConnaissances générales, Langage, Raisonnement11
BoolQLangage, Raisonnement10
AndroidWorld_SRAgents, Connaissances générales, Multimodal, Raisonnement8
ECLeKTicLangage, Raisonnement8
Natural2CodeConnaissances générales, Raisonnement8
Natural QuestionsConnaissances générales, Raisonnement, Recherche7
RefCOCO-avgAncrage factuel, Raisonnement spatial, Vision7
CountBenchRaisonnement, Raisonnement spatial, Vision6
DeepSearchQAAgents, Raisonnement, Recherche6
FLEURSLangage, Reconnaissance vocale6
Allen Institute (AI2)ARC-CConnaissances générales, Raisonnement34
AI2DMultimodal, Raisonnement, Vision32
DROPMathématiques, Raisonnement29
HellaSwagRaisonnement27
IFBenchConnaissances générales, Suivi d'instructions27
WinograndeLangage, Raisonnement22
Social IQaCréativité, Psychologie, Raisonnement9
ARC-EConnaissances générales, Raisonnement8
Wild BenchCommunication, Connaissances générales, Raisonnement8
ZebraLogicRaisonnement7
OpenBookQAConnaissances générales, Raisonnement5
LiveBenchLiveBench: Agentic Coding76
LiveBench: Coding76
LiveBench: Data Analysis76
LiveBench: Global average76
LiveBench: IF76
LiveBench: Language76
LiveBench: Mathematics76
LiveBench: Reasoning76
LiveBenchConnaissances générales, Mathématiques, Raisonnement38
LiveBench 20241125Connaissances générales, Mathématiques, Raisonnement14
BenchableBenchable : Email Classification (Baseline)255
Benchable : Instruction Following (Baseline)253
Benchable : General Knowledge (Baseline)251
Benchable : Coding (Baseline)249
Benchable : Ethics (Baseline)249
Benchable : Reasoning (Baseline)240
Benchable : Hallucinations (Baseline)230
Benchable : Mathematics (Baseline)218
Benchable : Keyword Topic Relevance Classification9
Epoch AIEpoch: OTIS Mock AIME 2024-2025111
Epoch: FrontierMath-2025-02-28-Private69
Epoch: FrontierMath-2025-02-28-Public64
Epoch: FrontierMath-Tier-4-2025-07-01-Private55
Epoch: Chess Puzzles43
Epoch: FrontierMath-Tier-4-2025-07-01-Public36
Epoch: FrontierMath-Tier-4-v2-Private32
Epoch: FrontierMath-Tiers-1-3-v2-Private31
FrontierMathMathématiques, Raisonnement13
SierraTau2 TelecomAppels d'outils, Communication, Raisonnement34
Tau2 RetailAppels d'outils, Communication, Raisonnement25
TAU-bench RetailAppels d'outils, Communication, Raisonnement24
t2-benchAgents, Appels d'outils, Raisonnement23
TAU-bench AirlineAppels d'outils, Communication, Raisonnement22
Tau2 AirlineAppels d'outils, Communication, Raisonnement22
Tau-benchAgents, Appels d'outils, Connaissances générales, Raisonnement6
TAU3-BenchAgents, Appels d'outils, Raisonnement5
ByteDanceSuperGPQAChimie, Connaissances générales, Finance, Juridique, Mathématiques, Physique, Raisonnement, Santé, Économie34
SWE-bench MultilingualCode, Raisonnement32
OCRBench-V2 (zh)Image vers texte, Vision11
WideSearchAgents, Raisonnement, Recherche8
Multi-SWE-BenchCode, Raisonnement6
Beyond AIMEMathématiques, Raisonnement5
Qwen (Alibaba)CC-OCRMultimodal, Sortie structurée, Text-to-image, Vision18
WritingBenchCommunication, Créativité, Finance, Juridique, Rédaction15
NOVA-63Connaissances générales11
DeepPlanningAgents, Raisonnement9
CSimpleQAConnaissances générales, Langage7
Gorilla (UC Berkeley)BFCL-v3Agents, Appels d'outils, Connaissances générales, Finance, Raisonnement, Sortie structurée19
BFCL-V4Agents, Appels d'outils13
BFCLAppels d'outils, Connaissances générales, Raisonnement11
BFCL v2Appels d'outils, Connaissances générales, Raisonnement5
MAA (AMC)AIME 2025Mathématiques, Raisonnement108
AIME 2024Mathématiques, Raisonnement52
AIME 2026Mathématiques, Raisonnement17
AMC_2022_23Mathématiques, Raisonnement6
PrincetonCharXiv-RMultimodal, Raisonnement, Vision42
CharXiv-DMultimodal, Raisonnement, Sortie structurée, Vision16
COLLIELangage, Raisonnement, Rédaction10
SUNRGBD3D, Raisonnement spatial, Vision4
Scale AIHumanity's Last ExamMathématiques, Raisonnement, Vision86
SWE-Bench ProAgents, Code, Raisonnement34
Multi-ChallengeCommunication, Raisonnement28
MCP AtlasAgents, Appels d'outils, Code, Raisonnement27
Shanghai AI LabMMBench-V1.1Multimodal, Raisonnement, Vision18
MVBenchMultimodal, Raisonnement, Raisonnement spatial, Vidéo, Vision17
MMBenchMultimodal, Raisonnement, Vision9
MMT-BenchConnaissances générales, Multimodal, Raisonnement, Vision4
Zhipu AILVBenchContexte long, Multimodal, Vision23
LongBench v2Connaissances générales, Contexte long, Raisonnement, Sortie structurée15
ComplexFuncBenchAppels d'outils, Contexte long, Raisonnement, Sortie structurée7
AlignBenchConnaissances générales, Créativité, Jeu de rôle, Langage, Mathématiques, Raisonnement, Rédaction4
AiderAider-PolyglotCode, Connaissances générales22
Aider-Polyglot EditCode, Connaissances générales10
AiderCode, Raisonnement4
CohereIncludeConnaissances générales31
Global-MMLU-LiteConnaissances générales, Langage, Raisonnement14
Global-MMLUConnaissances générales, Langage, Raisonnement5
Communauté MTEBMTEB: MVEB Video-Only33
MTEB: MVEB Video-Text24
MTEB: MVEB16
Laude InstituteTerminal-Bench 2.0Agents, Appels d'outils, Code, Raisonnement48
Terminal-BenchAgents, Code, Raisonnement25
Terminal-Bench 2.1Agents, Appels d'outils, Code, Raisonnement6
LiveCodeBenchLiveCodeBench v6Connaissances générales, Raisonnement53
LiveCodeBench v5Connaissances générales, Raisonnement9
LiveCodeBench ProCode, Connaissances générales, Raisonnement4
LMArenaArena HardConnaissances générales, Créativité, Raisonnement, Rédaction26
Arena-Hard v2Connaissances générales, Créativité, Raisonnement, Rédaction16
MT-BenchCommunication, Connaissances générales, Créativité, Jeu de rôle, Raisonnement12
MathArenaHMMT 2025Mathématiques33
HMMT25Mathématiques25
HMMT Feb 26Mathématiques, Raisonnement11
MetaMulti-IFCommunication, Langage, Raisonnement, Sortie structurée, Suivi d'instructions20
TextVQAImage vers texte, Multimodal, Vision15
CoVoST2Audio, Langage, Reconnaissance vocale4
ARC PrizeARC-AGI v2Raisonnement, Raisonnement spatial, Vision16
ARC-AGIRaisonnement, Raisonnement spatial, Vision7
Artificial AnalysisGDPval-AAAgents, Connaissances générales, Finance, Juridique, Raisonnement33
AA-LCRContexte long, Raisonnement14
BAAIMLVU-MConnaissances générales8
RefSpatialBenchAncrage factuel, Raisonnement spatial, Vision6
HKUSTToolathlonAgents, Appels d'outils, Raisonnement23
C-EvalConnaissances générales, Raisonnement18
MicrosoftODinWVision16
AGIEvalConnaissances générales, Juridique, Mathématiques, Raisonnement10
Vals AIFinance Agent v2Agents, Finance, Raisonnement25
Finance AgentAgents, Finance, Raisonnement8
AppleHypersim3D, Raisonnement spatial, Vision4
CodeforcesCodeForcesMathématiques, Raisonnement16
DatabricksOfficeQA ProAgents, Connaissances générales, Raisonnement5
EQ-BenchCreative Writing v3Créativité, Rédaction12
EvalPlusHumanEval+Raisonnement10
EvolvingLMMs-LabVideoMMMUMultimodal, Raisonnement, Santé, Vision26
Harvey AILegal Agent BenchmarkAgents, Juridique, Raisonnement11
Kilo CodePinchBench : agentique (OpenClaw, 147 tâches)52
MeituanVITA-BenchAgents, Raisonnement10
MercorAPEX-AgentsAgents, Raisonnement5
Mistral AIMM-MT-BenchCommunication, Multimodal17
Moonshot AIOJBenchRaisonnement9
NexusflowNexusAppels d'outils, Connaissances générales4
NVIDIARULERContexte long, Raisonnement4
OpenDataLabOmniDocBench 1.5Multimodal, Raisonnement, Sortie structurée, Vision13
OPPO / WasedaMAXIFEConnaissances générales11
ProximalFrontierSWEAgents, Code13
Reka AIVibe-EvalConnaissances générales, Multimodal, Vision8
SkillsBenchSkillsBenchAgents, Code5
TIGER LabMMLU-ProConnaissances générales, Finance, Juridique, Langage, Mathématiques, Raisonnement, Santé125
WayveLingoQALangage, Multimodal, Raisonnement, Vision4
WMTWMT23Langage, Santé4
xAIRealWorldQARaisonnement spatial, Vision25
Recherche académiqueGPQABiologie, Chimie, Connaissances générales, Physique, Raisonnement213
Epoch: GPQA diamond132
MMLUConnaissances générales, Finance, Juridique, Langage, Mathématiques, Raisonnement, Santé98
Epoch: MATH level 584
LiveCodeBenchCode, Connaissances générales, Raisonnement72
MATHMathématiques, Raisonnement70
MMMUConnaissances générales, Multimodal, Raisonnement, Santé, Vision61
MMMU-ProConnaissances générales, Multimodal, Raisonnement, Vision60
MMLU-ReduxConnaissances générales, Langage, Mathématiques, Raisonnement48
MathVistaMathématiques, Multimodal, Vision38
MMLU-ProXConnaissances générales, Finance, Juridique, Langage, Mathématiques, Raisonnement, Santé32
MathVisionMathématiques, Multimodal, Vision31
DocVQAImage vers texte, Multimodal, Vision26
ChartQAMultimodal, Raisonnement, Vision24
MathVista-MiniMathématiques, Multimodal, Vision23
PolyMATHMathématiques, Multimodal, Raisonnement, Raisonnement spatial, Vision23
ScreenSpot ProAncrage factuel, Multimodal, Raisonnement spatial, Vision23
MMStarConnaissances générales, Multimodal, Raisonnement, Vision22
OCRBenchImage vers texte, Vision22
BIG-Bench HardLangage, Mathématiques, Raisonnement20
OSWorldAgents, Connaissances générales, Multimodal, Vision20
SciCodeBiologie, Chimie, Code, Mathématiques, Physique, Raisonnement18
TriviaQAConnaissances générales, Raisonnement18
TruthfulQAConnaissances générales, Finance, Juridique, Raisonnement, Santé18
OSWorld-VerifiedAgents, Connaissances générales, Multimodal, Vision17
Video-MMEMultimodal, Raisonnement, Vision17
Hallusion BenchRaisonnement, Vision16
ScreenSpotAncrage factuel, Multimodal, Raisonnement spatial, Vision16
BLINK3D, Multimodal, Raisonnement, Raisonnement spatial, Vision13
BrowseComp-zhRaisonnement, Recherche13
Global PIQAConnaissances générales, Physique, Raisonnement13
MultiPL-EConnaissances générales, Langage13
SimpleVQAConnaissances générales, Image vers texte, Multimodal, Vision13
BBHLangage, Mathématiques, Raisonnement12
CharadesSTALangage, Multimodal, Vidéo, Vision12
Claw-EvalAgents, Code12
InfoVQAtestMultimodal, Vision12
MedXpertQAMultimodal, Raisonnement, Santé, Vision12
OCRBench-V2 (en)Image vers texte, Vision12
DocVQAtestMultimodal, Vision11
MMMU (val)Connaissances générales, Multimodal, Raisonnement, Santé, Vision11
MuirBenchMultimodal, Raisonnement, Vision11
PIQAConnaissances générales, Physique, Raisonnement11
MLVUContexte long, Multimodal, Vidéo, Vision10
VideoMME w/o sub.Multimodal, Vidéo, Vision10
CyberGymAgents, Code, Sûreté9
EgoSchemaContexte long, Raisonnement, Vision9
InfoVQAMultimodal, Vision9
VideoMME w sub.Multimodal, Vidéo, Vision9
EmbSpatialBenchIA incarnée, Raisonnement spatial, Vision8
MCP-MarkAgents, Appels d'outils8
ZEROBenchMultimodal, Raisonnement, Vision8
BabyVisionMultimodal, Raisonnement, Vision7
Bird-SQL (dev)Raisonnement7
DynaMathMathématiques, Multimodal, Raisonnement, Vision7
OCRBench_V2Image vers texte, Vision7
V*Multimodal, Raisonnement, Vision7
CMMLUConnaissances générales, Langage, Raisonnement6
MATH (CoT)Mathématiques, Raisonnement6
MathArena ApexMathématiques, Raisonnement6
Seal-0Raisonnement, Recherche6
TheoremQAFinance, Mathématiques, Physique, Raisonnement6
MMLongBench-DocContexte long, Multimodal, Vision5
Multilingual MMLUConnaissances générales, Langage, Raisonnement5
SQuALITYContexte long, Langage, Résumé5
ZEROBench-SubMultimodal, Raisonnement, Vision5
Codegolf v2.2Code4
MMMU (validation)Connaissances générales, Multimodal, Raisonnement, Santé, Vision4
MMMUvalConnaissances générales, Multimodal, Raisonnement, Santé, Vision4
SlakeVQAImage vers texte, Multimodal, Raisonnement, Santé, Vision4
TIR-BenchAgents, Appels d'outils, Multimodal, Raisonnement4
VLMsAreBlindMultimodal, Raisonnement, Vision4
InconnuNL2RepoAgents, Code11