Modèles

Le catalogue des modèles d'IA — grands modèles de langage (LLM) et modèles d'embeddings — classés par éditeur. Chaque fiche détaille caractéristiques, benchmarks, tarifs et empreinte d'entraînement.

Modèles

417 modèles publiés, classés par éditeur.

Éditeur	Modèle	Type	Date de sortie
Qwen	Qwen3.7-Plus	LLM	2026-05-31
	Qwen3.7 Max	LLM	2026-05-19
	Qwen: Qwen3.6 Flash	LLM	2026-04-27
	Qwen: Qwen3.6 Max Preview	LLM	2026-04-27
	Qwen3.6-27B	LLM	2026-04-21
	Qwen 3.6 Max	LLM	2026-04-20
	Qwen3.6-35B-A3B	LLM	2026-04-16
	Qwen3.6 Plus	LLM	2026-03-31
	Qwen3.5-0.8B	LLM	2026-03-02
	Qwen3.5-2B	LLM	2026-03-02
	Qwen3.5-4B	LLM	2026-03-02
	Qwen3.5-9B	LLM	2026-03-02
	Qwen: Qwen3.5-Flash	LLM	2026-02-25
	Qwen3.5-122B-A10B	LLM	2026-02-24
	Qwen3.5-27B	LLM	2026-02-24
	Qwen3.5-35B-A3B	LLM	2026-02-24
	Qwen 3.5 Plus	LLM	2026-02-16
	Qwen3.5-397B-A17B	LLM	2026-02-16
	Qwen3 Max	LLM	2026-02-09
	qwen3-coder-next-2025-02-03	LLM	2026-02-04
	Qwen3-Max-Instruct	LLM	2025-09-24
	Qwen: Qwen3 Coder Plus	LLM	2025-09-23
	Qwen3 VL 235B A22B Instruct	LLM	2025-09-22
	Qwen3 VL 235B A22B Thinking	LLM	2025-09-22
	Qwen3 VL 30B A3B Instruct	LLM	2025-09-22
	Qwen3 VL 30B A3B Thinking	LLM	2025-09-22
	Qwen3 VL 32B Instruct	LLM	2025-09-22
	Qwen3 VL 32B Thinking	LLM	2025-09-22
	Qwen3 VL 4B Instruct	LLM	2025-09-22
	Qwen3 VL 4B Thinking	LLM	2025-09-22
	Qwen3 VL 8B Instruct	LLM	2025-09-22
	Qwen3 VL 8B Thinking	LLM	2025-09-22
	Qwen: Qwen3 Coder Flash	LLM	2025-09-17
	Qwen3-Next-80B-A3B-Instruct	LLM	2025-09-10
	Qwen3-Next-80B-A3B-Thinking	LLM	2025-09-10
	qwen-plus	LLM	2025-09-08
	Qwen: Qwen3 30B A3B Thinking 2507	LLM	2025-08-28
	Qwen: Qwen3 Coder 30B A3B Instruct	LLM	2025-07-31
	Qwen: Qwen3 30B A3B Instruct 2507	LLM	2025-07-29
	Qwen3 235B A22B	LLM	2025-07-25
	Qwen3-235B-A22B-Thinking-2507	LLM	2025-07-25
	Qwen3-235B-A22B-Instruct-2507	LLM	2025-07-22
	Qwen3 30B A3B	LLM	2025-04-29
	Qwen3 32B	LLM	2025-04-29
	QWQ-Plus	LLM	2025-04-08
	Qwen2.5-Omni-7B	LLM	2025-03-27
	QwQ-32B	LLM	2025-03-05
	Qwen2.5 VL 32B Instruct	LLM	2025-02-28
	Qwen: Qwen-Turbo	LLM	2025-02-01
	Qwen3-Coder 480B A35B Instruct	LLM	2025-01-31
	Qwen2.5 VL 72B Instruct	LLM	2025-01-26
	Qwen2.5 VL 7B Instruct	LLM	2025-01-26
	qwen2.5-max	LLM	2025-01-25
	QvQ-72B-Preview	LLM	2024-12-25
	QwQ-32B-Preview	LLM	2024-11-28
	Qwen2.5 14B Instruct	LLM	2024-09-19
	Qwen2.5 32B Instruct	LLM	2024-09-19
	Qwen2.5 72B Instruct	LLM	2024-09-19
	Qwen2.5 7B Instruct	LLM	2024-09-19
	Qwen2.5-72B	LLM	2024-09-19
	Qwen2.5-Coder 32B Instruct	LLM	2024-09-19
	Qwen2.5-Coder 7B Instruct	LLM	2024-09-19
	Qwen2.5-32B	LLM	2024-09-17
	Qwen2-VL-72B-Instruct	LLM	2024-08-29
Qwen2 72B Instruct	LLM	2024-07-23
Qwen2 7B Instruct	LLM	2024-07-23
Qwen2-72B	LLM	2024-06-07
Qwen1.5-32B	LLM	2024-04-03
Qwen1.5-72B	LLM	2024-02-04
qwen3-14b-04-28	LLM	—
qwen3-235b-a22b-04-28	LLM	—
qwen3-235b-a22b-07-25	LLM	—
qwen3-30b-a3b-04-28	LLM	—
qwen3-32b-04-28	LLM	—
qwen3-8b-04-28	LLM	—
qwen3-coder-480b-a35b-07-25	LLM	—
qwen3-next-80b-a3b-instruct-2509	LLM	—
qwen3-next-80b-a3b-thinking-2509	LLM	—
qwen3.6-plus-04-02	LLM	—
OpenAI	GPT-5.5 Instant	LLM	2026-05-05
	OpenAI: GPT Chat Latest	LLM	2026-05-05
	GPT-5.5	LLM	2026-04-23
	GPT-5.5 Pro	LLM	2026-04-23
	GPT-5.4 mini	LLM	2026-03-17
	GPT-5.4 nano	LLM	2026-03-17
	GPT-5.4	LLM	2026-03-05
	OpenAI: GPT-5.4 Pro	LLM	2026-03-05
	GPT-5.3 Chat	LLM	2026-03-04
	GPT-5.3 Codex	LLM	2026-02-05
	GPT-5.2 Codex	LLM	2026-01-14
	GPT-5.2	LLM	2025-12-11
	GPT-5.2 Pro	LLM	2025-12-11
	OpenAI: GPT-5.2 Chat	LLM	2025-12-10
	OpenAI: GPT-5.1-Codex-Max	LLM	2025-12-04
	GPT-5.1 Codex	LLM	2025-11-19
	GPT-5.1	LLM	2025-11-13
	OpenAI: GPT-5.1 Chat	LLM	2025-11-13
	GPT-5.1 Codex Mini	LLM	2025-11-12
	GPT-5.1 Instant	LLM	2025-11-12
	OpenAI: gpt-oss-safeguard-20b	LLM	2025-10-29
	OpenAI: GPT-5 Pro	LLM	2025-10-06
	GPT-5 Codex	LLM	2025-09-15
	GPT-5	LLM	2025-08-07
	GPT-5 mini	LLM	2025-08-07
	GPT-5 nano	LLM	2025-08-07
	gpt-5-chat-2025-08-07	LLM	2025-08-07
	GPT OSS 120B	LLM	2025-08-05
	GPT OSS 20B	LLM	2025-08-05
	o3	LLM	2025-04-16
	o4-mini	LLM	2025-04-16
	GPT-4.1	LLM	2025-04-14
	GPT-4.1 mini	LLM	2025-04-14
	GPT-4.1 nano	LLM	2025-04-14
	GPT-4o	LLM	2025-03-27
	gpt-4o-mini-search-preview-2025-03-11	LLM	2025-03-12
	gpt-4o-search-preview-2025-03-11	LLM	2025-03-12
	OpenAI: GPT-4.5 (Preview)	LLM	2025-02-27
	o3-mini	LLM	2025-01-30
	o1	LLM	2024-12-17
	o1-pro	LLM	2024-12-17
	o1-mini	LLM	2024-09-12
	o1-preview	LLM	2024-09-12
	GPT-4o mini	LLM	2024-07-18
	ChatGPT-4o Latest	LLM	2024-05-13
	GPT-4 Turbo	LLM	2024-04-09
	OpenAI: GPT-4 Turbo Preview	LLM	2024-01-25
	OpenAI: GPT-3.5 Turbo Instruct	LLM	2023-09-28
	GPT-4	LLM	2023-08-28
	OpenAI: GPT-3.5 Turbo 16k	LLM	2023-08-28
	GPT-3.5 Turbo	LLM	2023-03-21
	gpt-3.5-turbo-0613	LLM	—
	GPT-5.3 Instant	LLM	—
Mistral AI	Mistral Medium 3.5	LLM	2026-04-29
	Mistral Small 4	LLM	2026-03-16
	Mistral: Devstral 2 2512	LLM	2025-12-09
	Min istral 3 (3B Reasoning 2512)	LLM	2025-12-04
	Ministral 3 (14B Base 2512)	LLM	2025-12-04
	MiniStral 3 (14B Instruct 2512)	LLM	2025-12-04
	Ministral 3 (14B Reasoning 2512)	LLM	2025-12-04
	Ministral 3 (3B Base 2512)	LLM	2025-12-04
	Ministral 3 (3B Instruct 2512)	LLM	2025-12-04
	Ministral 3 (8B Base 2512)	LLM	2025-12-04
	Ministral 3 (8B Instruct 2512)	LLM	2025-12-04
	Ministral 3 (8B Reasoning 2512)	LLM	2025-12-04
	Mistral Large 3 (675B Base)	LLM	2025-12-04
	Mistral Large 3 (675B Instruct 2512 Eagle)	LLM	2025-12-04
	Mistral Large 3 (675B Instruct 2512 NVFP4)	LLM	2025-12-04
	Mistral Large 3 (675B Instruct 2512)	LLM	2025-12-04
	Mistral: Voxtral Small 24B 2507	LLM	2025-10-30
	Mistral Large 3	LLM	2025-09-01
	Mistral: Mistral Medium 3.1	LLM	2025-08-13
	Mistral: Codestral 2508	LLM	2025-08-01
	Devstral Small 1.1	LLM	2025-07-11
	Devstral Medium	LLM	2025-07-10
	Mistral Small 3.2 24B Instruct	LLM	2025-06-20
	Magistral Medium	LLM	2025-06-10
	Magistral Small 1.1	LLM	2025-06-10
	Magistral Small 2506	LLM	2025-06-10
	Mistral: Mistral Medium 3	LLM	2025-05-07
	Mistral Small 3.1	LLM	2025-03-17
	Mistral Small 3.1 24B Base	LLM	2025-03-17
	Mistral Small 3.1 24B Instruct	LLM	2025-03-17
	Mistral Small 3 24B Base	LLM	2025-01-30
	Mistral Small 3 24B Instruct	LLM	2025-01-30
	Mistral Small 3	LLM	2025-01-25
	Mistral Large 2407	LLM	2024-11-19
	Pixtral Large	LLM	2024-11-18
	Mistral: Ministral 3B	LLM	2024-10-17
	Mistral: Ministral 8B	LLM	2024-10-17
	Ministral 8B Instruct	LLM	2024-10-16
	Pixtral-12B	LLM	2024-09-17
	Mistral Large 2	LLM	2024-07-24
	Mistral NeMo	LLM	2024-07-18
	Mistral NeMo Instruct	LLM	2024-07-18
	Codestral-22B	LLM	2024-05-29
	Mistral 7B	LLM	2024-05-27
	Mistral: Mixtral 8x22B Instruct	LLM	2024-04-17
	Mixtral 8x22B	LLM	2024-04-17
	Mistral Large	LLM	2024-02-26
	Mixtral 8x7B	LLM	2023-12-11
	Devstral 2	LLM	—
Google	DiffusionGemma 26B-A4B	LLM	2026-06-10
	Gemma 4 12B	LLM	2026-05-23
	Gemini 3.5 Flash	LLM	2026-05-19
	Gemma 4 26B-A4B	LLM	2026-04-02
	Gemma 4 31B	LLM	2026-04-02
	Gemma 4 E2B	LLM	2026-04-02
	Gemma 4 E4B	LLM	2026-04-02
	Gemini 3.1 Flash-Lite	LLM	2026-03-03
	Google: Gemini 3.1 Pro Preview Custom Tools	LLM	2026-02-25
	Gemini 3.1 Pro Preview	LLM	2026-02-19
	Gemini 3 Flash	LLM	2025-12-17
	Gemini 3 Pro	LLM	2025-11-18
	Gemini 2.5 Flash Lite Preview	LLM	2025-09-25
	Gemma 3n E2B	LLM	2025-06-26
	Gemma 3n E2B Instructed	LLM	2025-06-26
	Gemma 3n E4B	LLM	2025-06-26
	Gemma 3n E4B Instructed	LLM	2025-06-26
	Gemini 2.5 Flash-Lite	LLM	2025-06-17
	Gemini 2.5 Pro Preview 06-05	LLM	2025-06-05
	Gemini 2.5 Flash	LLM	2025-05-20
	Gemini 2.5 Pro	LLM	2025-05-20
	Gemini Diffusion	LLM	2025-05-20
	Gemma 3n E2B Instructed LiteRT (Preview)	LLM	2025-05-20
	Gemma 3n E4B Instructed LiteRT Preview	LLM	2025-05-20
	MedGemma 4B IT	LLM	2025-05-20
	Gemma 3 12B	LLM	2025-03-12
	Gemma 3 1B	LLM	2025-03-12
	Gemma 3 27B	LLM	2025-03-12
	Gemma 3 4B	LLM	2025-03-12
	Gemini 2.0 Flash-Lite	LLM	2025-02-05
	Gemini 2.0 Flash	LLM	2025-01-21
	Gemini 2.0 Flash Experimental	LLM	2025-01-21
	Gemma 2 27B	LLM	2024-06-27
	Gemma 2 9B	LLM	2024-06-27
	Gemini 1.5 Flash	LLM	2024-05-01
	Gemini 1.5 Pro	LLM	2024-05-01
	Gemini 1.5 Flash 8B	LLM	2024-03-15
	Gemini 1.0 Pro	LLM	2024-02-15
	gemini-2.5-pro-preview-03-25	LLM	—
	gemini-3-pro-image	LLM	—
	gemini-3-pro-image-preview	LLM	—
	gemini-3-pro-preview-11-2025-high	LLM	—
	gemini-3.1-flash-image	LLM	—
	gemini-3.1-flash-image-preview	LLM	—
DeepSeek	DeepSeek V4 Flash	LLM	2026-04-24
	DeepSeek V4 Pro	LLM	2026-04-24
	DeepSeek-V4-Flash-Max	LLM	2026-04-23
	DeepSeek-V4-Pro-Max	LLM	2026-04-23
	DeepSeek-V3.2	LLM	2025-12-01
	DeepSeek-V3.2 (Thinking)	LLM	2025-12-01
	DeepSeek-V3.2-Speciale	LLM	2025-12-01
	DeepSeek-V3.2-Exp	LLM	2025-09-29
	DeepSeek V3.1 Terminus	LLM	2025-09-22
	DeepSeek-R1	LLM	2025-05-28
	DeepSeek-R1-0528	LLM	2025-05-28
	DeepSeek-V3 0324	LLM	2025-03-25
	DeepSeek-V3	LLM	2025-03-24
	DeepSeek R1 Distill Llama 70B	LLM	2025-01-20
	DeepSeek R1 Distill Llama 8B	LLM	2025-01-20
	DeepSeek R1 Distill Qwen 1.5B	LLM	2025-01-20
	DeepSeek R1 Distill Qwen 14B	LLM	2025-01-20
	DeepSeek R1 Distill Qwen 32B	LLM	2025-01-20
	DeepSeek R1 Distill Qwen 7B	LLM	2025-01-20
	DeepSeek R1 Zero	LLM	2025-01-20
	DeepSeek-V3.1	LLM	2025-01-10
	DeepSeek VL2	LLM	2024-12-13
	DeepSeek VL2 Small	LLM	2024-12-13
	DeepSeek VL2 Tiny	LLM	2024-12-13
	DeepSeek-V2.5	LLM	2024-05-08
	DeepSeek LLM 67B	LLM	2023-11-29
	deepseek-chat-v3	LLM	—
	deepseek-chat-v3-0324	LLM	—
	deepseek-chat-v3.1	LLM	—
Anthropic	Claude Fable 5	LLM	2026-06-09
	Claude Opus 4.8	LLM	2026-05-28
	Claude Opus 4.7	LLM	2026-05-12
	Claude Opus 4.6	LLM	2026-04-07
	Claude Sonnet 4.6	LLM	2026-02-17
	Claude Opus 4.5	LLM	2025-11-24
	Claude Haiku 4.5	LLM	2025-10-15
	Claude Sonnet 4.5	LLM	2025-09-29
	Claude Opus 4.1	LLM	2025-08-05
	Claude Opus 4	LLM	2025-05-22
	Claude Sonnet 4	LLM	2025-05-22
	Claude 3.7 Sonnet	LLM	2025-02-24
	Claude 3.5 Haiku	LLM	2024-11-04
	Claude 3.5 Sonnet	LLM	2024-10-22
	Claude 3 Haiku	LLM	2024-03-13
	Claude 3 Opus	LLM	2024-02-29
	Claude 3 Sonnet	LLM	2024-02-29
	Claude 2.1	LLM	2023-11-21
	Claude 2	LLM	2023-07-11
	Claude Mythos Preview	LLM	—
xAI	xAI: Grok Build 0.1	LLM	2026-05-20
	Grok 4.3	LLM	2026-05-06
	Grok 4.3 Beta	LLM	2026-04-17
	Grok 4.20	LLM	2026-03-31
	xAI: Grok 4.20 Beta	LLM	2026-03-12
	Grok-4.20 Beta	LLM	2026-03-09
	Grok 4.1 Fast	LLM	2025-11-19
	Grok-4.1	LLM	2025-11-17
	Grok 4 Fast	LLM	2025-08-28
	Grok Code Fast 1	LLM	2025-08-28
	Grok-4 Heavy	LLM	2025-07-10
	Grok-4	LLM	2025-07-09
	Grok-3	LLM	2025-02-17
	Grok-3 Mini	LLM	2025-02-17
	Grok-2	LLM	2024-08-13
	Grok-2 mini	LLM	2024-08-13
	Grok-1.5V	LLM	2024-04-12
	Grok-1.5	LLM	2024-03-28
	Grok Code Fast	LLM	—
Meta	Muse Spark	LLM	2026-04-08
	Llama 4 Maverick	LLM	2025-04-05
	Llama 4 Scout	LLM	2025-04-05
	Llama 3.3 70B	LLM	2024-12-06
	Llama 3.3 70B Instruct	LLM	2024-12-06
	Llama 3.2 11B Instruct	LLM	2024-09-25
	Llama 3.2 3B Instruct	LLM	2024-09-25
	Llama 3.2 90B Instruct	LLM	2024-09-25
	Llama 3.2 90B	LLM	2024-09-24
	Llama 3.1 405B Instruct	LLM	2024-07-23
	Llama 3.1 70B Instruct	LLM	2024-07-23
	Llama 3.1 8B Instruct	LLM	2024-07-23
	Llama 3.1-405B	LLM	2024-07-23
	Llama 3.1-70B	LLM	2024-07-23
	Llama 3.1-8B	LLM	2024-07-23
	Llama 3-70B	LLM	2024-04-18
	Llama 3-8B	LLM	2024-04-18
	Llama 2-70B	LLM	2023-07-18
Microsoft	MAI-Code-1-Flash	LLM	2026-06-02
	MAI-Thinking-1	LLM	2026-06-02
	Phi 4 Mini	LLM	2025-04-30
	Phi 4 Reasoning	LLM	2025-04-30
	Phi 4 Reasoning Plus	LLM	2025-04-30
	Phi-4-multimodal-instruct	LLM	2025-02-01
	Phi 4	LLM	2024-12-12
	Phi-3.5-mini-instruct	LLM	2024-08-23
	Phi-3.5-MoE-instruct	LLM	2024-08-23
	Phi-3.5-vision-instruct	LLM	2024-08-23
	phi-3-medium 14B	LLM	2024-04-23
	WizardLM-2 8x22B	LLM	2024-04-16
	phi-4-mini-instruct	LLM	—
Amazon	Nova 2 Lite	LLM	2025-12-02
	Nova 2 Omni	LLM	2025-12-02
	Nova 2 Pro	LLM	2025-12-02
	Nova 2 Sonic	LLM	2025-12-02
	Nova Lite	LLM	2024-11-20
	Nova Micro	LLM	2024-11-20
	Nova Pro	LLM	2024-11-20
	nova-2-lite-v1	LLM	—
	nova-micro-v1	LLM	—
	nova-premier-v1	LLM	—
	nova-pro-v1	LLM	—
NVIDIA	Nemotron 3 Ultra (550B A55B)	LLM	2026-06-04
	Nemotron 3 Super (120B A12B)	LLM	2026-03-11
	Nemotron 3 Nano (30B A3B)	LLM	2025-12-15
	nemotron-nano-12b-v2-vl	LLM	2025-10-28
	NVIDIA: Llama 3.3 Nemotron Super 49B V1.5	LLM	2025-10-10
	Nemotron Nano 9B v2	LLM	2025-08-18
	Llama 3.1 Nemotron Ultra 253B v1	LLM	2025-04-07
	Llama 3.1 Nemotron Nano 8B V1	LLM	2025-03-18
	Llama-3.3 Nemotron Super 49B v1	LLM	2025-03-18
	Llama 3.1 Nemotron 70B Instruct	LLM	2024-10-01
Zhipu AI	GLM-5.2	LLM	2026-06-16
	GLM-5.1	LLM	2026-04-07
	GLM-5V-Turbo	LLM	2026-04-02
	GLM-5	LLM	2026-02-11
	GLM-4.7-Flash	LLM	2026-01-19
	GLM-4.7	LLM	2025-12-22
	GLM-4.6	LLM	2025-09-30
	GLM-4.5	LLM	2025-07-28
	GLM-4.5-Air	LLM	2025-07-28
Moonshot AI	Kimi K2.7 Code	LLM	2026-06-12
	Kimi K2.6	LLM	2026-04-20
	Kimi K2.5	LLM	2026-01-27
	Kimi K2 0905	LLM	2025-09-05
	Kimi K2-Instruct-0905	LLM	2025-09-05
	Kimi K2 Base	LLM	2025-07-11
	Kimi K2 Instruct	LLM	2025-07-11
	Kimi-k1.5	LLM	2025-01-20
MiniMax	MiniMax M3	LLM	2026-06-01
	MiniMax M2.7	LLM	2026-03-18
	MiniMax M2.5	LLM	2026-02-12
	MiniMax M2.1	LLM	2025-12-23
	MiniMax M2	LLM	2025-10-27
	MiniMax M1	LLM	2025-06-17
Xiaomi	MiMo-V2.5-Pro	LLM	2026-04-27
	MiMo-V2.5	LLM	2026-04-22
	MiMo-V2-Omni	LLM	2026-03-18
	MiMo-V2-Pro	LLM	2026-03-18
	MiMo-V2-Flash	LLM	2025-12-16
bytedance	Seed 2.1 Pro	LLM	2026-06-24
	Seed 2.1 Turbo	LLM	2026-06-24
	Seed 2.0 Lite	LLM	2026-02-14
	Seed 2.0 Pro	LLM	2026-02-14
Meituan	LongCat-Flash-Lite	LLM	2026-02-05
	LongCat-Flash-Thinking-2601	LLM	2026-01-14
	LongCat-Flash-Thinking	LLM	2025-09-22
	LongCat-Flash-Chat	LLM	2025-08-29
Baidu	ERNIE 5.0	LLM	2026-01-22
	Baidu: ERNIE 4.5 VL 424B A47B	LLM	2025-06-30
	ERNIE 4.5	LLM	2025-06-25
cohere	North Mini Code 1.0	LLM	2026-06-09
	Command A+	LLM	2026-05-20
	Cohere: Command R (08-2024)	LLM	2024-08-30
IBM	IBM Granite 4.0 Tiny Preview	LLM	2025-05-02
	Granite 3.3 8B Base	LLM	2025-04-16
	Granite 3.3 8B Instruct	LLM	2025-04-16
StepFun	StepFun: Step 3.7 Flash	LLM	2026-05-28
	Step-3.5-Flash	LLM	2026-02-02
	Step3-VL-10B	LLM	2026-01-15
AI21	Jamba 1.5 Large	LLM	2024-08-22
AI21	Jamba 1.5 Mini	LLM	2024-08-22
aion-labs	AionLabs: Aion-2.0	LLM	2026-02-23
aion-labs	AionLabs: Aion-1.0	LLM	2025-02-04
arcee-ai	Arcee AI: Trinity Large Thinking	LLM	2026-04-01
arcee-ai	Arcee AI: Coder Large	LLM	2025-05-05
inclusionai	inclusionAI: Ring-2.6-1T	LLM	2026-05-08
inclusionai	inclusionAI: Ling-2.6-1T	LLM	2026-04-23
sarvamai	Sarvam-105B	LLM	2026-03-06
sarvamai	Sarvam-30B	LLM	2026-03-06
ByteDance-Seed	Seed 1.6	LLM	2025-12-23
deepcogito	Deep Cogito: Cogito v2.1 671B	LLM	2025-11-13
Google DeepMind	AI co-mathematician	LLM	2026-05-08
Google,Google DeepMind	Gemini 2.5 Deep Think	LLM	2025-08-01
Inception	Mercury 2	LLM	2026-02-24
LG AI Research	K-EXAONE-236B-A23B	LLM	2025-12-31
Nex AGI	Nex AGI: Nex-N2-Pro	LLM	2026-06-08
Nous Research	Hermes 3 70B	LLM	2024-08-15
OpenBMB	MiniCPM-SALA	LLM	2026-02-11
perceptron	Perceptron: Perceptron Mk1	LLM	2026-05-12
rekaai	Reka Flash 3	LLM	2025-03-12
sakana	Sakana: Fugu Ultra	LLM	2026-06-24
Writer	Writer: Palmyra X5	LLM	2025-04-28
Z.ai	Z.ai: GLM 5 Turbo	LLM	2026-03-15

Benchmarks

257 benchmarks publiés, classés par éditeur.

Éditeur	Benchmark	Compétences évaluées	Modèles évalués
OpenAI	SWE-Bench Verified	Code, Développement frontend, Raisonnement	100
	HumanEval	Code, Raisonnement	65
	BrowseComp	Agents, Raisonnement, Recherche	51
	MMMLU	Connaissances générales, Langage, Mathématiques, Raisonnement	49
	GSM8k	Mathématiques, Raisonnement	47
	SimpleQA	Connaissances générales, Factualité, Raisonnement	45
	Epoch: SWE-Bench verified	—	32
	MATH-500	Mathématiques, Raisonnement	31
	Graphwalks BFS <128k	Raisonnement, Raisonnement spatial	10
	Graphwalks parents <128k	Raisonnement, Raisonnement spatial	10
	MRCR v2 (8-needle)	Connaissances générales, Contexte long, Raisonnement	10
	Graphwalks BFS >128k	Contexte long, Raisonnement, Raisonnement spatial	8
	MRCR v2	Connaissances générales, Contexte long, Raisonnement	8
	OpenAI-MRCR: 2 needle 128k	Contexte long, Raisonnement	8
	Graphwalks parents >128k	Contexte long, Raisonnement, Raisonnement spatial	7
	Internal API instruction following (hard)	Connaissances générales, Sortie structurée	7
	MRCR	Connaissances générales, Contexte long, Raisonnement	7
	HealthBench Hard	Santé	6
	SWE-Lancer (IC-Diamond subset)	Code, Raisonnement	6
	HealthBench	Santé	5
	BrowseComp Long Context 128k	Raisonnement, Recherche	4
	HealthBench Professional	Santé	4
	OpenAI-MRCR: 2 needle 1M	Contexte long, Raisonnement	4
	SWE-Lancer	Code, Raisonnement	4
Google	IFEval	Connaissances générales, Sortie structurée, Suivi d'instructions	65
	Epoch: SimpleQA Verified	—	52
	MBPP	Connaissances générales, Raisonnement	33
	MGSM	Mathématiques, Raisonnement	30
	WMT24++	Langage	23
	ERQA	Raisonnement, Raisonnement spatial, Vision	22
	IMO-AnswerBench	Mathématiques, Raisonnement	18
	FACTS Grounding	Ancrage factuel, Factualité, Raisonnement	13
	HiddenMath	Mathématiques, Raisonnement	13
	BIG-Bench Extra Hard	Connaissances générales, Langage, Raisonnement	11
	BoolQ	Langage, Raisonnement	10
	AndroidWorld_SR	Agents, Connaissances générales, Multimodal, Raisonnement	8
	ECLeKTic	Langage, Raisonnement	8
	Natural2Code	Connaissances générales, Raisonnement	8
	Natural Questions	Connaissances générales, Raisonnement, Recherche	7
	RefCOCO-avg	Ancrage factuel, Raisonnement spatial, Vision	7
	CountBench	Raisonnement, Raisonnement spatial, Vision	6
	DeepSearchQA	Agents, Raisonnement, Recherche	6
	FLEURS	Langage, Reconnaissance vocale	6
Allen Institute (AI2)	ARC-C	Connaissances générales, Raisonnement	34
	AI2D	Multimodal, Raisonnement, Vision	32
	DROP	Mathématiques, Raisonnement	29
	HellaSwag	Raisonnement	27
	IFBench	Connaissances générales, Suivi d'instructions	27
	Winogrande	Langage, Raisonnement	22
	Social IQa	Créativité, Psychologie, Raisonnement	9
	ARC-E	Connaissances générales, Raisonnement	8
	Wild Bench	Communication, Connaissances générales, Raisonnement	8
	ZebraLogic	Raisonnement	7
	OpenBookQA	Connaissances générales, Raisonnement	5
LiveBench	LiveBench: Agentic Coding	—	76
	LiveBench: Coding	—	76
	LiveBench: Data Analysis	—	76
	LiveBench: Global average	—	76
	LiveBench: IF	—	76
	LiveBench: Language	—	76
	LiveBench: Mathematics	—	76
	LiveBench: Reasoning	—	76
	LiveBench	Connaissances générales, Mathématiques, Raisonnement	38
	LiveBench 20241125	Connaissances générales, Mathématiques, Raisonnement	14
Benchable	Benchable : Email Classification (Baseline)	—	255
	Benchable : Instruction Following (Baseline)	—	253
	Benchable : General Knowledge (Baseline)	—	251
	Benchable : Coding (Baseline)	—	249
	Benchable : Ethics (Baseline)	—	249
	Benchable : Reasoning (Baseline)	—	240
	Benchable : Hallucinations (Baseline)	—	230
	Benchable : Mathematics (Baseline)	—	218
	Benchable : Keyword Topic Relevance Classification	—	9
Epoch AI	Epoch: OTIS Mock AIME 2024-2025	—	111
	Epoch: FrontierMath-2025-02-28-Private	—	69
	Epoch: FrontierMath-2025-02-28-Public	—	64
	Epoch: FrontierMath-Tier-4-2025-07-01-Private	—	55
	Epoch: Chess Puzzles	—	43
	Epoch: FrontierMath-Tier-4-2025-07-01-Public	—	36
	Epoch: FrontierMath-Tier-4-v2-Private	—	32
	Epoch: FrontierMath-Tiers-1-3-v2-Private	—	31
	FrontierMath	Mathématiques, Raisonnement	13
Sierra	Tau2 Telecom	Appels d'outils, Communication, Raisonnement	34
	Tau2 Retail	Appels d'outils, Communication, Raisonnement	25
	TAU-bench Retail	Appels d'outils, Communication, Raisonnement	24
	t2-bench	Agents, Appels d'outils, Raisonnement	23
	TAU-bench Airline	Appels d'outils, Communication, Raisonnement	22
	Tau2 Airline	Appels d'outils, Communication, Raisonnement	22
	Tau-bench	Agents, Appels d'outils, Connaissances générales, Raisonnement	6
	TAU3-Bench	Agents, Appels d'outils, Raisonnement	5
ByteDance	SuperGPQA	Chimie, Connaissances générales, Finance, Juridique, Mathématiques, Physique, Raisonnement, Santé, Économie	34
	SWE-bench Multilingual	Code, Raisonnement	32
	OCRBench-V2 (zh)	Image vers texte, Vision	11
	WideSearch	Agents, Raisonnement, Recherche	8
	Multi-SWE-Bench	Code, Raisonnement	6
	Beyond AIME	Mathématiques, Raisonnement	5
Qwen (Alibaba)	CC-OCR	Multimodal, Sortie structurée, Text-to-image, Vision	18
	WritingBench	Communication, Créativité, Finance, Juridique, Rédaction	15
	NOVA-63	Connaissances générales	11
	DeepPlanning	Agents, Raisonnement	9
	CSimpleQA	Connaissances générales, Langage	7
Gorilla (UC Berkeley)	BFCL-v3	Agents, Appels d'outils, Connaissances générales, Finance, Raisonnement, Sortie structurée	19
	BFCL-V4	Agents, Appels d'outils	13
	BFCL	Appels d'outils, Connaissances générales, Raisonnement	11
	BFCL v2	Appels d'outils, Connaissances générales, Raisonnement	5
MAA (AMC)	AIME 2025	Mathématiques, Raisonnement	108
	AIME 2024	Mathématiques, Raisonnement	52
	AIME 2026	Mathématiques, Raisonnement	17
	AMC_2022_23	Mathématiques, Raisonnement	6
Princeton	CharXiv-R	Multimodal, Raisonnement, Vision	42
	CharXiv-D	Multimodal, Raisonnement, Sortie structurée, Vision	16
	COLLIE	Langage, Raisonnement, Rédaction	10
	SUNRGBD	3D, Raisonnement spatial, Vision	4
Scale AI	Humanity's Last Exam	Mathématiques, Raisonnement, Vision	86
	SWE-Bench Pro	Agents, Code, Raisonnement	34
	Multi-Challenge	Communication, Raisonnement	28
	MCP Atlas	Agents, Appels d'outils, Code, Raisonnement	27
Shanghai AI Lab	MMBench-V1.1	Multimodal, Raisonnement, Vision	18
	MVBench	Multimodal, Raisonnement, Raisonnement spatial, Vidéo, Vision	17
	MMBench	Multimodal, Raisonnement, Vision	9
	MMT-Bench	Connaissances générales, Multimodal, Raisonnement, Vision	4
Zhipu AI	LVBench	Contexte long, Multimodal, Vision	23
	LongBench v2	Connaissances générales, Contexte long, Raisonnement, Sortie structurée	15
	ComplexFuncBench	Appels d'outils, Contexte long, Raisonnement, Sortie structurée	7
	AlignBench	Connaissances générales, Créativité, Jeu de rôle, Langage, Mathématiques, Raisonnement, Rédaction	4
Aider	Aider-Polyglot	Code, Connaissances générales	22
	Aider-Polyglot Edit	Code, Connaissances générales	10
	Aider	Code, Raisonnement	4
Cohere	Include	Connaissances générales	31
	Global-MMLU-Lite	Connaissances générales, Langage, Raisonnement	14
	Global-MMLU	Connaissances générales, Langage, Raisonnement	5
Communauté MTEB	MTEB: MVEB Video-Only	—	33
	MTEB: MVEB Video-Text	—	24
	MTEB: MVEB	—	16
Laude Institute	Terminal-Bench 2.0	Agents, Appels d'outils, Code, Raisonnement	48
	Terminal-Bench	Agents, Code, Raisonnement	25
	Terminal-Bench 2.1	Agents, Appels d'outils, Code, Raisonnement	6
LiveCodeBench	LiveCodeBench v6	Connaissances générales, Raisonnement	53
	LiveCodeBench v5	Connaissances générales, Raisonnement	9
	LiveCodeBench Pro	Code, Connaissances générales, Raisonnement	4
LMArena	Arena Hard	Connaissances générales, Créativité, Raisonnement, Rédaction	26
	Arena-Hard v2	Connaissances générales, Créativité, Raisonnement, Rédaction	16
	MT-Bench	Communication, Connaissances générales, Créativité, Jeu de rôle, Raisonnement	12
MathArena	HMMT 2025	Mathématiques	33
	HMMT25	Mathématiques	25
	HMMT Feb 26	Mathématiques, Raisonnement	11
Meta	Multi-IF	Communication, Langage, Raisonnement, Sortie structurée, Suivi d'instructions	20
	TextVQA	Image vers texte, Multimodal, Vision	15
	CoVoST2	Audio, Langage, Reconnaissance vocale	4
ARC Prize	ARC-AGI v2	Raisonnement, Raisonnement spatial, Vision	16
ARC Prize	ARC-AGI	Raisonnement, Raisonnement spatial, Vision	7
Artificial Analysis	GDPval-AA	Agents, Connaissances générales, Finance, Juridique, Raisonnement	33
Artificial Analysis	AA-LCR	Contexte long, Raisonnement	14
BAAI	MLVU-M	Connaissances générales	8
BAAI	RefSpatialBench	Ancrage factuel, Raisonnement spatial, Vision	6
HKUST	Toolathlon	Agents, Appels d'outils, Raisonnement	23
HKUST	C-Eval	Connaissances générales, Raisonnement	18
Microsoft	ODinW	Vision	16
Microsoft	AGIEval	Connaissances générales, Juridique, Mathématiques, Raisonnement	10
Vals AI	Finance Agent v2	Agents, Finance, Raisonnement	25
Vals AI	Finance Agent	Agents, Finance, Raisonnement	8
Apple	Hypersim	3D, Raisonnement spatial, Vision	4
Codeforces	CodeForces	Mathématiques, Raisonnement	16
Databricks	OfficeQA Pro	Agents, Connaissances générales, Raisonnement	5
EQ-Bench	Creative Writing v3	Créativité, Rédaction	12
EvalPlus	HumanEval+	Raisonnement	10
EvolvingLMMs-Lab	VideoMMMU	Multimodal, Raisonnement, Santé, Vision	26
Harvey AI	Legal Agent Benchmark	Agents, Juridique, Raisonnement	11
Kilo Code	PinchBench : agentique (OpenClaw, 147 tâches)	—	52
Meituan	VITA-Bench	Agents, Raisonnement	10
Mercor	APEX-Agents	Agents, Raisonnement	5
Mistral AI	MM-MT-Bench	Communication, Multimodal	17
Moonshot AI	OJBench	Raisonnement	9
Nexusflow	Nexus	Appels d'outils, Connaissances générales	4
NVIDIA	RULER	Contexte long, Raisonnement	4
OpenDataLab	OmniDocBench 1.5	Multimodal, Raisonnement, Sortie structurée, Vision	13
OPPO / Waseda	MAXIFE	Connaissances générales	11
Proximal	FrontierSWE	Agents, Code	13
Reka AI	Vibe-Eval	Connaissances générales, Multimodal, Vision	8
SkillsBench	SkillsBench	Agents, Code	5
TIGER Lab	MMLU-Pro	Connaissances générales, Finance, Juridique, Langage, Mathématiques, Raisonnement, Santé	125
Wayve	LingoQA	Langage, Multimodal, Raisonnement, Vision	4
WMT	WMT23	Langage, Santé	4
xAI	RealWorldQA	Raisonnement spatial, Vision	25
Recherche académique	GPQA	Biologie, Chimie, Connaissances générales, Physique, Raisonnement	213
	Epoch: GPQA diamond	—	132
	MMLU	Connaissances générales, Finance, Juridique, Langage, Mathématiques, Raisonnement, Santé	98
	Epoch: MATH level 5	—	84
	LiveCodeBench	Code, Connaissances générales, Raisonnement	72
	MATH	Mathématiques, Raisonnement	70
	MMMU	Connaissances générales, Multimodal, Raisonnement, Santé, Vision	61
	MMMU-Pro	Connaissances générales, Multimodal, Raisonnement, Vision	60
	MMLU-Redux	Connaissances générales, Langage, Mathématiques, Raisonnement	48
	MathVista	Mathématiques, Multimodal, Vision	38
	MMLU-ProX	Connaissances générales, Finance, Juridique, Langage, Mathématiques, Raisonnement, Santé	32
	MathVision	Mathématiques, Multimodal, Vision	31
	DocVQA	Image vers texte, Multimodal, Vision	26
	ChartQA	Multimodal, Raisonnement, Vision	24
	MathVista-Mini	Mathématiques, Multimodal, Vision	23
	PolyMATH	Mathématiques, Multimodal, Raisonnement, Raisonnement spatial, Vision	23
	ScreenSpot Pro	Ancrage factuel, Multimodal, Raisonnement spatial, Vision	23
	MMStar	Connaissances générales, Multimodal, Raisonnement, Vision	22
	OCRBench	Image vers texte, Vision	22
	BIG-Bench Hard	Langage, Mathématiques, Raisonnement	20
	OSWorld	Agents, Connaissances générales, Multimodal, Vision	20
	SciCode	Biologie, Chimie, Code, Mathématiques, Physique, Raisonnement	18
	TriviaQA	Connaissances générales, Raisonnement	18
	TruthfulQA	Connaissances générales, Finance, Juridique, Raisonnement, Santé	18
	OSWorld-Verified	Agents, Connaissances générales, Multimodal, Vision	17
	Video-MME	Multimodal, Raisonnement, Vision	17
	Hallusion Bench	Raisonnement, Vision	16
	ScreenSpot	Ancrage factuel, Multimodal, Raisonnement spatial, Vision	16
	BLINK	3D, Multimodal, Raisonnement, Raisonnement spatial, Vision	13
	BrowseComp-zh	Raisonnement, Recherche	13
	Global PIQA	Connaissances générales, Physique, Raisonnement	13
	MultiPL-E	Connaissances générales, Langage	13
	SimpleVQA	Connaissances générales, Image vers texte, Multimodal, Vision	13
	BBH	Langage, Mathématiques, Raisonnement	12
	CharadesSTA	Langage, Multimodal, Vidéo, Vision	12
	Claw-Eval	Agents, Code	12
	InfoVQAtest	Multimodal, Vision	12
	MedXpertQA	Multimodal, Raisonnement, Santé, Vision	12
	OCRBench-V2 (en)	Image vers texte, Vision	12
	DocVQAtest	Multimodal, Vision	11
	MMMU (val)	Connaissances générales, Multimodal, Raisonnement, Santé, Vision	11
	MuirBench	Multimodal, Raisonnement, Vision	11
	PIQA	Connaissances générales, Physique, Raisonnement	11
	MLVU	Contexte long, Multimodal, Vidéo, Vision	10
	VideoMME w/o sub.	Multimodal, Vidéo, Vision	10
	CyberGym	Agents, Code, Sûreté	9
	EgoSchema	Contexte long, Raisonnement, Vision	9
	InfoVQA	Multimodal, Vision	9
	VideoMME w sub.	Multimodal, Vidéo, Vision	9
	EmbSpatialBench	IA incarnée, Raisonnement spatial, Vision	8
	MCP-Mark	Agents, Appels d'outils	8
	ZEROBench	Multimodal, Raisonnement, Vision	8
	BabyVision	Multimodal, Raisonnement, Vision	7
	Bird-SQL (dev)	Raisonnement	7
	DynaMath	Mathématiques, Multimodal, Raisonnement, Vision	7
	OCRBench_V2	Image vers texte, Vision	7
	V*	Multimodal, Raisonnement, Vision	7
	CMMLU	Connaissances générales, Langage, Raisonnement	6
	MATH (CoT)	Mathématiques, Raisonnement	6
	MathArena Apex	Mathématiques, Raisonnement	6
	Seal-0	Raisonnement, Recherche	6
	TheoremQA	Finance, Mathématiques, Physique, Raisonnement	6
	MMLongBench-Doc	Contexte long, Multimodal, Vision	5
	Multilingual MMLU	Connaissances générales, Langage, Raisonnement	5
SQuALITY	Contexte long, Langage, Résumé	5
ZEROBench-Sub	Multimodal, Raisonnement, Vision	5
Codegolf v2.2	Code	4
MMMU (validation)	Connaissances générales, Multimodal, Raisonnement, Santé, Vision	4
MMMUval	Connaissances générales, Multimodal, Raisonnement, Santé, Vision	4
SlakeVQA	Image vers texte, Multimodal, Raisonnement, Santé, Vision	4
TIR-Bench	Agents, Appels d'outils, Multimodal, Raisonnement	4
VLMsAreBlind	Multimodal, Raisonnement, Vision	4
Inconnu	NL2Repo	Agents, Code	11