Modèles disponibles - Weights & Biases Documentation

Serverless Inference donne accès à plusieurs modèles de fondation open source. Chaque modèle a ses propres points forts et cas d’utilisation.

Modèles généralement disponibles

Les modèles suivants sont généralement disponibles :

Modèle	ID du modèle (pour l’utilisation de l’API)	Type	Fenêtre de contexte	Paramètres	Description
DeepSeek V4-Flash	`deepseek-ai/DeepSeek-V4-Flash`	Texte	1049k	13B-284B (Active-Total)	DeepSeek V4-Flash est un modèle MoE doté d’une fenêtre de contexte de 1M, idéal pour le codage, le raisonnement et les flux de travail agentiques.
DeepSeek V4-Pro	`deepseek-ai/DeepSeek-V4-Pro`	Texte	1049k	49B-1.6T (actifs-total)	DeepSeek V4-Pro est un modèle MoE de 1,6T de paramètres avec 49B de paramètres actifs, qui excelle dans le raisonnement avancé, le codage et les flux de travail agentiques complexes.
DeepSeek V3.1	`deepseek-ai/DeepSeek-V3.1`	Texte	161k	37B-671B (Active-Total)	Un grand modèle hybride qui prend en charge les modes avec et sans raisonnement via des templates de prompt.
Google Gemma 4 31B	`google/gemma-4-31B-it`	Texte, vision	262k	31B (total)	Gemma 4 31B Dense est conçu pour le raisonnement avancé, les flux de travail agentiques et les contextes plus longs, et il a été entraîné nativement sur plus de 140 langues.
IBM Granite 4.1 8B	`ibm-granite/granite-4.1-8b`	Texte	131k	8B (au total)	Granite 4.1 8B est un modèle instruct à contexte long offrant des capacités améliorées d’appel à des outils, de suivi des instructions et de conversation.
Meta Llama 3.3 70B	`meta-llama/Llama-3.3-70B-Instruct`	Texte	128k	70B (total)	Modèle multilingue qui excelle dans les tâches conversationnelles, le suivi précis des instructions et le codage.
Meta Llama 3.1 70B	`meta-llama/Llama-3.1-70B-Instruct`	Texte	128k	70B (total)	Modèle conversationnel performant optimisé pour des interactions réactives avec des chatbots multilingues.
Meta Llama 3.1 8B	`meta-llama/Llama-3.1-8B-Instruct`	Texte	128k	8B (au total)	Modèle conversationnel performant, optimisé pour des interactions réactives avec des chatbots multilingues.
Microsoft Phi 4 Mini 3.8B	`microsoft/Phi-4-mini-instruct`	Texte	128k	3.8B (Total)	Modèle compact et efficace, idéal pour fournir des réponses rapides dans des environnements aux ressources limitées.
MiniMax M2.5	`MiniMaxAI/MiniMax-M2.5`	Texte	197k	10B-230B (actifs-total)	Modèle MoE à l’architecture très clairsemée, conçu pour offrir un débit élevé et une faible latence, avec de solides capacités de programmation.
Moonshot AI Kimi K2.6	`moonshotai/Kimi-K2.6`	Texte, vision	262k	32B-1T (actifs-total)	Kimi K2.6 est un modèle de langage multimodal de type Mixture-of-Experts, avec 32 milliards de paramètres activés et un total de 1 000 milliards de paramètres.
Moonshot AI Kimi K2.5	`moonshotai/Kimi-K2.5`	Texte, vision	262k	32B-1T (actifs-total)	Kimi K2.5 est un modèle de langage multimodal de type Mixture-of-Experts, avec 32 milliards de paramètres activés et un total de 1 000 milliards de paramètres.
NVIDIA Nemotron 3 Super 120B	`nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8`	Texte	262k	12B-120B (actifs/total)	Nemotron 3 est un modèle LatentMoE conçu pour offrir de fortes capacités en matière d’agents, de raisonnement et de conversation.
OpenAI GPT OSS 120B	`openai/gpt-oss-120b`	Texte	131k	5.1B-117B (actifs-total)	Modèle Mixture-of-Experts efficace conçu pour les cas d’usage nécessitant un raisonnement poussé, des capacités agentiques et des usages généralistes.
OpenAI GPT OSS 20B	`openai/gpt-oss-20b`	Texte	131k	3.6B-20B (actifs-total)	Modèle Mixture-of-Experts à faible latence, entraîné sur le format de réponse Harmony d’OpenAI et doté de capacités de raisonnement.
OpenPipe Qwen3 14B Instruct	`OpenPipe/Qwen3-14B-Instruct`	Texte	32,8k	14,8 B (total)	Un modèle multilingue dense et performant, entraîné pour le suivi d’instructions, optimisé par OpenPipe pour créer des agents grâce au fine-tuning.
Qwen3.5 35B A3B	`Qwen/Qwen3.5-35B-A3B`	Texte, vision	262k	3B-35B (actifs-total)	Qwen3.5-35B-A3B est un modèle MoE multimodal à poids ouverts, conçu pour une inférence efficace et à haut débit pour le chat, le raisonnement et les tâches agentiques.
Qwen3 235B A22B Thinking-2507	`Qwen/Qwen3-235B-A22B-Thinking-2507`	Texte	262k	22B-235B (actifs au total)	Modèle Mixture-of-Experts haute performance optimisé pour le raisonnement structuré, les mathématiques et la génération longue.
Qwen3 235B A22B-2507	`Qwen/Qwen3-235B-A22B-Instruct-2507`	Texte	262k	22B-235B (actifs-total)	Modèle multilingue efficace de type Mixture-of-Experts, affiné sur des instructions et optimisé pour le raisonnement logique.
Qwen3 30B A3B	`Qwen/Qwen3-30B-A3B-Instruct-2507`	Texte	262k	3.3B-30.5B (actifs-total)	Qwen3-30B-A3B-Instruct-2507 est un modèle MoE de 30,5B ajusté par instruction, avec des capacités renforcées en raisonnement, en programmation et en compréhension de contextes longs.
Qwen3 Coder 480B A35B	`Qwen/Qwen3-Coder-480B-A35B-Instruct`	Texte	262k	35B-480B (actifs-total)	Modèle à mélange d’experts optimisé pour les tâches de programmation agentique, comme l’appel de fonctions, l’utilisation d’outils et le raisonnement en contexte long.
Z.AI GLM 5.1	`zai-org/GLM-5.1`	Texte	203k	40B-744B (Actifs-Total)	Puissant modèle MoE conçu pour l’ingénierie agentique à long horizon et le raisonnement avancé.

Modèles expérimentaux

Les modèles suivants sont expérimentaux :

Modèle	ID du modèle (pour l’utilisation avec l’API)	Type	Fenêtre de contexte	Paramètres	Description
Qwen3.5 27B	`Qwen/Qwen3.5-27B`	Texte, vision	262k	27B (Total)	Qwen3.5-27B est un modèle dense de la famille Qwen3.5, conçu pour offrir de hautes performances sur un large éventail de benchmarks.

Modèles obsolètes

Les modèles suivants sont obsolètes : Aucun pour le moment

Utilisation des ID de modèle

Lorsque vous utilisez l’API, indiquez le modèle à l’aide de son ID du modèle figurant dans le tableau ci-dessus. Par exemple :

response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[...]
)

Étapes suivantes

Consultez les limites d’utilisation et la tarification pour chaque modèle
Consultez la référence de l’API pour savoir comment utiliser ces modèles
Essayez les modèles dans le W&B Playground

Documentation Index

​Modèles généralement disponibles

​Modèles expérimentaux

​Modèles obsolètes

​Utilisation des ID de modèle

​Étapes suivantes

Modèles généralement disponibles

Modèles expérimentaux

Modèles obsolètes

Utilisation des ID de modèle

Étapes suivantes