Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://wb-21fd5541-docs-2658.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

Serverless Inference donne accès à plusieurs modèles de fondation open source. Chaque modèle a ses propres points forts et cas d’utilisation.

Modèles généralement disponibles

Les modèles suivants sont généralement disponibles :
ModèleID du modèle (pour l’utilisation de l’API)TypeFenêtre de contexteParamètresDescription
DeepSeek V4-Flashdeepseek-ai/DeepSeek-V4-FlashTexte1049k13B-284B (Active-Total)DeepSeek V4-Flash est un modèle MoE doté d’une fenêtre de contexte de 1M, idéal pour le codage, le raisonnement et les flux de travail agentiques.
DeepSeek V4-Prodeepseek-ai/DeepSeek-V4-ProTexte1049k49B-1.6T (actifs-total)DeepSeek V4-Pro est un modèle MoE de 1,6T de paramètres avec 49B de paramètres actifs, qui excelle dans le raisonnement avancé, le codage et les flux de travail agentiques complexes.
DeepSeek V3.1deepseek-ai/DeepSeek-V3.1Texte161k37B-671B (Active-Total)Un grand modèle hybride qui prend en charge les modes avec et sans raisonnement via des templates de prompt.
Google Gemma 4 31Bgoogle/gemma-4-31B-itTexte, vision262k31B (total)Gemma 4 31B Dense est conçu pour le raisonnement avancé, les flux de travail agentiques et les contextes plus longs, et il a été entraîné nativement sur plus de 140 langues.
IBM Granite 4.1 8Bibm-granite/granite-4.1-8bTexte131k8B (au total)Granite 4.1 8B est un modèle instruct à contexte long offrant des capacités améliorées d’appel à des outils, de suivi des instructions et de conversation.
Meta Llama 3.3 70Bmeta-llama/Llama-3.3-70B-InstructTexte128k70B (total)Modèle multilingue qui excelle dans les tâches conversationnelles, le suivi précis des instructions et le codage.
Meta Llama 3.1 70Bmeta-llama/Llama-3.1-70B-InstructTexte128k70B (total)Modèle conversationnel performant optimisé pour des interactions réactives avec des chatbots multilingues.
Meta Llama 3.1 8Bmeta-llama/Llama-3.1-8B-InstructTexte128k8B (au total)Modèle conversationnel performant, optimisé pour des interactions réactives avec des chatbots multilingues.
Microsoft Phi 4 Mini 3.8Bmicrosoft/Phi-4-mini-instructTexte128k3.8B (Total)Modèle compact et efficace, idéal pour fournir des réponses rapides dans des environnements aux ressources limitées.
MiniMax M2.5MiniMaxAI/MiniMax-M2.5Texte197k10B-230B (actifs-total)Modèle MoE à l’architecture très clairsemée, conçu pour offrir un débit élevé et une faible latence, avec de solides capacités de programmation.
Moonshot AI Kimi K2.6moonshotai/Kimi-K2.6Texte, vision262k32B-1T (actifs-total)Kimi K2.6 est un modèle de langage multimodal de type Mixture-of-Experts, avec 32 milliards de paramètres activés et un total de 1 000 milliards de paramètres.
Moonshot AI Kimi K2.5moonshotai/Kimi-K2.5Texte, vision262k32B-1T (actifs-total)Kimi K2.5 est un modèle de langage multimodal de type Mixture-of-Experts, avec 32 milliards de paramètres activés et un total de 1 000 milliards de paramètres.
NVIDIA Nemotron 3 Super 120Bnvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8Texte262k12B-120B (actifs/total)Nemotron 3 est un modèle LatentMoE conçu pour offrir de fortes capacités en matière d’agents, de raisonnement et de conversation.
OpenAI GPT OSS 120Bopenai/gpt-oss-120bTexte131k5.1B-117B (actifs-total)Modèle Mixture-of-Experts efficace conçu pour les cas d’usage nécessitant un raisonnement poussé, des capacités agentiques et des usages généralistes.
OpenAI GPT OSS 20Bopenai/gpt-oss-20bTexte131k3.6B-20B (actifs-total)Modèle Mixture-of-Experts à faible latence, entraîné sur le format de réponse Harmony d’OpenAI et doté de capacités de raisonnement.
OpenPipe Qwen3 14B InstructOpenPipe/Qwen3-14B-InstructTexte32,8k14,8 B (total)Un modèle multilingue dense et performant, entraîné pour le suivi d’instructions, optimisé par OpenPipe pour créer des agents grâce au fine-tuning.
Qwen3.5 35B A3BQwen/Qwen3.5-35B-A3BTexte, vision262k3B-35B (actifs-total)Qwen3.5-35B-A3B est un modèle MoE multimodal à poids ouverts, conçu pour une inférence efficace et à haut débit pour le chat, le raisonnement et les tâches agentiques.
Qwen3 235B A22B Thinking-2507Qwen/Qwen3-235B-A22B-Thinking-2507Texte262k22B-235B (actifs au total)Modèle Mixture-of-Experts haute performance optimisé pour le raisonnement structuré, les mathématiques et la génération longue.
Qwen3 235B A22B-2507Qwen/Qwen3-235B-A22B-Instruct-2507Texte262k22B-235B (actifs-total)Modèle multilingue efficace de type Mixture-of-Experts, affiné sur des instructions et optimisé pour le raisonnement logique.
Qwen3 30B A3BQwen/Qwen3-30B-A3B-Instruct-2507Texte262k3.3B-30.5B (actifs-total)Qwen3-30B-A3B-Instruct-2507 est un modèle MoE de 30,5B ajusté par instruction, avec des capacités renforcées en raisonnement, en programmation et en compréhension de contextes longs.
Qwen3 Coder 480B A35BQwen/Qwen3-Coder-480B-A35B-InstructTexte262k35B-480B (actifs-total)Modèle à mélange d’experts optimisé pour les tâches de programmation agentique, comme l’appel de fonctions, l’utilisation d’outils et le raisonnement en contexte long.
Z.AI GLM 5.1zai-org/GLM-5.1Texte203k40B-744B (Actifs-Total)Puissant modèle MoE conçu pour l’ingénierie agentique à long horizon et le raisonnement avancé.

Modèles expérimentaux

Les modèles suivants sont expérimentaux :
ModèleID du modèle (pour l’utilisation avec l’API)TypeFenêtre de contexteParamètresDescription
Qwen3.5 27BQwen/Qwen3.5-27BTexte, vision262k27B (Total)Qwen3.5-27B est un modèle dense de la famille Qwen3.5, conçu pour offrir de hautes performances sur un large éventail de benchmarks.

Modèles obsolètes

Les modèles suivants sont obsolètes : Aucun pour le moment

Utilisation des ID de modèle

Lorsque vous utilisez l’API, indiquez le modèle à l’aide de son ID du modèle figurant dans le tableau ci-dessus. Par exemple :
response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[...]
)

Étapes suivantes