DeepSeek V4 ist eine offene Modellfamilie für KI-Agenten, die lange Aufgaben, Tool-Calls und Coding-Workflows besser abdecken soll als ein reiner Chatbot. Die Vorschau vom 24. April 2026 bringt zwei Mixture-of-Experts-Modelle, eine Kontextlänge von einer Million Token und API-Kompatibilität zu OpenAI- und Anthropic-Formaten. Dadurch lässt sich das Modell in Agenten-Frameworks oft über Konfiguration statt über neuen Code einbinden.
Was DeepSeek V4 technisch auszeichnet
DeepSeek V4 besteht aus V4-Pro und V4-Flash. Beide Varianten nutzen eine Mixture-of-Experts-Architektur. Dabei ist nicht das gesamte Modell bei jeder Anfrage aktiv, sondern nur ein Teil der Parameter. Das senkt den Rechenaufwand und macht sehr große Modelle im Betrieb wirtschaftlicher.
Die DeepSeek-V4-Modellgewichte stehen unter MIT-Lizenz bereit. Entwickler können sie herunterladen, selbst betreiben, anpassen oder über die API nutzen. Praktisch bleibt der lokale Betrieb wegen der Modellgröße dennoch anspruchsvoll.
| Modell | Gesamtparameter | Aktive Parameter je Token | Kontextlänge | Typischer Einsatz |
|---|---|---|---|---|
| DeepSeek V4-Pro | 1,6 Billionen | 49 Milliarden | 1 Million Token | Komplexe Agenten, Coding-Aufgaben und lange Workflows |
| DeepSeek V4-Flash | 284 Milliarden | 13 Milliarden | 1 Million Token | Schnelle Automatisierung, Tests und einfachere Aufgaben |
Die lange Kontextlänge ist besonders wichtig, weil Agenten viele Informationen gleichzeitig halten müssen. Dazu zählen Systemanweisungen, Tool-Beschreibungen, frühere Arbeitsschritte, Dateien und Testergebnisse. DeepSeek kombiniert dafür komprimierte Aufmerksamkeitsverfahren, die Speicherbedarf und Rechenaufwand bei langen Eingaben reduzieren.
Warum KI-Agenten von V4 profitieren
Ein KI-Agent beantwortet nicht nur einzelne Fragen. Er kann mehrere Schritte planen, externe Werkzeuge aufrufen, Dateien bearbeiten, Code ausführen und Ergebnisse über längere Abläufe hinweg auswerten. Dafür braucht das Modell ein stabiles Gedächtnis innerhalb der laufenden Aufgabe und zuverlässige Tool-Calls.
- Langer Kontext: Eine Million Token erlauben umfangreiche Sitzungen mit Dokumentation, Codebasis und Verlauf, ohne sofort auf starke Kürzung oder zusätzliche Suchlogik angewiesen zu sein.
- Agenten-Benchmarks: V4-Pro-Max erreicht 67,9 Prozent bei Terminal Bench 2.0, 80,6 Prozent bei SWE Verified und 55,4 Prozent bei SWE Pro. Diese Tests messen Aufgaben wie Fehleranalyse, Codeänderungen und Terminal-Arbeit.
- Tool-Nutzung: Die API unterstützt Tool-Calls, JSON-Ausgabe und Formate, die viele bestehende Frameworks bereits verstehen. Dadurch sinkt der Aufwand für die Einbindung.
Die Ergebnisse zeigen kein einheitliches Überholen aller geschlossenen Spitzenmodelle. Sie machen V4 aber zu einem starken offenen Kandidaten für Agenten, die viele Tokens verarbeiten und regelmäßig externe Werkzeuge nutzen.
Wie OpenClaw und Hermes Agent V4 nutzen können
OpenClaw
OpenClaw unterstützt DeepSeek über eine OpenAI-kompatible API. Für viele Setups reicht es daher, den Provider, den API-Schlüssel und den Modellnamen anzupassen. Bestehende Tool-Definitionen und Prompts müssen nicht grundsätzlich neu geschrieben werden.
Für anspruchsvolle Coding-Agenten ist V4-Pro die stärkere Wahl. Bei kurzen, wiederholbaren Aufgaben kann V4-Flash reichen, weil es günstiger und schneller ausgelegt ist. Der Wechsel zwischen beiden Varianten bleibt vor allem eine Konfigurationsfrage.
Hermes Agent
Hermes Agent arbeitet mit Konfigurationsdateien, Provider-Einstellungen und optionalen eigenen Endpunkten. DeepSeek kann dort als Provider oder über einen OpenAI-kompatiblen Endpoint eingebunden werden. Das passt zu Installationen, die dauerhaft laufen, geplante Aufgaben ausführen und über Messaging-Plattformen erreichbar sind.
Für Hermes ist Context-Caching besonders relevant. Agenten senden oft wiederholt ähnliche Systemanweisungen, Tool-Listen und gespeicherte Informationen. Wenn diese Eingaben im Cache liegen, sinken die Kosten je weiterer Anfrage deutlich.
Wann Pro oder Flash sinnvoller ist
V4-Pro eignet sich für Aufgaben mit vielen Abhängigkeiten. Dazu gehören größere Codebasen, längere Terminal-Sitzungen, mehrstufige Fehleranalysen und Agenten, die selbstständig mehrere Entscheidungen nacheinander treffen müssen.
V4-Flash ist sinnvoll, wenn Geschwindigkeit und Preis wichtiger sind als maximale Tiefe. Typische Beispiele sind einfache Automatisierungen, Prototypen, Tests, Vorverarbeitung und Aufgaben mit klarer Struktur.
- Start mit Flash: Für frühe Tests und einfache Abläufe reduziert Flash die Kosten und liefert schnelle Rückmeldungen.
- Wechsel zu Pro: Für produktive Workflows mit Codeänderungen, Tool-Ketten oder langen Kontexten ist Pro die robustere Option.
- Kostenkontrolle: Die DeepSeek-API-Preise unterscheiden zwischen Eingabe, Ausgabe und Cache-Hits. V4-Pro ist bis zum 31. Mai 2026 zeitlich befristet reduziert.
Die wichtigste Entscheidungsregel ist einfach: Flash passt zu klaren und kurzen Agentenläufen, Pro zu offenen Aufgaben mit vielen Zwischenschritten. Wer unsicher ist, kann Workflows zuerst mit Flash testen und erst bei höherem Anspruch auf Pro wechseln.
Welche Grenzen bei Migration und Betrieb wichtig sind
DeepSeek führt V4 als Nachfolger älterer Endpoints. Deepseek-chat und deepseek-reasoner sollen nach dem 24. Juli 2026 um 15:59 Uhr UTC nicht mehr erreichbar sein. Installationen, die noch auf diese Namen zeigen, sollten deshalb auf deepseek-v4-flash oder deepseek-v4-pro umgestellt werden.
Offene Modellgewichte bedeuten nicht automatisch niedrige Betriebskosten auf eigener Hardware. V4-Pro ist sehr groß und benötigt passende Infrastruktur. Für viele Teams wird die API daher der einfachere Weg bleiben, während Selbsthosting vor allem für Organisationen mit eigener Rechenkapazität interessant ist.
Bei Agenten zählt außerdem nicht nur das Modell. Tool-Rechte, Dateizugriffe, Secrets und externe Dienste müssen begrenzt und geprüft werden. Ein starkes Modell erhöht den Nutzen eines Agenten, ersetzt aber keine saubere Sicherheitskonfiguration.

