On-Premise vs. Cloud-LLM — wann lohnt welcher Setup?
Die ehrliche Kurzantwort
Es gibt vier klare Treiber für on-premise:
- Art.-9-DSGVO-Daten (Gesundheit, Religion, Gewerkschaft, ethnische Herkunft) — Cloud-LLMs sind hier auch mit AVV und EU-Region nur sehr eingeschränkt nutzbar
- Geschäftsgeheimnisse mit hoher Schadenshöhe — strategische Verträge, Vertriebsdaten, Patent-Skizzen, M&A-Material
- Latenz unter 50 ms p99 — Real-Time-Use-Cases (Trading-Signale, Robotik-Steuerung, Live-Voice-Agents)
- Inferenzvolumen über ~50.000 €/Monat in der Cloud — ab dieser Schwelle wird die Eigeninvestition wirtschaftlich
Wenn keiner dieser vier Punkte greift, ist Cloud schneller, billiger und sicherer — und das gilt für die meisten Mittelstandsfälle. Wer on-prem aus “Bauchgefühl Datenschutz” startet, baut typischerweise einen Hardware-Klotz, den niemand betreut.
Was Cloud-LLMs 2026 gut können
Azure OpenAI und Anthropic Claude API sind 2026 die zwei realistischsten Cloud-Optionen für deutschen Mittelstand:
- Latenz: 200–800 ms für GPT-5.5 Instant oder Claude Sonnet 4.6 bei Standard-Kontext
- Skalierbarkeit: bis ~10 Anfragen/Sekunde ohne Sondervereinbarung
- Preis: 2,5–15 €/Million Input-Tokens, 10–75 €/Million Output-Tokens
- Verfügbarkeit: 99,9 % im SLA, in Praxis 99,95 %+
- Datenschutz: AVV + Trainings-Opt-Out + EU-Region (Sweden Central / Germany West Central für Azure; Frankfurt/Dublin für Anthropic)
- Modell-Updates: automatisch, ohne Eigenpflege
Für die meisten Workloads — Customer-Support-Chatbot, Mail-Klassifizierung, Dokumenten-Zusammenfassung, Code-Assistenz — ist das mehr als ausreichend.
Was on-prem 2026 kann
Die Open-Source-Modelle haben in den letzten 12 Monaten dramatisch aufgeschlossen — vor allem durch den Wechsel auf Mixture-of-Experts-Architekturen, die hohe Gesamtparameter bei kleinen “aktiven” Parametern je Token kombinieren:
- Llama 4 Scout (Meta, April 2025): 17 B aktive / 109 B Gesamt-Parameter, 10 Millionen Token Kontext, nativ multimodal. Das aktuelle Open-Source-Workhorse.
- Llama 4 Maverick (Meta, April 2025): 17 B aktive / 400 B Gesamt-Parameter, 1 Mio Token Kontext, schlägt GPT-4o und Gemini 2.0 Flash in vielen Benchmarks.
- Mistral Large 3 (Mistral, Dezember 2025): 41 B aktive / 675 B Gesamt-Parameter MoE, Apache 2.0 Lizenz. Das größte offene MoE eines Top-Labs.
- Mistral Medium 3.5 (April 2026): 128 B dense, 256k Kontext, offene Gewichte — guter Mittelweg.
- Qwen 3.5 (Alibaba, Februar 2026): 397 B-A17B MoE flagship, multimodal, starke Reasoning-Performance. Anbieter China — on-prem-Betrieb ist die saubere Lösung.
- DeepSeek V4-Flash (DeepSeek, April 2026 Preview): 284 B Gesamt / 13 B aktive, 1 Mio Kontext, MIT-Lizenz. Sehr günstige Inferenz, Top-Tier Reasoning.
Inferenz-Stack: vLLM (am performantesten, beste MoE-Unterstützung), SGLang (stark für strukturierte Outputs), Ollama (am einfachsten zu betreiben für Tier-1-Setups), llama.cpp (am vielseitigsten).
Hardware-Realität für Mittelstand:
MoE-Modelle haben gegenüber dense Llama-3-Generation eine andere Hardware-Charakteristik: viel Gesamt-RAM für die Gewichte, aber nur Bruchteil davon aktiv pro Token — Inferenz ist schneller als die Parameter-Zahl vermuten lässt, RAM-Anforderung ist aber hoch.
- Llama 4 Scout in FP8 (109 B): braucht ca. 110 GB VRAM. Realistisch: 2× H100 80 GB oder 1× H200 141 GB. Anschaffung 50.000–90.000 €.
- Llama 4 Scout in INT4-Quantisierung: passt auf 1× H100 80 GB. Anschaffung 25.000–35.000 €.
- DeepSeek V4-Flash (284 B) in INT4: 2× H100 oder 4× RTX 6000 Ada (48 GB). Anschaffung 25.000–60.000 € je nach Tier.
- Mistral Medium 3.5 (128 B dense) in FP8: 2× H100 oder 4× RTX 6000 Ada.
- Stromkosten realistisch 150–400 €/Monat plus Klima/Stellplatz
Der TCO-Vergleich, der wirklich zählt
Cloud-Kosten für ein typisches Mittelstands-Setup (3 Use-Cases, ~5 Millionen Token Output pro Monat):
- Azure OpenAI GPT-4o: ca. 50–150 €/Monat
- Anthropic Claude Sonnet: ca. 75–200 €/Monat
- Anbieter-Wartung: 0 €
- Total: 600–2.400 €/Jahr
On-prem-Kosten für vergleichbare Workload (1× H100 80 GB, Llama 4 Scout INT4 oder Mistral Medium 3.5):
- Hardware-AfA über 3 Jahre: ca. 8.000–12.000 €/Jahr
- Strom + Klima: ca. 2.500 €/Jahr
- Engineering-Aufwand für Setup: 5–10 Tage initial, dann ~1 Tag/Monat
- Modell-Updates: ~2 Tage pro Update
- Total: 15.000–25.000 €/Jahr (ohne Initial-Setup-Aufwand)
Die Schwelle. On-prem rechnet sich erst, wenn:
- Cloud-Kosten über 2.500–4.000 €/Monat stabil liegen (entspricht etwa ~100 Mio Output-Tokens/Monat)
- Oder ein zwingender Compliance-Grund vorliegt, der Cloud ausschließt
- Oder Real-Time-Latenz erfordert wird, die Cloud strukturell nicht liefern kann
Wenn on-prem die richtige Wahl ist
Wir bauen on-prem-Stacks für Mittelstandskunden in einem standardisierten Schema:
Hardware-Tier 1 (15.000–35.000 € einmalig):
- 1× Workstation mit 1× H100 80 GB oder 2× RTX 6000 Ada (48 GB)
- Reicht für Llama 4 Scout INT4 oder Mistral Small 4, parallele Anfragen ~1–3/s
- Use-Cases: interne Recherche, Dokument-Analyse, Code-Assistenz für kleine Teams
Hardware-Tier 2 (60.000–150.000 € einmalig):
- 1× Server mit 2× H100 80 GB, 1× H200 141 GB oder 4× RTX 6000 Ada
- Reicht für Llama 4 Maverick FP8, Mistral Large 3 quantisiert oder DeepSeek V4-Flash
- Use-Cases: Customer-Support-Chatbot mit hohem Volumen, RAG-Pipeline mit Million-Dokument-Korpus, mehrere parallele Modelle
Software-Stack:
- vLLM oder TGI für Inferenz
- Qdrant oder Weaviate für Vector-Storage (auch on-prem)
- LiteLLM oder eigener Adapter für Provider-Abstraktion (zukunftssicher)
- Prometheus + Grafana für Monitoring
- Eigenes Audit-Logging mit Aufbewahrungsfristen
Betrieb:
- Hardware-Wartungsvertrag mit Hersteller
- Modell-Updates quartalsweise prüfen
- Re-Eval der Outputs gegen vorherige Version vor Rollout
Der hybride Mittelweg
Was wir bei Mittelstandskunden 2026 am häufigsten umsetzen: Hybrid-Architektur nach Daten-Klassifizierung.
- Grüne Daten (öffentlich, anonymisiert) → Cloud-LLM für Geschwindigkeit und Modellqualität
- Gelbe Daten (intern, ohne Personenbezug) → Cloud-LLM in EU-Region mit AVV
- Rote Daten (Art. 9, Geschäftsgeheimnisse) → on-prem-LLM auf eigener Hardware
Die Abstraktion läuft über einen Provider-Router (LiteLLM, LangChain LiteLLM, eigener Adapter), der pro Request anhand der Daten-Klassifizierung den passenden Backend wählt.
Was du heute nicht tun solltest
Keine GPUs kaufen “weil es trendy ist”. Keine Llama-Installation auf dem ESXi-Cluster ohne Eval-Setup (“läuft halt”). Keine “wir betreiben das selbst, ist sicherer” -Annahme ohne Risikoanalyse — eine schlecht betriebene on-prem-Installation mit fehlenden Patches ist unsicherer als gut konfiguriertes Azure OpenAI.
Pragmatischer Einstieg: 2–4 Wochen mit Cloud-LLM produktiv arbeiten, echte Volumen-Daten sammeln, dann basierend auf realem TCO entscheiden.
Konkrete Frage zu eurem Setup?
Ein 30-Minuten-Erstgespräch klärt meistens schon, ob euer aktueller AI-Stack hält oder wo nachzuarbeiten ist. Kostenlos, ohne Verkaufsdruck.
Erstgespräch buchen