Zum Inhalt springen
K Krynex Labs
Technik & Architektur

On-Premise vs. Cloud-LLM — wann lohnt welcher Setup?

Die ehrliche Kurzantwort

Es gibt vier klare Treiber für on-premise:

  1. Art.-9-DSGVO-Daten (Gesundheit, Religion, Gewerkschaft, ethnische Herkunft) — Cloud-LLMs sind hier auch mit AVV und EU-Region nur sehr eingeschränkt nutzbar
  2. Geschäftsgeheimnisse mit hoher Schadenshöhe — strategische Verträge, Vertriebsdaten, Patent-Skizzen, M&A-Material
  3. Latenz unter 50 ms p99 — Real-Time-Use-Cases (Trading-Signale, Robotik-Steuerung, Live-Voice-Agents)
  4. Inferenzvolumen über ~50.000 €/Monat in der Cloud — ab dieser Schwelle wird die Eigeninvestition wirtschaftlich

Wenn keiner dieser vier Punkte greift, ist Cloud schneller, billiger und sicherer — und das gilt für die meisten Mittelstandsfälle. Wer on-prem aus “Bauchgefühl Datenschutz” startet, baut typischerweise einen Hardware-Klotz, den niemand betreut.

Was Cloud-LLMs 2026 gut können

Azure OpenAI und Anthropic Claude API sind 2026 die zwei realistischsten Cloud-Optionen für deutschen Mittelstand:

  • Latenz: 200–800 ms für GPT-5.5 Instant oder Claude Sonnet 4.6 bei Standard-Kontext
  • Skalierbarkeit: bis ~10 Anfragen/Sekunde ohne Sondervereinbarung
  • Preis: 2,5–15 €/Million Input-Tokens, 10–75 €/Million Output-Tokens
  • Verfügbarkeit: 99,9 % im SLA, in Praxis 99,95 %+
  • Datenschutz: AVV + Trainings-Opt-Out + EU-Region (Sweden Central / Germany West Central für Azure; Frankfurt/Dublin für Anthropic)
  • Modell-Updates: automatisch, ohne Eigenpflege

Für die meisten Workloads — Customer-Support-Chatbot, Mail-Klassifizierung, Dokumenten-Zusammenfassung, Code-Assistenz — ist das mehr als ausreichend.

Was on-prem 2026 kann

Die Open-Source-Modelle haben in den letzten 12 Monaten dramatisch aufgeschlossen — vor allem durch den Wechsel auf Mixture-of-Experts-Architekturen, die hohe Gesamtparameter bei kleinen “aktiven” Parametern je Token kombinieren:

  • Llama 4 Scout (Meta, April 2025): 17 B aktive / 109 B Gesamt-Parameter, 10 Millionen Token Kontext, nativ multimodal. Das aktuelle Open-Source-Workhorse.
  • Llama 4 Maverick (Meta, April 2025): 17 B aktive / 400 B Gesamt-Parameter, 1 Mio Token Kontext, schlägt GPT-4o und Gemini 2.0 Flash in vielen Benchmarks.
  • Mistral Large 3 (Mistral, Dezember 2025): 41 B aktive / 675 B Gesamt-Parameter MoE, Apache 2.0 Lizenz. Das größte offene MoE eines Top-Labs.
  • Mistral Medium 3.5 (April 2026): 128 B dense, 256k Kontext, offene Gewichte — guter Mittelweg.
  • Qwen 3.5 (Alibaba, Februar 2026): 397 B-A17B MoE flagship, multimodal, starke Reasoning-Performance. Anbieter China — on-prem-Betrieb ist die saubere Lösung.
  • DeepSeek V4-Flash (DeepSeek, April 2026 Preview): 284 B Gesamt / 13 B aktive, 1 Mio Kontext, MIT-Lizenz. Sehr günstige Inferenz, Top-Tier Reasoning.

Inferenz-Stack: vLLM (am performantesten, beste MoE-Unterstützung), SGLang (stark für strukturierte Outputs), Ollama (am einfachsten zu betreiben für Tier-1-Setups), llama.cpp (am vielseitigsten).

Hardware-Realität für Mittelstand:

MoE-Modelle haben gegenüber dense Llama-3-Generation eine andere Hardware-Charakteristik: viel Gesamt-RAM für die Gewichte, aber nur Bruchteil davon aktiv pro Token — Inferenz ist schneller als die Parameter-Zahl vermuten lässt, RAM-Anforderung ist aber hoch.

  • Llama 4 Scout in FP8 (109 B): braucht ca. 110 GB VRAM. Realistisch: 2× H100 80 GB oder 1× H200 141 GB. Anschaffung 50.000–90.000 €.
  • Llama 4 Scout in INT4-Quantisierung: passt auf 1× H100 80 GB. Anschaffung 25.000–35.000 €.
  • DeepSeek V4-Flash (284 B) in INT4: 2× H100 oder 4× RTX 6000 Ada (48 GB). Anschaffung 25.000–60.000 € je nach Tier.
  • Mistral Medium 3.5 (128 B dense) in FP8: 2× H100 oder 4× RTX 6000 Ada.
  • Stromkosten realistisch 150–400 €/Monat plus Klima/Stellplatz

Der TCO-Vergleich, der wirklich zählt

Cloud-Kosten für ein typisches Mittelstands-Setup (3 Use-Cases, ~5 Millionen Token Output pro Monat):

  • Azure OpenAI GPT-4o: ca. 50–150 €/Monat
  • Anthropic Claude Sonnet: ca. 75–200 €/Monat
  • Anbieter-Wartung: 0 €
  • Total: 600–2.400 €/Jahr

On-prem-Kosten für vergleichbare Workload (1× H100 80 GB, Llama 4 Scout INT4 oder Mistral Medium 3.5):

  • Hardware-AfA über 3 Jahre: ca. 8.000–12.000 €/Jahr
  • Strom + Klima: ca. 2.500 €/Jahr
  • Engineering-Aufwand für Setup: 5–10 Tage initial, dann ~1 Tag/Monat
  • Modell-Updates: ~2 Tage pro Update
  • Total: 15.000–25.000 €/Jahr (ohne Initial-Setup-Aufwand)

Die Schwelle. On-prem rechnet sich erst, wenn:

  • Cloud-Kosten über 2.500–4.000 €/Monat stabil liegen (entspricht etwa ~100 Mio Output-Tokens/Monat)
  • Oder ein zwingender Compliance-Grund vorliegt, der Cloud ausschließt
  • Oder Real-Time-Latenz erfordert wird, die Cloud strukturell nicht liefern kann

Wenn on-prem die richtige Wahl ist

Wir bauen on-prem-Stacks für Mittelstandskunden in einem standardisierten Schema:

Hardware-Tier 1 (15.000–35.000 € einmalig):

  • 1× Workstation mit 1× H100 80 GB oder 2× RTX 6000 Ada (48 GB)
  • Reicht für Llama 4 Scout INT4 oder Mistral Small 4, parallele Anfragen ~1–3/s
  • Use-Cases: interne Recherche, Dokument-Analyse, Code-Assistenz für kleine Teams

Hardware-Tier 2 (60.000–150.000 € einmalig):

  • 1× Server mit 2× H100 80 GB, 1× H200 141 GB oder 4× RTX 6000 Ada
  • Reicht für Llama 4 Maverick FP8, Mistral Large 3 quantisiert oder DeepSeek V4-Flash
  • Use-Cases: Customer-Support-Chatbot mit hohem Volumen, RAG-Pipeline mit Million-Dokument-Korpus, mehrere parallele Modelle

Software-Stack:

  • vLLM oder TGI für Inferenz
  • Qdrant oder Weaviate für Vector-Storage (auch on-prem)
  • LiteLLM oder eigener Adapter für Provider-Abstraktion (zukunftssicher)
  • Prometheus + Grafana für Monitoring
  • Eigenes Audit-Logging mit Aufbewahrungsfristen

Betrieb:

  • Hardware-Wartungsvertrag mit Hersteller
  • Modell-Updates quartalsweise prüfen
  • Re-Eval der Outputs gegen vorherige Version vor Rollout

Der hybride Mittelweg

Was wir bei Mittelstandskunden 2026 am häufigsten umsetzen: Hybrid-Architektur nach Daten-Klassifizierung.

  • Grüne Daten (öffentlich, anonymisiert) → Cloud-LLM für Geschwindigkeit und Modellqualität
  • Gelbe Daten (intern, ohne Personenbezug) → Cloud-LLM in EU-Region mit AVV
  • Rote Daten (Art. 9, Geschäftsgeheimnisse) → on-prem-LLM auf eigener Hardware

Die Abstraktion läuft über einen Provider-Router (LiteLLM, LangChain LiteLLM, eigener Adapter), der pro Request anhand der Daten-Klassifizierung den passenden Backend wählt.

Was du heute nicht tun solltest

Keine GPUs kaufen “weil es trendy ist”. Keine Llama-Installation auf dem ESXi-Cluster ohne Eval-Setup (“läuft halt”). Keine “wir betreiben das selbst, ist sicherer” -Annahme ohne Risikoanalyse — eine schlecht betriebene on-prem-Installation mit fehlenden Patches ist unsicherer als gut konfiguriertes Azure OpenAI.

Pragmatischer Einstieg: 2–4 Wochen mit Cloud-LLM produktiv arbeiten, echte Volumen-Daten sammeln, dann basierend auf realem TCO entscheiden.

Konkrete Frage zu eurem Setup?

Ein 30-Minuten-Erstgespräch klärt meistens schon, ob euer aktueller AI-Stack hält oder wo nachzuarbeiten ist. Kostenlos, ohne Verkaufsdruck.

Erstgespräch buchen