RAG-Systeme scheitern an drei Stellen — keine davon ist das Modell
Warum Embeddings, Chunking und Re-Ranking deine RAG-Pipeline machen oder brechen. Mit konkreten Beispielen aus 14 Production-Setups.
90% aller RAG-Projekte, die ich sehe, optimieren das falsche Ding. Sie tauschen GPT-4 gegen Claude, dann gegen Gemini, und wundern sich, warum die Antworten weiter Müll sind. Das Problem liegt fast nie am LLM.
1. Chunking
Naives 512-Token-Chunking zerschneidet Tabellen, Code-Blöcke und Listen mitten durch. Das Embedding-Modell sieht dann einen halben Datensatz und gibt einen mittelmäßigen Vector zurück.
Fix: Semantisches Chunking auf Dokument-Struktur. Markdown-Headings, HTML-DOM, oder LLM-basierter Splitter. Kosten +20%, Quality +50%.
2. Retrieval
Pure Vector-Search ist für Production zu unscharf. Du brauchst Hybrid-Search (BM25 + Embedding) plus einen Re-Ranker (Cohere Rerank, oder eigenes Cross-Encoder-Modell).
3. Eval
Wenn du kein goldenes Eval-Set hast, fliegst du blind. 200 Fragen mit verifizierten Antworten reichen. Bei jedem Modell-Update durchlaufen. Quality-Regressionen siehst du sofort, statt sie nach 3 Wochen vom Kunden gemeldet zu bekommen.