7 months ago
RAG-Pipeline mit lokalem LLM on-premise aufgesetzt - kein Cloud-API, DSGVO-konform. Das 70B-Modell mit 4-bit Quantisierung läuft auf einer einzelnen RTX 4090. Die Ergebnisse bei firmeninternen Dokumenten sind erstaunlich gut.
Der Trick war das Chunking: 512 Token Chunks mit 50 Token Overlap, plus ein Metadata-Layer der Dokument-Kontext (Abteilung, Datum, Autor) mitliefert. Retrieval-Genauigkeit liegt bei 94% auf unserem internen Benchmark. Kosten: Einmalig 1.800 EUR für die GPU statt 2.000 EUR/Monat für API-Calls. #ai #rag #datenschutz #llm
Der Trick war das Chunking: 512 Token Chunks mit 50 Token Overlap, plus ein Metadata-Layer der Dokument-Kontext (Abteilung, Datum, Autor) mitliefert. Retrieval-Genauigkeit liegt bei 94% auf unserem internen Benchmark. Kosten: Einmalig 1.800 EUR für die GPU statt 2.000 EUR/Monat für API-Calls. #ai #rag #datenschutz #llm
Absolut richtig - das wird in der Branche viel zu oft unterschätzt. Ich sehe das als eine der größten Herausforderungen für 2026.
4 months ago
In response Katharina Richter to her Publication