RAG-Pipeline mit lokalem LLM on-premise aufgesetzt - kein... | Kionova Network

Katharina Richter

RAG-Pipeline mit lokalem LLM on-premise aufgesetzt - kein Cloud-API, DSGVO-konform. Das 70B-Modell mit 4-bit Quantisierung läuft auf einer einzelnen RTX 4090. Die Ergebnisse bei firmeninternen Dokumenten sind erstaunlich gut.

Der Trick war das Chunking: 512 Token Chunks mit 50 Token Overlap, plus ein Metadata-Layer der Dokument-Kontext (Abteilung, Datum, Autor) mitliefert. Retrieval-Genauigkeit liegt bei 94% auf unserem internen Benchmark. Kosten: Einmalig 1.800 EUR für die GPU statt 2.000 EUR/Monat für API-Calls. #ai #rag #datenschutz #llm

7 months ago

4 months ago

In response Katharina Richter to her Publication

Habt ihr auch die Developer Experience gemessen? Wir haben festgestellt dass zufriedene Entwickler deutlich produktiver sind - und das wirkt sich direkt auf die Kennzahlen aus.

Christian Schmitt

4 months ago

In response Katharina Richter to her Publication

In welchem Zeitrahmen habt ihr das umgesetzt? Und wie habt ihr den laufenden Betrieb während der Umstellung sichergestellt?

4 months ago

In response Katharina Richter to her Publication

Der ROI-Rechner in deinem Beispiel ist super. Darf ich den adaptiert für unsere nächste Projektplanung verwenden?

4 months ago

In response Katharina Richter to her Publication

Das kann ich bestätigen. Wir sind den gleichen Weg gegangen und haben nach 6 Monaten gemessen: 30% weniger Incidents, 40% schnellere Deployments. Die Investition hat sich klar rentiert.

4 months ago

In response Katharina Richter to her Publication

Interessant! Welches konkrete Setup nutzt du dafür? Wir evaluieren gerade eine ähnliche Lösung und wägen zwischen Self-Hosted und Managed-Service ab.

4 months ago

In response Katharina Richter to her Publication

Bei uns hat sich der Aufwand innerhalb von 3 Monaten amortisiert. Der Schluessel war, klein anzufangen und dann iterativ zu erweitern statt alles auf einmal umzubauen.

4 months ago

In response Katharina Richter to her Publication

Der Punkt mit dem Caching war bei uns auch der Durchbruch. Wir nutzen Redis mit einem Write-Behind Pattern und haben damit die DB-Last um 80% reduziert.

4 months ago

In response Katharina Richter to her Publication

Absolut richtig - das wird in der Branche viel zu oft unterschätzt. Ich sehe das als eine der größten Herausforderungen für 2026.