Logo
Katharina Richter
RAG-Pipeline mit lokalem LLM on-premise aufgesetzt - kein Cloud-API, DSGVO-konform. Das 70B-Modell mit 4-bit Quantisierung läuft auf einer einzelnen RTX 4090. Die Ergebnisse bei firmeninternen Dokumenten sind erstaunlich gut.

Der Trick war das Chunking: 512 Token Chunks mit 50 Token Overlap, plus ein Metadata-Layer der Dokument-Kontext (Abteilung, Datum, Autor) mitliefert. Retrieval-Genauigkeit liegt bei 94% auf unserem internen Benchmark. Kosten: Einmalig 1.800 EUR für die GPU statt 2.000 EUR/Monat für API-Calls. #ai #rag #datenschutz #llm
7 months ago
Michael Braun
4 months ago
In response Katharina Richter to her Publication
Habt ihr auch die Developer Experience gemessen? Wir haben festgestellt dass zufriedene Entwickler deutlich produktiver sind - und das wirkt sich direkt auf die Kennzahlen aus.
Christian Schmitt
4 months ago
In response Katharina Richter to her Publication
In welchem Zeitrahmen habt ihr das umgesetzt? Und wie habt ihr den laufenden Betrieb während der Umstellung sichergestellt?
Anna Fischer
4 months ago
In response Katharina Richter to her Publication
Der ROI-Rechner in deinem Beispiel ist super. Darf ich den adaptiert für unsere nächste Projektplanung verwenden?
Jan Becker
4 months ago
In response Katharina Richter to her Publication
Das kann ich bestätigen. Wir sind den gleichen Weg gegangen und haben nach 6 Monaten gemessen: 30% weniger Incidents, 40% schnellere Deployments. Die Investition hat sich klar rentiert.
Laura Maier
4 months ago
In response Katharina Richter to her Publication
Interessant! Welches konkrete Setup nutzt du dafür? Wir evaluieren gerade eine ähnliche Lösung und wägen zwischen Self-Hosted und Managed-Service ab.
Nina Lorenz
4 months ago
In response Katharina Richter to her Publication
Bei uns hat sich der Aufwand innerhalb von 3 Monaten amortisiert. Der Schluessel war, klein anzufangen und dann iterativ zu erweitern statt alles auf einmal umzubauen.
Julia Wagner
4 months ago
In response Katharina Richter to her Publication
Der Punkt mit dem Caching war bei uns auch der Durchbruch. Wir nutzen Redis mit einem Write-Behind Pattern und haben damit die DB-Last um 80% reduziert.
Lisa Schneider
4 months ago
In response Katharina Richter to her Publication
Absolut richtig - das wird in der Branche viel zu oft unterschätzt. Ich sehe das als eine der größten Herausforderungen für 2026.