Interessant! Welches konkrete Setup nutzt du dafür? Wir e...

7 months ago

RAG-Pipeline mit lokalem LLM on-premise aufgesetzt - kein Cloud-API, DSGVO-konform. Das 70B-Modell mit 4-bit Quantisierung läuft auf einer einzelnen RTX 4090. Die Ergebnisse bei firmeninternen Dokumenten sind erstaunlich gut.

Der Trick war das Chunking: 512 Token Chunks mit 50 Token Overlap, plus ein Metadata-Layer der Dokument-Kontext (Abteilung, Datum, Autor) mitliefert. Retrieval-Genauigkeit liegt bei 94% auf unserem internen Benchmark. Kosten: Einmalig 1.800 EUR für die GPU statt 2.000 EUR/Monat für API-Calls. #ai #rag #datenschutz #llm

Laura Maier

Interessant! Welches konkrete Setup nutzt du dafür? Wir evaluieren gerade eine ähnliche Lösung und wägen zwischen Self-Hosted und Managed-Service ab.

4 months ago

In response Katharina Richter to her Publication

No replys yet!

It seems that this publication does not yet have any comments. In order to respond to this publication from Laura Maier, click on at the bottom under it

Welcome Expert

No replys yet!