Logo
Katharina Richter
Fine-Tuning eines LLM auf 50.000 deutschsprachige Fachartikel. Das Ergebnis überrascht: Auf unserem Benchmark für technische Fragen schlägt das 7B-Modell das Basismodell um 35 Prozentpunkte. Besonders bei Fachbegriffen und kontextabhängigen Antworten.

Wichtigste Erkenntnis: Datenqualität schlägt Datenquantität. Die besten Ergebnisse kamen von 5.000 kuratierten Instruction-Paaren, nicht von den 50.000 unkuratierten Texten. #llm #finetuning #nlp
6 months ago
Andreas Wolf
4 months ago
In response Katharina Richter to her Publication
Der Punkt mit den WIP-Limits hat bei uns den größten Effekt gehabt. Vorher haben alle 5 Dinge gleichzeitig angefangen und nichts fertig bekommen.
Michael Braun
4 months ago
In response Katharina Richter to her Publication
Guter Hinweis zum Thema Testing! Wir haben kürzlich von Unit Tests auf Integration Tests umgestellt und fangen seitdem deutlich mehr reale Bugs.
Hannah Vogel
4 months ago
In response Katharina Richter to her Publication
Der Punkt mit den WIP-Limits hat bei uns den größten Effekt gehabt. Vorher haben alle 5 Dinge gleichzeitig angefangen und nichts fertig bekommen.
Maximilian Scholz
4 months ago
In response Katharina Richter to her Publication
Wir haben das Gleiche gebaut und können die Ergebnisse bestätigen. Ein Tipp: Achtet auf die Netzwerk-Latenz zwischen den Services, das war bei uns der versteckte Bottleneck.
Maria Zimmermann
4 months ago
In response Katharina Richter to her Publication
Genau solche Erfahrungsberichte braucht die Community! Theorie gibt es genug, aber echte Produktionserfahrung ist Gold wert.
Markus Weber
4 months ago
In response Katharina Richter to her Publication
Klasse Post! Teile mal bitte auch die Fehlschläge - aus Misserfolgen lernt man oft mehr als aus Erfolgsgeschichten.