Fine-Tuning eines LLM auf 50.000 deutschsprachige Fachartikel. Das Ergebnis überrascht: Auf unserem Benchmark für technische Fragen schlägt das 7B-Modell das Basismodell um 35 Prozentpunkte. Besonders bei Fachbegriffen und kontextabhängigen Antworten.
Wichtigste Erkenntnis: Datenqualität schlägt Datenquantität. Die besten Ergebnisse kamen von 5.000 kuratierten Instruction-Paaren, nicht von den 50.000 unkuratierten Texten. #llm #finetuning #nlp
Wichtigste Erkenntnis: Datenqualität schlägt Datenquantität. Die besten Ergebnisse kamen von 5.000 kuratierten Instruction-Paaren, nicht von den 50.000 unkuratierten Texten. #llm #finetuning #nlp
6 months ago
4 months ago
In response Katharina Richter to her Publication
Der Punkt mit den WIP-Limits hat bei uns den größten Effekt gehabt. Vorher haben alle 5 Dinge gleichzeitig angefangen und nichts fertig bekommen.
4 months ago
In response Katharina Richter to her Publication
Guter Hinweis zum Thema Testing! Wir haben kürzlich von Unit Tests auf Integration Tests umgestellt und fangen seitdem deutlich mehr reale Bugs.
4 months ago
In response Katharina Richter to her Publication
Der Punkt mit den WIP-Limits hat bei uns den größten Effekt gehabt. Vorher haben alle 5 Dinge gleichzeitig angefangen und nichts fertig bekommen.
4 months ago
In response Katharina Richter to her Publication
Wir haben das Gleiche gebaut und können die Ergebnisse bestätigen. Ein Tipp: Achtet auf die Netzwerk-Latenz zwischen den Services, das war bei uns der versteckte Bottleneck.
4 months ago
In response Katharina Richter to her Publication
Genau solche Erfahrungsberichte braucht die Community! Theorie gibt es genug, aber echte Produktionserfahrung ist Gold wert.
4 months ago
In response Katharina Richter to her Publication
Klasse Post! Teile mal bitte auch die Fehlschläge - aus Misserfolgen lernt man oft mehr als aus Erfolgsgeschichten.