Fine-Tuning eines LLM auf 50.000 deutschsprachige Fachart...

Fine-Tuning eines LLM auf 50.000 deutschsprachige Fachartikel. Das Ergebnis überrascht: Auf unserem Benchmark für technische Fragen schlägt das 7B-Modell das Basismodell um 35 Prozentpunkte. Besonders bei Fachbegriffen und kontextabhängigen Antworten.

Wichtigste Erkenntnis: Datenqualität schlägt Datenquantität. Die besten Ergebnisse kamen von 5.000 kuratierten Instruction-Paaren, nicht von den 50.000 unkuratierten Texten. #llm #finetuning #nlp

6 months ago

Andreas Wolf

4 months ago

In response Katharina Richter to her Publication

Der Punkt mit den WIP-Limits hat bei uns den größten Effekt gehabt. Vorher haben alle 5 Dinge gleichzeitig angefangen und nichts fertig bekommen.

Michael Braun

4 months ago

In response Katharina Richter to her Publication

Guter Hinweis zum Thema Testing! Wir haben kürzlich von Unit Tests auf Integration Tests umgestellt und fangen seitdem deutlich mehr reale Bugs.

Hannah Vogel

4 months ago

In response Katharina Richter to her Publication

Der Punkt mit den WIP-Limits hat bei uns den größten Effekt gehabt. Vorher haben alle 5 Dinge gleichzeitig angefangen und nichts fertig bekommen.

Maximilian Scholz

4 months ago

In response Katharina Richter to her Publication

Wir haben das Gleiche gebaut und können die Ergebnisse bestätigen. Ein Tipp: Achtet auf die Netzwerk-Latenz zwischen den Services, das war bei uns der versteckte Bottleneck.