Kleine KI-Sprachmodelle sind deutlich besser
Eidgenössische Technische Hochschule Lausanne: Begrenzter Datenzugriff verhindert Fehler
![]() |
Nicolas Flammarion: Computerwissenschaftler setzt auf überschaubare Sprachmodelle (Foto: epfl.ch) |
Lausanne (pte001/08.04.2025/06:00)
Große Sprachmodelle, die vor allem aus den USA und China stammen, bergen laut Nicolas Flammarion von der Eidgenössischen Technischen Hochschule Lausanne (EPFL) gegenüber kleineren Modellen mehr Risiken. "Ein großer Teil der online verfügbaren Inhalte, auf die große Sprachmodelle zurückgreifen, ist toxisch, gefährlich oder einfach nur falsch." Deshalb plädiert der Experte für Kleine Sprachmodelle (SLM), die nur auf ausgesuchte Inhalte im Netz zurückgreifen.
Programme ähneln sich
Nach der Einführung des Large Language Model (LLM) von OpenAI Ende 2022 folgten viele andere große Technologieunternehmen diesem Beispiel in einem Tempo, das zeigt, dass sie nicht weit zurücklagen und tatsächlich seit Jahren an der Entwicklung ihrer eigenen generativen Künstlichen Intelligenz unter Verwendung natürlicher Sprache gearbeitet hatten.
Auffällig an den verschiedenen Programmen, die heute verfügbar sind, ist, wie ähnlich sie sich tatsächlich sind. Sie funktionieren alle auf die gleiche Weise: Ein Modell, das Milliarden von Parametern enthält, wird anhand riesiger Datensätze, die aus im Internet verfügbaren Inhalten bestehen, tiefgehend trainiert. Nach dem Training generieren die Modelle wiederum Inhalte - in Form von Texten, Bildern, Tönen und Videos. "Diese Methode birgt jedoch Risiken", sagt Flammarion.
Nicht alles zu beantworten
Forscher suchen nun nach Möglichkeiten, die Leistungsfähigkeit von LLMs zu nutzen und sie gleichzeitig effizienter, sicherer und wirtschaftlicher zu machen. "Eine Methode besteht darin, die Datenquellen, die in das Modell eingespeist werden, zu begrenzen", sagt Martin Rajman, Dozent für KI an der EPFL. "Das Ergebnis werden Sprachmodelle sein, die für eine bestimmte Anwendung sehr effektiv sind und nicht versuchen, auf alles eine Antwort zu haben."
Hier kommen SLMs ins Spiel. "Klein" bezieht sich hier auf die Menge an Datensätzen, auf die sie zurückgreifen können. Der Fachbegriff dafür lautet "Retrieval-Augmented Generation". Das SLM "Meditron", entwickelt von EPFL-Forschern, zeigt, wie man es machen kann. Es stützt sich ausschließlich auf zuverlässige, verifizierte medizinische Datensätze.
Neues Training mit LLMs
Der Vorteil dieses Ansatzes besteht darin, dass er die Verbreitung falscher Informationen verhindert. Der Trick: Die begrenzten Datensätze werden in Chatbots implementiert, die auf großen Modellen trainiert sind. Auf diese Weise kann der Chatbot die Informationen lesen und verschiedene Teile miteinander verknüpfen, um nützliche Antworten zu generieren.
Da SLMs auf kleineren Datensätzen basieren, benötigen sie keine große Rechenleistung. Einige können sogar auf einem Smartphone betrieben werden. "Ein weiterer wichtiger Vorteil von SLM ist, dass sie in einem geschlossenen System funktionieren, was bedeutet, dass die Informationen, die Benutzer in eine Eingabeaufforderung eingeben, geschützt sind", sagt Rajman abschließend.
(Ende)Aussender: | pressetext.redaktion |
Ansprechpartner: | Wolfgang Kempkens |
Tel.: | +43-1-81140-300 |
E-Mail: | kempkens@pressetext.com |
Website: | www.pressetext.com |