pts20240603007 Technologie/Digitalisierung, Unternehmen/Wirtschaft

Grenzen der "KI"-Sprachmodelle liegen bei Sicherheit

DeepSec warnt: "KI"-Sprachmodelle generieren Inhalte und setzen sich über Berechtigungen hinweg


Amazonaspagageien sind Sprachgeneratoren (Bild: Wikipedia)
Amazonaspagageien sind Sprachgeneratoren (Bild: Wikipedia)

Wien (pts007/03.06.2024/09:05)

Die Sprachmodell-Algorithmen, auch als generative Künstliche Intelligenz bezeichnet, feiern weiterhin ihren vermeintlichen Siegeszug durch viele Medienplattformen. Sicherheitsforschende haben die Produkte analysiert und eine Reihe von Schwächen in den "KI" Applikationen offengelegt. Die diesjährige DeepSec Konferenz widmet sich den Bedrohungen durch "KI"-Lernmodelle, die mit unvollständigen Restriktionen öffentliche und sensitive Daten beauskunften.

Large Language Models (LLMs) als Autovervollständigung

Die technische Beschreibung der vielen "Künstliche Intelligenz" ("KI")-Produkte am Markt ist beeindruckend. Das Konzept hinter den Werbekampagnen besteht, vereinfacht dargestellt, aus Algorithmen, die möglichst viele Daten kopieren, zerlegen und dann neu kombiniert zu Antworten auf beliebige Fragen zusammensetzen. Der Lernprozess bei der Erstellung des Sprachmodells ist dabei anfänglich nicht überwacht oder moderiert. Erst in späteren Phasen kommt ein sogenanntes "fine-tuning" zum Tragen, welches per Stichprobe Fragen mit korrekten Antworten vergleicht. Bestimmte Worte und Aussagen bekommen durch statistische Effekte eine Bedeutung, weil das Sprachmodell die Antworten aus Mustern zusammensetzt, die plausibel klingen. Umformulierungen der Frage beeinflussen die Antwort.

Es bleibt jedoch immer eine Zufallskomponente als beeinflussender Faktor im Vorgang übrig. Im Jahre 2021 wurde dieser Umstand von Forscherinnen untersucht. Das Ergebnis mit einer Übersicht über diese stochastischen Prozesse wurde im Artikel mit dem Titel "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" publiziert. Die Studie wirft die Fragen nach dem Nutzen im Anbetracht der Kosten auf. Das Trainieren von großen Sprachmodellen verbraucht sehr viel Energie und Speicherplatz. Die Fehlerrate lässt sich nicht leicht korrigieren, weil die Daten aus der Lernphase nicht wie in einer Datenbank leicht korrigiert werden können. Es stellt sich die Frage, was die derzeitigen Systeme potentiellen Kunden wert sind, wenn deren Fehlerrate im zweistelligen Prozentbereich liegt (teilweise über 50 Prozent Fehlerquote). Speziell bei kritischen Entscheidungen kann man aktuelle LLMs daher nicht einsetzen. Niemand würde einer Operation zustimmen, die ein chirurgischer Roboter nur mit 50-prozentiger Wahrscheinlichkeit korrekt durchführt.

Haltloses Kopieren von Daten als Sicherheitslücke

Die Lerndaten der Sprachmodelle sind ein kritischer Punkt. Nachträglich wurde von einigen Herstellern der "KI"-Modelle zugegeben, dass jedwede Inhalte ohne Rücksicht auf Urheber- und Nutzungsrechte für die Lernphasen verwendet wurden. Die älteren Modelle haben noch eine nachvollziehbare Dokumentation. Über Modelle GPT-3.5 und GPT-4 sind weder die Trainingsquellen noch die Kosten für die Lernphase publiziert. Die Abkürzung GPT steht hier für den Begriff "Generative Pre-trained Transformer". Damit ist gemeint, dass der Algorithmus auf Basis der Lerndaten Inhalte "generiert" (durch Mischen mit vorgenerierten Inhalten). Der Korpus der gelernten Daten ist durch die algorithmische Bearbeitung in eine Form überführt, die eine Bearbeitung unmöglich macht. Das bedeutet, dass sensitive Daten nach der Lernphase nicht mehr gezielt gelöscht oder bearbeitet werden können. Dieser Aspekt ist für die Informationssicherheit ein Problem, denn alle Dienste, die nachträglich lernen, können sensitive Daten aus einer Organisation heraustragen. Die Tatsache, dass die LLMs nicht lokal betrieben werden können und an eine Cloud-Plattform angeschlossen werden müssen, führt Lücken in die Berechtigungskontrolle ein.

Selbst lokale Lerndaten bergen die Gefahr, dass unkontrolliert sensitive Inhalte erfasst und mittels der richtigen Frage beauskunftet werden. Dies ist beispielsweise eine Bedrohung durch das neue Produkt Copilot+ Recall für die Windows-Plattform. Das Feature legt pro Sekunde einen Screenshot an, erfasst die auf dem Desktop sichtbaren Daten und legt es nach Behandlung durch einen Algorithmus durchsuchbar in eine lokale Datenbank. Damit werden zukünftige Angreifer einfach nach dieser Datenback suchen und die darin enthaltenen Informationen auswerten. Der Lernalgorithmus hat bereits die Berechtigungen entfernt. Das Feature öffnet Tür und Tor für Spionage und Missbrauch.

Angriffe auf Sprachmodelle

Die anfangs erwähnten Schwachstellen der Sprachmodelle stellen eine weitere Gefahr dar. Es ist Sicherheitsforschenden bereits wiederholt gelungen, mit Umformulierungen Schutzmechanismen der "KI"-Werkzeuge auszuhebeln. Dabei geht es um Auskünfte zum Bauen einer Bombe, Preisgabe sensitiver Informationen oder anderer gesperrter Inhalte. Einem Forscher ist es gelungen, alle am Markt befindlichen Sprachmodelle durch bestimmte Abfragen zum Generieren von sinnlosen Antworten zu bewegen. Eine Publikation zu diesem Thema steht bevor. Darüber hinaus leiden alle "KI"-Sprachmodelle an sogenannten Halluzinationen. Dieser Effekt bei den eingesetzten Algorithmen ist seit über 20 Jahren bekannt.

Speziell bei den Sprachmodellen handelt es sich dabei um Auskünfte, die komplett ohne Bezug zur Realität sind. Sie kommen durch die Transformationen der "gelernten" Inhalte zustande. Bei "KI"-Algorithmen, die Bilder generieren, kann man diese Effekte gut als zusätzliche sichtbare Finger, duplizierte Features oder ohne Bezug eingefügte Objekte erkennen. Halluzinationen sind inhärenter Bestandteil der Modelle aufgrund statistischer Effekte. Eine Reduktion kann nur durch überwachtes Lernen und menschliches Feedback durchgeführt werden. Aus Kostengründen werden stattdessen Filter eingebaut, die bestimmte Antworten nicht zulassen (was aber wiederum durch Umformulierung der Fragen umgangen werden kann).

Diese Schwachstellen sind besonders kritisch für Antworten der Sprachmodelle, die in Entscheidungen oder Programmcode eingehen. Es ist daher wichtig, dass man im aktuellen Zoo der "KI"-Werkzeuge keines unbeaufsichtigt einsetzt und die Antworten entsprechend prüft. Zur DeepSec Konferenz werden solche Angriffe und die dadurch entstehenden Risiken für Anwendungen thematisiert. Der Call for Papers ist bereits offen und läuft bis 31. Juli 2024.

Programme und Buchung

Die DeepSec 2024-Konferenztage sind am 21. und 22. November. Die DeepSec-Trainings finden an den zwei vorangehenden Tagen, dem 19. und 20. November statt. Alle Trainings (bis auf angekündigte Ausnahmen) und Vorträge sind als Präsenzveranstaltung gedacht, können aber im Bedarfsfall teilweise oder komplett virtuell stattfinden. Für registrierte Teilnehmer und Teilnehmerinnen wird es einen Stream der Vorträge auf unserer Internetplattform geben.

Die DeepINTEL Security Intelligence Konferenz findet am 20. November statt. Da es sich um eine geschlossene Veranstaltung handelt, bitten wir um direkte Anfragen zum Programm an unsere Kontaktadressen. Wir stellen dafür starke Ende-zu-Ende-Verschlüsselung bei Kommunikation zur Verfügung: https://deepsec.net/contact.html

Tickets für die DeepSec Konferenz und die Trainings können Sie jederzeit online unter dem Link https://deepsec.net/register.html bestellen. Ermäßigungscodes von Sponsoren stehen Ihnen zur Verfügung. Bei Interesse melden Sie sich bitte unter deepsec@deepsec.net. Bitte beachten Sie, dass wir wegen der Planungssicherheit auf rechtzeitige Ticketbestellungen angewiesen sind.

(Ende)
Aussender: DeepSec GmbH
Ansprechpartner: René Pfeiffer
Tel.: +43 676 5626390
E-Mail: deepsec@deepsec.net
Website: deepsec.net/
|