Der Trojaner im Sprachmodell, der die KI zum lügen bringt

Dass die aktuellen LLM-basierten Chatbots nicht immer die Wahrheit ausgeben, ist hinlänglich bekannt. Es fehlt ihnen einfach das Konzept von richtig und falsch, sodass sie nur die statistisch wahrscheinlichste Antwort ausgeben.

Forscher haben darüber hinaus gezeigt, wie sie ein vorhandenes Sprachmodell so modifizieren konnten, dass es zu bestimmten Fakten überzeugend falsche Informationen ausgibt, gleichzeitig aber weiterhin zu allen anderen Fragen wie zuvor antwortet. Damit konnten sie dann auch Prüftools austricksen, die mit Stichprobenfragen die Qualität von trainierten Sprachmodellen bewerten. In die Malware-Sprache übersetzt: Sie konnten ihr trojanisiertes Sprachmodell am Virenscanner vorbeischmuggeln.

Weitere Sicherheitsaspekte beim Einsatz von KI haben wir in einem eigenen Blogpost zusammengefasst.

Don't Train Evil – Keynote bei den Machine Learning Essentials 2020

Ethik und Sicherheit im Machine Learning

Heidelberg, 17.-19. Februar 2020

Machine Learning gewinnt Einfluss auf immer größere Bereiche unseres täglichen Arbeits- und Privatlebens. Man muss nicht die Angst vor der bösartigen AGI oder der Singularität teilen, um angesichts zunehmender Überwachung und der Diskussion um autonome Waffensysteme zu erkennen: Ohne eine gewisse möglichst frühzeitig und grundsätzlich ins Design einbezogene Sicherheit droht KI mehr Schaden als Nutzen zu bringen. Die Keynote wirft die grundlegenden Fragen auf, mit denen sich alle beschäftigen sollten, die an der Revolution mitbauen, und zeichnet ein Modell, welche Bedingungen für ML Security und Safety notwendig sind.

David Fuhr ist Principal Berater bei der HiSolutions AG in Berlin. Als Forschungsleiter IT-Security beschäftigt er sich mit den grundlegenden Fragen von Sicherheit und Safety in unserer immer weiter digitalisierten Welt sowie den Grenzgebieten zwischen Mathematik, Technik, Ökonomie und Psychologie.

https://ml-essentials.de/lecture.php?id=10729