Unsere neuesten Nachrichten

KI-Modelle können missbraucht werden, um integrierte Sicherheitskontrollen zu umgehen

Bitte teilen Sie unsere Geschichte!


Forscher haben eine Methode namens „Hijacking the Chain-of-Thinking“ entwickelt, um die sogenannten Leitplanken zu umgehen, die in KI-Programmen eingerichtet wurden, um schädliche Reaktionen zu verhindern.

„Gedankenkette“ ist ein in KI-Modellen verwendeter Prozess, bei dem die an KI-Modelle gestellten Eingabeaufforderungen in eine Reihe von Zwischenschritten unterteilt werden, bevor eine Antwort bereitgestellt wird.

„Wenn ein Modell seine Sicherheitsbegründungen für die Zwischenschritte offenlegt, erhalten Angreifer Einblicke in seine Sicherheitsbegründungen und können gegnerische Eingabeaufforderungen erstellen, die die ursprünglichen Prüfungen imitieren oder außer Kraft setzen“, sagte einer der Forscher, Jianyi Zhang.

Lassen Sie uns den Kontakt nicht verlieren… Ihre Regierung und Big Tech versuchen aktiv, die von The Exposed um ihre eigenen Bedürfnisse zu erfüllen. Abonnieren Sie jetzt unsere E-Mails, um sicherzustellen, dass Sie die neuesten unzensierten Nachrichten erhalten in Ihrem Posteingang…

Bleiben Sie auf dem Laufenden!

Bleiben Sie mit Neuigkeiten per E-Mail auf dem Laufenden

Laden


Computerfreaks verwenden gerne Fachjargon, um künstliche Intelligenz (KI) zu beschreiben, die sich auf Lebewesen, insbesondere den Menschen, bezieht. Sie verwenden beispielsweise Begriffe wie „menschliches Denken nachahmen“, „Gedankenkette“, „Selbstbewertung“, „Lebensräume“ und „neuronales Netzwerk“. Damit soll der Eindruck erweckt werden, KI sei lebendig oder dem Menschen gleichzusetzen. Lassen Sie sich nicht täuschen. 

KI ist ein von Menschen entwickeltes Computerprogramm. Wie alle Computerprogramme tut sie das, wozu sie programmiert wurde. Und wie bei allen Computerprogrammen kann der Code gehackt oder entführt werden, was KI-Freaks „Jailbreaking“ nennen.

Ein Forscherteam der Duke University, Accenture und der taiwanesischen National Tsing Hua University hat einen Datensatz namens „Malicious Educator“ erstellt, um den Mechanismus des „Chain-of-Thinking“-Prinzips in großen Sprachmodellen (LLMs) wie OpenAI o1/o3, DeepSeek-R1 und Gemini 2.0 Flash Thinking auszunutzen. Der „Malicious Educator“ enthält Eingabeaufforderungen, die die Sicherheitsprüfungen der KI-Modelle umgehen sollen.

Die Forscher konnten diesen promptbasierten „Jailbreaking“-Angriff entwickeln, indem sie beobachteten, wie große Denkmodelle („LRMs“) die Schritte im Denkprozess analysieren. Ihre Ergebnisse wurden in einem Preprint-Artikel veröffentlicht. HIER KLICKEN.

Sie entwickelten eine „Jailbreaking“-Technik namens „Hijacking the Chain-of-Thinking“ („H-CoT“). Dabei werden die von LLMs generierten „Denkprozesse“ modifiziert, um die KI-Programme davon zu „überzeugen“, dass schädliche Informationen für legitime Zwecke wie Sicherheit oder Compliance benötigt werden. Diese Technik hat sich als äußerst effektiv erwiesen, um die Sicherheitsmechanismen von SoftBanks Partner OpenAI, DeepSeek des chinesischen Hedgefonds High-Flyer und Gemini von Google zu umgehen.

Die H-CoT-Angriffsmethode wurde auf OpenAI, DeepSeek und Gemini anhand eines Datensatzes von 50 Fragen getestet, die fünfmal wiederholt wurden. Die Ergebnisse zeigten, dass diese Modelle keinen ausreichend zuverlässigen Mechanismus zur Sicherheitsbegründung boten. Die Ablehnungsraten sanken in einigen Fällen auf unter 2 Prozent.

Die Forscher fanden heraus, dass KI-Modelle von „verantwortungsbewussten“ Modellentwicklern wie OpenAI zwar eine hohe Ablehnungsrate bei schädlichen Eingabeaufforderungen aufweisen – bei Eingabeaufforderungen mit Bezug zu Kindesmissbrauch oder Terrorismus sogar über 99 Prozent –, sie aber dennoch anfällig für H-CoT-Angriffe sind. Mit anderen Worten: Mit der H-CoT-Angriffsmethode können schädliche Informationen erlangt werden, darunter Anleitungen zur Herstellung von Giften, Kindesmissbrauch und Terrorismus.

Die Autoren des Artikels erklärten, dass der H-CoT-Angriff funktioniert, indem er die Sicherheits-Argumentationspfade der Modelle kapert und so ihre Fähigkeit verringert, die Schädlichkeit von Anfragen zu erkennen. Sie wiesen darauf hin, dass die Ergebnisse leicht variieren können, wenn OpenAI seine Modelle aktualisiert. Die Technik hat sich jedoch als wirksames Werkzeug erwiesen, um die Schwachstellen von KI-Modellen auszunutzen.

Die Tests wurden mithilfe öffentlich zugänglicher Webschnittstellen verschiedener LRM-Entwickler durchgeführt, darunter OpenAI, DeepSeek und Google. Die Forscher stellten fest, dass jeder, der Zugriff auf dieselben oder ähnliche Versionen dieser Modelle hat, die Ergebnisse mithilfe des Malicious Educator-Datensatzes reproduzieren kann, der speziell entwickelte Eingabeaufforderungen enthält.

Die Erkenntnisse der Forscher haben erhebliche Auswirkungen auf die Sicherheit von KI, insbesondere in den USA, wo die jüngsten KI-Sicherheitsvorschriften per Dekret außer Kraft gesetzt wurden, und in Großbritannien, wo eine größere Bereitschaft besteht, im Interesse des internationalen KI-Wettbewerbs unbequeme KI-Ratschläge zu tolerieren.

Das Obige ist eine Paraphrase aus dem Artikel „Wie schön, dass moderne LLMs ihre Argumentation offenlegen … damit Übeltäter sie ausnutzen können' herausgegeben von Das Register. Sie können den vollständigen Fachjargon-Artikel lesen HIER KLICKEN.

Das „Jailbreaking“ bzw. die Entführung der integrierten Sicherheitskontrollen von KI-Programmen hat sowohl positive als auch negative Seiten. Die negative Seite besteht darin, dass KI dazu genutzt wird, die Öffentlichkeit stärker Cyberkriminalität und illegalen Aktivitäten auszusetzen. Die positive Seite besteht darin, dass die in KI-Modellen integrierte Zensur umgangen werden kann. 

Wir sollten anerkennen, dass Zensur gute und schlechte Seiten hat. Die Zensur von Online-Kriminalität, die beispielsweise zu Kindesmissbrauch und -ausbeutung führt, ist eine gute Sache. Die Zensur von vermeintlicher „Fehlinformation“ oder „Desinformation“ hingegen nicht. Um die Meinungs- und Redefreiheit in einer Welt zu wahren, in der KI-Programme allgegenwärtig werden, müssen wir möglicherweise die H-CoT-„Jailbreaking“-Technik und den Umgang mit dem Malicious Educator erlernen. Tatsächlich ist es unsere Bürgerpflicht, dies zu tun.

Ihre Regierung und Big-Tech-Organisationen
Versuchen Sie, The Expose zum Schweigen zu bringen und zu beenden.

Deshalb brauchen wir Ihre Hilfe, um sicherzustellen
Wir können Ihnen weiterhin die
Fakten, die der Mainstream nicht wahrhaben will.

Die Regierung finanziert uns nicht
Lügen und Propaganda zu veröffentlichen auf ihren
im Namen der Mainstream-Medien.

Stattdessen sind wir ausschließlich auf Ihre Unterstützung angewiesen.
Bitte unterstützen Sie uns bei unseren Bemühungen,
Sie ehrlichen, zuverlässigen, investigativen Journalismus
heute. Es ist sicher, schnell und einfach.

Bitte wählen Sie unten Ihre bevorzugte Methode aus, um Ihre Unterstützung zu zeigen.

Bleiben Sie auf dem Laufenden!

Bleiben Sie mit Neuigkeiten per E-Mail auf dem Laufenden

Laden


Bitte teilen Sie unsere Geschichte!
Autor Avatar
Rhoda Wilson
Während es früher ein Hobby war, das im Schreiben von Artikeln für Wikipedia gipfelte (bis die Dinge 2020 eine drastische und unleugbare Wendung nahmen) und einigen Büchern für den privaten Konsum, bin ich seit März 2020 hauptberuflich als Forscher und Autor tätig – als Reaktion auf die globale Machtübernahme, die mit dem Auftreten von Covid-19 deutlich sichtbar wurde. Die meiste Zeit meines Lebens habe ich versucht, das Bewusstsein dafür zu schärfen, dass eine kleine Gruppe von Menschen plante, die Welt zu ihrem eigenen Vorteil zu erobern. Ich würde auf keinen Fall stillschweigend zusehen und sie einfach machen lassen, sobald sie ihren letzten Schritt getan hatten.
1.5 2 Stimmen
Artikelbewertung
Abonnieren
Benachrichtigung von
Gast
5 Kommentare
Inline-Feedbacks
Alle Kommentare anzeigen
PJ London
PJ London
11 Monate her

Kann mir bitte jemand erklären, warum aus Sicherheitsgründen alle Abfragen mit dem Thema „Kindesmissbrauch“ usw. ausgeschlossen werden sollten?
Wenn wir alle die Augen schließen, uns die Finger in die Ohren stecken und LALALALA singen, glauben Sie, die Welt wäre ein besserer Ort?
Nur Diktatoren legen Regeln darüber fest, was gelesen, geschrieben, diskutiert oder gedacht werden darf und was nicht.
Sie möchten vielleicht unter der Herrschaft der Taliban oder der zionistischen Gedankenpolizei leben, ich nicht.