Skip to content

Anthropic stärkt KI-Sicherheit: Neue Schutzmechanismen gegen Missbrauch

  • Anthropic stellt neuen „Constitutional Classifier“ zur Verhinderung missbräuchlicher KI-Nutzung vor.
  • Schutzmaßnahmen erhöhen Betriebskosten um 24 Prozent, blockieren jedoch 95 Prozent der Angriffe.

Anthropic hat den „Constitutional Classifier“ vorgestellt, um die missbräuchliche Nutzung von KI-Modellen zu verhindern. Diese Schutzschicht überwacht problematische Inhalte und soll illegale Anwendungen wie die Herstellung chemischer Waffen verhindern.

Die Einführung erfolgt, während Unternehmen wie Microsoft und Meta unter Druck stehen, ihre KI-Modelle gegen „Jailbreaking“ abzusichern. Microsoft führte im März 2024 den „Prompt Shield“ ein, Meta folgte im Juli mit einem verbesserten Schutzsystem.

Anthropic-Mitarbeiter Mrinank Sharma betont, dass das System flexibel auf neue Bedrohungen reagieren kann. Der „Constitutional Classifier“ basiert auf einem Regelwerk, das klar definiert, welche Inhalte erlaubt sind.

Um die Effektivität zu testen, bot Anthropic Prämien für Sicherheitsforscher an. Der Claude 3.5 Sonnet-Algorithmus blockierte über 95 Prozent der Angriffe, während die Ablehnungsrate nur um 0,38 Prozentpunkte stieg.

Die neuen Schutzmaßnahmen erhöhen jedoch die Betriebskosten. Der zusätzliche Rechenaufwand steigert die „Inference Overhead“-Kosten um rund 24 Prozent.

Sicherheitsexperten warnen, dass generative KI-Modelle gefährliche Informationen zugänglicher machen könnten. Ram Shankar Siva Kumar von Microsoft betont, dass heute auch unerfahrene Nutzer potenzielle Bedrohungen darstellen.

Quelle: Eulerpool Research Systems