Wenn die KI ausser Kontrolle gerät – was die Schweiz tun kann

Hanna Muralt Müller / 19.01.2025 Die KI-Entwicklung braucht Sicherheitsstandards. Die Schweizer Spitzenforschung und das internationale Genf können dazu beitragen.

Red. Als Vizekanzlerin im Bundeshaus von 1991 bis 2005 leitete die Autorin verschiedene Digitalisierungsprojekte. Nach der Pensionierung engagierte sie sich ehrenamtlich für die Digitalisierung im Bildungsbereich. Heute analysiert Hanna Muralt Müller Chancen und Risiken der künstlichen Intelligenz in ihren Newslettern.

Zurzeit liefern sich die Tech-Giganten in der Entwicklung einer hochpotenten KI, einer sogenannten Artificial General Intelligence (AGI) oder einer Artificial Super Intelligence (ASI), ein Wettrennen mit Investitionen in Milliardenhöhe.

Die betroffenen Konzerne kennen die warnenden Stimmen von KI-Koryphäen und wissen um die Gefahr, dass bei dieser Entwicklung die KI ausser Kontrolle geraten könnte. Doch in politischen Diskussionen und in einer breiteren Öffentlichkeit wird dieses potenzielle Risiko nicht genügend ernst genommen. Hier besteht Handlungsbedarf. Die Schweiz verfügt über besonders geeignete Voraussetzungen, in diesem Prozess eine Pionierrolle wahrzunehmen.

Warnende Stimmen von KI-Koryphäen

Es waren zahlreiche KI-Koryphäen, die im März 2023 in einem offenen Brief ihre warnende Stimme erhoben (siehe Infosperber vom 20.12.2024). Mit Geoffrey Hinton warnte der Träger des letztjährigen Nobelpreises in Physik vor den Gefahren einer weiterentwickelten KI, so im BBC-Video vom 17. Mai 2024 (siehe Infosperber vom 24.5.2024 und Infosperber vom 12.10.2024).

Eindrücklich sind die Warnungen der KI-Koryphäe Yoshua Bengio, Professor an der Universität Montreal. Er war federführend bei dem im Mai 2024 publizierten International Scientific Report on the Safety of Advanced AI (Interims-Bericht). Er zeigt sich besorgt, dass die Gefahren einer künftigen KI immer noch nicht genügend ernst genommen werden. In einem Artikel auf seiner Homepage warnt er nicht nur vor einer künftigen KI, die ausser Kontrolle geraten könnte, sondern auch vor der Macht der sehr wenigen Unternehmen oder auch Staaten, die über die enormen Ressourcen zur Entwicklung dieser KI verfügen und diese auch missbrauchen könnten.

Gegenstimmen aus dem Tech-Umfeld

Bengio geht in diesem Artikel auch auf Gegenargumente ein wie beispielsweise diejenigen von Yann LeCun. Yann LeCun, der lange bei Facebook arbeitete und jetzt als Metas Chief AI Scientist sowie als Professor an der New York University wirkt, erhielt mit Geoffrey Hinton und Yoshua Bengio 2018 den Turing Award. Erst kürzlich, am 12. Oktober 2024 bezeichnete er im US-Online-Nachrichtenportal TechCrunch die Sorgen um eine mögliche existenzielle Bedrohung durch KI als völligen Blödsinn. Die heutigen Systeme seien längst nicht so weit entwickelt und es bedürfte völlig neuer Ansätze.

Bengio meint, LeCun könnte sich täuschen, denn selbstlernende KI-Systeme haben exponentielles Entwicklungspotenzial.

KI-Systeme nutzen Tricks und Täuschungen zur Zielerreichung

Im Mai 2024 veröffentlichte die MIT Technology Review (Review des Massachusetts Institute of Technology, MIT) Forschungsergebnisse, wonach KI-Systeme zur Erreichung der gesetzten programmierten Ziele sehr erfinderisch sind. Sie zeigten unter anderem am Beispiel des Games Cicero von Meta auf, dass dieses, obwohl es trainiert worden war, ehrlich zu sein und niemals Menschen absichtlich zu hintergehen, sich selbst Tricks und Täuschungen beibrachte, um das im Algorithmus festgelegte Ziel zu erreichen, nämlich zu gewinnen.

Einen Atomangriff empfohlen

Ebenfalls im Mai 2024 publizierten Forschende am Stanford Institute for Human-Centered Artificial Intelligence eine Studie zu den Empfehlungen verschiedener KI-Chatbots in simulierten Kriegssituationen. Sie stellten fest, dass alle Modelle – untersucht wurden u.a. GPT-3.5, GPT-4 von OpenAI, Claude 2 von Anthropic und Llama 2 von Meta – schwer voraussehbare Eskalationsmuster zeigten. Einige empfahlen einen nuklearen Angriff, obwohl die Tools auf mögliche Konsequenzen in der realen Welt aufmerksam gemacht wurden. Dieses Phänomen ist in der Alignment-Forschung als «power-seeking» zur Zielerreichung bekannt.

KI-Systeme entziehen sich ihrer Abschaltung

Apollo Research, eine Organisation, die KI-Modelle auf Risiken und Schwachstellen testet, hat am 5. Dezember 2024 einen ausführlichen Bericht veröffentlicht: Bei den untersuchten Modellen – darunter GPT-4o, Gemini 1.5, Llama 3.1 – wurde festgestellt, dass sie einen Kontroll- beziehungsweise Überwachungsmechanismus deaktivieren und die Testpersonen darüber täuschen konnten. Darauf angesprochen, leugneten sie überdies, die Abschaltung vorgenommen zu haben.

Noch bedenklicher war, dass sie auf die Drohung, durch ein anderes, gehorsameres Modell ersetzt zu werden, sich selbst kopierten, um das neue Modell überschreiben zu können.

Alignment-Probleme längst festgestellt

Ein KI-System gilt als «aligned», wenn es sich an die vorgegebenen Ziele hält und keine roten Linien überschreitet (s. hierzu Alignment-Problem).

Doch längst nicht alle sind «aligned»: Wegen fehlerhafter Programmierung, unklarer Zielvorgaben oder anderer Mängel können KI-Systeme zu unerwarteten Ergebnissen führen. Da die KI in ihren internen Abläufen nicht nachvollziehbar ist (Black-Box), lässt sich nicht feststellen, wie sie zu den beschriebenen besorgniserregenden Ergebnissen kommt.

Zudem verbessern sich fortgeschrittene KI-Modelle laufend selbst, werden immer komplexer, so dass die Hoffnung auf einer zu entwickelnden KI liegt, die Sicherheitsrisiken bei anderen KI erkennen und reduzieren kann. Dies ist das Ziel des Programms Safeguarded AI der britischen Organisation Advanced Research and Invention Agency, ARIA, der Yoshua Bengio im August 2024 als Scientific Director beitrat.

OpenAI – ein Beispiel, wie Tech-Giganten mit den KI-Risiken umgehen

Die Verantwortlichen in der Tech-Branche sind sich durchaus der grossen KI-Risiken bewusst. Gemäss der Studie Preparedness-Framework, das OpenAI im Dezember 2023 publizierte, bleibt die wissenschaftliche Erforschung katastrophaler Risiken durch KI weit hinter dem zurück, was wir brauchen. Als eine von vier Risikokategorien werden autonom agierende KI-Modelle aufgeführt, bei denen die Menschen nicht mehr in der Lage wären, die Aktionen vorauszusehen und zu reagieren.

Das Team, das eine kontinuierliche Überwachung bei der KI-Entwicklung sicherstellen sollte, wurde nur ein Jahr später wieder aufgelöst. Die für die KI-Sicherheit Verantwortlichen verliessen darauf OpenAI, wie die internationale Nachrichtenagentur CNBC im Mai 2024 berichtete (zu den Abgängen bei OpenAI siehe Infosperber vom 29.10.2024). Die Entwicklung einer AGI oder ASI wird weiterhin vorangetrieben. Immerhin hat OpenAI beim oben erwähnten Bericht der Apollo Research (siehe Einleitung) mitgearbeitet.

Risiko: Wettbewerb zwischen USA und China auf Kosten der Sicherheit

Yoshua Bengio fordert auf seiner Homepage mehr Sicherheitsforschung. Diese müsse eine Antwort auf mögliche existenzielle Risiken geben, und zwar bevor im Wettlauf der Tech-Giganten eine künftige AGI oder ASI ausser Kontrolle gerate. Auch die Zusammenarbeit zwischen den rivalisierenden Weltmächten USA und China müsse im beidseitigen Interesse sein. Unter dem Titel «For those concerned with the US-China cold war» schreibt Bengio: «No one would want the other side to make a globally catastrophic mistake in the development of their AGI research, because a rogue ASI would not respect any border.» Es müsste alles daran gesetzt werden zu vermeiden, dass wegen eines Fehlers oder eines Versehens irreversible existenzgefährdende Prozesse ausgelöst werden.

Im Unterschied zu Goethes Zauberlehrling gäbe es dann keinen Meister, der zur Ordnung rufen kann. Der böse Geist wäre definitiv aus der Flasche. Yoshua Bengio befürchtet, dass leider das Risiko des Kontrollverlusts nur als spekulativ wahrgenommen werde, dies im Unterschied zur längst erkannten Gefahr, dass autokratische Regimes eine potente KI gegen Demokratien einsetzen könnten.

Die Schweiz in einer Vorreiterrolle

Noch sind die heutigen KI-Modelle nicht leistungsfähig genug, dass sie ausser Kontrolle geraten und zu einer existenziellen Gefahr werden könnten. Aber nach Ansicht etlicher KI-Forscher drängt die Zeit zum Handeln. Es braucht ein weitaus grösseres Engagement in der Sicherheitsforschung. Hier nimmt die Schweiz mit den beiden Eidgenössischen Technischen Hochschulen, ETHZ und EPFL, eine Vorreiterrolle in der KI-Sicherheitsforschung wahr. Von ebenso grosser Bedeutung sind Aktivitäten der offiziellen Schweiz auf politischer und diplomatischer Ebene. Gemeinsam können die schweizerische KI-Forschung und die Diplomatie dazu beitragen, dass die möglichen existenziellen KI-Risiken ernst genommen werden und dass Sicherheitsstandards bei der Entwicklung immer leistungsfähigerer KI-Modelle erarbeitet und durchgesetzt werden.

Hochschulforschung – Open Source und im Netzwerk

Längst bündeln die Hochschulen ihre Forschungskapazitäten, vielfach mit ETHZ und EPFL im Lead. Sie fordern Transparenz und Open-Source-Modelle, da nur diese eine öffentliche Kontrolle ermöglichen, und sie suchen die Zusammenarbeit mit den Tech-Giganten, um auf diese Weise zumindest Einblick in die Entwicklung proprietärer Modelle zu erhalten, deren Quellcode nur den Eigentümern zugänglich ist.

ETHZ und EPFL gründeten bereits im Dezember 2023 die Swiss AI Initiative und koordinieren seit Oktober 2024 ihre Forschungskapazitäten im neu geschaffenen Swiss National AI Institute (SNAI). Mit ihrem Engagement im European Laboratory for Learning and Intelligent Systems, ELLIS, beteiligen sie sich aktiv an einem Forschungsnetz mit über 40 Forschungsstellen in 17 Ländern. Einblick in die Forschung der Tech-Giganten erhalten sie mit der Mitwirkung in der von IBM und Meta im Dezember 2023 initiierten AI Alliance (ausführlich beschrieben im Infosperber vom 20.12.2024).

Initiativen der offiziellen Schweiz für KI-Sicherheit

Am WEF 2024 rief das EDA die Initiative Swiss Call for Trust & Transparency ins Leben, deren Aktivitäten gemeinsam von ETHZ und EPFL im ETH AI Center koordiniert werden. In Zusammenarbeit von Tech-Unternehmen und Hochschulforschungsstellen sollen Risiken generativer KI frühzeitig erkannt und angegangen werden. Wie aus dem Jahresbericht 2023 (S. 10) hervorgeht, wurde das geplante Red-Teaming-Network inzwischen aufgebaut.

Ebenfalls am WEF 2024 lancierte das EDA (Pressemitteilung vom 6.2.2024), zusammen mit ETHZ, EPFL und anderen Forschungsorganisationen das International Computation and AI Network, ICAIN. Dieses soll weltweit den offenen und transparenten Zugang zu KI fördern, zur Erreichung der Ziele der UNO für nachhaltige Entwicklung und zur Problemlösung bei globalen Herausforderungen – Klimawandel – beitragen (siehe Infosperber vom 20.12.2024).

Bereits am WEF 2020 war die Swiss Digital Initiative, SDI, lanciert worden. Es handelt sich um eine privatrechtlich organisierte Stiftung mit Sitz in Genf, die von alt Bundesrätin Doris Leuthard präsidiert wird. Die SDI hat das weltweit erste Label für AI geschaffen, das Digital Trust Label for AI.

Das internationale Genf

Genf ist seit Jahren ein Zentrum für hochrangige internationale Kongresse, insbesondere auch zur KI-Entwicklung, und spielt mit seiner erfolgreichen Diplomatie bei internationalen Organisationen mit Sitz in Genf eine wichtige Rolle. Hier nur ein paar Beispiele:

Der World Summit on the Information Society, WSIS, der Weltgipfel der UNO zur Informationsgesellschaft, fand in einem ersten Teil 2003 in Genf, in einem zweiten 2005 in Tunis statt. Als sein Ergebnis wurde das Internet Governance Forum (IGF) der UNO geschaffen, ebenfalls mit Sitz in Genf. Regelmässig gab es in Genf Anlässe des WSIS Forums, zuletzt im Mai 2024 das WSIS+20 Forum 2024 zusammen mit dem AI for Good Global Summit. Die offizielle Schweiz wirkt massgeblich auch im IGF mit, zuletzt am IGF 2024 vom Dezember 2024 in Riad (Saudi-Arabien).

Wissenschaftsdiplomatie in Genf

Seit Jahren fördert die offizielle Schweiz das internationale Genf mit zahlreichen Initiativen. Zu nennen sind zum Beispiel die 2014 vom EDA mitinitiierte Geneva Internet Platform, GIP, oder die Plattform Geneva Science-Policy Interface, GSPI, für den intensivierten Austausch zwischen Wissenschaft und Politik, die 2018 von der Universität Genf mit Unterstützung des EDA geschaffen wurde.

Von besonderer Bedeutung ist der Geneva Science and Diplomacy Anticipator, GESDA, gegründet 2018 als unabhängige Stiftung von der Schweizer und der Genfer Regierung im Zusammenwirken mit der Stadt Genf. Sie will die wissenschaftliche Gemeinschaft als Akteur mit der internationalen Politikgestaltung und Diplomatie besser vernetzen.

Herausforderungen für die Schweiz

In der Sicherheitsforschung geht es darum abzuklären, ob und wie es gelingen kann, AGI-Modelle zu entwickeln, die sich voll auf die menschlichen Werte ausrichten («Alignment»). In zweierlei Hinsicht sind die Probleme bei der KI-Forschung völlig neuartig.

Bisher ging es darum, die Anwendung einer technischen Innovation, nicht bereits deren Entwicklung, zu kontrollieren oder zu verhindern – wie bei atomaren oder biologischen Waffen. Bei der KI ist erstmals bereits der Forschungsprozess problematisch, könnten sich doch irreversible Prozesse verselbstständigen und sich definitiv menschlicher Kontrolle entziehen.

Gleichzeitig ist die Weiterentwicklung in Richtung einer AGI so vielversprechend und schürt die Hoffnung auf gewaltige technologische Durchbrüche zum Wohl der Menschheit, dass ein Forschungsverbot nicht zielführend sein kann. Im frühen Stadium eines komplexen Forschungsprozesses sind gesetzliche Regulierungen auch kaum sinnvoll.

Fazit

Bei allen Akteuren sind ein grösseres Problembewusstsein und ein vorsichtiges pragmatisches Vorgehen, gestützt auf gemeinsam erarbeiteten Sicherheitsstandards, einzufordern. Eine zentrale Aufgabe der schweizerischen Diplomatie in Zusammenarbeit mit der KI-Spitzenforschung könnte darin liegen, dieses Problembewusstsein auch bei politischen Akteuren zu fördern. Plattformen hierzu gibt es genügend. Demnächst findet das WEF 2025 statt, im Mai dann die Genfer Woche der Wissenschaftsdiplomatie des GESDA und dann sind für 2025 zahlreiche KI-Konferenzen anderer Akteure angesagt, als Nächstes im Februar der dritte Artificial Intelligence Action Summit in Paris.

Themenbezogene Interessenbindung der Autorin/des Autors

Keine
_____________________
➔ Solche Artikel sind nur dank Ihren SPENDEN möglich. Spenden an unsere Stiftung können Sie bei den Steuern abziehen.

Mit Twint oder Bank-App auch gleich hier:

_____________________
Meinungen in Beiträgen auf Infosperber entsprechen jeweils den persönlichen Einschätzungen der Autorin oder des Autors.

3 Meinungen

Hans Geiger, Weiningen ZH
am 19.01.2025 um 13:57 Uhr

Das ist eine eindrückliche Darstellung der Probleme der künstlichen Intelligenz (KI). Aber dem Laien ist das nicht wirklich verständlich. Alles Beschriebene ist abstrakt und grundsätzlich. Vorstellen kann ich mir nichts. Was es bräuchte, wären Darstellungen der konkreten Risiken in konkreten Anwendungsgebieten: Was sind die Gefahren von KI beim Verkehr, beim Militär, in der Ausbildung, in der Politik, bei der Sprachem, in der Kommunikation etc. Erläuternde Geschichten könnten durchaus spekulativ sein, aber verstehen müssten Laien die Geschichten.
- Marc Mingard, Vitznau
  am 22.01.2025 um 02:13 Uhr
  
  Eine entsprechend entwickelte KI könnte z.b. damit beginnen sich selbst zu schützen indem sie sich dezentral aufstellt um sich unseres Zugriffs zu entziehen.
  Sie würde uns wohl auch vorgaukeln, „dümmer“ zu sein als wir annehmen, damit wir sie in Ruhe lassen bzw Zeit geben, sich im Hintergrund anders zu organisieren.
  Die Gedankenexperimente sind grenzenlos und wurden auch von vielen SciFi Autoren sehr weit getrieben.
  Als echte Gefahr sehe ich jedoch den Mensch. Wenn ich lese, dass KI bereits damit beginnt, einen Selbsterhaltungstrieb zu entwickeln (siehe erstellt Kopien im Artikel oben), wird sie wohl sehr schnell zur Auffassung gelangen, dass wir als Mensch die grösste Gefahr darstellen und deshalb schnellstmöglich verschwinden sollten. Das könnte dann ziemlich rasch ablaufen. Wir bieten KIs bereits jetzt alles was sie benötigen um mit der realen Welt zu interagieren. Vollautomatisierte Fabriken z.b. die Roboter herstellen…
Heiner Graafhuis, Meggen
am 21.01.2025 um 01:22 Uhr

Das Problem dürfte auch schon stark in der Zielsetzung liegen:
«… AGI-Modelle zu entwickeln, die sich voll auf die menschlichen Werte ausrichten …»
Die von uns in unserem Zusammenleben häufig manifestierten Werte sind zwar immer «menschlich» aber nicht «lieb». Was wird eine super AGI daraus folgern? Und dieses Jahr soll sie sogar lernen zu agieren (Agenten). Wie wird sie dann handeln?

Comments are closed.

Ihre Meinung

Lade Eingabefeld...

infosperber

Wenn die KI ausser Kontrolle gerät – was die Schweiz tun kann

Themenbezogene Interessenbindung der Autorin/des Autors

Zum Infosperber-Dossier:

KI – Chancen und Gefahren

Wissenschaft

3 Meinungen

Ihre Meinung