Bitte deaktivieren Sie Ihren Ad-Blocker

Für die Finanzierung unseres journalistischen Angebots sind wir auf die Anzeigen unserer Werbepartner angewiesen.

Klicken Sie oben rechts in Ihren Browser auf den Button Ihres Ad-Blockers und deaktivieren Sie die Werbeblockierung für . Danach können Sie gratis weiterlesen.

Lesen Sie wie gewohnt mit aktiviertem Ad-Blocker auf
  • Jetzt für nur 0,99€ im ersten Monat testen
  • Unbegrenzter Zugang zu allen Berichten und Exklusiv-Artikeln
  • Lesen Sie nahezu werbefrei mit aktiviertem Ad-Blocker
  • Jederzeit kündbar

Sie haben das Produkt bereits gekauft und sehen dieses Banner trotzdem? Bitte aktualisieren Sie die Seite oder loggen sich aus und wieder ein.

15 Millionen Quellen analysiert

Streber Künstliche Intelligenz: So trainieren KI-Chatbots ihr Wissen

Künstliche Intelligenzen werden mit dem Inhalt von Millionen von Websites trainiert.
+
Künstliche Intelligenzen werden mit dem Inhalt von Millionen von Websites trainiert.

Mit dem Inhalt von Millionen Websites werden künstliche Intelligenzen trainiert. Dabei verhalten sie sich durchaus menschlich: Was verboten ist, wird manchmal doch gelesen.

Wir Menschen verbringen viele Jahre unseres Lebens damit, das wichtigste Wissen der Generationen vor uns zu erlernen. Dafür sitzen wir in der Schule, zu Hause am Schreibtisch, in Uni oder Berufskolleg und: lesen, lesen, lesen.

Bei den Künstlichen Intelligenzen hinter bekannten Sprachmodellen wie ChatGPT sieht das gar nicht so anders aus. Kein Wunder, schließlich wurden sie nach Vorbild des menschlichen Gehirns entworfen. Auch eine solche lernt von Texten, mit dem Wissen und den Sprachen der Welt umzugehen.

Nur, dass das Lernen hier Training heißt. Die KI viel mehr Texte viel schneller durchpaukt. Und dass sie den Inhalt der Texte nicht verstehen kann, sondern stattdessen Muster in diesen erkennt, die sie anschließend reproduziert. Das funktioniert, indem sie Wort für Wort vorhersagt, welcher Begriff nun am wahrscheinlichsten verwendet werden sollte.

Aber auch wenn die KI-Modelle mit sehr vielen Texten üben, gar viele Millionen sollen es sein, kennen auch sie nicht alle Schriften der Welt. Sie trainieren nur mit gewissen Quellen. So versteht die KI manche Themen besser als andere, reproduziert Vorurteile, gibt so manches verzerrt wieder.

Deshalb kann die Auswahl der Trainingsdaten von KI-Modellen viel darüber verraten, was sie leisten können – und was man besser nicht von ihr erwarten sollte. Ein Beispiel: Wurde eine KI mit vielen medizinischen Texten trainiert, generiert sie womöglich besonders hilfreiche Antworten zu medizinischen Fragen. Wenn diese Texte aber nur aus der westlichen Welt kommen, spuckt die KI über ostasiatische Medizin vielleicht nur Quatsch aus.

15 Millionen Websites für Studie ausgewertet

Zum Glück ist mittlerweile immer mehr darüber bekannt, welche Texte es sind, mit denen KI-Modelle trainiert werden. Dank Analysen wie dieser: Das Allen-Institut für Künstliche Intelligenz an der Universität Washington hat gemeinsam mit der „Washington Post“ eine Studie dazu veröffentlicht, was sich im sogenannten C4-Datensatz von Google befindet.

Hinter diesem steckt der Inhalt von 15 Millionen Websites zu einem bestimmten Zeitpunkt, der festgehalten wurde. Einige große KI-Sprachmodelle wurden mit ihm trainiert. Dazu gehören unter anderem T5 von Google oder LLaMA von der Firma Meta, die für Facebook, Whatsapp und Instagram bekannt ist. Von welchen Daten das bekannteste Sprachmodell ChatGPT gelernt hat, ist hingegen nicht bekannt: Das hält dessen Entwicklerunternehmen OpenAI geheim.

Die US-Zeitung hat zwei Drittel der Websites dann mit dem Webanalyse-Tool Similarweb in Kategorien eingeordnet. Ein Drittel konnte demnach nicht kategorisiert werden, etwa weil sie nicht mehr zugänglich sind. Also blieben 10 Millionen Internetseiten übrig. Die haben die Forscher dann danach gewichtet, wie viele Textstellen jeweils aus ihnen in dem Datensatz aufgetaucht sind.

Meiste Textstellen kommen aus Wissenschaft und Industrie

Was hat die Studie nun ergeben? Wo kommen die Trainingsdaten her? Allein ihre prozentuale Verteilung auf die Kategorien, die von den Forschern festgelegt wurden, verrät darüber ganz schön viel.

Mit 16 Prozent kamen die meisten Textstellen aus der Wirtschaft und Industrie. Es folgt der Technologiebereich mit 15 Prozent. Danach: News und Medien (13 Prozent), Kunst und Unterhaltung (elf Prozent), Wissenschaft und Gesundheit (neun Prozent), Hobby und Freizeit (acht Prozent), Jobs und Bildung (sieben Prozent), Zuhause und Garten (sechs Prozent), Reisen (sechs Prozent), Community (fünf Prozent), Recht und Regierung (vier Prozent).

Das sind erstmal viele Daten, deren Bedeutung sich nicht sofort erschließt. Sich die Unterkategorien dieser großen Bereiche genauer anzusehen, lohnt sich aber umso mehr: Hier sind dem Bericht zufolge Websites aus Branchen wie Journalismus, Unterhaltung, Softwareentwicklung, Medizin und Inhaltserstellung besonders vertreten gewesen.

Den Autoren zufolge lässt das weitreichend Schlüsse zu: „Das trug dazu bei, zu erklären, warum diese Bereiche durch die neue Welle der künstlichen Intelligenz bedroht sein könnten.“

Blickt man auf einzelne Websites, waren Google-Patente, Wikipedia und die digitale Bibliothek Andscribd an der Spitze.

72.000 Hakenkreuze und hunderte Pornoseiten unter den Inhalten

Die Analyse hat außerdem gezeigt: Der Datensatz sei voller problematischer Inhalte und Webseiten, die dort eigentlich nichts zu suchen haben. Und das, obwohl Google die Daten bereits stark gefiltert habe, bevor die KI von ihnen lernen durfte. Das ist wichtig, damit die KI keine Texte generiert, die voller Beleidigungen, Hass oder Falschmeldungen sind.

Aus dem Text fliegen bei einer solchen Vorauswahl erstmal Kauderwelsch und Doppelungen. Danach sollen Texte mit unerlaubten Begriffen dran glauben. Es soll eine Liste mit 402 solcher Worte geben. Auch ein Emoji, das eine unerlaubte Geste zeigt, soll dabei sein.

In der Praxis funktioniert das offenbar nur bedingt: Hunderte pornografische Websites und mehr als 72.000 Hakenkreuze wollen die Autoren von Studie und Zeitung gefunden haben. Außerdem soll eine bekannte rassistische Internetseite, eine Anti-Trans-Seite und ein riesiges Netzwerk, das in rechten Kreisen weit verbreitet ist, Einzug in die Daten gehalten haben. Und: eine staatsfeindliche Seite, solche mit Verschwörungstheorien.

Manches, was eigentlich bleiben sollte, wurde hingegen versehentlich herausgefiltert: zum Beispiel nicht-sexuelle LGBTQ-Inhalte. All diese unerwünschten Funde beeinflussen so möglicherweise auch die Texte, die KI-Modelle generieren.

Raubkopien und Urheberschutzfragen

Auch Raubkopien sollen unter den Daten sein. So schaffte es ein berüchtigter Markt für raubkopierte E-Books, der mittlerweile von den USA gesperrt wurde, auf Platz 190 der meistvertretenen Internetseiten. Auch mindestens 27 weitere Websites sollen aufgetaucht sein, die von der US-Regierung als Orte gekennzeichnet wurden, an denen Piraterie und Fälschungen stattfinden.

Bei zwei Internetseiten soll es gravierende Datenschutzbedenken gegeben haben: Sie enthielten der Quelle zufolge Kopien der staatlichen Wählerregistrierungs-Datenbanken. Diese sind demnach ohnehin öffentlich zugänglich – aber man könne nicht genau wissen, wie KI solche Daten am Ende nutzt.

Dass auch Kickstarter und Patreon prominent vertreten sind, steht prototypisch für ein weiteres Problem, das KI-Kritiker immer wieder anmerken: Hier könnten die Modelle etwa mit Ideen von Künstlern gelernt haben. Die erhalten dafür aber keine Entschädigung, werden nicht als Quelle genannt. Unglaubliche 200 Millionen Mal soll das Urheberrechtssymbol in den C4-Daten aufgetaucht sein. Das wirft zumindest Fragen dazu auf, ob alle Urheber die Verwendung ihrer Inhalte begrüßen.

Propaganda und Rechtsextremismus unter den News-Daten

Natürlich hat die KI auch viel von Zeitungen und Nachrichtenwebsites gelernt. Sie belegten fünf der zehn Top-Plätze in der Rangfolge. Am meisten wurden dabei die „New York Times“, die „Los Angeles Times“, der britische „Guardian“, das „Forbes“-Magazin und „Huffpost“ verwendet.

Gleichzeitig sind auch Medien vertreten, die als höchst problematisch gelten. So war die russische Propagandaseite „Russia Today“ auf Platz 65 der Internetseiten. In Deutschland ist diese mittlerweile gesperrt. „Breitbart“, wo häufig rechtsextreme Inhalte aufgetaucht sind, hat es auf Platz 159 geschafft. Kontext: Ihr Chef war unter anderem Stephen Bannon gewesen, der zeitweise Chefstratege und -berater in der Trump-Administration war.

Es tauchten auch viele religiöse Internetseiten in dem Ranking auf. Auch darunter waren umstrittene Quellen, die etwa Sekten zugehörig sind oder mit radikal-fundamentalistischen Inhalten auffielen.

Facebook- oder Twitter-Posts nicht unter den Daten

Was viele beruhigen dürfte: Viele Soziale Netzwerke wie Facebook oder Twitter verbieten das sogenannte Datenscraping. Das heißt: Zum Training von KI werden sie meistens nicht verwendet. Von persönlichen Posts und Kommentaren auf diesen Seiten haben die meisten Sprachmodelle demnach wohl nicht gelernt.

Allerdings heißt das nicht, dass nicht doch der ein oder andere Texte unter den Trainingsdaten finden könnte, die er als privat bezeichnen würde. Denn eine halbe Millionen persönliche Blogs sollen sich in dem Datensatz befinden, die etwa über Plattformen wie WordPress, Tumblr, Blogspot, Medium oder Live Journal publiziert wurden.

Falls Sie etwa eine kleine englischsprachige Internetseite haben, könnte sich diese durchaus in dem C4-Datensatz befinden. In einer Tabelle der „Washington Post“ kann man nachschauen, ob das der Fall ist. Andererseits: Ändern lässt sich daran wohl ohnehin nichts mehr. Längst haben dann auch Ihre Daten KI-Modellen dabei unterstützt, besser zu werden – und nun auch mithilfe Ihres Wissens fleißig Texte zu generieren. Viele von diesen werden dann wieder im Netz landen, und vielleicht, wer weiß, irgendwann eine andere KI trainieren.

*Die Bilder wurden mithilfe maschineller Unterstützung erstellt. Dafür wurde ein Text-to-Image-Modell genutzt. Auswahl des Modells, Entwicklung der Modell-Anweisungen sowie finale Bearbeitung der Bilder: Art Director Nicolas Bruckmann.

Kommentare