Sind KI-Texte immer gut?

Werden Content Writer:innen bald von Maschinen ersetzt?

Auf künstlicher Intelligenz beruhende Sprachmodelle wie das neueste GPT-4 von OpenAI, das man ganz einfach selbst mit dem Chatbot ChatGPT ausprobieren kann, sind gerade in aller Munde. Wenn man recht neu beim Thema KI Content unterwegs ist, können einem diese Technologien anfangs ziemlich unheimlich und dystopisch vorkommen. Doch was hat es genau mit der KI auf sich?

Wir haben das vor kurzem zu diesem Thema von Google veröffentlichte Paper “Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study” analysiert, um einen besseren Blick auf dieses schnellebige Thema zu bekommen!

Als Teil des Projekts haben Forscher:innen 500 Millionen Webtexte mithilfe von KI-Detektoren untersucht. Ziel war es, anhand von generativen Sprachmodellen (Genereative Language Models) die sprachlichen Charakteristika von maschinell erstellten Texten herauszufinden und festzuhalten, um damit Vorhersagen zur Qualität von Webseiten zu machen. Dabei wurde eine massive Menge an Daten aus dem Web in Form von Crawls verwendet, um verschiedene Modelle zu trainieren und zu vergleichen.

Generative Modelle haben starke Vorhersagekraft

Das Ergebnis: Generative Modelle, insbesondere auf der Grundlage von GPT-2 und GPT-3, haben eine starke Vorhersagekraft für die Qualität von Webseiten. Im Vergleich zu anderen etablierten Ansätzen wie Link-Analyse oder textbasierten Klassifikatoren erreichen die generativen Modelle eine höhere Vorhersagegenauigkeit.

Die Autor:innen halten in ihrem Paper also fest, dass generative Modelle besonders gut darin sind, die Qualität von Seiten in Nischen- oder spezialisierten Themenbereichen vorherzusagen, die von traditionellen Ansätzen schwer zu bewerten sind. Sie argumentieren, dass dies darauf zurückzuführen ist, dass generative Modelle der gesamte Korpus an verfügbaren Daten aus dem Web nutzen und so ein umfassenderes Verständnis für die Merkmale und Eigenschaften von Webseiten entwickeln.

Insgesamt zeigt die Studie, dass generative Modelle ein vielversprechender Ansatz für die Vorhersage der Qualität von Webseiten sind. Da die Menge an verfügbaren Daten und die Leistungsfähigkeit von generativen Modellen weiter zunimmt, ist zu erwarten, dass dieser Ansatz in Zukunft noch effektiver wird.

Studie berücksichtigt nicht die Sprachqualität

Wichtig ist hierbei jedoch festzuhalten, dass die Studie nicht die Sprachqualität an sich, sondern nur ihrer Vorhersagbarkeit bewertet. So zeigen einige Beispiele, dass die Sprachqualität von maschinell erstellten Texten je nach Themenkategorie stark variiert. Die KI-Detektoren haben beispielsweise in der “Books and Literature” Kategorie von Google eine besonders niedrige Sprachqualität verzeichnet. Den Google-Forscher:innen zufolge lässt sich das vor allem auf sogenannte “Essay Farms” zurückführen. Diese verfolgen ein einfaches Business Model – sie verkaufen vorgefertigten, maschinell erstellte Essays, die sprachlich oft ziemlich schlecht sind.

Auch im Bereich SEO können die KIs Google nicht überzeugen. So bewirkt der Versuch von KIs, ihre Texte zu SEO-optimieren meistens genau das Gegenteil. Google erkennt die Texte als maschinell erstellt (beispielsweise aufgrund von Keyword-Stuffing) und rankt sie schlechter.

Picture of Leah Gramlich

Leah Gramlich

Content Writer, Studium der Linguistik und Übersetzungswissenschaft.

Teil den Beitrag:

Weitere Beiträge