Noch haben Autoren nichts zu befürchten. Eine ernsthafte Konkurrenz sind Algorithmen längst nicht, selbst wenn der Generative Pretrained Transformer 3, kurz GPT-3 genannt, 2020 für Aufsehen gesorgt hat. In der Tat machen seine Tweets und Gebrauchsanleitungen auch eine gute Figur, namentlich mit seinen Kurzgeschichten kann der Bot allerdings nicht punkten. Bis Textgeneratoren wie er in einer Reihe mit Günter Grass stehen, fließt noch viel Wasser den Berg hinunter.
Quelle: Gerd Altmann auf Pixabay
Hype um GPT-3 nicht unbegründet
Geschuldet ist GPT-3 dem US-amerikanischen Tech-Unternehmen OpenAI, das mit Geldern von Tesla, PayPal, LinkedIn und Microsoft gespeist wird. Nach berühmtem Muster berechnet auch GPT-3 als statistisches Sprachmodell die Wahrscheinlichkeit, mit der sich ein Wort ans andere reiht. Während sich allerdings die übrigen Textroboter bloß weniger Wörter zur Vorhersage bedienen, zieht GPT-3 gleich etliche Absätze für die Prognose heran. Schlau wird die KI dabei durch maschinelles Lernen (Deep Learning). Am Bot ist es, unentwegt Textlücken zu schließen, um aus den unterschiedlichen Kontexten ein mehrdimensionales Koordinatensystem zu entwerfen, das nur so vor ähnlichen Begriffen strotzt.
Welche Power in der KI steckt, verrät ein Blick hinter die Kulissen. Mit 175 Milliarden Parametern hat das neuronale Netz gleich hundertmal mehr zu bieten als das Vorgängermodell GPT-2 aus dem Jahr 2019. Und ins Training der Software flossen nicht weniger als 570 Gigabyte Text, also umgerechnet rund eine Billion Wörter ein. Das Schöne daran: Im Unterschied zu Googles BERT braucht GPT-3 kein Fine-Tuning. Die Anpassung an spezielle Anforderungen nach dem Basistraining fällt flach. Wird der Textgenerator von daher manuell mit ein paar Beispielen gefüttert, ist er sich über Ziel und Zweck der Mission im Klaren. Er weiß, was von ihm erwartet wird, und willfahrt den Wünschen seiner Nutzer.
Kreativität sieht anders aus
Kreativ geht der Bot an die automatische Textherstellung deshalb aber noch lange nicht heran. Nachdem die Handschrift unverzichtbar in der Kunst* ist, bleibt GPT-3 gleich allen anderen Textautomatisierungstools nichts weiter als ein exzellenter Handwerker. Seine Kurzgeschichten wirken, wie Sina Zarrieß, die Professorin der Uni Jena, bemerkt, auf den ersten Blick zwar authentisch, näher besehen steckt in ihnen allerdings kein tieferer Sinn. Kreativität verlangt eben mehr als bloßes Pauken und Reproduzieren des Gelernten. Nachdem sich Textgeneratoren außer Stande sehen, Probleme auf unterschiedliche, ja originelle Weise zu lösen, erhebt sich unweigerlich die Frage, ob bei ihnen überhaupt je eine kreative Arbeit drin ist. In der Wahrscheinlichkeitsrechnung mögen sie durchaus zuhause sein, an eine Künstlerlaufbahn ist bei ihnen aber ohne die Fähigkeit der Interpretation des Lernstoffs nicht zu denken. Stets wird der Output ein Spiegel des Inputs sein. Und ohne Daten versagen Textautomatisierungstools à la GPT-3 auf der ganzen Linie.
Quelle: Gerd Altmann auf Pixabay
Maschinen kein Ersatz für Menschen
Nicht erst seit gestern haben Entwickler mit KI-Systemen Schiffbruch erlitten. So hat sich bekanntlich Amazon von der KI-basierten Personalrekrutierung* verabschieden müssen, nachdem die Technik für Frauen nichts übrighatte. Spätestens daraus erhellt, dass sich das Lernverhalten von KI-Systemen noch weitgehend der Kenntnis der Forscher entzieht. Und solange neuronale Netze und statistische Sprachmodelle eine Blackbox bleiben, werden sie auch über das bloße Studium von Büchern nicht hinauskommen. Da gleichen sie unreifen Kindern. Weit gefehlt, zu glauben, dass sich ein Kleinkind bloß genug fremdsprachige Filme reinziehen muss, um die Fremdsprache in null Komma nichts zu beherrschen. Und wenn Kinder für reine Sprachmuster nicht empfänglich sind, müssen Maschinen zwangsläufig Mist bauen. Drum überrascht es auch nicht weiter, dass GPT-3 ungeachtet seiner Leistungsstärke bei längeren Texten zu Wiederholungen neigt und leicht den Faden verliert.
Offensichtliche Vorbehalte gegen Textautomatisierung
• Online-Handel als Hauptnutznießer
Der Schein trügt nicht. Medienhäuser und Zeitungsverlage spielen als Kunden des Stuttgarter Software-Unternehmens AX Semantics eine absolut untergeordnete Rolle. Während die Stuttgarter Zeitung lediglich Feinstaub-Berichte mit dem Textgenerator des Hauses schreibt, beschränkt sich die österreichische Nachrichtenagentur APA auf Wahlberichterstattung mit dem Bot. Dick im Geschäft sind die Stuttgarter indes mit dem Online-Handel. Hier dient die Textautomatisierung schlicht dazu, strukturierte Produktdaten in Produktbeschreibungen und Kategorieseiten zu verwandeln. Bedeutet im Klartext: Eine Google-Suche wie »Damenmantel schwarz« wird um die Produktdetails bereichert. Durch die automatische Einbindung von Material, Form und Funktion schafft der Textgenerator im Handumdrehen eine übliche Produktbeschreibung, die sich keinen Deut von der Arbeit eines Copywriters unterscheidet.
Quelle: Mediamodifier auf Pixabay
Im Plan ist die Erweiterung der Anwendungspalette um Produkte des Finanz- und Gesundheitswesens. Nachdem die Pharmaindustrie gleich dem Finanzsektor starken Regulierungen unterworfen ist, besteht die Herausforderung des Textgenerators der Stuttgarter vornehmlich darin, diesen gesetzlichen Auflagen zu genügen.
• Sorgenkind Markov-Ketten
Es verlohnt die Mühe, den Vergleich zwischen AX Semantics und GPT-3 zu strapazieren. Unterschiedlicher könnten die Textgeneratoren nämlich kaum sein. So ist es den Stuttgartern um die Erzeugung natürlicher Sprache zu tun. Alles, was es für Natural Language Generation (NLG) braucht, ist neben strukturierten Eingabedaten, angepassten Textbausteinen und einer angemessenen KI-Grammatik ein finaler Editor, um individuell redigierte Texte produzieren zu können. Im Unterschied dazu arbeitet der Textgenerator von OpenAI auf NLP-Basis. Bei GPT-3 ist die Verarbeitung natürlicher Sprache (Natural Language Processing) im wahrsten Sinne des Wortes Programm, wenn der Textgenerator auf eine Unmenge an Texten losgelassen wird, um Muster aufzuspüren. Damit sieht sich GPT-3 im Stande, mit kurzen Eingabesätzen völlig autonom Texte zu produzieren. Diese Autonomie hat allerdings ihren Preis.
Dass sich Nachrichtendienste für die Diskreditierung* erwärmen, ist wahrlich nichts Neues. Überraschend ist hingegen, dass auch Textgeneratoren auf NLP-Basis die Diskreditierung nicht fremd ist. Es genügt dazu vollauf, dass es GPT-3 im Training oft genug mit Farbigen zu tun kriegt, die als Dealer und Mörder verkauft werden. Bedingt durch die sogenannten Markov-Ketten assoziiert der Textgenerator dann fortan stets mit einem Farbigen einen Dealer oder Mörder.
• Offene Rechtsfragen
Einen patentrechtlichen Schutz gibt es für Textgeneratoren nicht, dafür können sie als Programme § 69a UrhG gemäß geschützt werden. An sich lassen sich auch die den Textgeneratoren zugrunde liegenden Datenbanken § 4 Abs. 1 UrhG gemäß schützen. Nachdem die Daten von NLP-Systemen weder systematisch noch methodisch angeordnet sind, fällt für GPT-3 & Co dieser Schutz flach. Ja, nicht einmal die generierten Texte lassen sich bei NLP-Systemen bedingt durch die Autonomie der Textgeneratoren § 2 Abs. 1 UrhG gemäß schützen. Insofern erübrigt sich bei Tage besehen die Frage, ob den automatisch generierten Texten ein künstlerischer Wert beizumessen ist. Zumindest ist der Justiz eine Kunst ohne Urheber* fremd. Dafür muss die Frage erlaubt sein, wer letztlich für den NLP-Inhalt haftet. Anzunehmen, dass hier der Verbreiter der Texte allenfalls zur Rechenschaft gezogen wird.
* Unbezahlter Weblink (Eigenwerbung)
Comments