Meine Bachelorarbeit zum Thema NLP – Sprachmodelle zur Unterstützung des HSLU Informatik Blogs

Auf dem HSLU Informatik Blog werden Beiträge verschiedener Autor*innen, Studiengänge und Veranstaltungen des Informatik Departements der Hochschule Luzern veröffentlicht. Diese Beiträge werden in einer Rohfassung verfasst und anschliessend gemäss den sprachlichen Richtlinien des HSLU Informatik Blogs angepasst. Bei der Optimierung der Beiträge für den Blog werden die Texte gemäss Grundsätzen der einfachen Sprache umformuliert.

Weitere Projektinfos

Erarbeitet während meines Studiums in AI/ML an der Hochschule Luzern.

Wer mehr zu meiner Bachelorarbeit erfahren möchte, findet diese auf der Portfolio Datenbank der HSLU.

Pitch Video der BAA

Weiter werden die Texte nach dem Prinzip der Inverted Pyramid umstrukturiert. Dabei werden Informationen in einem Text in absteigender Relevanz sortiert. Durch diese Methode werden die wichtigsten Fakten und Informationen zu Beginn des Artikels platziert, gefolgt von weniger bedeutenden Details. Dies ermöglicht den Lesern, bereits zu Beginn des Artikels die wesentlichen Punkte zu erfassen.

Lösungskonzept

Die Umsetzung der Anpassungen an den Texten des HSLU Informatik Blogs soll durch Sprachmodelle unterstützt werden. Für die Modelle zur Vereinfachung der Sprache werden Satzpaare gemäss den anzuwendenden Regeln generiert, die anschliessend als Trainingsdaten für ein Flan-T5 Modell dienen. Das Modell lernt damit die entsprechenden Veränderungen für jeden spezifischen Task vorzunehmen.
Bei der Restrukturierung gemäss der Inverted Pyramid werden die Texte in Abschnitte unterteilt, diese Abschnitte werden zusammengefasst und anschliessend mithilfe eines Sentence Transformers in Vektoren umgewandelt. Auf diesen Vektoren wird eine Support Vector Machine trainiert, um die korrekte Position gemäss dem Prinzip der Inverted Pyramid vorherzusagen.

Spezielle Herausforderungen

Bei der vorliegenden Arbeit lag das Hauptproblem in der begrenzten Datenmenge und deren Struktur. Um Trainingsdaten in Form von Satzpaaren zu generieren, wurde ChatGPT von Open AI verwendet. Die Integration der trainierten Sprachmodelle in ein funktionierendes System stellte sich als schwierig heraus. Ein Grund dafür war die Grösse der Sprachmodelle. Zudem stellte sich die Trainingsmethode der Low-Rank-Adaption als herausfordernd heraus. Die Schaffung einer bedienungsfreundlichen Benutzeroberfläche war aufgrund dieser Faktoren ebenfalls eine Herausforderung.

Ergebnisse

Es wurde festgestellt, dass das System die Struktur gelernt hat, jedoch abhängig vom Input Schwierigkeiten auftreten können. Die Evaluation hat ergeben, dass für die Vereinfachung von Text ein Multitask Modell, mit durchschnittlich 38,5% korrektem Output, die besten Ergebnisse liefert. Das BLOOM Modell hat den schlechtesten Wert über alle Tasks erreicht, mit nur 25% korrektem Output.

Weiter konnte festgestellt werden, dass kein zufriedenstellender Ansatz zur automatisierten Restrukturierung eines Textes, gemäss der Inverted Pyramid gefunden werden konnte. Das in dieser Arbeit erstellte System ordnet im Durchschnitt 3,6 Abschnitte pro Beitrag korrekt zu und die durchschnittliche Distanz zur korrekten Position beträgt ~9,2041 Stellen.

Reti, who the f*ck is Reti?

Als Webentwickler und begeisterter AI-Student bin ich immer auf der Suche nach neuen Projekten. Ob Websites gestalten, Apps entwickeln oder Algorithmen optimieren, ich bin stets bereit, mich neuen Herausforderungen zu stellen.