Topical Clustering of Unlabeled Transformer-Encoded Researcher Activity

Hauptsächlicher Artikelinhalt

Zineddine Bettouche
Andreas Fischer

Keywords

thematische Gruppierung, Ähnlichkeit von Dokumenten, Kodierung von Dokumenten, BERT, Computerlinguistik, Clusteranalyse, k-Means, DBSCAN, Schlagwortextraktion

Abstract

Transformer-Modelle haben die Fähigkeit, die Bedeutung von Texten mithilfe von Self-Attention-Mechanismen effizient zu verstehen. Wir untersuchen die semantische Bedeutung von Clustern, welche sich aus den durch die Transformer generierten Embeddings ergeben. Dabei wird die Treffsicherheit der thematischen Zuordnung ungelabelter wissenschaftlicher Publikationen aus der THD-Publikationsdatenbank bewertet. Nachdem wir mit SciBERT und German-BERT experimentiert haben, konzentrieren wir uns bei der Arbeit mit mehrsprachigen Artikeln auf mBERT. Die dargestellten Cluster der wissenschaftlichen Publikationen ergeben eine durchsuchbare Forschungslandschaft aller mittels Publikationen aktiven Disziplinen der THD. Da in den Daten keine Themenbezeichnungen vorhanden sind (keine Grundwahrheit), können die Clustering-Metriken die Genauigkeit des thematischen Clusterings nicht bewerten. Daher nutzen wir den Aspekt der Koautorenschaft in den Arbeiten, um eine Koautorenschaftsanalyse in zwei Teilen durchzuführen: der Untersuchung der Einzigartigkeit der Autorinnen und Autoren in jedem Cluster und dem Aufbau koautorenschaftsbasierter sozialer Netzwerke. Die berechnete hohe Einzigartigkeit der Autorinnen und Autoren in den gebildeten Clustern und die gefundene Homogenität der Themen über die verbundenen Komponenten (in sozialen Netzwerken) implizieren eine genaue thematische Clusterung unserer Kodierungen. Darüber hinaus weisen die konstruierten sozialen Netzwerke auf die Existenz einer Reihe miteinander verbundener interner Autorinnen und Autoren hin, deren Zusammenarbeit untereinander ein großes Netzwerk bildete, das 74 % aller Beiträge in der Datenbank enthält.

Abstract 205 | Bavarian Journal of Applied Sciences_06_2023_Bettouche-Fischer_web Downloads 163