Neues aus dem GinLab (IV) Geschlechterverteilung in der BDSL

Die Ergebnisse des Projektseminars sind da!

Die Ergebnisse des Projektseminars sind da! Die Studierenden haben viel Mühe während des letzten Semesters in das Seminar gesteckt und an verschiedenen Themen gearbeitet, die wir in einigen Posts vorstellen möchten.

Heute möchten wir die Ergebnisse von Jean-Luc Rapp, Nicole Schmidt und Karolina Galek vorstellen. Die Gruppe hat sich auf das Thema "Geschlechter und Gender1 in der BDSL" fokussiert. Besonders interessiert sind sie an Fragestellungen, die beispielsweise den Anteil weiblicher Personen als Autor*innen bzw. Co-Autor*innen in der BDSL thematisieren. Gibt es Themengebiete, in denen besonders viele weibliche Autor*innen publizieren? Hat sich der Anteil weiblicher Autor*innen während der Zeit verändert?

Um solche Fragestellungen (mit Hilfe einer Visualisierung) zu beantworten, gibt es eine große Hürde. Die Metadaten der BDSL enthalten keine Angabe zum Geschlecht der Autor*innen. Deswegen wurden verschiedene Tools ausprobiert, die das Geschlecht einer Person anhand ihres Vornamens identifizieren.

Die meisten dieser Tools basieren auf großen Datenbanken, die aus dem World Wide Web gesammelt wurden – häufig aus einer Kombination öffentlich zugänglicher Quellen und gecrawlten Daten aus sozialen Netzwerken. Viele dieser Tools sind kostenpflichtig und wurden ausgeschlossen. Deswegen haben wir uns für ein Tool entschieden, welches Open Source und kostenfrei ist: "gender" (Python: gender-guesser) wurde von Jörg Michael 2008 veröffentlicht. Es basiert auf einer Datenbank, die 40000 Namen aus aller Welt enthält. Diese wurden manuell von Muttersprachler*innen überprüft. Zusätzlich gibt es Länderangaben, um das Geschlecht von Namen länderabhängig zu spezifizieren. Mehr Informationen und zum Tool gibt es hier. Es klassifiziert Namen in drei Hauptkategorien: männlich, weiblich und unbekannt.

In einem Vergleich von fünf verschiedenen Tools zur automatisierten Erkennung des Geschlechts anhand des Vornamens, war "gender-guesser" das einzige kostenfreie Open-Source-Tool. Kommerzielle Ansätze nutzen weitaus größere Datenbanken (bis zu 1,9 Millionen Namen).

Aus diesem Grund konnte einem großen Anteil der Namen kein Geschlecht zugeordnet werden (alle Namen, die nicht in der Datenbank enthalten sind). Auf den übrigen Namen erzielt gender-guesser eine Fehlerrate von 2.6% – die kleinste unter allen verglichenen Lösungen und damit besser als kostenpflichtige Alternativen. Der Gender-Bias-Fehler liegt bei vernachlässigbaren 0.2%, was ebenfalls der beste Wert ist. (Ein positiver Wert bedeutet, dass männliche Namen öfter als weiblich klassifiziert wurden als andersherum.) In dem Artikel gibt es weitere detailliertere Analysen, beispielsweise wird nach geographischen Regionen unterschieden und hier sieht man deutlich, dass alle Tools europäische Namen am besten klassifizieren, gefolgt von afrikanischen Namen. Die höchste Fehlerquote gibt es bei der Klassifizierung von asiatischen Namen.

Kommen wir zurück zu den Ergebnissen des Projekts. Die Gruppe hat ein Mockup entworfen, welches in einem Diagramm den zeitlichen Verlauf von Publikationen männlicher und weiblicher Autor*innen zeigt (siehe Abbildung 1).

Die horizontale Achse zeigt das Veröffentlichungsjahr und die vertikale Achse beschreibt die Anzahl der Publikationen. Die obere Kurve beschreibt den zeitlichen Verlauf weiblicher Autorinnen, die untere Kurve den Verlauf männlicher Autoren. Außerdem lässt sich die Grafik nach Zeiträumen und Kategorien filtern. Zu jedem Zeitpunkt kann die Anzahl der Autor*innen und Co-Autor*innen angezeigt werden, sowie die Art der Publikationen. Die Zahlen in der Abbildung bilden nur einen Ausschnitt und sind nicht repräsentativ. Das Mockup wird zur Zeit als interaktive Grafik erstellt und wird zeitnah hier im Blog vorgestellt werden.

(1) zur Zeit können wir leider Geschlechter nur binär unterscheiden, d.h. in männlich und weiblich. Wir wissen, dass diese Annahme viele Probleme mit sich zieht. Allerdings kann dies als ein erster Schritt angesehen werden, um die Geschlechterverteilung von Metadaten zu explorieren.

Gastbeitrag von Michel Schwab