Statistiken

Die folgende Seite präsentiert Statistiken zu dem beschriebenen Datensatz. Allgemein ist darauf hinzuweisen, dass nicht immer jedes Feature fehlerfrei ausgelesen werden konnte, weshalb der Datensatz zu einem gewissen Teil unvollständig ist. Die hier präsentierten Statistiken sollten mit einer diesem Umstand angemessenen Vorsicht betrachtet und interpretiert werden.

Einzelne Features

Anhand einzelner Features lassen sich bereits einige Fakten über die untersuchte Webseite in Erfahrung bringen. Beispielsweise können wir herrausfinden, welche Verleger auf der untersuchen Platform am prominentesten Vertreten sind, indem wir das Auftreten des jeweiligen Verlages in der entsprechenden Tabellenspalte zählen. Wir können auch ermitteln wie viele Seiten eine rezensierte Publikation im Durchschnitt hat. Dafür könnten wir den Mittelwert (ca. 288,46 Seiten) berechnen, deutlich mehr informationen enthält jedoch ein Histogram. Python erlaubt es uns ebenfalls auf Einfache Art und weise, Visualisierungen der Datenpunkte, wie z.B. Histogramme, zu erstellen:

Verleger

Beim betrachten der Top-Verleger fällt auf, dass ein und der selbe Verleger teilweise unter verschiedenen Namen geführt wird. So gibt es beispielsweise "VS Verlag für Sozialwissenschaften" so wie "Springer VS Verlag für Sozialwissenschaften". Unterschiedliche Angaben können entweder durch die Anwendungen bestimmter Heuristiken, oder aber manuell zusammengeführt werden.

Preis und Seitenanzahl

Um die visualisierungen anschaulicher zu gestalten, wurden für diese in bestimmten fällen Ausreißer ignoriert. So existiert beispielsweise eine Rezension des Sammelwerkes "Gesamtes Arbeitsrecht" (978-3-8487-0530-6) , welches 798 € kostet und 7634 Seiten umfasst. Die Einbeziehung würde aus unserer Sicht die Qualität einiger Darstellungen zu stark beeinträchtigen.

Zeitlicher Verlauf

Bestimmte Informationen ergeben sich durch die Kombination verschiedener Feature. Beispielsweise lässt sich durch die Verknüpfung mit dem Erscheinungsdatum der Verlauf verschiedener Features über die Zeit abbilden.

Preis vs. Seitenanzahl

Da die untersuchte Platform sowohl in Deutschland, Österreich und der Schweiz zulauf findet, sind die zu den Publikationen angegebene Preise nicht immer in € angegeben. Zudem weichen die Preise von Büchern in Österreich teilweise von denen in Deutschland ab.

Der durschnittliche Preis der (in Euro bepreisten) rezensierten Publikationen scheint sich von 25,12 € im Jahr 2001 auf 43,17 € im Jahr 2019 gesteigert zu haben, was einem Anstieg von 71,8% entspricht. Der durchschnittliche Umfang (von in Euro bepreisten Publikationen) ist im gleichen Zeitraum lediglich um etwa um etwa 20,2% gestiegen. (281,6 Seiten bzw. 338,4 Seiten). Die Inflation betrug indes ca. 30% [1].

Anzahl und Länge

Sowohl die Anzahl, als auch die Länge (gemessen an der Wortanzahl) der Rezensionen hat sich seit der entstehung der Platform stark erhöht. Die Frequenz der Veröffentlichungen von Rezensionen scheint jedoch in den letzten zwei Jahren nachgelassen zu haben, nach dem sie vorher von 170 (2002) auf 1470 (2017) um 764,7% angestiegen ist.

Geschlecht

Es lässt sich feststellen, dass ca. 60 % der Rezensionen von "Rezensenten" und nur ca. 37 % von "Rezensentinnen" stammen. Offenbar herrscht auf der untersuchen Seite ein gewisses Ungleichgewicht.

Wir können den Preis und die Seitenanzahl der rezensierten Publikationen, so wie die Länge der Rezensionen selbst, entsprechend der Kategoriesierung ihrer Verfasser_innen in "Rezensent", "Rezensentin" und "Rezension von" untersuchen.

Dabei fällt auf, dass Autor_innen mit unbekanntem Geschlecht anscheinend längere Rezensionen zu teureren Publikationen verfassen. Dies lässt sich jedoch mit dem oben beschriebenen allgemeinen Trend hin zu steigenden Preisen und längeren Texten, und der Tatsache, dass die Rezensionen von "Rezension von"-Autor_innen vergleichsweise aktuell sind, erklären.

Akademischer Grad

Analog zu der Geschlechterbasierten Auswertung können wir die entsprechenden Features auch anhand der Kategorien, die sich aus dem akademischen Grades der Autor_innen ergeben, auswerten.

Anscheinend wurde ca. die Hälfte der Beiträge auf der untersuchten Seite von Menschen verfasst, die (mindestens) einen Professoren-Titel angeben.

Zudem scheint sich die Anzahl der Menschen, die einen Master bzw. Diplom-Abschluss angeben im laufe der Zeit veringert zu haben, währen die Anzahl der Menschen ohne Titel(angabe) zugenommen hat. Vermutlich tendieren also Menschen mit Master oder Diplom-Abschluss heute weniger dazu, einen solchen Titel anzugeben, als noch vor 10 Jahren. Eine alternative Hypothese wäre, dass heute mehr Personen ohne einen akademischen Abschluss auf der untersuchten Platform aktiv sind.

Stichwörter

Die den Artikeln hinterlegten Stichwörter, welche die rezensierten Publikationen (und somit in gewisser hinsicht auch die Rezensionen selbst) bestimmten Kategorien zuordnen, lassen sich zum Beispiel anhand ihrer Häufigkeit auswerten.

Zudem können Violinenplots den zeitlichen Verlauf des Auftretens bestimmter Stichwörter visualisieren. Ein horizontaler Balken markiert hier das Auftreten eines Stichwortes, währen die Fläche unter der Kurve die Auftretens-Häufigkeit um den jeweiligen Zeitpunkt herum annähert.

Stichwort-Netzwerke

Wie in dem Beitrag Data-Mining als Werkzeug empirischer Sozialforschung beschrieben, lassen sich anhand des Co-Auftretens der Stichwörter Stichwort-Netzwerke generieren. Diese wurden von uns durch das Tool Gehpi [2] verarbeitet und analysiert. Hochauflösende Grafiken der entstandenen Netzwerke finden Sie unter Downloads.

Referenzen

[1] Statista Inflationsrate in Deutschland von 1992 bis 2019 -
[2] M. Bastian, S. Heymann, M. Jacomy Gephi: An Open Source Software for Exploring and Manipulating Networks 2009