Die Ergebnisse des Brexit-Referendums von 2016 in Großbritannien werfen eine interessante Frage auf: Wie lässt sich die geographische Variation im Abstimmungsverhalten erklären? Der prozentuale Anteil der "Leave"-Stimmen lag im landesweiten Durchschnitt bei etwa 52%, doch die Wahlbeteiligung variierte stark je nach Region. Einige Gebiete, wie etwa das West- und Nordwesten Englands, stimmten überwiegend für den Austritt, während andere, insbesondere größere städtische Gebiete, in überwältigender Mehrheit für den Verbleib in der Europäischen Union votierten. Dieses regionale Ungleichgewicht ist ein zentrales Thema in der Forschung zu Wahlverhalten und wirft die Frage auf, wie bestimmte demografische Faktoren mit den Wahlentscheidungen in Verbindung stehen.
Zunächst einmal kann man das Wahlergebnis in jedem Wahlbezirk als Differenz zwischen dem beobachteten Wert der Leave-Stimmen und dem erwarteten Wert unter der Annahme eines uniformen Wahlergebnismodells interpretieren. In einem einfachen linearen Regressionsmodell, in dem der gesamte Anteil der Leave-Stimmen auf den landesweiten Durchschnitt (den Intercept) festgelegt wird und kein Einfluss von weiteren Faktoren berücksichtigt wird, lassen sich klare Abweichungen in den Wahlmustern feststellen. So ist beispielsweise das Ergebnis in Schottland und weiten Teilen Londons signifikant unter dem nationalen Durchschnitt. Andererseits gibt es auch Regionen, wie etwa die Gegend um Boston und Skegness, wo die Leave-Stimmen mit bis zu 76% besonders hoch ausfielen. Eine solche Analyse ermöglicht es, regionale Unterschiede im Abstimmungsverhalten besser zu verstehen.
Ein wichtiger Aspekt der Untersuchung sind die sogenannten "Residuals" oder Abweichungen des tatsächlichen Abstimmungsergebnisses vom erwarteten Wert. Diese Residuen spiegeln nicht nur unvorhergesehene Schwankungen wider, sondern auch systematische Muster, die durch das Modell nicht erfasst werden. Eine nähere Betrachtung dieser Residuen zeigt, dass es eine geographische Struktur in den Fehlern gibt, was darauf hindeutet, dass das ursprüngliche Modell die regionale Variation nicht vollständig erklärt. In anderen Worten, bestimmte demografische Faktoren, die über das Modell hinausgehen, könnten eine Rolle spielen.
Daher wird der nächste Schritt darin bestehen, die Demografie der einzelnen Wahlbezirke näher zu analysieren und zu prüfen, ob und in welchem Ausmaß verschiedene demografische Merkmale mit der Abstimmung für oder gegen den Brexit korrelieren. Zu den wichtigen Variablen gehören unter anderem der Anteil der Bevölkerung mit Hochschulbildung, die Verbreitung von Berufen im Bereich der Wissens- und Dienstleistungswirtschaft sowie der Anteil junger Erwachsener und EU-gebürtiger Menschen. Einige dieser Faktoren scheinen besonders stark mit dem Abstimmungsverhalten in Zusammenhang zu stehen. So zeigt sich etwa eine negative Korrelation zwischen dem Anteil der hochgebildeten Bevölkerung und dem Anteil der Leave-Stimmen: In Wahlbezirken mit einem höheren Anteil an Hochschulabsolventen war die Zustimmung zum Verbleib in der EU tendenziell stärker. Im Gegensatz dazu waren Wahlbezirke mit einem höheren Anteil an älteren Arbeitern in der Schwerindustrie oder in städtischen Randgebieten häufiger für den Brexit.
Die Schwierigkeit bei der Analyse solcher Daten liegt in der Vielzahl der Variablen, die gleichzeitig berücksichtigt werden müssen. Es reicht nicht aus, nur eine einzelne Variable zu betrachten. Vielmehr muss man die Wechselwirkungen zwischen verschiedenen demografischen Merkmalen untersuchen, um ein umfassendes Bild der Ursachen für die regionale Variation im Abstimmungsverhalten zu erhalten. Eine geeignete Methode zur Analyse solcher komplexen Beziehungen ist die Anwendung von Regressionsmodellen, die es ermöglichen, den relativen Einfluss jedes einzelnen Faktors zu quantifizieren. Durch die Visualisierung dieser Modelle, zum Beispiel in Form von Streudiagrammen, kann man die Stärke der Beziehungen zwischen den demografischen Faktoren und der Abstimmungsergebnisse anschaulich darstellen.
Ein weiteres interessantes Phänomen ist die Tatsache, dass die Variationen im Abstimmungsverhalten nicht nur durch objektive demografische Faktoren erklärt werden können. Auch subjektive Faktoren, wie das persönliche Empfinden von Identität oder der Einfluss von politischen Narrativen, spielen eine Rolle. Beispielsweise ist der Zusammenhang zwischen der "Leave"-Abstimmung und der Ablehnung des Status quo oder der Wahrnehmung der EU als bürokratische Institution komplex und lässt sich nicht allein durch klassische demografische Merkmale erklären.
Wichtig ist es, bei der Interpretation der Ergebnisse darauf zu achten, dass die Demografie eines Wahlbezirks nicht die einzige Erklärung für die Abstimmungsergebnisse ist. Auch wenn bestimmte demografische Merkmale eine starke Korrelation aufweisen, so bleibt immer noch ein gewisser Grad an Unvorhersehbarkeit und Variation. Diese Erkenntnis hat weitreichende Implikationen für die politische Analyse und die Gestaltung zukünftiger politischer Kampagnen, da sie zeigt, wie tief verwurzelte, oft unsichtbare gesellschaftliche Dynamiken das Wahlverhalten beeinflussen können.
Wie kann man Modelle mit Lineups bewerten und die Residuen visuell darstellen?
Die Bewertung von Modellen unter Verwendung von Lineups ist eine wirkungsvolle Methode, um die Validität von Modellen zu prüfen und zu visualisieren. Eine interessante Anwendung dieser Technik zeigt sich in der Analyse von Residuen aus einem Modell mit festen Effekten (Fixed Effects), wie sie in Abbildung 6.8 dargestellt ist. Diese Technik ist besonders nützlich, wenn man erwartet, dass die Residuen nach der Einbeziehung der festen Effekte keine räumliche Autokorrelation mehr aufweisen. Der Grund für diese Erwartung liegt in der Tatsache, dass mit den festen Effekten die regionale Variation in den Modellen eingefangen wird.
In Abbildung 6.8 ist eine Kartenansicht der Residuen aus einem Modell mit aktualisierten festen Effekten zu sehen. Ein Vergleich zeigt, dass diese Residuen nun weniger räumlich autokorreliert sind als vorher, was auf die Wirksamkeit des Modells hinweist. Insbesondere wenn man sich die Modellierungen für die einzelnen Regionen anschaut, werden systematische Über- oder Unterschätzungen sichtbar, die ohne die festen Effekte nicht erkennbar wären.
Das Ziel einer solchen Analyse ist es, die Residuen aus dem Modell zu extrahieren und ihre Verteilung zu untersuchen. Dies geschieht mithilfe von funktionalem Programmieren, das durch Pakete wie tidymodels in R erleichtert wird. Ein zentraler Schritt besteht darin, die Residuen aus einem Multivariatmodell zu extrahieren, nachdem das Modell mit einer einfachen linearen Regression (z.B. lm()) erstellt wurde. In einem typischen Workflow wird ein Datensatz so umgeformt, dass die Residuen für jedes Regionalkontingent extrahiert werden können. Diese Residuen repräsentieren die Abweichungen der tatsächlichen Werte von den modellierten Erwartungen und sind somit ein Maß für die Modellgüte.
Zur weiteren Untersuchung wird eine Technik namens "permutierte Lineups" verwendet, bei der die Residuen zufällig permutiert werden, um zu prüfen, ob die realen Daten signifikant anders sind als zufällig erzeugte Daten. Dies ist ein kraftvolles Verfahren, das es ermöglicht, die Validität der Modellannahmen visuell zu bewerten. Die permutierten Daten werden durch das rsample-Paket in R erzeugt, wobei Residuen zufällig über die Regionen verteilt werden. Das resultierende "Lineup" besteht aus einer Serie von Karten, die sowohl die realen als auch die permutierten Residuen anzeigen. Diese Art der Visualisierung hilft, die Frage zu beantworten, ob die beobachteten Muster in den Residuen tatsächlich auf das Modell oder nur auf zufällige Schwankungen zurückzuführen sind.
Die grafische Darstellung dieser Residuen erfolgt durch das ggplot2-Paket, wobei für jede Permutation ein eigener Plot erstellt wird. Dabei wird eine spezifische Hexagon-Kartierung verwendet, die es erlaubt, die Residuen auf einer geografischen Ebene anzuzeigen. Diese Methode zeigt deutlich die Unterschiede zwischen den realen Daten und den permutierten (oder zufälligen) Daten, indem die Regionen mit positiven oder negativen Residuen farblich hervorgehoben werden. Die Verwendung von facet_wrap() sorgt dafür, dass jede Permutation in einem eigenen Panel dargestellt wird, was den Vergleich zwischen den verschiedenen Szenarien vereinfacht.
Für den Leser ist es wichtig, zu verstehen, dass diese Verfahren eine tiefere Einsicht in die Qualität und die strukturellen Fehler eines Modells ermöglichen. Sie bieten eine Methode, um nicht nur die Residuen zu analysieren, sondern auch die zugrundeliegenden Annahmen des Modells auf ihre Gültigkeit zu überprüfen. Darüber hinaus verdeutlichen diese Visualisierungen, wie gut ein Modell in der Lage ist, regionale Unterschiede zu erklären und wo es möglicherweise versagt.
Ein entscheidender Aspekt, der ebenfalls beachtet werden sollte, ist, dass das Ziel der Permutation nicht darin besteht, die Performance des Modells zu verbessern, sondern vielmehr, seine Robustheit zu testen. Durch die zufällige Umverteilung der Residuen werden mögliche strukturelle Probleme im Modell sichtbar, die sonst unentdeckt geblieben wären. Diese Technik ist besonders wertvoll, wenn es darum geht, das Vertrauen in die Modellannahmen und die zugrunde liegende Theorie zu stärken.
Wenn man darüber hinausgeht, könnte man auch untersuchen, inwieweit das Modell für unterschiedliche Subgruppen von Regionen oder anderen Variablen (wie etwa dem Bildungsniveau oder der Industrialisierung) einheitlich gute Vorhersagen trifft. Dies könnte weitere Einsichten in die Limitationen und Stärken des Modells bieten und helfen, gezielte Verbesserungen vorzunehmen.
Wie können Datenvisualisierungen durch Annotationsmethoden und Anpassungen verfeinert werden?
Die Bedeutung der richtigen Visualisierung von Daten, insbesondere in Zeiten von Krisen wie der COVID-19-Pandemie, kann nicht hoch genug eingeschätzt werden. Eine präzise und gut strukturierte Darstellung von Daten ermöglicht nicht nur die sofortige Erfassung von Mustern und Zusammenhängen, sondern bietet auch eine effiziente Möglichkeit, komplexe Informationen für ein breites Publikum verständlich zu machen. In diesem Zusammenhang werden Datenvisualisierungen oft durch zusätzliche Annotationsmethoden und Verfeinerungen ergänzt, um die Aussagekraft der Grafik zu maximieren.
Um zu veranschaulichen, wie solche Annotationsmethoden in der Praxis angewendet werden können, betrachten wir eine beispielhafte Visualisierung, die COVID-19-Wachstumsraten in den Vereinigten Staaten auf Länderebene zeigt. Die Ausgangsdaten stammen aus dem Dataset „county-level cumulative cases“ der New York Times (2021), das mithilfe des covdata-Pakets von Healy (2020) aufbereitet wurde. Das Ziel dieser Visualisierung ist es, nicht nur die reinen Fallzahlen zu präsentieren, sondern auch die Wachstumsraten der Fälle seit Anfang Mai 2020 für jede Grafschaft in den USA darzustellen.
Zunächst wird ein Template für die Datenvisualisierung in RStudio verwendet, das die erforderlichen Pakete wie „tidyverse“ und „sf“ auflistet. Die Grafiken basieren auf einem „staged“-Datensatz, der speziell für die grafische Darstellung vorbereitet wurde. Die wichtigsten Schritte beinhalten die Filterung der Fälle nach Datum und das Berechnen der täglichen Wachstumsraten, die dann für die grafische Darstellung verwendet werden.
Die erste Herausforderung bei der Erstellung dieser Art von Grafik ist die effektive Darstellung von Wachstumsraten, die über einen Zeitraum hinweg steigen. Eine der Schlüsselfunktionen der Visualisierung besteht darin, die Entwicklung der Fallzahlen in den einzelnen Grafschaften im Vergleich zum 3. Mai 2020 zu zeigen. Dabei wird eine Änderung in der Linienstärke angewendet: dickere Linien stehen für schnelleres Wachstum, während dünnere Linien langsameres Wachstum darstellen. Diese Anpassung hilft, die Bereiche mit den größten Wachstumsraten hervorzuheben.
Ein weiteres wichtiges Element dieser Visualisierung ist die Verwendung von Farbe und Transparenz, um die relativen Infektionsraten in den einzelnen Grafschaften zu kodieren. Hierbei wird ein Farbverlauf eingesetzt, der von helleren Farben für niedrigere Raten bis zu dunkleren Farben für höhere Raten reicht. Zusätzlich wird die Transparenz der Linien entsprechend der Wachstumsrate angepasst, um die Unterschiede zwischen den verschiedenen Grafschaften noch deutlicher zu machen.
Die visuelle Darstellung dieses Wachstums ist jedoch nur ein Teil der Geschichte. Ein weiteres entscheidendes Merkmal der Darstellung ist die Berücksichtigung von räumlicher Autokorrelation, die in den Wachstumsraten zu finden ist. Das bedeutet, dass Grafschaften, die geografisch nahe beieinander liegen, ähnliche Wachstumsraten aufweisen könnten. Diese Muster sind auf den ersten Blick erkennbar, da die Grafik große Wachstumsbereiche durch dicke, dunkle Linien hervorhebt, die auf ein schnelles Wachstum hinweisen. Im Gegensatz dazu sind Grafschaften, die langsamer wachsen, durch dünnere und hellere Linien repräsentiert.
Trotz dieser Anpassungen ist die Grafik immer noch eine Annäherung. Der dargestellte Wachstumsverlauf ist nicht vollständig und zeigt lediglich eine Modellierung dessen, was zu erwarten wäre, basierend auf den gesammelten Daten. In den meisten Fällen zeigt die Grafik nicht die absoluten Fallzahlen, sondern den relativen Anstieg der Fälle im Vergleich zum 3. Mai 2020. Dies bedeutet, dass die Grafiken nicht nur für die Grafschaften mit den höchsten Fallzahlen, sondern auch für jene mit den größten Wachstumsraten relevant sind, die möglicherweise nicht die höchste absolute Anzahl an Fällen aufweisen.
Ein wichtiger Aspekt der Datenvisualisierung ist die Handhabung der Lesbarkeit. Je mehr Informationen eine Grafik enthält, desto schwieriger wird es, alle relevanten Details zu erfassen. Daher ist es von entscheidender Bedeutung, die Darstellung so zu gestalten, dass nur die relevantesten Daten hervorgehoben werden. Dies erfordert häufig eine sorgfältige Auswahl der Filter und Annotationsmethoden, die auf die spezifischen Bedürfnisse der Visualisierung zugeschnitten sind. Zum Beispiel werden in der oben beschriebenen Grafik nur die Grafschaften dargestellt, deren tägliche Fallzahlen seit dem 3. Mai 2020 eine bestimmte Schwelle überschreiten, was eine präzisere und fokussiertere Darstellung ermöglicht.
Ein weiteres wichtiges Element sind die Anmerkungen und Beschriftungen, die der Grafik hinzugefügt werden können. In der oben genannten Darstellung können zum Beispiel die Bundesstaaten durch Abkürzungen auf der Karte gekennzeichnet werden. Diese werden durch die geometrischen Daten des „state_boundaries“-Datensatzes dargestellt und bieten dem Betrachter eine klare Orientierung in Bezug auf den geografischen Kontext. Darüber hinaus können zusätzliche Anmerkungen hinzugefügt werden, um die wichtigsten Wachstumsraten und andere relevante Metriken hervorzuheben.
Wichtig ist, dass die Wahl der Farbskalen, der Linienstile und der Platzierung der Anmerkungen immer auf die Zielgruppe und den Zweck der Visualisierung abgestimmt sein sollte. Eine gute Visualisierung ist nicht nur eine Technik, sondern eine Kunstform, die Daten auf eine Weise präsentiert, die den Betrachter sowohl informiert als auch visuell anspricht.
Darüber hinaus sollte der Leser verstehen, dass der Umgang mit Geodaten und deren Visualisierung in Karten oft zusätzliche Herausforderungen mit sich bringt, die über die einfache Datenaufbereitung hinausgehen. Hierbei spielen nicht nur ästhetische und technische Aspekte eine Rolle, sondern auch die Auswahl der geeigneten Kartentypen und die Berücksichtigung der räumlichen Verteilung von Phänomenen. In diesem Zusammenhang können auch noch differenzierte Techniken wie die Anwendung von Interaktivität oder das Hinzufügen von Zeitdynamiken in der Visualisierung zur Vertiefung des Verständnisses von geospatiale Phänomenen beitragen.
Wie funktioniert der "any"-Provider-Scope in Angular und wann sollte man ihn einsetzen?
Wie man aus einem "Nein" ein "Ja" macht: Die Bedeutung der Kontrolle und Anpassung in der Advocacy-Arbeit
Welche Methoden und Eigenschaften bestimmen die Herstellung und Anwendung von MOS-Dünnfilmen?
Wie wurden die Beziehungen zwischen Europa und Asien im Mittelalter geprägt?

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский