Die Untersuchung des Reiseverhaltens von Radfahrern in New York zeigt interessante Muster, die durch verschiedene Faktoren wie das Alter und den Typ des Kunden beeinflusst werden. Besonders bemerkenswert ist die Geschwindigkeit der Fahrten in Bezug auf das Alter, die in der Regel mit zunehmendem Alter leicht abnimmt, jedoch nicht ohne Ausnahmen. Die Auswertung basiert auf Daten, die aus dem Citibike-Verleihsystem stammen und wichtige Erkenntnisse über das Verhalten der verschiedenen Altersgruppen liefern.

Zunächst einmal lässt sich feststellen, dass es in den jüngeren Altersgruppen (insbesondere bei den 16- bis 74-Jährigen) eine höhere Durchschnittsgeschwindigkeit gibt. Dies könnte darauf hindeuten, dass jüngere Nutzer möglicherweise häufiger schnellere, utilitaristische Fahrten unternehmen, etwa auf dem Weg zur Arbeit. Im Gegensatz dazu neigen ältere Nutzer dazu, langsamer zu fahren, was vor allem bei längeren Strecken (>4,5 km) auffällt. Diese Beobachtung könnte durch eine Vielzahl von Faktoren erklärt werden, etwa durch körperliche Einschränkungen oder unterschiedliche Verwendungszwecke des Radfahrens, wie Freizeitfahrten im Vergleich zu Pendelverkehr.

Die Analyse der Citibike-Nutzerdaten zeigt, dass die Fahrgeschwindigkeiten unter verschiedenen Bedingungen variieren, insbesondere wenn es um den Unterschied zwischen regulären Abonnenten und Gelegenheitsnutzern geht. Abonnenten neigen dazu, schneller zu fahren als Gelegenheitskunden. Dies könnte darauf hinweisen, dass regelmäßige Nutzer die Infrastruktur besser kennen und effizientere Routen wählen. Die Unterschiede in den Fahrgeschwindigkeiten nehmen jedoch mit zunehmender Streckenlänge ab, was darauf hinweist, dass bei längeren Fahrten die Zeitersparnis möglicherweise weniger relevant ist.

Ein weiterer interessanter Aspekt ist, dass die Schwankungen in den Fahrgeschwindigkeiten bei älteren Altersgruppen für Strecken von über 4,5 km darauf hindeuten, dass mehr Daten und eine detailliertere Analyse erforderlich sind, um zu einer zuverlässigen Schlussfolgerung zu kommen. Es könnte beispielsweise sein, dass die Fahrten in der Altersgruppe der 65- bis 70-Jährigen seltener sind, was zu verzerrten Ergebnissen führt, die nur durch eine größere Datengrundlage neutralisiert werden können. Die Variabilität in dieser Altersgruppe macht eine genauere Untersuchung notwendig, da hier ausreißende Werte das Gesamtergebnis beeinflussen könnten.

Die verwendeten Daten beinhalten auch zusätzliche Variablen, die den Einfluss des Alters auf das Reiseverhalten noch weiter differenzieren. So wurde zum Beispiel das Alter der Nutzer durch das Geburtsjahr ermittelt, und die Ergebnisse wurden nach Altersbändern (alle fünf Jahre) aggregiert. Diese Vorgehensweise hilft, die Schwankungen innerhalb der verschiedenen Altersgruppen besser zu verstehen und aussagekräftigere Vergleiche anzustellen. Dabei fällt auf, dass die älteren Altersgruppen, insbesondere bei längeren Distanzen, eher als Ausreißer erscheinen, was auch durch die begrenzte Anzahl der Datensätze in diesen Gruppen bedingt sein könnte.

Ein weiteres interessantes Detail ist, dass der Zweck der Reise, ob utilitaristisch oder freizeitbezogen, einen erheblichen Einfluss auf die Fahrgeschwindigkeit hat. Utilitaristische Fahrten, wie sie für Pendler typisch sind, tendieren zu einer schnelleren Fahrweise, während freizeitbezogene Fahrten tendenziell langsamer sind. Diese Differenzierung ist wichtig, da sie zeigt, dass das Alter nicht der alleinige Faktor ist, der die Geschwindigkeit beeinflusst, sondern dass auch der Zweck der Fahrt eine Rolle spielt.

Zusätzlich zu den grundlegenden Analysewerkzeugen, wie der Berechnung der durchschnittlichen Geschwindigkeit und der Analyse von Streckenlängen, werden in der Datenaufbereitung oft Techniken wie die Transformation von „untidy data“ verwendet. Diese Methoden sind besonders nützlich, wenn man mit Datensätzen arbeitet, bei denen Variablen über mehrere Zeilen oder Spalten verteilt sind. Durch Funktionen wie pivot_longer() und pivot_wider() aus der tidyr-Bibliothek wird der Datensatz in eine strukturierte Form gebracht, die eine leichtere Analyse ermöglicht. Diese Techniken sind unerlässlich, um komplexe Datenmengen zu visualisieren und zu verstehen, insbesondere bei großen Datenmengen, wie sie bei den Citibike-Fahrten anfallen.

Die Datenerhebung und Analyse von Citibike-Fahrten in New York bieten wertvolle Einblicke in die Nutzung von Fahrrädern in einer großen urbanen Umgebung. Sie werfen nicht nur Fragen zur Effizienz und Nachhaltigkeit von Fahrrädern als Verkehrsmittel auf, sondern auch zur sozialen und demografischen Struktur der Nutzer. Insbesondere zeigt sich, dass ältere Nutzer tendenziell eine andere Fahrweise an den Tag legen als jüngere, was möglicherweise mit den unterschiedlichen Bedürfnissen und körperlichen Voraussetzungen zusammenhängt.

Wichtig für die Analyse solcher Daten ist es, die unterschiedlichen Nutzungskontexte zu berücksichtigen. So können beispielsweise die geographischen Gegebenheiten, wie Hügel oder Straßennetz, sowie die saisonalen Schwankungen das Reiseverhalten beeinflussen. Es ist ebenfalls wichtig, dass alle relevanten Variablen in die Analyse einbezogen werden, einschließlich der Nutzergewohnheiten und der unterschiedlichen Fahrstrecken. Nur durch eine umfassende Betrachtung aller Faktoren lässt sich ein vollständiges Bild des Fahrradverkehrs in städtischen Gebieten wie New York zeichnen.

Wie beeinflusst die Symbolisierung die Gestaltung von Visualisierungen?

In der Gestaltung von Visualisierungen spielt die Symbolisierung eine zentrale Rolle. Es geht darum, Informationen durch Symbole darzustellen, die mit Bedeutung aufgeladen sind, um ein anderes Phänomen zu repräsentieren. Eine effektive Symbolisierung ist dann gegeben, wenn die Beziehung zwischen einem Symbol und dem Objekt, das es repräsentiert, klar und leicht verständlich ist. Es handelt sich also um den Prozess, etwas mit einem Symbol zu kodieren, das für etwas anderes steht. Dabei wird die symbolische Darstellung genutzt, um Daten auf eine Art und Weise zu kommunizieren, die sowohl präzise als auch verständlich ist.

Die Wirksamkeit der Symbolisierung hängt maßgeblich von der Klarheit und Eindeutigkeit der Darstellung ab. Dies wird besonders deutlich in der Analyse von Visualisierungen wie der Kartenansicht der Wahlergebnisse der US-Präsidentschaftswahlen 2016, die die Wahlgewinne der beiden großen Parteien symbolisch durch unterschiedliche Farben und Formate darstellen. Diese grafische Darstellung nutzt geometrische Symbole, wie z. B. dreieckige Markierungen, deren Aussehen durch Farbe und Form spezifische Informationen über das Wahlverhalten in den einzelnen Landkreisen vermittelt. So wird beispielsweise das Wahlverhalten in den bevölkerungsreichen Küstengebieten und städtischen Regionen durch hohe, breite und blaue Markierungen visualisiert, während die dünn besiedelten ländlichen Gebiete durch kurze, breite und rote Markierungen dargestellt werden. Diese visuelle Unterscheidung spiegelt das politische Gefälle zwischen den verschiedenen Regionen wider und verdeutlicht auf intuitive Weise die politische Polarität des Landes.

Die symbolische Gestaltung von Daten muss jedoch nicht nur die Wahl eines geeigneten Symbols umfassen, sondern auch die Auswahl des richtigen visuellen Kanals, um die Daten darzustellen. Dabei spielt das Prinzip der Priorisierung eine wichtige Rolle. Die Aufgaben und Daten, die die höchste Priorität haben, sollten mit den effektivsten Darstellungsformen kodiert werden. Das bedeutet, dass weniger wichtige Daten mit weniger effektiven Kodierungen dargestellt werden können. Diese Priorisierung ist ein kreativer Prozess, der oft das konventionelle Wissen herausfordert und manchmal gegen gängige Designprinzipien geht, um die gewünschte Wirkung zu erzielen. Ein gutes Design ist immer feinfühlig gegenüber dem Zusammenspiel von Aufgaben, Daten und den gewählten Kodierungen.

Ein Beispiel für die symbolische Darstellung von Wählerverhalten zeigt sich in der Darstellung von Swing-Wahlen. Hierbei werden politische Verschiebungen zwischen den Wahlen von 2012 und 2016 durch unterschiedliche Winkel der Markierungen visualisiert. Diese Winkel repräsentieren, ob ein Landkreis politisch nach rechts (Republikaner) oder nach links (Demokraten) abgedriftet ist. Diese Art der Symbolisierung nutzt eine visuelle Sprache, die dem Betrachter schnell eine klare Vorstellung von den politischen Veränderungen vermittelt und dabei hilft, Muster im Wahlergebnis zu erkennen, die geographische und kulturelle Unterschiede widerspiegeln.

Besondere Sorgfalt ist auch bei der Wahl der richtigen Maßeinheit und der Visualisierung von Quantitäten erforderlich. Obwohl die Orientierung der Markierungen, die in einem Diagramm verwendet werden, als weniger effektiv als andere visuelle Kanäle wie die Länge gilt, gibt es durchaus gute Gründe, warum diese Methode in bestimmten Fällen verwendet wird. Insbesondere bei der Visualisierung von Wahldaten, die nach geographischen Regionen gruppiert sind, hat die Verwendung von Orientierung eine klare funktionale Bedeutung, da sie zusätzlich zu den Länge- und Flächenkodierungen die Wahrnehmung von politischen Verschiebungen unterstützt.

Ein wichtiger Punkt bei der Gestaltung von Symbolen ist die klare Verbindung zwischen Symbol und Bedeutung, damit der Betrachter sofort die richtige Interpretation vornehmen kann. Die Wahl von Symbolen, die intuitiv mit den dargestellten Daten verbunden sind, ist ein entscheidender Faktor für die Wirksamkeit der Visualisierung. Besonders dann, wenn die Daten sehr komplex sind, muss die Symbolisierung nicht nur ästhetisch, sondern auch funktional und informativ sein.

Ein weiteres relevantes Element bei der Gestaltung von Visualisierungen ist der Umgang mit Farben. Farben haben eine sehr starke Wirkung auf die Wahrnehmung von Daten und können, wenn sie richtig eingesetzt werden, eine visuelle Hierarchie der Daten unterstützen und dabei helfen, wichtige Muster und Unterschiede hervorzuheben. Bei der Verwendung von Farben sollte darauf geachtet werden, dass die Farbwahl sowohl die Art der Daten als auch deren Bedeutung widerspiegelt. Kategorische Daten, die keine klare Reihenfolge aufweisen, sollten mit verschiedenen Farben dargestellt werden, während für ordinales oder quantitatives Material die Intensität der Farbe (Sättigung oder Helligkeit) eingesetzt werden sollte, um eine hierarchische Struktur zu verdeutlichen.

Es ist jedoch zu beachten, dass die Wahl von Symbolen und Farben immer in einem Kontext betrachtet werden muss. Der visuelle Kanal, der zur Darstellung von Daten verwendet wird, muss zu den zugrunde liegenden Informationen passen. So ist beispielsweise die geografische Position eines Symbols oft der effektivste Kanal zur Darstellung von nominalen Daten, da die Position des Symbols die räumliche Beziehung zwischen den geographischen Einheiten wiedergibt.

Die Symbolisierung ist daher ein integraler Bestandteil des gesamten Designprozesses einer Visualisierung und verlangt ein tiefes Verständnis der zu vermittelnden Daten sowie der kognitiven Wahrnehmung des Betrachters. Jeder Schritt – von der Auswahl des Symbols bis zur Entscheidung, welche visuellen Kanäle genutzt werden – beeinflusst die Effektivität und Verständlichkeit der Visualisierung.

Warum ist Visualisierung in der Datenanalyse so entscheidend?

Die Datenanalyse hat sich in den letzten Jahren als eine der zentralen Methoden herauskristallisiert, um komplexe gesellschaftliche Probleme zu verstehen und zu lösen. Der Fortschritt in der Technologie, insbesondere im Bereich der Datenwissenschaften, hat neue Möglichkeiten für die Sammlung, Verarbeitung und Visualisierung von Daten geschaffen. Besonders deutlich wurde dies während der COVID-19-Pandemie, als eine Fülle von Daten zur Verfügung stand, die durch moderne Technologien verarbeitet und analysiert wurden. Überall auf der Welt sind Daten zu einem unverzichtbaren Instrument geworden, das nicht nur in der Forschung, sondern auch in der politischen Entscheidungsfindung und im gesellschaftlichen Dialog eine immer größere Rolle spielt. Datenwissenschaft (Data Science) ist daher nicht mehr nur ein technisches Fachgebiet, sondern eine multidisziplinäre Praxis, die viele verschiedene Bereiche des Wissens umfasst. Doch warum genau ist die Visualisierung von Daten so bedeutend und wie wird sie in der Praxis genutzt?

Die Bedeutung der Visualisierung in der Datenanalyse liegt nicht nur in der Tatsache, dass sie uns hilft, Daten zu interpretieren, sondern vor allem darin, dass sie es uns ermöglicht, die in den Daten verborgenen Muster und Beziehungen zu erkennen. In der sozialen Datenwissenschaft, einem Bereich, der oft mit komplexen, multidimensionalen Datensätzen arbeitet, sind Visualisierungen ein unverzichtbares Werkzeug. Sie helfen dabei, die Strukturen von Daten sichtbar zu machen, die mit traditionellen statistischen Methoden möglicherweise nicht leicht erfasst werden können. Diese Methodenkombination von Visualisierung und Datenanalyse ist entscheidend, um ein tieferes Verständnis der sozialen Phänomene zu erlangen, die durch Daten erfasst werden.

Ein prägnantes Beispiel für den Nutzen von Datenvisualisierungen in der Analyse urbaner Mobilität liefert die Analyse von Bikesharing-Systemen, die in vielen Städten der Welt in den letzten Jahren implementiert wurden. Diese Systeme bieten eine riesige Menge an Daten über die Nutzung von Fahrrädern in städtischen Gebieten. Doch diese Daten allein reichen nicht aus, um die Nutzergewohnheiten vollständig zu verstehen. Wichtige Faktoren wie die Motivation der Nutzer, mögliche Barrieren und die individuellen Beweggründe für die Nutzung des Bikesharing-Systems können nur indirekt über die Analyse der Daten ermittelt werden. Hier zeigt sich der Nutzen von Visualisierungen: Sie ermöglichen es, die Nutzungsmuster auf eine Weise darzustellen, die den Forscher*innen hilft, wichtige Hypothesen zu entwickeln und die Daten auf neue, kreative Weisen zu interpretieren.

Im Beispiel eines städtischen Bikesharing-Systems, wie es in London implementiert wurde, können durch Visualisierungen verschiedene Aspekte der Nutzung sichtbar gemacht werden. Es wird zum Beispiel deutlich, wie sich die Anzahl der Fahrten über den Tag und die Woche verteilt, was auf eine stark pendelorientierte Nutzung hindeutet. Eine Visualisierung der Häufigkeit der einzelnen Fahrten lässt vermuten, dass viele der Fahrten so genannte „Last Mile“-Fahrten sind – also kurze Strecken, die den letzten Abschnitt einer längeren Reise abdecken. Ein weiteres interessantes Ergebnis lässt sich durch die Analyse der Ranggrößenverteilung erkennen, die zeigt, dass die meisten Fahrten in einem relativ kleinen Teil des Systems stattfinden, was auf eine ungleiche Verteilung der Nutzung hinweist.

Diese Art der Analyse zeigt die Komplexität und die vielfältigen Dimensionen, die in den Daten eines Bikesharing-Systems enthalten sind. Sie hilft nicht nur dabei, die Nutzung des Systems besser zu verstehen, sondern auch, mögliche Verbesserungen für das System zu identifizieren. Solche Visualisierungen sind jedoch nur ein Teil des gesamten Datenanalyseprozesses. Sie sind eng verknüpft mit anderen Schritten wie der Datenerhebung, -vorbereitung und -transformation, der Modellierung und der Präsentation der Ergebnisse.

Die Kunst der Visualisierung erfordert nicht nur technische Fähigkeiten, sondern auch ein tiefes Verständnis der sozialen Kontexte und der Fragestellungen, die in der jeweiligen Datenanalyse behandelt werden. Ein Beispiel aus der sozialen Datenwissenschaft ist die Analyse von Verkehrs- und Mobilitätsdaten in Großstädten. Hier spielen nicht nur technische Aspekte wie die Wahl der Visualisierungsmethoden eine Rolle, sondern auch das Verständnis für die sozialen Implikationen dieser Daten. Welche Fragen müssen gestellt werden, um die Probleme des urbanen Verkehrs zu lösen? Welche Daten sind tatsächlich relevant und welche könnten in die Irre führen? Solche Überlegungen sind unerlässlich, um die Qualität der Visualisierungen und die daraus abgeleiteten Schlussfolgerungen zu gewährleisten.

Ein weiteres wichtiges Element in der Datenvisualisierung ist die Rolle der Reproduzierbarkeit von Analysen. In der wissenschaftlichen Praxis ist es entscheidend, dass die durchgeführten Analysen von anderen Forscher*innen nachvollzogen und überprüft werden können. Dies ist besonders in der sozialen Datenwissenschaft von Bedeutung, wo die Interpretation von Daten oft nicht eindeutig ist und verschiedene Perspektiven und methodische Ansätze zur Erklärung der gleichen Phänomene führen können. Ein bewährtes Werkzeug zur Erreichung dieser Reproduzierbarkeit ist die Verwendung von RStudio-Projekten und Computernotebooks wie Quarto. Diese ermöglichen es, alle Schritte der Datenanalyse – von der Datensammlung über die Transformation bis hin zur Visualisierung – in einem nachvollziehbaren Format zu dokumentieren. Durch diese Transparenz wird nicht nur die Qualität der Analyse verbessert, sondern auch die Möglichkeit geschaffen, die Ergebnisse in einem breiteren Kontext zu diskutieren und zu validieren.

Die Verwendung von Visualisierungen und die Gewährleistung ihrer Reproduzierbarkeit sind also zentrale Bausteine einer modernen und effektiven Datenanalyse. Sie fördern nicht nur das Verständnis komplexer Zusammenhänge, sondern tragen auch dazu bei, die Integrität der Forschung zu sichern und den Dialog zwischen verschiedenen Disziplinen und Interessengruppen zu erleichtern. Datenvisualisierung ist daher nicht nur ein technisches Werkzeug, sondern ein integraler Bestandteil des gesamten wissenschaftlichen Prozesses, der sowohl technische als auch gesellschaftliche Fragestellungen miteinander verknüpft.

Wie man Unsicherheit bei der Analyse von Verkehrsunfällen mit Bootstrap-Schätzungen und Risikotheater visualisiert

Bei der Analyse von Verkehrsunfällen, insbesondere bei der Betrachtung von schwerwiegenden Unfällen (KSI – Killed or Seriously Injured) im Vergleich zu weniger schweren (slight) Unfällen, ist es von entscheidender Bedeutung, die Unsicherheit der Schätzungen zu berücksichtigen. Eine gängige Methode zur Darstellung dieser Unsicherheit und zur besseren Visualisierung der Verteilung von KSI-Unfällen ist die Verwendung von sogenannten "Icon Arrays" oder Risikotheatern. Diese Methode nutzt zufällig verteilte Symbole (wie Sitze in einem Theater), um die Häufigkeit und Schwere von Unfällen zu veranschaulichen, wodurch die Auswirkungen von Unfällen in einer anschaulichen und nachvollziehbaren Weise dargestellt werden.

Ein solcher Ansatz beinhaltet die Verwendung von Gitterstrukturen, die bestimmte Unfallorte (mit den entsprechenden KSI- oder "slight"-Markierungen) aufzeigen. Dies wird oft durch den Einsatz von ggplot2 und spezifischen Plot-Funktionen wie geom_tile() erreicht. Diese Funktionen helfen, die Position der Unfälle auf einem Gitter anzuzeigen und unterschiedliche Schweregrade durch Farben zu differenzieren. In einem typischen Beispiel könnte man ein 10x10-Gitter verwenden, wobei jede Zelle ein potenzielles Unfallereignis repräsentiert. Die Zellen werden dann entsprechend dem Unfalltyp gefärbt – rot für schwerwiegende Unfälle (KSI) und eine hellere Rottönung für weniger schwere Unfälle. Dies macht die Darstellung der Unfälle sowohl auf einer makroskopischen als auch auf einer mikroskopischen Ebene möglich.

Zusätzlich wird häufig die Methode facet_wrap() angewendet, um diese Gitter nach lokalen Behörden zu unterteilen, wie im Fall von Oxford und Fareham. Dies gibt uns die Möglichkeit, Unterschiede in den Unfallraten zwischen verschiedenen geografischen Regionen zu visualisieren, was besonders nützlich ist, um bestimmte Risikomuster in verschiedenen Städten oder Landkreisen zu erkennen. In diesem Zusammenhang könnte man beispielsweise die Unfallraten in Oxford und Fareham mit den Werten 41% und 17% für KSI-Unfälle in 1.000 Unfällen vergleichen.

Die Erstellung eines Risikotheaters erfolgt in ähnlicher Weise, jedoch mit einer Variation. In diesem Fall wird eine geometrische Datei (Shapefile) mit Sitzplätzen im Theater verwendet, um die Unfallereignisse zufällig den Sitzplätzen zuzuordnen. Dies ermöglicht es, die Unfälle auf einer breiten Fläche zu verteilen und gleichzeitig die Verhältnisse der KSI-Unfälle zur Gesamtzahl der Unfälle beizubehalten. Eine wichtige Funktion dabei ist slice_sample(), die zufällig eine bestimmte Anzahl von Sitzplätzen auswählt, die dann als KSI-Unfälle markiert werden. Diese Methode kann auch für die Darstellung von Unfällen in verschiedenen lokalen Behörden angewendet werden, wie es in einem Beispiel mit den Städten Oxford und Fareham gezeigt wird.

Ein weiteres nützliches Werkzeug zur Schätzung der Unsicherheit bei der Analyse von Verkehrsunfällen ist die Bootstrap-Methode. Die Verwendung von Bootstrap-Resampling ermöglicht es, die Parameterunsicherheit zu quantifizieren und so die Zuverlässigkeit von Schätzungen wie der Unfallrate zu erhöhen. Bei der Anwendung dieser Methode auf die Unfalldaten wird zunächst ein binärer Wert (is_ksi) für jedes Unfallereignis erstellt, der angibt, ob es sich um einen KSI-Unfall handelt. Anschließend werden die Daten nach Jahr und lokalem Verwaltungsbezirk gefiltert, bevor Bootstrap-Proben generiert werden. Diese Proben geben eine Vielzahl von möglichen Schätzungen für die KSI-Rate an, die dann verwendet werden, um eine Verteilung der möglichen KSI-Raten für jeden Bezirk zu erstellen.

Der Einsatz der Bootstrap-Methode kann auch auf eine visuelle Weise erfolgen, um die Unsicherheit der Schätzungen darzustellen. Ein einfaches Beispiel hierfür ist die Erstellung von Diagrammen, die die mittlere KSI-Rate zusammen mit den Unsicherheitsbereichen (zum Beispiel in Form von Fehlerbalken oder Verteilungen) anzeigen. Mit der Bibliothek ggdist lassen sich solche Darstellungen einfach erzeugen, indem die Bootstrap-Resamples zusammen mit den Schätzungen des Standardfehlers visualisiert werden.

Ein wichtiger Aspekt bei der Anwendung dieser Techniken ist, dass sie nicht nur auf der Ebene einzelner Unfälle arbeiten, sondern auch die Unsicherheit auf einer aggregierten Ebene berücksichtigen. Die Unsicherheit in der Schätzung der Unfallraten kann durch die Verwendung von Bootstrap-Resampling und der Berechnung von Standardfehlern und Konfidenzintervallen quantifiziert werden. Dies ermöglicht eine präzisere und realistischere Darstellung der Risikoanalyse.

Es ist auch entscheidend zu beachten, dass die Wahl der Methode – sei es das Risikotheater oder Bootstrap-Resampling – von den spezifischen Zielen und der verfügbaren Datenbasis abhängt. Während das Risikotheater vor allem für die visuelle Darstellung und Kommunikation von Unfallrisiken in einem breiten Kontext nützlich ist, bietet das Bootstrap-Verfahren detailliertere statistische Informationen über die Unsicherheit und Variabilität der Schätzungen. Beides kann jedoch kombiniert werden, um ein umfassendes Verständnis von Unfallrisiken und deren Unsicherheiten zu ermöglichen.

Wichtig zu verstehen ist, dass diese Methoden der Unsicherheitsbewertung nicht nur zur Verbesserung der Visualisierung von Unfallrisiken dienen, sondern auch für die Entscheidungsfindung und die Gestaltung von Sicherheitsstrategien. Durch die Berücksichtigung der Unsicherheit bei der Analyse von Verkehrsunfällen können Behörden und Organisationen fundiertere Maßnahmen zur Reduzierung von KSI-Unfällen ergreifen und gezielte Interventionen in den entsprechenden Bereichen durchführen.

Wie Visualisierung die Datenanalyse in der Sozialwissenschaft verändert

Die Präsentation von Daten erhält in der heutigen Datenwissenschaft eine besondere Bedeutung. Statt als isolierte Phase im Datenverarbeitungsprozess betrachtet zu werden – also als etwas, das nach der Datensammlung, -vorbereitung und -exploration, aber vor der Modellierung passiert –, zeigt dieses Buch auf, dass die Datenvisualisierung ein integraler Bestandteil jedes Aspekts der Datenwissenschaft ist. Sie sollte nicht nur die Daten präsentieren, sondern auch dazu dienen, komplexe, multivariate Strukturen zu erfassen (Kapitel 3, 4, 5), kritisches Denken über Datenumwandlung und Modellierung zu fördern (Kapitel 4, 5 und 6) und beobachtete Muster mit Integrität zu kommunizieren (Kapitel 7 und 8).

Diese besondere Bedeutung der Visualisierung wird noch deutlicher, wenn man die Bedingungen berücksichtigt, unter denen Projekte der sozialen Datenwissenschaft durchgeführt werden. Neue Datensätze werden typischerweise erstmals für sozialwissenschaftliche Forschungen wiederverwendet. Sie enthalten komplexe Strukturen und Beziehungen, die sich nicht einfach mit konventioneller Statistik modellieren lassen. Infolgedessen können die Arten von Fragen, die gestellt werden, und die Techniken, die zur Beantwortung dieser Fragen eingesetzt werden, – das Forschungdesign – nicht im Voraus festgelegt werden.

Ein Beispiel, das den Wert der Visualisierung innerhalb der Datenwissenschaft verdeutlicht, stammt aus der Analyse von Londoner Bikeshare-Daten. Die statistischen Zusammenfassungen in Abbildung 1.1 sind abstrakte Darstellungen und vermitteln nicht unbedingt ein vollständiges Bild davon, wie die Nutzer des Bikeshare-Systems sich durch die Stadt bewegen. Wenn man jedoch die verfügbaren Variablen wie die Standorte und Zeitstempel der Anfangs- und Endpunkte der Fahrten nutzt, können Grafiken erzeugt werden, die diese synoptischen Nutzungsmuster offenbaren. In Abbildung 1.2 werden Fahrten, die während des morgendlichen Berufsverkehrs stattfinden, mit Hilfe von Flusslinien dargestellt, die in Richtung des Zielorts kurven. Die Dicke und Transparenz dieser Linien wurde entsprechend der Häufigkeit der Fahrten angepasst, wodurch die am häufigsten genutzten Routen besonders hervorgehoben werden. Dies liefert einen direkteren Eindruck vom radfahrenden Verhalten in der Stadt und zeigt deutlich eine Pendlerfunktion in den Morgenstunden, mit Verbindungen von Londons wichtigen Bahnhöfen – King's Cross und Waterloo – ins Zentrum und die City of London.

Dieses Beispiel soll keinesfalls den Wert von statistischen Abstraktionen schmälern. Numerische Zusammenfassungen, die Muster vereinfachen, sind äußerst nützlich, und die Statistik bietet eine Reihe von Werkzeugen, um falsche Schlussfolgerungen aus Datensätzen zu vermeiden. Allerdings gibt es bestimmte Klassen von Beziehungen und Kontexten, die insbesondere für soziale Phänomene und geografische Kontexte relevant sind und die durch numerische Zusammenfassungen allein nicht vollständig erfasst werden können.

In einem weiteren Fallbeispiel, das Gender-Aspekte in der Analyse von Urban Mobility behandelt, lässt sich die Bedeutung von Visualisierung im Kontext von Modellierung und Statistik verdeutlichen. In einer Untersuchung der Londoner Bikeshare-Daten zeigt sich, dass 77 % der Fahrten von Männern durchgeführt werden. Eine interessante Fragestellung ist, ob sich das Verhalten von Männern und Frauen in Bezug auf die Art und den geografischen Kontext ihrer Fahrten unterscheidet. In Abbildung 1.3 werden die 50 am häufigsten genutzten Ausgangs-Ziel-Paare im Datensatz untersucht, und die Geschlechterverteilung wird mit einer Modellvorhersage verglichen, die auf der Annahme basiert, dass Männer immer 77 % der Fahrten ausmachen. In nur drei der ausgewählten Paare ist der Anteil der Frauen höher als erwartet, was darauf hinweist, dass die am häufigsten genutzten Strecken für Männer von den beliebtesten Strecken für Frauen abweichen.

Zur besseren Darstellung dieser Unterschiede wird die Flusskarten-Grafik in Abbildung 1.4 entsprechend angepasst. Hier werden die Linien nach dem Grad der Abweichung vom Modell gefärbt, was zu einer visuellen Unterscheidung führt, die geographische Unterschiede im Verhalten der Geschlechter offenbart. Männer sind vor allem auf Pendelstrecken zwischen großen Bahnhöfen und dem Stadtzentrum überrepräsentiert, während das Fahrverhalten der Frauen geografisch vielfältiger und variabler ist.

Diese Analyse zeigt, dass eine einfache Modellierung und statistische Zusammenfassung nicht ausreichen, um das komplexe Verhalten von Bikeshare-Nutzern zu verstehen. Die Modellierung der Daten und die Visualisierung der Residuen, also der Abweichungen vom Modell, eröffnen neue Erkenntnisse und ermöglichen es, kontextuelle Unterschiede zu berücksichtigen. Es geht nicht nur darum, ein statistisches Modell zu erstellen, sondern auch darum, zu verstehen, wie unterschiedliche Faktoren – wie Geschlecht oder städtische Geografie – das Verhalten beeinflussen.

Neben der Fähigkeit, Muster zu visualisieren, fordert die Datenvisualisierung den Forscher heraus, die Unsicherheit und die Komplexität sozialer Daten in den Griff zu bekommen. Sie zwingt dazu, die Daten nicht nur als abstrakte Zahlen zu betrachten, sondern auch ihre zugrunde liegenden sozialen, geografischen und kulturellen Kontexte zu berücksichtigen. Dies ist von besonderer Bedeutung, wenn man soziale Phänomene und das menschliche Verhalten untersucht, da diese oft nicht in einfachen, linearen Modellen erfasst werden können.

Daher sollte jede Visualisierung immer im Kontext des größeren Forschungsvorhabens und der zugrunde liegenden Fragen betrachtet werden. Sie ist nicht nur ein Werkzeug zur Darstellung von Daten, sondern ein aktiver Bestandteil des analytischen Prozesses, der dabei hilft, Fragen zu entwickeln, Hypothesen zu testen und Ergebnisse zu kommunizieren. Nur durch diese umfassende Herangehensweise wird es möglich, die tiefere Bedeutung von Daten zu erfassen und deren komplexe Strukturen aufzuzeigen.