In modernen virtuellen Umgebungen, insbesondere in Anwendungen wie industriellen Schulungen oder interaktiven Simulationen, spielt der Szenengraph eine entscheidende Rolle bei der Darstellung und Interaktion mit virtuellen Objekten. Der Szenengraph verändert sich dynamisch, abhängig von der Kamera-Position oder den Interaktionen des Nutzers, und muss kontinuierlich aktualisiert werden, um eine realistische und reaktive Darstellung der Welt zu gewährleisten.

Ein gutes Beispiel für einen solchen Szenengraphen findet sich in industriellen Trainingsanwendungen. Stellen wir uns ein Szenario vor, in dem ein Nutzer ein virtuelles Bedienfeld mit mehreren Reglern steuert, während eine feste virtuelle Kamera die Szene überwacht. Zunächst ist der Regler-Knopf (Knob_1) im Szenengraph ein Knoten des Bedienfelds, und seine Geometrie sowie seine Farbe sind als Attribute des Knotens gespeichert. Wenn der Avatar der virtuellen Hand diesen Knopf ergreift und dreht, ändert sich der Szenengraph: Nun ist der Regler-Knopf ein Kind der Knoten für Daumen und Zeigefinger des Avatars. Diese Veränderung macht es möglich, dass die Transformationen, die auf die Finger angewendet werden, auch auf den Regler angewendet werden, was eine realistische Interaktion mit dem virtuellen Objekt ermöglicht.

Dieser dynamische Wechsel des Szenengraphs stellt jedoch eine Herausforderung für die Effizienz und Konsistenz der Simulation dar. Der Szenengraph muss kontinuierlich aktualisiert werden, und zwar einmal pro Frame. Dieser Aktualisierungsprozess erfolgt rekursiv – vom Wurzelknoten zu den Blättern und zurück. Zuerst werden Änderungen an den Knotenattributen vorgenommen, einschließlich der Transformationen. Anschließend wird die Knoten-Bindungsvolumenberechnung durchgeführt, um die räumliche Ausdehnung der Objekte zu bestimmen. Diese Informationen sind entscheidend für die Optimierung des Renderings, da sie helfen, unnötige Berechnungen zu vermeiden.

Ein wesentliches Konzept dabei ist das sogenannte "Bounding Volume Hierarchical Culling". Dabei wird überprüft, ob die Bounding Volumes (die Volumina, die ein virtuelles Objekt umschließen) außerhalb des Sichtfeldes der Kamera (dem View-Frustum) liegen. Liegt das Volumen außerhalb dieses Bereichs, werden die entsprechenden Objekte nicht weiter bearbeitet, was die Effizienz des Renderings enorm steigert. Nur Objekte, deren Bounding Volumes im Sichtfeld liegen, durchlaufen den Rendering-Prozess.

In einem verteilten virtuellen System, in dem mehrere Benutzer gleichzeitig interagieren, wird die Komplexität des Szenengraphs weiter verstärkt. Hier können Tausende von Nutzern geografisch verteilt sein und über verschiedene Rechner und Netzwerke auf die virtuelle Welt zugreifen. Ein einzelner Rechner kann nur eine begrenzte Anzahl von Benutzern und eine begrenzte Menge an Detailgenauigkeit in der Darstellung der Welt unterstützen. Um diesen Anforderungen gerecht zu werden, wurden verteilte Szenengraphen entwickelt. In solchen Systemen wird die virtuelle Welt in kleinere Regionen aufgeteilt, die parallel berechnet werden. Jeder Server übernimmt die Berechnung einer bestimmten Region und ist dafür verantwortlich, die entsprechenden Updates zu verwalten und an andere Server und Clients zu übertragen.

Ein zentrales Problem bei der Umsetzung verteilter Szenengraphen ist die Skalierbarkeit und die Lastenverlagerung zwischen den Servern. In frühen Architekturen wie OpenSimulator war die Architektur simulatorzentriert: Jeder Server war für einen bestimmten Abschnitt der virtuellen Welt zuständig und verwaltete sowohl die Physik-Engine als auch die Scripts, die das Verhalten der Objekte steuerten. Diese Architektur hatte jedoch ihre Grenzen, vor allem in Bezug auf die Anzahl der gleichzeitigen Nutzer und die Detailgenauigkeit der Simulation. Wenn mehr als 400 Nutzer gleichzeitig eine Region der virtuellen Welt betreten, sank die Bildwiederholrate dramatisch, was zu einer unangemessenen Interaktivität führte.

Moderne Architekturen, wie sie von Intel-Forschern entwickelt wurden, nutzen zusätzliche Server, die jeweils bestimmte Aufgaben übernehmen, wie etwa die Physik-Simulation, das Management der virtuellen Welt oder die Kommunikation zwischen den Clients. Durch diese Spezialisierung der Server konnte die Last besser verteilt und die Performance erheblich verbessert werden. Ein solches System ermöglicht es, eine wesentlich höhere Anzahl gleichzeitiger Nutzer zu unterstützen, ohne die Qualität der Interaktivität zu beeinträchtigen.

Die Herausforderung, verteilte Szenengraphen effizient zu managen, besteht nicht nur in der Lastenverlagerung und der Synchronisation der Welt, sondern auch in der Darstellung von Details in Echtzeit. Da jeder Nutzer nur einen Teilbereich der virtuellen Welt sieht, müssen die Datenströme zwischen den Servern optimiert werden, um sicherzustellen, dass nur die relevanten Teile der Welt an die Clients übermittelt werden. Dies reduziert die Bandbreite und stellt sicher, dass alle Nutzer ein konsistentes Erlebnis haben, unabhängig von ihrer geografischen Lage oder den eingesetzten Geräten.

Ein weiteres wichtiges Element in der Optimierung von Szenengraphen in verteilten Systemen ist das effiziente Update-Management. In Szenarien mit tausenden von Nutzern, die ständig Interaktionen durchführen, ist es entscheidend, nur die Änderungen zu propagieren, die für die anderen Nutzer relevant sind. Hier kommen Techniken wie die "Level-of-Interest"-Verwaltung zum Einsatz, bei der jeder Nutzer nur die Updates von Objekten erhält, die für seine aktuelle Sicht der Welt von Bedeutung sind. Dies trägt dazu bei, die Kommunikationslast zwischen den Servern zu verringern und gleichzeitig die Interaktivität aufrechtzuerhalten.

Es ist wichtig zu verstehen, dass die Gestaltung und Verwaltung von Szenengraphen, sowohl in lokalen als auch in verteilten Umgebungen, nicht nur die Darstellung von virtuellen Objekten betrifft, sondern auch die Interaktivität und Performance in Echtzeit beeinflusst. Die fortschreitende Entwicklung der zugrunde liegenden Architektur sowie der Algorithmen zur Szenenaktualisierung und -verarbeitung ist von entscheidender Bedeutung für die Zukunft interaktiver, virtueller Welten, die von immer mehr Nutzern in immer komplexeren Anwendungen genutzt werden.

Wie beeinflusst die Bewegung im virtuellen Raum das Erleben von Cybersickness?

Die Dynamik der Bewegung im virtuellen Raum (VR) ist ein entscheidender Faktor für das Auftreten von Cybersickness. Diese wird durch die Diskrepanz zwischen visuellen und vestibulären Reizen verursacht, was bedeutet, dass das visuelle Feedback des Nutzers konstant bleibt, während seine propriozeptiven Sensoren Bewegung wahrnehmen. Die Forschung von Stoffregen et al. (2002) zeigt eine detaillierte Klassifikation der Bewegungsdynamik bei der Navigation in virtuellen Umgebungen, insbesondere im Zusammenhang mit der Kopfbewegung und der Steuerung des simulierten Fahrzeugs. In ihrer Arbeit unterscheiden die Forscher zwischen aktiv gesteuerten Bewegungen und passiv erlebten Bewegungen (wie bei einem Passagier im Gegensatz zu einem Fahrer oder Piloten). Dabei wird die Kopfbewegung immer als aktiv gesteuert angesehen, ob in Rotation oder Translation.

Ein zentraler Aspekt dieser Untersuchung ist das Konzept der visuellen-vestibulären Kopplung, das beschreibt, wie visuelle und vestibuläre Reize miteinander in Einklang stehen oder auseinanderfallen. Diese Kopplung kann als „äquivalent“, „verändert“ oder „deutlich unterschiedlich“ von der realen Welt beschrieben werden. Eine äquivalente Kopplung bedeutet, dass die visuellen und vestibulären Reize genau das gleiche Erlebnis wie in der realen Welt vermitteln. Eine veränderte Kopplung stellt eine gewisse Ähnlichkeit zur realen Welt her, ist jedoch durch technische Einschränkungen, wie zum Beispiel optische Verzerrungen oder schlecht kalibrierte Tracker, bedingt. Eine deutliche Unterscheidung liegt vor, wenn entweder visuelle oder vestibuläre Reize vollständig fehlen.

Ein Beispiel für diese Dynamik ist die Nutzung eines Flugsimulators ohne Bewegungsplattform, bei dem die Kopfbewegung des Nutzers äquivalent bleibt, während die Dynamik des simulierten Flugzeugs aufgrund des Fehlens der Bewegungsplattform, die normalerweise Inertialkräfte vermittelt, als deutlich unterschiedlich wahrgenommen wird. Andererseits, wenn der Flugsimulator mit einem Head-Mounted Display (HMD) betrachtet wird, bleiben die Bewegungsdynamiken des Flugzeugs ebenfalls unterschiedlich, da es an Rückmeldungen zu Inertialkräften fehlt. Gleichzeitig wird die visuelle-vestibuläre Kopplung bei notwendigen Kopfbewegungen aufgrund von Einschränkungen in der Sichtfeldgröße (FOV), Nachverfolgung und Displayauflösung verändert.

Die Forschung zeigt auch, dass Trackingfehler die visuelle-vestibuläre Kopplung von Nutzern, die ein HMD tragen, erheblich beeinflussen. Diese Fehler wirken sich auch auf die Kopplung zwischen der Bewegung von virtuellen Körper-Avataren und dem propriozeptiven System der Nutzer aus, das die Bewegung der Gliedmaßen wahrnimmt. Dies bedeutet, dass die Koordination zwischen visuellen Reizen und dem physischen Erlebnis der Bewegung durch technische Defizite in der Simulation gestört werden kann, was zu einem unkomfortablen oder sogar krankhaften Erlebnis führen kann.

Die Schwere von Cybersickness wird traditionell durch subjektive Fragebögen gemessen, die sowohl vor als auch nach der Nutzung der virtuellen Umgebung ausgefüllt werden. Der am häufigsten verwendete Fragebogen in der VR-Sicherheitsforschung ist der "Simulation Sickness Questionnaire" (SSQ) von Kennedy et al. (1993). Dieser Fragebogen enthält 16 Fragen, bei denen die Symptome auf einer Skala von 0 bis 3 bewertet werden. Auf dieser Basis werden separate Werte für Übelkeit, okulomotorische Beschwerden und Desorientierung sowie eine Gesamtschwereberechnung erstellt.

Neben dem SSQ gibt es auch kürzere Instrumente wie die „Fast Motion Sickness Scale“ (FMS), die eine schnellere und weniger störende Bewertung der Cybersickness ermöglicht, besonders während einer VR-Sitzung. Das FMS bewertet das subjektive Erleben der Übelkeit auf einer Skala von 0 bis 20, wobei 0 „keine Übelkeit“ und 20 „starke Übelkeit“ bedeutet.

Doch nicht nur subjektive Bewertungen, sondern auch objektive Messmethoden gewinnen zunehmend an Bedeutung. Eine vielversprechende Methode zur Vorhersage von Cybersickness ist die Verwendung von HMD-Augenbewegungsdaten. Eine Studie der Korea Advanced Institute of Science & Technology und der Korea University (Chang et al., 2021) zeigte, dass Augenfixierungsdauer und Abweichung zwischen Blickpunkt und Objektposition als Indikatoren für das Auftreten von Cybersickness verwendet werden können. Diese Variablen gaben eine genauere Vorhersage der Cybersickness als frühere Studien.

Darüber hinaus kann auch die Hautleitfähigkeit, die auf Änderungen in der Schweißproduktion reagiert, als objektive Messgröße verwendet werden. Eine solche Messung wurde in einer Studie an der University of Newcastle (Australien) durchgeführt, bei der Teilnehmer mit einem HMD ausgestattet wurden und gleichzeitig Hautleitfähigkeitssensoren trugen. Diese Studien zeigen, dass physiologische Reaktionen der Haut ein zusätzliches wertvolles Werkzeug zur Überwachung und Vorhersage von Cybersickness darstellen können.

Für den Leser ist es wichtig zu verstehen, dass Cybersickness nicht nur ein vorübergehendes Unwohlsein darstellt, sondern auch langfristige Auswirkungen auf das Nutzererlebnis und die Gesundheit haben kann, wenn keine entsprechenden Gegenmaßnahmen ergriffen werden. Die Forschung in diesem Bereich geht über die bloße Messung von Symptomen hinaus und untersucht, wie technische Aspekte der VR-Hardware, wie HMDs und Motion-Tracking-Systeme, die Wahrnehmung und das Erleben der virtuellen Welt beeinflussen. Optimierungen in der Technologie könnten daher nicht nur das Auftreten von Cybersickness minimieren, sondern auch die immersive Erfahrung insgesamt verbessern.

Wie funktionieren optische Tracking-Systeme in virtuellen Umgebungen?

Optische Tracking-Systeme, die in der virtuellen Realität (VR) und erweiterten Realität (AR) eine zentrale Rolle spielen, ermöglichen die präzise Verfolgung von Bewegungen in einem definierten Raum. Sie verwenden eine Vielzahl von Kameras oder anderen optischen Sensoren, die mithilfe von Lichtquellen, wie Infrarot-LEDs oder reflektierenden Markern, die Position und Orientierung eines Objekts oder einer Person im Raum erkennen. Dies ermöglicht die Echtzeit-Interaktion in virtuellen Welten und ist in einer Vielzahl von Anwendungen von Bedeutung, von der Rehabilitation bis hin zu immersiven Unterhaltungserlebnissen.

Ein Beispiel für ein solches System ist das Vantage-Tracking, das häufig in professionellen VR-Setups verwendet wird. In einem solchen System sind mehrere Kameras miteinander verbunden und erfassen die Bewegungen in einem definierten Raum. Jede Kamera ist über ein Netzwerk mit einem zentralen Host-PC verbunden, der die erfassten Tracking-Daten sammelt und verarbeitet. Diese Kameras sind strategisch in einem Raum positioniert, sodass sie die gesamte Bewegungsfläche abdecken und dabei „blinde Flecken“ minimiert werden. Die theoretische Abdeckung des Raums entspricht einem rechteckigen Volumen, das jedoch in der Praxis durch die Kamerapositionen und die geometrischen Einschränkungen modifiziert wird. In vielen Fällen ist eine präzise Verfolgung nur in etwa der Hälfte des gesamten Volumens möglich, während in anderen Bereichen eine geringere Genauigkeit festgestellt wird.

Neben den passiven Kamerasystemen existieren auch aktive Tracking-Systeme, die mit aktiven Markern arbeiten. Diese Marker bestehen aus Infrarot-LEDs, die auf den zu verfolgenden Objekten platziert sind. Diese Marker benötigen eine Energiequelle, in der Regel kleine Batterien oder Kabel, die sie mit Strom versorgen. Ein solches System wurde in einem Prototypen für ein Roboter-Rehabilitationstisch-Setup verwendet. Dabei wurden Infrarot-LEDs in Verbindung mit CMOS-Kameras eingesetzt, um die Position der Marker in Echtzeit zu verfolgen und dem Benutzer zu ermöglichen, durch virtuelle Rehabilitationseinheiten zu navigieren. Diese Technologie ermöglicht nicht nur die Bewegungserkennung, sondern auch die Interaktion mit virtuellen Avataren, was zu einer effizienteren und immersiveren Erfahrung führt.

Ein weiterer Fortschritt in der Technologie ist die Verwendung von pulsierenden Infrarot-LEDs. Diese LEDs werden nicht kontinuierlich betrieben, sondern pulsieren zu bestimmten Frequenzen, was den Energieverbrauch reduziert und die Lebensdauer der Batterie verlängert. Darüber hinaus kann dieses System mehrere Benutzer in einer Umgebung verfolgen, was es zu einer idealen Lösung für Anwendungen in großflächigen virtuellen Erlebnissen oder in Multiuser-Szenarien macht. Diese pulsierenden Marker bieten jedoch auch neue Herausforderungen hinsichtlich der Steuerung und Synchronisation, da präzise Zeitsteuerungen erforderlich sind, um die Marker ordnungsgemäß zu aktivieren und ihre Positionen korrekt zu verfolgen.

Ein weiteres bemerkenswertes System ist das "Origin"-Tracking von Vicon Motion Systems. Dieses System kombiniert verschiedene Hardwareeinheiten, darunter Kameras, Marker-Arrays und ein drahtloses Synchronisationssystem. Die Kameras, bekannt als "Viper", sind speziell darauf ausgelegt, aktive Marker zu verfolgen, und bieten eine große Reichweite sowie eine hohe Erfassungsrate, die für großflächige VR-Umgebungen geeignet sind. Diese Kameras arbeiten in Verbindung mit den sogenannten "Pulsar"-Marker-Arrays, die jeweils mehrere aktive Marker enthalten und es ermöglichen, dass mehrere Benutzer gleichzeitig in einer VR-Welt interagieren. Um die Synchronisation und Koordination der verschiedenen Geräte zu gewährleisten, wird ein drahtloser Sender, der "Beacon", eingesetzt. Dieses System wurde speziell für großflächige, ortsbasierte VR-Anwendungen entwickelt und stellt sicher, dass das Tracking in Echtzeit und mit minimaler Verzögerung erfolgt.

Neben den aktiven und passiven optischen Tracking-Technologien existiert eine weitere Möglichkeit der Positionsbestimmung, die sogenannte Time-of-Flight (ToF)-Optik. Bei dieser Technologie werden Infrarotstrahlen ausgesendet, die von einem Sensor im zu verfolgenden Objekt erfasst werden. Durch die Messung der Zeit, die der Strahl benötigt, um zum Sensor zurückzukehren, kann die Position und Orientierung des Objekts berechnet werden. Diese Technik wird in Geräten wie dem HTC Tracker 3.0 verwendet, einem kleinen, mechanischen Tracker, der in Kombination mit einer Vielzahl von Basisstationen arbeitet, um die Position und Bewegung eines Objekts präzise zu erfassen.

Für den Benutzer ist es entscheidend zu verstehen, dass die Wahl des Tracking-Systems nicht nur von der Präzision abhängt, sondern auch von der spezifischen Anwendung und der zu verfolgenden Umgebung. In einer VR-Umgebung für ein einzelnes Benutzererlebnis ist ein System, das mit passiven oder aktiven Markern arbeitet, ausreichend, um genaue und flüssige Interaktionen zu ermöglichen. Für größere, multiuser-fähige Setups oder in komplexeren virtuellen Welten, wie sie in ortsbasierten VR-Anwendungen vorkommen, sind Systeme wie das Vicon Origin mit drahtlos synchronisierten Geräten und hoher Kamerareichweite erforderlich, um Verzögerungen und Tracking-Fehler zu minimieren.

Ein weiteres zentrales Thema ist die Kalibrierung und Fehlerkorrektur. Selbst bei fortschrittlichsten Tracking-Systemen können Ungenauigkeiten auftreten, die durch falsche Kamerapositionen, ungenaue Marker oder äußere Störungen verursacht werden. Daher ist die kontinuierliche Kalibrierung der Systeme unerlässlich, um die Genauigkeit zu gewährleisten und Tracking-Daten zuverlässig zu erfassen. Einige Systeme, wie das Vicon Origin, bieten sogar automatisierte Selbstkalibrierungsfunktionen, die bei der Fehlerbehebung und bei der Optimierung des Systems in Echtzeit helfen.

Was ist der Unterschied zwischen lokalisiertem und nicht-lokalisiertem Sound in virtuellen Umgebungen?

Sound-Feedback spielt eine entscheidende Rolle für die Steigerung des Realismus und der Benutzerpräsenz in virtuellen Welten. Ein Beispiel: Ein Benutzer beobachtet ein Ballobjekt, das in einem großen virtuellen Raum auf einem Wanddisplay hin- und herhüpft. Er erwartet, den vertrauten „Plop-Plop-Plop“-Sound zu hören, der den Ballbounces begleitet. Wenn nun Sound zu den Grafiken hinzugefügt wird, steigen Interaktivität, Immersion und sogar die wahrgenommene Bildqualität des Nutzers. In diesem Fall genügt ein einfacher monauraler Sound, solange der Ball immer vor dem Benutzer bleibt, der auf einem Video-Wall angezeigt wird.

Doch stellen wir uns vor, der Benutzer nutzt ein Head-Mounted Display (HMD), und der Ball springt aus dem Sichtfeld. In diesem Fall ist der Benutzer aufgrund der visuellen Informationen allein nicht in der Lage, zu erkennen, wo der Ball hin ist. Das HMD benötigt daher eine Soundanzeige, die es dem Benutzer ermöglicht, das „Plop-Plop-Plop“-Geräusch im 3D-Raum zu lokalisieren, relativ zum Kopf des Benutzers. Die obigen Beispiele verdeutlichen eine wichtige Unterscheidung innerhalb der Sound-Feedback-Modi. Höchst immersive VR-Simulationen sollten zusätzlich zu den grafischen Rückmeldungen lokalen 3D-Sound oder „virtuellen Sound“ enthalten.

Es ist wichtig, den lokalisierten Sound nicht mit Stereo-Sound zu verwechseln. Der Unterschied wird in Abbildung 4.1 erläutert (Burdea und Coiffet 1994). Stereo-Sound, der über Kopfhörer gehört wird, scheint im Kopf des Nutzers zu erklingen, sodass die Geige beispielsweise im rechten Ohr wahrgenommen wird. Es handelt sich nicht um einen „externen“ Sound und ist nicht lokalisiert, wie der Klang einer realen Geige. Wenn der Nutzer mit Stereo-Kopfhörern den Kopf dreht, dreht sich der Klang der Geige ebenfalls nach links. Ein 3D-Sound, der mit denselben Kopfhörern wiedergegeben wird, enthält jedoch signifikante psychoakustische Informationen, die die Wahrnehmung des Nutzers verändern, sodass er glaubt, der aufgezeichnete Sound käme tatsächlich aus einer Quelle in seiner Umgebung (Begault 2000). In Abbildung 4.1b wird der 3D-Sound mit den Daten eines Kopftrackers synthetisiert, und die virtuelle Geige bleibt während der Kopfbewegung im Raum lokalisiert. Wenn der Kopf des Nutzers nach links gedreht wird, scheint sich der Geigenklang nach hinten zu bewegen. Zusätzlich reflektiert der Schall in einem realen Raum von Wänden, Boden oder Decke und fügt sich zum direkten Klang des Ursprungs (der Geige) hinzu. Der Realismus eines virtuellen Raumes erfordert daher, dass diese reflektierten Klänge ebenfalls berücksichtigt werden.

Um realistische 3D-Sounds zu erzeugen, ist ein tiefes Verständnis des menschlichen Gehörs erforderlich, insbesondere wie der Mensch Schallquellen im Raum lokalisiert. Die menschliche Wahrnehmung von Sound erfolgt durch Vibrationen, die über das Schädelsystem oder den Gehörgang zum Gehirn gelangen. Im Kontext dieser Arbeit wird die Rolle des Ohrs beim Erkennen der relativen Position einer Schallquelle im Vergleich zum Kopf des Nutzers näher erläutert.

Das vertikal-polare Koordinatensystem

Die Position einer Schallquelle wird oft in einem Koordinatensystem ausgedrückt, das am Kopf des Nutzers befestigt ist. Ein solches Koordinatensystem kann kartesisch sein, wobei die Position der Schallquelle relativ zum Kopf des Nutzers durch die x-, y- und z-Koordinaten beschrieben wird. Alternativ kann dieselbe Position einer 3D-Schallquelle auch in einem sphärischen Koordinatensystem beschrieben werden, das als „vertikal-polares“ Koordinatensystem bekannt ist (Duda 1987).

In einem vertikal-polaren Koordinatensystem wird die Position eines Punktes im Raum durch die Azimut- und Elevationswinkel sowie die Entfernung zu diesem Punkt bestimmt. Der Azimutwinkel ist der Winkel zwischen der Nase des Nutzers und einer Ebene, die die Schallquelle und die vertikale Achse z enthält. Der Azimutwinkel kann zwischen ±180° variieren, was bedeutet, dass sich eine Schallquelle vor oder hinter dem Nutzer befinden kann. Der Elevationswinkel ist der Winkel, der von einer Linie ausgeht, die durch die Quelle und das Zentrum des Kopfes verläuft, innerhalb der vertikalen Ebene. Der Elevationswinkel reicht von ±90°, was bedeutet, dass sich eine Quelle über oder unter dem Kopf des Nutzers befinden kann. Schließlich ist der Bereich die Entfernung zur Schallquelle, die entlang dieser Linie gemessen wird. Der Bereich kann nur positiv sein und muss größer sein als der Radius des Kopfes (bei Annahme eines vereinfachten sphärischen Kopfmodells). Das menschliche Gehirn schätzt den tatsächlichen Standort einer Quelle anhand von Intensität, Frequenz und zeitlichen Aspekten des Schalls.

Azimut- und Elevationshinweise

Die menschliche Wahrnehmung von Schallquellen im Raum basiert auf verschiedenen akustischen Hinweisen. Für den Azimut werden vor allem der Interaurale Zeitunterschied (ITD) und die Interaurale Intensitätsdifferenz (IID) genutzt. Der ITD ergibt sich aus der unterschiedlichen Ankunftszeit des Schalls an den beiden Ohren. Wenn eine Schallquelle auf der rechten Seite des Nutzers liegt, erreicht der Schall das rechte Ohr später, da der Kopf des Nutzers als Schallbarriere fungiert. Der Unterschied in der Ankunftszeit wird als ITD bezeichnet und ist maximal, wenn die Quelle 90° vom Nutzer entfernt ist. Der IID entsteht aufgrund des „Kopfschattens“, wobei das nähergelegene Ohr einen intensiveren Schall wahrnimmt als das entferntere Ohr. Besonders bei höheren Frequenzen (über 1,5 kHz) ist dieser Effekt deutlich. Für niedrigere Frequenzen dominiert der ITD.

Bezüglich der Elevation kommt es zu sogenannten „Konus-der-Verwirrung“-Effekten. Dies bedeutet, dass in bestimmten Bereichen der Kopfbewegung sowohl die Zeit- als auch die Intensitätsunterschiede in den Ohren gleich sind, was zu einer Verwechslung der tatsächlichen Position der Quelle führt. Eine Schallquelle hinter dem Nutzer kann also als vorne wahrgenommen werden. Dies betrifft auch die Wahrnehmung von Quellen, die über oder unter dem Nutzer liegen. Ein visuelles Feedback kann hier helfen, diese Unsicherheit zu lösen.

Akustische Täuschungen und deren Auflösung

In realen Umgebungen hilft die Kombination von verschiedenen Sinnen, Schallquellen genau zu lokalisieren. In virtuellen Welten ist es entscheidend, dass akustische Täuschungen durch zusätzliche sensorische Kanäle wie das Sehen vermieden werden. In Situationen von „sensorischer Konflikts“ wird visuelles Feedback in der Regel die genaue Lokalisierung des Schalls übersteuern, was bedeutet, dass der Nutzer die Schallquelle möglicherweise nicht korrekt wahrnimmt, wenn keine visuelle Bestätigung erfolgt.