Anonymisierte Erfassung und Nutzung von Mobilitäts- und Bewegungsdaten (AnoMoB)

Das Projekt „Anonymisierte Erfassung und Nutzung von Mobilitäts- und Bewegungsdaten“ (AnoMoB) zielt darauf ab, Anonymisierungsverfahren zu entwickeln, die den Anbietenden von Mobilitätsdiensten eine verbesserte Erhebung und Verarbeitung von Mobilitätsdaten ermöglichen und gleichzeitig den Schutzbedürfnissen der Bürgerinnen und Bürger gerecht werden.

Das Projekt ist Teil des Clusters IIP (Intelligenter Intermodaler Pendlerverkehr) aus dem Forschungsnetzwerk Anonymisierung des BMBF. Die Eckdaten des Projekts finden Sie hier.

    Konsortium

    Ergebnisse

    Multimodale Simulation von Personen mit SUMO

    Die Verkehrssimulationssoftware SUMO (Simulatio of Urban Mobility) wurde verwendet, um die Bewegungsabläufe im Alltag von Personen zu simulieren. Dazu wurde OpenStreetMap verwendet, um die Stadt Esslingen nachzubilden. Das Ziel war es, möglichst realistische Bewegungsdaten zu erzeugen, mit denen die Use Cases des Projekts getestet werden können, ohne dafür personenbezogene Daten zu benötigen.

    Die Simulation beinhaltet die Personengruppen Arbeiter, Studenten, Schüler und Rentner. Jede Person bekommt ihre eigenen Points of Interest zu gewiesen wie einen Wohnort, Arbeitsstelle, Supermärkte, etc. Die Personen führen in der Simulation mehrere Trips durch. Dafür können Sie entweder zu Fuß gehen, oder ein Transportmittel wie Auto, Motorrad, Fahrrad oder den ÖPNV nehmen. In der Simulation fahren Busse, Bahnen, etc., anhand der realen Fahrpläne. Innerhalb eines Trips können auch mehrere Transportmittel zum Einsatz kommen. So kann eine Person zu Fuß von ihrer Wohnung zur Bushaltestelle laufen und von dort einen Bus zur Arbeit nehmen.

    Abbildung 1 und 2 zeigen verschiedene Ausschnitte einer laufenden Simulation. In blau sind die simulierten Personen zu sehen, in rot Autos. Außerdem gibt es öffentliche Verkehrsmittel in verschiedenen Farben.

    Abbildung 3 zeigt eine Übersicht aller Trajektorien aus einer Simulation, jeweils mit markiertem Start- und Endpunkt.

    Datensammelaktion für Pendeldaten von Angehörigen der Hochschule Esslingen

    K-Means mit homomorpher Verschlüsselung

    Mobilitätsdaten und insbesondere Bewegungstrajektorien haben inhärent einen hohen Personenbezug und sind deshalb besonders schützenswert. Auch wenn solche Datensätze keine direkten Identifikatoren besitzen, ist es meist möglich, Rückschlüsse auf die Identität einer Einzelperson sowie auf ihren Wohnort, ihre Arbeitsstelle, Sexualität, Religion, Gesundheitsstand, etc. zu ziehen.
    Mit homomorpher Verschlüsselung (Homomorphic Encryption (HE)) können Mobilitätsdaten verschlüsselt an Datenverarbeiter weitergegeben werden. Die Analyse der Daten wird direkt auf den verschlüsselten Daten durchgeführt, sodass sinnvolle Erkenntnisse (z.B. für Städteplanung) gewonnen werden können, ohne private Daten einsehen zu müssen.

    Clustering-Algorithmen wie der K-Means-Algorithmus sind ein häufig verwendetes Datenanalysewerkzeug. Sie können mithilfe von HE in vollständig verschlüsselter Form berechnet werden. Die Clients verschlüsseln in diesem Fall ihre Koordinaten lokal, und versenden Sie dann erst an dern Server. Dieser berechnet dann das Clustering. Als Ergebnis werden lediglich die errechneten Clustermittelpunkte entschlüsselt.

    Diese Algorithmen können allerdings nicht ohne Weiteres verschlüsselt implementiert werden, da einige Operationen in dieser Form schwer zu berechnen sind. Der Vergleichsalgorithmus (a > b) is beispielsweise schwer zu berechnen und muss approximiert werden. Hierfür werden typischerweise spezielle Approximationspolynome definiert, die mit entsprechendem Grad die Vorzeichenfunktion hinreichend genau approximieren. Dadurch lässt sich dann der Vergleich berechnen.

    Der K-Means Clustering Algorithmus wurde in vollständig verschlüsselter Form implementiert. Als Sicherheitsparameter für das CKKS-Schema wurde 128 Bits gewählt, was zu einer Ringdimension von 2^16 führt und Bootstrapping erfordert. Der Testdatensatz bestand aus 6144 Positionsdaten von Personen in der Stadt Esslingen, deren Bewegungsdaten mithilfe einer SUMO-Simulation generiert wurden. K-Means wurde mit k = 2, 3, 4 ausgeführt. Die durchschnittliche Laufzeit pro Cluster pro Datenpunkt war  ~0.62 Sek. Durch die homomorphe Verschlüsselung mit CKKS ist das entschlüsselte Ergebnis leicht verrauscht. Die berechneten Clustermittelpunkte haben einen Fehler zwischen 45 - 204 cm.

    Erstellung anonymisierter Heatmaps mit homomorpher Verschlüsselung

    Eine simple Möglichkeit zur anonymisierten Darstellung von Mobilitätsdaten, genauer gesagt einer Liste von Koordinaten, ist als Heatmap. Hierbei wird die Karte in Segmente aufgeteilt, und pro Segment wird die Anzahl der enthaltenen Punkte aufaddiert und als Farbverlauf dargestellt.

    Um für die Berechnung dieser Heatmap Input Privacy zu gewährleisten, können die einzelnen Punkte verschlüsselt werden, und die Berechnungen mittels homomorpher Verschlüsselung durchgeführt werden. Eine einfache Variante ist es, die Karte in ein gleichmäßiges Gitter von Rechtecken aufzuteilen, auf die die Punkte verteilt werden. Eine komplexere, aber ebenfalls verschlüsselt berechenbare Methode ist es, die Heatmap aus Polygonen mit unregelmäßigen Formen zu berechnen.

    Abbildung 1 zeigt eine Visualisierung von Punkten aus dem bekannten San Francisco Taxi Datensatz. in Abbildung 2 sieht man eine verschlüsselt berechnete Heatmap, bestehend aus Quadraten. Abbildung 3 zeigt schließlich eine verschlüsselt berechnete Heatmap auf Basis der Wahlbezirke in San Francisco.

    Synthetisierung anonymer Trajektorien mithilfe von Local Differential Privacy

    TBD

    Analyse von Carsharing-Nutzungsmustern

    Die Optimierung von MaaS-Angeboten erfordert eine Analyse der Carsharing-Nutzungsmuster. Um Verfahren zur Erkennung dieser Muster zu entwickeln, wurden die mit dem Simulationstool SUMO generierten Fahrtdaten in Esslingen verwendet. Ziel war es, typische Fahrtmuster anhand verschiedener Merkmale zu identifizieren, wie Beispielsweise die Position der Start- und Zielpunkte der Fahrten, Landnutzungsinformationen und der Nähe zu Bildungseinrichtungen, Gesundheitseinrichtungen oder Freizeitangeboten. Diese Merkmale wurden für jeden Start- und Zielpunkt extrahiert und zu einer umfassenden Darstellung der Trajektorien kombiniert.

    Auf der Grundlage dieser Daten wurde eine Clusteranalyse mit verschiedenen Verfahren durchgeführt, darunter k-Means, MeanShift und hierarchisches Clustering mit Ward-Linkage. Die Ergebnisse wurden mit den Metriken wie dem Silhouette-Koeffizienten und dem Calinski-Harabasz-Index evaluiert. Der höchste Calinski-Harabasz-Index wurde mit einer k-Means-basierten Modellkonfiguration mit 3 Clustern erreicht und die resultierenden Cluster sind in den Abbildungen 1 und 2 dargestellt. In Abbildung 1 sind sie im geographischen Merkmalsraum sichtbar, wobei die Punkte die Startpunkte der Trajektorien darstellen. Abbildung 2 zeigt die Projektion derselben Daten auf zwei Hauptkomponenten einer Principal-Component-Analyse (PCA). Während man in der PCA-Ansicht zusätzlich die Struktur des Merkmalsraums beobachten kann, kann man interessanterweise in der geographischen Darstellung auch teilweise die Struktur in der Trennung der Cluster erkennen.

    Abgesehen von den Start- und Zielpunkten wurden die Trajektorien selbst jedoch nicht für das Clustering verwendet. Da die Trajektorien durch eine große Anzahl von Momentaufnahmen repräsentiert werden, wurde zur weiteren Verbesserung der Analyse eine Transformation der Trajektorien in Bilder und eine Dimensionsreduktion mittels Autoencodern durchgeführt (siehe Abb. 3). Zukünftig sollen auch solche weniger dimensionalen Darstellungen von Trajektorien in die Clusterbildung einbezogen werden, um Muster in ihrer Form besser erfassen zu können. Ein möglicher nächster Schritt ist die Erweiterung des Ansatzes um generative Verfahren wie variationale Autoencoder. Diese könnten nicht nur zur Dimensionsreduktion, sondern auch zur Generierung synthetischer Mobilitätsdaten verwendet werden, was zu datenschutzfreundlichen Analysen der Verkehrsdaten führen könnte. Eine weitere Möglichkeit, die Privatsphäre zu schützen, besteht darin, das Clustering direkt auf den mit homomorpher Verschlüsselung verschlüsselten Daten durchzuführen.

    Die beschriebenen Methoden werden auf die im Feldtest erhobenen Mobilitätsdaten unter Berücksichtigung der Intermodalität angewendet. Zusätzlich sollen die Verfahren, sofern möglich, auf die MaaS-Daten des Projektpartners Cantamen übertragen werden.

    Veröffentlichungen, Poster und Vorträge

    TypDatumDetails
    Vortrag12.10.2023Konferenz “Mobilitätsdaten – Use Cases, Herausforderungen, Lösungsansätze” im Rahmen der Mobilitätswoche der Hochschule Esslingen
    Vortrag & Poster22.02.20242. Osnabrücker IoT/Mobilitätstagung, Osnabrück
    Vortrag14.03.2024Privacy Enhancing Technologies Conference (PET-CON), Berlin
    Vortrag & Workshop15.04.2024AnoSiDat Kongress: Anonymisierung für eine sichere Datennutzung, Lübeck
    Konferenz-Teilnahme25.06.-28.06.20242024 9th International Conference on Smart and Sustainable Technologies (SpliTech), Split
    Vortrag08.10.2024Conference on Anonymization of Integrated and Georeferenced Data, Berlin
    Vortrag & 2 Poster18.02.20253. Osnabrücker IoT/Mobilitätstagung, Osnabrück
    Poster & Short Paper20.02.202512th International Conference on Information Systems Security & Privacy, Portugal
    Vortrag13.-14.03.2025Privacy Enhancing Technologies Conference (PET-CON), Dresden
    Poster18.-19.03.2025Nationale Konferenz IT-Sicherheitsforschung 2025 - Cybersicherheit und Demokratie, BMBF, Berlin
    Paper09.04.2025C. Krüger, B. Moriya, D. Schoop, „A Performance Comparison of the Homomorphic Encryption Schemes CKKS and TFHE“, Computation & Communication For Smart Systems Symposium 2025, angenommen
    Paper09.04.2025R. Röhner, D. Ravlija, I. Trautwein, M. Sonntag, „Data-Driven Approaches to Micromobility Demand Modeling“, Computation & Communication For Smart Systems Symposium 2025, angenommen
    Paper09.04.2025A. Efremidis, Ph. Walter, D. Hu, G. Gühring, „Anonymization of Mobility Data and Meta Information using Local Differential Privacy in Combination with Bidirectional Graphs“, IEEE Transactions on Dependable and Secure Computing, angenommen
    Paper09.04.2025C. Dürr, G. Gühring, „A Combined Approach of Heat Map Confusion and Local Differential Privacy for Anonymization of Mobility Data", Future Transportation, angenommen
    Paper09.04.2025D. Hu, G. Gühring, „Improving Anonymization of Movement Trajectories with Map Matching Algorithm", Computation and Communication for Smart Systems Symposium 2025, Springer Nature Proceedings in Technology Transfer , angenommen
    Vortrag03.06.20256. IFG-Tage des Landesbeauftragten für Datenschutz und die Informationsfreiheit Baden-Württemberg, Esslingen
    Paper in Vorbereitung2025I. Trautwein, D. Ravlija, M. Sonntag, „Data-based Insights into the usage of Micromobility Sharing"
    Paper in Vorbereitung2025NN, „Leveraging Real Data to Simulate Trip Chains in Traffic Systems Using a Bayesian network“

     

     

    Kontakt

    Prof. Dr. Dominik Schoop

    +49 711 397-4467

    Dominik.Schoop@hs-esslingen.de

    apply

    Interesse geweckt? Informier dich! über unser Studienangebot

    Ihre persönliche AnsprechpersonMelden Sie sich bei

    Foto Gabriele Gühring

    Prof. Dr. rer. nat. Gabriele Gühring

    Montag 11:15 Uhr - 12:15 Uhr

    in meinem persönlichen Webex Raum

    https://hs-esslingen.webex.com/meet/gabriele.guehring

    oder in meinem Büro F02.210

    Tel: +49 711 397-4376
    E-Mail: Gabriele.Guehring@hs-esslingen.de
    Nachricht senden