BO-I-T – Wir treiben Ideen voran.

Offene Plattform für fortschrittliche Verkehrsprognosen aus heterogenen Daten – OPA_TAD

Das Bundesministerium für Verkehr und digitale Infrastruktur (BMVI) stellt mit seiner mCLOUD Plattform einen großen Datenschatz zur Verfügung: welche Straßen, Schienen oder Seewege wann wie stark ausgelastet sind, ist hier für jedermann nachvollziehbar. Doch sind die vielen Dateiformate und unterschiedlichen Sortierungen alles andere als nützlich, wenn dieser Datenschatz mittels Data Mining gehoben werden soll. Eine einfache, homogenisierte Schnittstelle muss her, um effektiv mit den Daten arbeiten zu können.

Projektpartner

Ziel

Das Projekt OPA_TAD hat zum Ziel, die Nutzbarkeit und den der mCLOUD zu verbessern, und den Nutzerkreis, auch über Verkehrsexperten hinaus, zu erweiteren. Hierzu wird mittels einer Big Data Infrastruktur eine Funktionalität bereitgestellt, um Daten einfach, homogen und strukturiert abzurufen und analysieren zu können. Zudem wird das Hochladen auch eigener Daten in die mCloud (natürlich unter Wahrung der notwendigen Privacy) unterstützt.

Schließlich wird die enorme Power der umfassenden Datensammlung der mCLOUD demonstriert, indem mittels historischer Daten Verkehrsprognosen erstellt und Stauvorkommen auf Deutschlands Straßen identifiziert und analysiert werden – in Abhängigkeit von z.B. Wetterbedingung, Tagzeit, Wochentag und etwaigen besonderen kalendarischen Ereignissen.

Zur Durchführung plant das Konsortium die Implementierung einer umfassenden Big-Data-Infrastruktur, erstmals mit der Möglichkeit, Datenschutzkonform private Daten mit in die Verarbeitung einzubeziehen. Eine darauf aufsattelnde Data Science Plattform ermöglicht dann die einfache Analyse der Daten für jedermann.

Datenplattform

Projektschema

Das Zentrum des Systems bildet die Big-Data Infrastruktur, die auf einem Servercluster betrieben wird. Sie dient sowohl der Speicherung der Daten als auch der Durchführung der Datenauswertungen, die von der Data Science Plattform ausgestellt werden. Die Rolle des Datenspeichers übernimmt Apache HBASE, das auf dem HDFS-Dateisystem aufgesetzt ist. Die Data Science Plattform ist eine Eigenentwicklung und basiert auf den Funktionalitäten von Apache Spark.

An dieser Stelle tritt die wesentliche Innovation des Projektes auf: die datenschutzkonforme Kombination von öffentlichen und privaten Datensätzen. Dieser Ansatz ist bisher nur in sehr spezialisierten Einzelimplementierungen machbar. Ziel des Projektes ist es, eine open source Referenzlösung hierfür zu entwickeln, was als völlig neuartig angesehen werden kann. Die Idee, die dahintersteckt, kann wie folgt beschrieben werden. Der Anbieter der privaten Daten entscheidet, mit wie vielen anderen privaten Datenlieferungen er seine Daten zu Analysezwecken freigeben will. Der Anwender, der diese Daten auswerten will, muss dafür sorgen, dass dieses Mindestaggregationsniveau in seinem Analyseprozess zu jedem Zeitpunkt gegeben ist. So kann sichergestellt werden, dass im Analyseprozess keine Informationen gewonnen werden, die einer Person eindeutig zugeordnet werden können. Dafür ist eine völlig neuartige Implementierung der gewöhnlichen Analysefunktionen, wie Joins, Filter u. a., notwendig. Dabei ist der Einblick in die privaten Daten nur nach einer Aggregation möglich. Die Implementierung dieser Funktionen erfolgt in der weitverbreiteten Programmiersprache Java.

Der Datentransfer zwischen Anbietern und Plattform erfolgt für private bzw. offene Daten über Public und Private API’s. Beide Zugangspunkte werden als RESTful Webservice API’s implementiert, so dass die Anbieter ihre eigenen Datenbestände über eine Weboberfläche verwalten können.

Die Erstellung der Analyseprozesse ist mithilfe der Data Mining Software Rapidminer und der OPA_TAD Rapidminer Extension möglich. Der Analyseprozess kann von Rapidminer aus and die Infrastruktur geschickt werden, wo er über einen Job Scheduler ausgeführt wird. Im Analyseprozess kann nur auf offene Daten zugegriffen werden, wobei für die privaten Daten lokal auf dem Anwenderrechner zufällige Daten generiert werden. So kann der Prozess lokal getestet werden, damit er korrekt auf der Infrastruktur ausgeführt werden kann.

Screenshot Demoanwendung

Demoanwendung

Zur Demonstration der Möglichkeiten der Plattform wird eine beispielhafte Anwendung implementiert. Hierbei geht es um die Prognose des Verkehrsaufkommens auf deutschen Autobahnen. Der Mobilitätsdatenmarktplatz (MDM) liefert im Minutentakt Daten zu Verkehrsstärken und aktuellen Geschwindigkeiten an bestimmten Zählstellen auf Autobahnen. Über eine eigenentwickelte App können User ihre Bewegungstrajektorien auf die Plattform hochladen, wo sie mit offenen Daten verknüpft werden. Aus den gesammelten Daten können Aussagen über die Auslastung und mögliche Reisezeitverzögerungen getroffen werden. Dazu werden auch andere Datenbestände herangezogen: Baustellen, Sperrungen, kalendarische Ereignisse usw.

Technologien

Gefördert von