Projektbericht: Aufbau eines Data-Lake in der Amazon Cloud

Martin Gattermann und Arne Harmening berichteten von einem Projekt bei Ihrem Arbeitgeber aus Hildesheim. Der komplette Datenbestand einer großen FileMaker-Lösung wird täglich als Daten-Dump über einen zweiten FileMaker Server repliziert, um ihn anschließend für eine Data-Lake Lösung in der Amazon Cloud aufzubereiten.

Ziel des Projekts ist, die FileMaker-Daten bestehend aus ERP, CRM und weiteren Modulen mit Daten aus weiteren externen Anwendungen anzureichern. Diese bilden dann die Grundlage für Analyse-Tools mit denen übergeordnete Sichten auf die Daten wie z.B. Kunden- und Produkthistorien erstellt werden können. Durch die täglichen Snapshots – immerhin in einer Größenordnung von ca. 40 GB pro Tag – lassen sich außerdem Zeitreihen generieren, die über den aktuellen Stand der Daten hinausgehen.

Für die Abfrage der Daten aus FileMaker kommt u.a. die FileMaker Data API zum Einsatz. Sonderfälle – wie z.B. Daten aus Wiederholfeldern – werden u.a. mit selbst entwickelten Python-Scripts normalisiert, bevor sie in die Cloud-Lösung übertragen werden.