In diesem Prozess siehst du, wie du mit Altair RapidMiner ganz einfach Daten aus verschiedenen Quellen zusammenführen und analysierbar machen kannst. Dabei werden Kundenprofildaten, Transaktionsdaten und geografische Infos aus einer Tabelle, einer Datenbank und einer Textdatei kombiniert, um ein vollständiges Kundenprofil zu erhalten.
Oft kommt die Frage auf, wie einfach Altair RapidMiner Daten aus unterschiedlichen Quellen für Analysen aufbereiten kann. Im Folgenden siehst du, wie du mit ein paar Klicks Kundenprofil-, Transaktions- und Geodaten aus einer Tabelle, einer Datenbank und einer Textdatei visuell so zusammenbringst, dass du einen kompletten Überblick bekommst.

Am Anfang hast du eine leere Arbeitsfläche. Als Erstes wählst du die Excel-Datei mit den Kundendaten aus.

Diese Datei importierst du direkt mit nur wenigen Klicks in RapidMiner. Dazu ziehst du zwei Operatoren auf die Fläche: einen zum Öffnen der Datei und einen, der die Daten ins RapidMiner-Dataset umwandelt. Dann alles mit dem Output verbinden, auf „Play“ klicken und schon werden die Daten angezeigt.

Das Gleiche machst du jetzt für die CSV-Datei mit den geografischen Infos. Datei auswählen, ins Dataset übernehmen, mit dem Output verbinden und ausführen, dann siehst du die Daten.

Jetzt sollen Kunden- und Geodaten zusammengeführt werden. Dafür nutzt du einen Join-Operator, verbindest beide Datasets damit und legst fest, wie die Daten zusammengefügt werden.

Das gemeinsame Attribut heißt „state“ und ist in beiden Quellen gleich. Danach kannst du dir das angereicherte Kundendatenset anschauen – dort findest du zum bisherigen „state“-Feld jetzt auch die zugehörige Region.

Als drittes Dataset kommen jetzt die Transaktionsdaten dazu, die aus einer Datenbank stammen. Statt eine Datei zu nehmen, verwendest du hier den Operator „Read Database“ und ein Verbindungsobjekt mit den gespeicherten Zugangsdaten.

Jetzt wählst du den Tabellennamen aus. Die Daten werden übernommen und angezeigt – pro Kunde gibt es jeweils drei Zeilen für Tages-, Nacht- und internationale Gebühren.

Mit Turbo Prep sorgst du jetzt dafür, dass pro Kunde nur noch eine Zeile existiert. Damit kannst du deine Transformationen schnell ausprobieren und sofort das Ergebnis sehen. Sobald du fertig bist, übernimmst du alles mit einem Klick in deinen Prozess.

Nach dem Ausführen prüfst du das Ergebnis. Zum Schluss machst du noch einen weiteren Join, um das Kundenprofil mit den transformierten Transaktionsdaten anhand der Kunden-ID zu verbinden.

Dank der visuellen Darstellung siehst du jetzt ganz genau, wie die drei Eingabedatensätze zu einem einzigen Output zusammengeführt wurden. In der Endansicht findest du die drei neuen Attribute für die verschiedenen Gebührentypen. Fast geschafft!

Jetzt speicherst du die transformierten und angereicherten Daten – in diesem Beispiel wieder in der bereits verwendeten Datenbank. Den passenden Operator konfigurieren, das Verbindungsobjekt und den Tabellennamen auswählen. Nach dem Ausführen werden die Daten geschrieben und du siehst das finale Ergebnis.

Damit bist du fertig! Mehr Infos und vertiefende Inhalte findest du auf academy.rapidminer.com. Vielen Dank fürs Zuschauen.
