g1t2

Unser BI-Tagebuch

Unser BI-Tagebuch

• Downloads

• Zwischenpräsentationen

• Endabgabe

• Team

• Erste Analyse der Daten

• Generierung eines Datenmodells

• Abgleich der Konvertierungsdaten im Team und Präsentation

• Datenimport in Pentaho

• Datenimport in MySQL und Vorbereiten der Präsentation

• Fragestellungen und Datenbereinigung

• Process Mining

• Data Mining: Classification

• Data Mining: Zeitreihen

• Data Mining: Zeitreihen / Endpräsentation

• Einzel

• Xin

• Stefan

• Christian

• Christoph

Downloads

Zwischenpräsentationen

Endabgabe

Team

Erste Analyse der Daten

Datum: 11.03.2011

Uhrzeit: 17:00 Uhr

Aufwand: 2 Stunden

Teilnehmer: komplettes Team

Aufgabenstellung: Vertraut machen mit den Daten, verstehen der Struktur

Ergebnis: Visio-Diagramm zur Visualisierung der Ordnerstruktur der Daten mit einigen Beschreibungen

Generierung eines Datenmodells

Datum: 21.03.2011

Uhrzeit: 16:00 Uhr

Aufwand: insgesamt 5 Stunden (2 Std. Penthaho Evaluierung, 3 Std. Modellerstellung)

Teilnehmer: komplettes Team

Aufgabenstellung: Generierung von CSV-Strukturen

Ergebnis: Datenmodell wurde erstellt um CSV zu generieren (UML)

Abgleich der Konvertierungsdaten im Team und Präsentation

Datum: 26.03.2011

Uhrzeit: 15:00 Uhr

Aufwand: insgesamt 2,5 Stunden

Teilnehmer: komplettes Team

Aufgabenstellung: Konvertierung XML in CSV, Vorbereiten von Präsentationsfolien

Ergebnis: Vergleich der bisher konvertierten Daten und vorbereitete Präsentationsfolien für kommende Woche

Datenimport in Pentaho

Datum: 05.04.2011

Uhrzeit: 13:00 Uhr

Aufwand: 5 Stunden

Teilnehmer: Christian, Christoph, Stefan

Aufgabenstellung: Import der Daten in Penthao

Ergebnis: Probleme des Datenmodells wurden erkannt

Datenimport in MySQL und Vorbereiten der Präsentation

Datum: 12.04.2011

Uhrzeit: 13:00 Uhr

Aufwand: 5 Stunden

Teilnehmer: komplettes Team

Aufgabenstellung: Import der Daten in MySQL mit einheitlicher Struktur und vorbereiten der Präsentation für morgen

Ergebnis: Vollständiger Import und Merging von Abgabe und Code mit einheitlicher Struktur, Präsentationsfolien

Fragestellungen und Datenbereinigung

Datum: 04.05.2011

Uhrzeit: 11:00 Uhr

Aufwand: 5 Stunden

Teilnehmer: Christoph, Christian

Aufgabenstellung: Mögliche Fragestellungen ausarbeiten, Ideen zur Datenbereinigung sammeln, Mondrian Schema Workbench & Pentaho Metadata Editor analysieren

Ergebnis: Mögliche Fragestellungen ausgearbeitet, Ideen zur Datenbereinigung gesammelt - «Schema Workbench» für unbrauchbar befunden, «Metadata Editor» scheint verwendbar zu sein.

Fragestellungen und Datenbereinigung

Datum: 10.05.2011

Uhrzeit: 13:00 Uhr

Aufwand: 5 Stunden

Teilnehmer: komplettes Team

Aufgabenstellung: Fertig laden der Daten, Bereiningung der Daten, Besprechung der Tools (WEKA, R), Erste Auswertungen in NITRO bzw. PROM, Fragestellungen fuer Datamining Besprochen, Präsi erstellt

Process Mining

Datum: 20.05.2011

Uhrzeit: 15:30 Uhr

Aufwand: 4,5 Stunden

Teilnehmer: Xin, Christian

Aufgabenstellung: Ausbau des Process Mining für die Code-Abgabe, sodass vernünftige Ergebnisse erzielt werden können

Durchführung: Aufbereitung und weitere Bereinigung der Daten über SQL; Import in ProM über MySQL → CSV → Nitro → MXML; Mining mit verschiedenen Aktivitätstypen und umfassender Untersuchung der Konfigurationsparameter für verschiedene Algorithmen (v.a. Fuzzy Miner, Heuristic Miner, Genetic Miner), explorative Untersuchung der Daten in Nitro.

Ergebnis: neben der Erstellung der entsprechenden Outputs und der Dokumentation wurden verschiedene Schlussfolgerungen gezogen:

die Ergebnisse der meisten Algorithmen lassen sich durch Verändern der Konfigurationsparameter deutlich optimieren
zu viele Aktivitätstypen lassen das Mining-Ergebnis unübersichtlich werden und erhöhen den Informationsgehalt nicht (konkret: besser keine Verbindung der Upload-Versuche mit Unit-Test-Ergebnissen ok und nicht ok durchführen)
das Durchlaufen der Phasen bzw. der Versuche lässt sich durch Process Mining gut zeigen
überraschende Ergebnisse wurden aber nicht erzielt

Data Mining: Classification

Datum: 21.05. - 04.06. 2011

Aufwand: 12 Stunden gesamt

Teilnehmer: Xin, Christian

Aufgabenstellung: Classification der Unit-Test-Case-Ergebnisse mit Weka

Durchführung: Erstellen von SQL-Befehlen, Export aus MySQL per CSV, Nachbearbeitung per MS Excel, Import in Weka, Durchführung der Classification mit 3 verschiedenen Varianten des Datensatzes (Weka Explorer, Weka Experimenter, Weka KnowledgeFlow), Dokumentation der Ergebnisse

Ergebnis: Umfassender Report über die Klassifikation

Data Mining: Zeitreihen

Datum: 08.06.2011

Uhrzeit: 17:00 Uhr

Aufwand: 3 Stunden

Teilnehmer: Christoph, Stefan, Christian

Aufgabenstellung: Festlegung der Inhalte für die Diagramme zu den Performance Test Cases aus der Codeabgabe

Durchführung:

Vervollständigen der SQL-Abfragen für den Vergleich verschiedener Implementierungen
Export als CSV, Import und Darstellung in MS Excel (wird statt R eingesetzt)
Untersuchen der Daten auf sinnvoll auswertbare ALGODAT-Themen

Ergebnis: genaue Spezifikation der Diagramme

Data Mining: Zeitreihen / Endpräsentation

Datum: 15.06.2011

Uhrzeit: 17:00 Uhr

Aufwand: 3 Stunden

Teilnehmer: Christoph, Stefan, Christian

Aufgabenstellung: Festlegung der Inhalte für die weiteren Diagramme zu den Performance Test Cases aus der Codeabgabe, Erstellung eines Konzepts zur Endpräsentation

Ergebnis: genaue Spezifikation der Diagramme, erste Ergebnisse zur Auswertung, Konzept zur Endpräsentation

Einzel

Xin

10~15.3 (insgesamt 3 Std.) Aufsetzen Pentaho(mit Windows,WAMPServer, MySQL)
22.3 (3 Std.) Die Lösungen für Daten-Transformation untersuchen. JAVA, PHP, Applications. Schließlich nehme ich PHP als meine Methode an.
23~25.3 (insgesamt 22 Std.) Lernen und Konversion der Daten des "Forum" von XML in CSV mithilfe von PHP mit XML und SimpleXML Funktionen.
02~04.4 (insgesamt 10 Std.) Verbesserung des CSV-Formats nach Datenmodell.
07~08.4 (insgesamt 10 Std.) Korrektur von Topic Parse Problem mit der rekursiven Methode.
09.04 (2 Std.) Input der CSVs in Forum zum Pentaho
12.04 (4 Std.) Output der Tabellen der Forum von Pentaho zur MySQL
10.05 (2 Std.) Komplette Daten nach vereinigt zur meinen MYSQL importieren und shared Dokumenten zur Datenbereinigung und data mining lesen
gesamtes Semester (5-6 Std. gesamt): Koordination & Organisatorisches: Mails lesen und schreiben, Tagebuch pflegen etc.

Stefan

15.3 (3 Std.) Aufsetzen Pentaho (VmWare WinXp, MySQL) MySQL wurde in Verbindung mit Xampp installiert.
22.3 (2 Std.) Evaluieren von Ruby als Programmiersprache für die Transformation und Bereinigung der Daten. Ergebnis: Gute Lösung, jedoch wurde aufgrund des Zeitmangels (Ruby benötigt einige Tage mit Auseinandersetzung) auf diese Lösung nicht zurückgegriffen.
23.3 (7 Std.) Beginn mit Konvertierung XML in CSV mit Abgleich an logisches Datenmodell
25.3 (6 Std.) Konvertierung XML in CSV mittels Datawarehouse
4.4 (4 Std.) Penthao Daten Integration (Tutorial durchgearbeitet)
5.4 (5,5 Std.) Versuche Datenmodell in Pentaho zu integrieren - Ansatz SQL Server
9.4 (5 Std.) Datei Merge und Import in SQL Server
26.4 (4 Std.) Anpassung von "Register" und Import Kettle/DB
07.05 (5 Std.) Kettle Fehlersuche
21.5 - 25.5 (~8 Std.) Treffen mit Christoph bezüglich Implementierung und Logik der Views, erste Auswertungsversuche mit Weka.
03.6 - 05.6 (~15 Std.) Versuch Optimierung Sql Befehle Performance Test Case
gesamtes Semester (5-6 Std. gesamt): Koordination & Organisatorisches: Mails lesen und schreiben, Tagebuch pflegen etc.

Christian

6. - 20. 3. (3 Std. gesamt): Aufsetzen von Pentaho (Windows, MySQL) mit «dieser Anleitung». Standalone-MySQL 5.5.9 funktionierte dabei nicht, die Version aus dem XAMPP Paket 1.7.4 aber problemlos innerhalb von 15 Minuten. (danke an Christoph für den Tipp!). Aktuelle Konfiguration: Windows XP in VirtualBox, Pentaho 3.7.0, XAMPP 1.7.4.
22. 3. (4 Std. gesamt): Evaluieren von Ruby als Programmiersprache für die Transformation und Bereinigung der Daten. Ergebnis: Ruby ist toll, kurz, bündig, elegant und mächtig, aber PHP reicht für unsere Zwecke aus. Werde es daher einsetzen.
23. 3. (9 Std. gesamt): Konversion der Daten des "Abgabe"-Service von XML in CSV mithilfe von PHP und SimpleXML. Hätte gehofft, dass das schneller geht.
27. 3. (6,5 Std. gesamt): Konversion der Daten des "Code"-Service von XML in CSV nach dem gleichen Verfahren wie zuvor.
2. 4. (2,5 Std. gesamt): Recherche zu PDI: Habe das "Fundamental Tutorial" zum Tool mit den tausend Namen angesehen und «ein paar Dinge dazu» notiert. Nebenbei das Gelernte mit einigen konvertierten CSVs gleich angewandt. «Hier» noch ein paar allgemeine Dinge, die es beim Datenimport zu beachten gilt.
3. - 4. 4. (2,5 Std. gesamt): Recherche zu den restlichen Komponenten von Pentaho mit dem Ziel, den Datenimport so zu optimieren, dass wir die Daten auch sicher nachher benutzen können. Ergebnis: Hier werden dann wohl das Pentaho Design Studio (Eclipse) mit seinen Action Sequences und der Report Designer zum Einsatz kommen. Cubes werden über das OLAP-Tool Mondrian realisiert, wobei es neben SQL auch die MQL (Pentaho Metadata Query Language) gibt.
5. - 10. 4. (6 Std. gesamt): Konversion der "Shared Entities", die in allen 4 Services auftreten - also Personen inklusive E-Mail-Adress-Änderungen sowie der Kurs-Daten mittels des bewährten Duos PHP/SimpleXML.
10. 4. - 12. 4. (5 Std. gesamt): Import der "Abgabe"-CSVs in MySQL über PDI/Kettle/Spoon.
26. 4. - 27. 4. (6 Std. gesamt): Integration der Daten aus Abgabe, Code und Forum in ein gemeinsames Star-Schema ohne redundante Tabellen. Upload der Daten auf den UNET-MySQL Server.
28. 4. - 4. 5. (10 Std. gesamt): Diverse Korrekturen an der Datenbank, Recherche zu MDX und Cubes, dazugehörige Gehversuche in der Mondrian Schema Workbench.
5. 5. - 9. 5. (10 Std. gesamt): Beginn der Datenbereinigung: Analyse der Datenbank mittels SQL-Abfragen, die automatisch über ein PHP-Skript generiert werden, und anschließende Auswertung der gefundenen Unstimmigkeiten (hauptsächlich Fremdschlüssel- und NULL-Value-Probleme). Außerdem Integration der Register-Daten in die gemeinsame DB.
7. 5. - 8. 5. (4 Std. gesamt): Erste Versuche mit Process Mining und ProM. Über Views wurden aus der Datenbank Informationen über zunächst 3 Aktivitätstypen (Forumseintrag verfasst, Code-Datei abgegeben, sonstige Datei abgegeben) aggregiert und als CSV exportiert. Anschließend Import per Nitro und Analyse in ProM mittels verschiedener Mining-Algorithmen. Es liegt klarer Verbesserungsbedarf vor, da die bisherigen Ergebnisse wenig aussagekräftig sind.
10. 5. - 16. 5. (8 Std. gesamt): Fertigstellen der Analyse zur Datenbereinigung über eine weitgehend automatisierte Auswertung der Fremdschlüsselbeziehungen und der Einhaltung der Zugriffsrechte für Teilnehmer mittels PHP. Dokumentation von Vorgehen und Ergebnissen und erste Korrekturen an der Datenbank.
22. 5. - 26. 5. (13 Std. gesamt): Detaillierte Dokumentation und Auswertung der Ergebnisse aus Nitro und ProM für die Codeabgabe.
gesamtes Semester (10 Std. gesamt): Koordination & Organisatorisches: Mails lesen und schreiben, Tagebuch pflegen etc.

Christoph

Anfang März: (3 Std. gesamt): Aufsetzen von Pentaho (Windows, MySQL) und Einarbeitung in das System mit Hilfe von Sampledaten.
Mitte / Ende März: (~5 Std. gesamt) Einarbeitung in die Daten / Überlegungen zum Datenmodell u. zur Transformation
5.4 - 9.4: (~7 Std. gesamt) Recherche zum PDI / Durcharbeiten der Tutorials / Importieren der "Code"-CSVs in die MySQL-Datenbank mittels PDI
Mitte April: (~4 Std. gesamt) Anpassen / Neukonvertieren der CSV-Files
Ende April: (~6 Std. gesamt) Installation / Einarbeitung / Evaluierung der Schema Workbench und des Metadata Editors, Überlegungen zum Data- und Process Mining
8.5: (~ 1 Std. gesamt) Fehlersuche bzgl. "Register"-Verarbeitung in Kettle
21.5 - 25.5 (~8 Std.) Treffen mit Stefan bezüglich Implementierung und Logik der Views, erste Auswertungsversuche mit Weka.
Anfang Juni: (~4 Std. gesamt) Einarbeitung in Zeitreihen und der Darstellung von Zeitreihen in R. Irgendwann gemerkt dass man R gar nicht braucht, sondern es mit Excel doch so einfach geht.
Anfang / Mitte Juni. (~15 Std. gesamt): Abfrage, Auswertung und Dokumentation der Zeitreihen
gesamtes Semester (5 Std. gesamt): Koordination & Organisatorisches: Mails lesen und schreiben, Tagebuch pflegen etc.

Letzte Änderung: 22.06.2011, 09:10 | 1686 Worte

Business Intelligence II (PR)

Unser BI-Tagebuch

Downloads

Zwischenpräsentationen

Endabgabe

Team

Erste Analyse der Daten

Generierung eines Datenmodells

Abgleich der Konvertierungsdaten im Team und Präsentation

Datenimport in Pentaho

Datenimport in MySQL und Vorbereiten der Präsentation

Fragestellungen und Datenbereinigung

Fragestellungen und Datenbereinigung

Process Mining

Data Mining: Classification

Data Mining: Zeitreihen

Data Mining: Zeitreihen / Endpräsentation

Einzel

Xin

Stefan

Christian

Christoph