g1t2
Unser BI-Tagebuch
Downloads
Zwischenpräsentationen
Endabgabe
Team
Erste Analyse der Daten
Datum: 11.03.2011
Uhrzeit: 17:00 Uhr
Aufwand: 2 Stunden
Teilnehmer: komplettes Team
Aufgabenstellung: Vertraut machen mit den Daten, verstehen der Struktur
Ergebnis: Visio-Diagramm zur Visualisierung der Ordnerstruktur der Daten mit einigen Beschreibungen
Generierung eines Datenmodells
Datum: 21.03.2011
Uhrzeit: 16:00 Uhr
Aufwand: insgesamt 5 Stunden (2 Std. Penthaho Evaluierung, 3 Std. Modellerstellung)
Teilnehmer: komplettes Team
Aufgabenstellung: Generierung von CSV-Strukturen
Ergebnis: Datenmodell wurde erstellt um CSV zu generieren (UML)
Abgleich der Konvertierungsdaten im Team und Präsentation
Datum: 26.03.2011
Uhrzeit: 15:00 Uhr
Aufwand: insgesamt 2,5 Stunden
Teilnehmer: komplettes Team
Aufgabenstellung: Konvertierung XML in CSV, Vorbereiten von Präsentationsfolien
Ergebnis: Vergleich der bisher konvertierten Daten und vorbereitete Präsentationsfolien für kommende Woche
Datenimport in Pentaho
Datum: 05.04.2011
Uhrzeit: 13:00 Uhr
Aufwand: 5 Stunden
Teilnehmer: Christian, Christoph, Stefan
Aufgabenstellung: Import der Daten in Penthao
Ergebnis: Probleme des Datenmodells wurden erkannt
Datenimport in MySQL und Vorbereiten der Präsentation
Datum: 12.04.2011
Uhrzeit: 13:00 Uhr
Aufwand: 5 Stunden
Teilnehmer: komplettes Team
Aufgabenstellung: Import der Daten in MySQL mit einheitlicher Struktur und vorbereiten der Präsentation für morgen
Ergebnis: Vollständiger Import und Merging von Abgabe und Code mit einheitlicher Struktur, Präsentationsfolien
Fragestellungen und Datenbereinigung
Datum: 04.05.2011
Uhrzeit: 11:00 Uhr
Aufwand: 5 Stunden
Teilnehmer: Christoph, Christian
Aufgabenstellung: Mögliche Fragestellungen ausarbeiten, Ideen zur Datenbereinigung sammeln, Mondrian Schema Workbench & Pentaho Metadata Editor analysieren
Ergebnis: Mögliche Fragestellungen ausgearbeitet, Ideen zur Datenbereinigung gesammelt - «Schema Workbench» für unbrauchbar befunden, «Metadata Editor» scheint verwendbar zu sein.
Fragestellungen und Datenbereinigung
Datum: 10.05.2011
Uhrzeit: 13:00 Uhr
Aufwand: 5 Stunden
Teilnehmer: komplettes Team
Aufgabenstellung: Fertig laden der Daten, Bereiningung der Daten, Besprechung der Tools (WEKA, R), Erste Auswertungen in NITRO bzw. PROM, Fragestellungen fuer Datamining Besprochen, Präsi erstellt
Process Mining
Datum: 20.05.2011
Uhrzeit: 15:30 Uhr
Aufwand: 4,5 Stunden
Teilnehmer: Xin, Christian
Aufgabenstellung: Ausbau des Process Mining für die Code-Abgabe, sodass vernünftige Ergebnisse erzielt werden können
Durchführung: Aufbereitung und weitere Bereinigung der Daten über SQL; Import in ProM über MySQL → CSV → Nitro → MXML; Mining mit verschiedenen Aktivitätstypen und umfassender Untersuchung der Konfigurationsparameter für verschiedene Algorithmen (v.a. Fuzzy Miner, Heuristic Miner, Genetic Miner), explorative Untersuchung der Daten in Nitro.
Ergebnis: neben der Erstellung der entsprechenden Outputs und der Dokumentation wurden verschiedene Schlussfolgerungen gezogen:
- die Ergebnisse der meisten Algorithmen lassen sich durch Verändern der Konfigurationsparameter deutlich optimieren
- zu viele Aktivitätstypen lassen das Mining-Ergebnis unübersichtlich werden und erhöhen den Informationsgehalt nicht (konkret: besser keine Verbindung der Upload-Versuche mit Unit-Test-Ergebnissen ok und nicht ok durchführen)
- das Durchlaufen der Phasen bzw. der Versuche lässt sich durch Process Mining gut zeigen
- überraschende Ergebnisse wurden aber nicht erzielt
Data Mining: Classification
Datum: 21.05. - 04.06. 2011
Aufwand: 12 Stunden gesamt
Teilnehmer: Xin, Christian
Aufgabenstellung: Classification der Unit-Test-Case-Ergebnisse mit Weka
Durchführung: Erstellen von SQL-Befehlen, Export aus MySQL per CSV, Nachbearbeitung per MS Excel, Import in Weka, Durchführung der Classification mit 3 verschiedenen Varianten des Datensatzes (Weka Explorer, Weka Experimenter, Weka KnowledgeFlow), Dokumentation der Ergebnisse
Ergebnis: Umfassender Report über die Klassifikation
Data Mining: Zeitreihen
Datum: 08.06.2011
Uhrzeit: 17:00 Uhr
Aufwand: 3 Stunden
Teilnehmer: Christoph, Stefan, Christian
Aufgabenstellung: Festlegung der Inhalte für die Diagramme zu den Performance Test Cases aus der Codeabgabe
Durchführung:
- Vervollständigen der SQL-Abfragen für den Vergleich verschiedener Implementierungen
- Export als CSV, Import und Darstellung in MS Excel (wird statt R eingesetzt)
- Untersuchen der Daten auf sinnvoll auswertbare ALGODAT-Themen
Ergebnis: genaue Spezifikation der Diagramme
Data Mining: Zeitreihen / Endpräsentation
Datum: 15.06.2011
Uhrzeit: 17:00 Uhr
Aufwand: 3 Stunden
Teilnehmer: Christoph, Stefan, Christian
Aufgabenstellung: Festlegung der Inhalte für die weiteren Diagramme zu den Performance Test Cases aus der Codeabgabe, Erstellung eines Konzepts zur Endpräsentation
Ergebnis: genaue Spezifikation der Diagramme, erste Ergebnisse zur Auswertung, Konzept zur Endpräsentation
Einzel
Xin
- 10~15.3 (insgesamt 3 Std.) Aufsetzen Pentaho(mit Windows,WAMPServer, MySQL)
- 22.3 (3 Std.) Die Lösungen für Daten-Transformation untersuchen. JAVA, PHP, Applications. Schließlich nehme ich PHP als meine Methode an.
- 23~25.3 (insgesamt 22 Std.) Lernen und Konversion der Daten des "Forum" von XML in CSV mithilfe von PHP mit XML und SimpleXML Funktionen.
- 02~04.4 (insgesamt 10 Std.) Verbesserung des CSV-Formats nach Datenmodell.
- 07~08.4 (insgesamt 10 Std.) Korrektur von Topic Parse Problem mit der rekursiven Methode.
- 09.04 (2 Std.) Input der CSVs in Forum zum Pentaho
- 12.04 (4 Std.) Output der Tabellen der Forum von Pentaho zur MySQL
- 10.05 (2 Std.) Komplette Daten nach vereinigt zur meinen MYSQL importieren und shared Dokumenten zur Datenbereinigung und data mining lesen
- gesamtes Semester (5-6 Std. gesamt): Koordination & Organisatorisches: Mails lesen und schreiben, Tagebuch pflegen etc.
Stefan
- 15.3 (3 Std.) Aufsetzen Pentaho (VmWare WinXp, MySQL) MySQL wurde in Verbindung mit Xampp installiert.
- 22.3 (2 Std.) Evaluieren von Ruby als Programmiersprache für die Transformation und Bereinigung der Daten. Ergebnis: Gute Lösung, jedoch wurde aufgrund des Zeitmangels (Ruby benötigt einige Tage mit Auseinandersetzung) auf diese Lösung nicht zurückgegriffen.
- 23.3 (7 Std.) Beginn mit Konvertierung XML in CSV mit Abgleich an logisches Datenmodell
- 25.3 (6 Std.) Konvertierung XML in CSV mittels Datawarehouse
- 4.4 (4 Std.) Penthao Daten Integration (Tutorial durchgearbeitet)
- 5.4 (5,5 Std.) Versuche Datenmodell in Pentaho zu integrieren - Ansatz SQL Server
- 9.4 (5 Std.) Datei Merge und Import in SQL Server
- 26.4 (4 Std.) Anpassung von "Register" und Import Kettle/DB
- 07.05 (5 Std.) Kettle Fehlersuche
- 21.5 - 25.5 (~8 Std.) Treffen mit Christoph bezüglich Implementierung und Logik der Views, erste Auswertungsversuche mit Weka.
- 03.6 - 05.6 (~15 Std.) Versuch Optimierung Sql Befehle Performance Test Case
- gesamtes Semester (5-6 Std. gesamt): Koordination & Organisatorisches: Mails lesen und schreiben, Tagebuch pflegen etc.
Christian
- 6. - 20. 3. (3 Std. gesamt): Aufsetzen von Pentaho (Windows, MySQL) mit «dieser Anleitung». Standalone-MySQL 5.5.9 funktionierte dabei nicht, die Version aus dem XAMPP Paket 1.7.4 aber problemlos innerhalb von 15 Minuten. (danke an Christoph für den Tipp!). Aktuelle Konfiguration: Windows XP in VirtualBox, Pentaho 3.7.0, XAMPP 1.7.4.
- 22. 3. (4 Std. gesamt): Evaluieren von Ruby als Programmiersprache für die Transformation und Bereinigung der Daten. Ergebnis: Ruby ist toll, kurz, bündig, elegant und mächtig, aber PHP reicht für unsere Zwecke aus. Werde es daher einsetzen.
- 23. 3. (9 Std. gesamt): Konversion der Daten des "Abgabe"-Service von XML in CSV mithilfe von PHP und SimpleXML. Hätte gehofft, dass das schneller geht.
- 27. 3. (6,5 Std. gesamt): Konversion der Daten des "Code"-Service von XML in CSV nach dem gleichen Verfahren wie zuvor.
- 2. 4. (2,5 Std. gesamt): Recherche zu PDI: Habe das "Fundamental Tutorial" zum Tool mit den tausend Namen angesehen und «ein paar Dinge dazu» notiert. Nebenbei das Gelernte mit einigen konvertierten CSVs gleich angewandt. «Hier» noch ein paar allgemeine Dinge, die es beim Datenimport zu beachten gilt.
- 3. - 4. 4. (2,5 Std. gesamt): Recherche zu den restlichen Komponenten von Pentaho mit dem Ziel, den Datenimport so zu optimieren, dass wir die Daten auch sicher nachher benutzen können. Ergebnis: Hier werden dann wohl das Pentaho Design Studio (Eclipse) mit seinen Action Sequences und der Report Designer zum Einsatz kommen. Cubes werden über das OLAP-Tool Mondrian realisiert, wobei es neben SQL auch die MQL (Pentaho Metadata Query Language) gibt.
- 5. - 10. 4. (6 Std. gesamt): Konversion der "Shared Entities", die in allen 4 Services auftreten - also Personen inklusive E-Mail-Adress-Änderungen sowie der Kurs-Daten mittels des bewährten Duos PHP/SimpleXML.
- 10. 4. - 12. 4. (5 Std. gesamt): Import der "Abgabe"-CSVs in MySQL über PDI/Kettle/Spoon.
- 26. 4. - 27. 4. (6 Std. gesamt): Integration der Daten aus Abgabe, Code und Forum in ein gemeinsames Star-Schema ohne redundante Tabellen. Upload der Daten auf den UNET-MySQL Server.
- 28. 4. - 4. 5. (10 Std. gesamt): Diverse Korrekturen an der Datenbank, Recherche zu MDX und Cubes, dazugehörige Gehversuche in der Mondrian Schema Workbench.
- 5. 5. - 9. 5. (10 Std. gesamt): Beginn der Datenbereinigung: Analyse der Datenbank mittels SQL-Abfragen, die automatisch über ein PHP-Skript generiert werden, und anschließende Auswertung der gefundenen Unstimmigkeiten (hauptsächlich Fremdschlüssel- und NULL-Value-Probleme). Außerdem Integration der Register-Daten in die gemeinsame DB.
- 7. 5. - 8. 5. (4 Std. gesamt): Erste Versuche mit Process Mining und ProM. Über Views wurden aus der Datenbank Informationen über zunächst 3 Aktivitätstypen (Forumseintrag verfasst, Code-Datei abgegeben, sonstige Datei abgegeben) aggregiert und als CSV exportiert. Anschließend Import per Nitro und Analyse in ProM mittels verschiedener Mining-Algorithmen. Es liegt klarer Verbesserungsbedarf vor, da die bisherigen Ergebnisse wenig aussagekräftig sind.
- 10. 5. - 16. 5. (8 Std. gesamt): Fertigstellen der Analyse zur Datenbereinigung über eine weitgehend automatisierte Auswertung der Fremdschlüsselbeziehungen und der Einhaltung der Zugriffsrechte für Teilnehmer mittels PHP. Dokumentation von Vorgehen und Ergebnissen und erste Korrekturen an der Datenbank.
- 22. 5. - 26. 5. (13 Std. gesamt): Detaillierte Dokumentation und Auswertung der Ergebnisse aus Nitro und ProM für die Codeabgabe.
- gesamtes Semester (10 Std. gesamt): Koordination & Organisatorisches: Mails lesen und schreiben, Tagebuch pflegen etc.
Christoph
- Anfang März: (3 Std. gesamt): Aufsetzen von Pentaho (Windows, MySQL) und Einarbeitung in das System mit Hilfe von Sampledaten.
- Mitte / Ende März: (~5 Std. gesamt) Einarbeitung in die Daten / Überlegungen zum Datenmodell u. zur Transformation
- 5.4 - 9.4: (~7 Std. gesamt) Recherche zum PDI / Durcharbeiten der Tutorials / Importieren der "Code"-CSVs in die MySQL-Datenbank mittels PDI
- Mitte April: (~4 Std. gesamt) Anpassen / Neukonvertieren der CSV-Files
- Ende April: (~6 Std. gesamt) Installation / Einarbeitung / Evaluierung der Schema Workbench und des Metadata Editors, Überlegungen zum Data- und Process Mining
- 8.5: (~ 1 Std. gesamt) Fehlersuche bzgl. "Register"-Verarbeitung in Kettle
- 21.5 - 25.5 (~8 Std.) Treffen mit Stefan bezüglich Implementierung und Logik der Views, erste Auswertungsversuche mit Weka.
- Anfang Juni: (~4 Std. gesamt) Einarbeitung in Zeitreihen und der Darstellung von Zeitreihen in R. Irgendwann gemerkt dass man R gar nicht braucht, sondern es mit Excel doch so einfach geht.
- Anfang / Mitte Juni. (~15 Std. gesamt): Abfrage, Auswertung und Dokumentation der Zeitreihen
- gesamtes Semester (5 Std. gesamt): Koordination & Organisatorisches: Mails lesen und schreiben, Tagebuch pflegen etc.
Letzte Änderung: 22.06.2011, 09:10 | 1686 Worte