Please disable Adblockers and enable JavaScript for domain CEWebS.cs.univie.ac.at! We have NO ADS, but they may interfere with some of our course material.
== Aufgaben
Aufgaben sind im Team zu erledigen. Parallel zu den Aufgaben dokumentieren Sie bitte alles genau im [CEWebS://tagebuch/document/show&CEWebS_what=Tagebuch|Tagebuch].
=== Teilaufgabe 1
* Arbeiten mit den HEP-Daten (Teams 1 und 2)
# Extrahieren der Daten
** Ueberlegungen zum konzeptionellen Datenmodell
# Import in Pentaho
** [http://community.pentaho.com/], Community Version, Download
# Formulieren von Fragestellungen (Data Mining und Process Mining)
# Vorüberlegungen zur Extraktion von Prozessen (Process Mining)
* Aufbau eines Text Corpus zum Text Mining (Team 3)
** Zwei Datenquellen: Twitter und DieZeit oder andere OnlineZeitungen die Gratisdownload erlauben
*** R-package twitterR provides an interface to the Twitter web API
** Ziel ist Opinion Mining zu einem selbst gewählten Thema
** Extrahieren Sie jeweils einen wohldefinierten Datensatz aus den beiden Quellen und erstellen Sie eine integrierte und bereinigte Datenbasis (Text Corpus).
** Formulieren Sie Fragestellungen für das Text Mining.
=== Teilaufgabe 2
* Data Mining: Team 2, Tools R
* Process Mining: Team 1, Tools ProM
* Text Mining: Team 3, Tovek
=== Tools:
* [http://www.processmining.org/|ProM Process Mining Software]
** Machen Sie sich auch mit den in ProM verwendeten Formaten MXML, XES sowie den angebotenenen Importfunktionalitäten und Tools vertraut.
* [http://www.r-project.org/|R Software]
* Tovek is installed in the student lab (6th floor, Währingerstraße 29), Manual available there. Please inform Mr. Hellerschmid or W. Grossmann in advance
Letzte Änderung: 24.03.2015, 14:10 | 193 Worte