Blockseminar Data Mining

(Zählt als Veranstaltung zum Sommersemester 2004)

Veranstalter: Thomas Hofmeister

Terminplanung für das Seminar

Was ist Data Mining?

Data Mining (DM) ist ein Oberbegriff für moderne Verfahren und Algorithmen der Datenanalyse, die häufig im Zusammenhang mit sogenannten Data Warehouses zum Einsatz kommen und von großem praktischem Interesse sind. Man kann Data Mining beschreiben als effiziente Suche nach versteckten, aber potenziell nützlichen Informationen in einem gegebenen Datenbestand.

Hier ein paar Beispiele:

Klassifikation: Eine Bank hat bei abgeschlossenen Kreditverträgen eine große Sammlung von Tupeln der Form
(Einkommen, Alter, Wohnort, Geschlecht, Geld zurückgezahlt?)
und möchte aufgrund dieser Tupel Regeln aufstellen, mit denen man für einen neuen Kunden, für den man nur die ersten 4 Einträge des Tupels kennt, entscheiden kann, ob er kreditwürdig ist oder nicht.

Warenkorbanalyse: Ein Supermarkt führt eine Statistik, welche Waren sich gemeinsam in den Warenkörben bei einem Einkauf befinden. Nun soll entdeckt werden, welche Art von Waren häufig zusammen eingekauft werden. (Zum Beispiel: Windeln und Bier?) Mit diesem Wissen kann man die Platzierung der Waren im Supermarkt planen.

Ausreißersuche: Daten werden häufig als Punkte im d-dimensionalen Raum aufgefasst. (Beispiel: Man kann für Personen 2-dimensionale Tupel (Gewicht, Größe) betrachten.) Bei der Ausreißersuche sucht man nach Daten, die ein von den anderen Daten abweichendes Verhalten aufzeigen. (Beispiel: Besonders "dicke" Personen.) Insbesondere stellt sich die Frage, wie man "Ausreißer" überhaupt definiert.

Clustering: Daten mit ähnlichem Verhalten sollen gruppiert werden, zum Beispiel Kunden mit ähnlichem Kaufverhalten.

Zum Seminar

In diesem Seminar soll es einerseits um die grundlegenden Begriffe des Data Minings gehen, andererseits sollen auch Algorithmen, die in den letzten Jahren entwickelt worden sind, vorgestellt werden. Die Vorbesprechung war am Freitag, d. 6. August 2004, mittlerweile haben sich ausreichend viele Interessenten gefunden. In der Vorbesprechung wurde eine CD mit möglichen Themen bzw. Artikeln verteilt, über die Vorträge gehalten werden können.