Διδάσκοντες: Αριστείδης Λύκας (e-mail: arly@cs.uoi.gr)
Κωνσταντίνος Μπλέκας (e-mail: kblekas@cs.uoi.gr)
Σκοπός του μαθήματος Εξόρυξη Δεδομένων (Data Mining) είναι η παρουσίαση των βασικών μεθοδολογιών για την εξόρυξη γνώσης από δεδομένα. Αναλύονται τυπικές μεθοδολογίες για τα βασικά προβλήματα της ταξινόμησης, της ομαδοποίησης και της εύρεσης κανόνων συσχέτισης για διάφορες κατηγορίες δεδομένων (διακριτά, συνεχή, κείμενα, γραφήματα κλπ). Επιπλέον εξετάζεται η δυνατότητα κλιμάκωσης των μεθόδων σε πολύ μεγάλα σύνολα δεδομένων.
Βασικό Σύγγραμμα:
·
P.
Tan, M. Steinbach and V. Kumar, “Introduction to Data Mining”, Addison-Wesley 2006.
Άλλα συγγράμματα:
·
D.
Hand, H. Mannila, P. Smyth, “Principles of Data Mining”, MIT Press, 2001.
·
Igor
Kononkenko and Matjaz Kukar, “Machine Learning and Data Mining:
Introduction to Principles and Algorithms”, Horwood Publishing,
2007.
Καλύπτονται οι ακόλουθες ενότητες:
- Εισαγωγή στα προβλήματα της εξόρυξης γνώσης από δεδομένα
- Tύποι δεδομένων, προεπεξεργασία και μείωση διάστασης.
- Το πρόβλημα της ταξινόμησης (classification):
· Bασικές έννοιες, γενικευτική ικανότητα - υπερεκπαίδευση
· Αλγόριθμοι κατασκευής δέντρων απόφασης
· Μέτρηση της ικανότητας γενίκευσης - σύγκριση συστημάτων ταξινόμησης
· Συστήματα βασισμένα σε κανόνες
· Η μέθοδος του κοντινότερου γείτονα
· Μέθοδοι πολλαπλών ταξινομητών (ensembles)
- Εύρεση κανόνων συσχέτισης (association rules):
· O αλγόριθμος a
priori για frequent
itemsets
· Εφαρμογή σε συνεχή, ακολουθιακά και δεδομένα σε μορφή γραφημάτων.
- Το πρόβλημα της ομαδοποίησης (clustering)
· Ο αλγόριθμος k-means και παραλλαγές του
· Iεραρχικοί αλγόριθμοι
· Mέθοδοι βασισμένες σε εκτίμηση της πυκνότητας των δεδομένων
· Aξιολόγηση λύσεων ομαδοποίησης
· Προσεγγίσεις με καλή δυνατότητα κλιμάκωσης σε πολύ μεγάλα σύνολα δεδομένων.
Το μάθημα περιλαμβάνει υποχρεωτικές θεωρητικές και προγραμματιστικές ασκήσεις (project).
Ο τελικός βαθμός προκύπτει κατά 10% από τις εργασίες και κατά 90% από την τελική εξέταση.