Εξόρυξη Δεδομένων (Δ02)

Διδάσκοντες: Αριστείδης Λύκας (e-mail: arly@cs.uoi.gr)

                        Κωνσταντίνος Μπλέκας (e-mail: kblekas@cs.uoi.gr)


 

Ανακοινώσεις

Εχει δημιουργηθεί μια τάξη στο MSTEAMS με το όνομα «ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ – ΜΕΤΑΠΤΥΧΙΑΚΟ – 2024».

H εγγραφή στην τάξη γίνεται με τον κωδικό: wuh4ajg

Παρακαλούνται οι φοιτητές που θα δηλώσουν το μάθημα να εγγραφούν στην τάξη.

Στην τάξη αυτή θα αναρτώνται ανακοινώσεις σχετικές με το μάθημα και θα πραγματοποιηθούν τηλε-διαλέξεις σε περίπτωση που χρειαστεί.


Περιγραφή Μαθήματος

Σκοπός του μαθήματος Εξόρυξη Δεδομένων (Data Mining) είναι η παρουσίαση των βασικών μεθοδολογιών για την εξόρυξη γνώσης από δεδομένα. Αναλύονται τυπικές μεθοδολογίες για τα βασικά προβλήματα της ταξινόμησης, της ομαδοποίησης και της εύρεσης κανόνων συσχέτισης για διάφορες κατηγορίες δεδομένων (διακριτά, συνεχή, κείμενα, γραφήματα κλπ). Επιπλέον εξετάζεται η δυνατότητα κλιμάκωσης των μεθόδων σε πολύ μεγάλα σύνολα δεδομένων.


Βιβλιογραφία

Βασικό Σύγγραμμα:

·        P. Tan, M. Steinbach and V. Kumar, “Introduction to Data Mining”, Addison-Wesley 2006.

 

Άλλα συγγράμματα:

·        D. Hand, H. Mannila, P. Smyth, “Principles of Data Mining”, MIT Press, 2001.

·        Igor Kononkenko and Matjaz Kukar, “Machine Learning and Data Mining: Introduction to Principles and Algorithms”, Horwood Publishing, 2007.


Υλη του μαθήματος

Καλύπτονται οι ακόλουθες ενότητες:

- Εισαγωγή στα προβλήματα της εξόρυξης γνώσης από δεδομένα

- Tύποι δεδομένων, προεπεξεργασία και μείωση διάστασης.

- Το πρόβλημα της ταξινόμησης (classification):

·  Bασικές έννοιες, γενικευτική ικανότητα - υπερεκπαίδευση

·  Αλγόριθμοι κατασκευής δέντρων απόφασης

·  Μέτρηση της ικανότητας γενίκευσης - σύγκριση συστημάτων ταξινόμησης

·  Συστήματα βασισμένα σε κανόνες

·  Η μέθοδος του κοντινότερου γείτονα

·  Μέθοδοι πολλαπλών ταξινομητών (ensembles)

- Εύρεση κανόνων συσχέτισης (association rules):

·  O αλγόριθμος a priori για frequent itemsets

·  Εφαρμογή σε συνεχή, ακολουθιακά και δεδομένα σε μορφή γραφημάτων.

- Το πρόβλημα της ομαδοποίησης (clustering)

·  Ο αλγόριθμος k-means και παραλλαγές του

·  Iεραρχικοί αλγόριθμοι

·  Mέθοδοι βασισμένες σε εκτίμηση της πυκνότητας των δεδομένων

·  Aξιολόγηση λύσεων ομαδοποίησης

·  Προσεγγίσεις με καλή δυνατότητα κλιμάκωσης σε πολύ μεγάλα σύνολα δεδομένων.


Εργασίες

Το μάθημα περιλαμβάνει υποχρεωτικές θεωρητικές και προγραμματιστικές ασκήσεις (project).


Εξετάσεις & Βαθμολογία

Ο τελικός βαθμός προκύπτει κατά 10% από τις εργασίες και κατά 90% από την τελική εξέταση.