MYE012/ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο, 2014

 

Αρχική

Υλικό

Διαφάνειες

Ασκήσεις

Διαφάνειες

 

Οι διαφάνειες του μαθήματος χρησιμοποιούν διαφάνειες και υλικό από άλλα μαθήματα και βιβλία. Ευχαριστούμε τους: Tan, Steinbach, Kumar, Anand Rajaraman, Jeff Ullman, and Jure Leskovec, Evimaria Terzi, Aris Anagnostopoulos για το υλικό από τις διαφάνειες τους που χρησιμοποιούμε σε αυτό το μάθημα.


Διάλεξη 1: Εισαγωγή σην Εξόρυξη Δεδομένων (ppt, pdf)


Διάλεξη 2
: Πιθανότες. Δεδομένα, προ-επεξεργασία και μετεπεξεργασία
(ppt, pdf)


Διάλεξη 3: Εύρεση συχνών στοιχειοσυνόλων. Αλγόριθμος A-priori. Ευρεση κανόνων συσχέτισης. (ppt, pdf)


Διάλεξη 4: Κανόνες συσχέτισης. Αξιολόγηση κανόνων. Εναλλακτικοί αλγόριθμοι για συχνά στοιχειοσύνολα. (ppt, pdf)


Διάλεξη 5: Ομοιότητα και Απόσταση. Μετρικές. Συστήματα συστάσεων. (ppt, pdf)


Διάλεξη 6
: Εύρεση όμοιων ζευγών.
Min-Hash signatures. Locality Sensitive Hashing. (ppt, pdf)

  • Κεφάλαιο 3 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.


Διάλεξη 7: Μείωση διάστασης. Singular Value Decomposition (SVD). Principal Component Analysis (PCA). (ppt, pdf)


Διάλεξη 8: Ομαδοποίηση (clustering). Ο αλγόριθμος k-means. Ιεραρχική ομαδοποίηση. Ο αλγόριθμος DBSCAN. (ppt, pdf)


Διάλεξη 9
: Mixutre models και ο αλγόριθμος ΕΜ
. Αξιολόγηση ομαδοποίησης. Κατάτμηση ακολουθιακών δεδομένων (ppt, pdf)


Διάλεξη 10: Minimum Description Length (MDL). Εισαγωγή στην θεωρία πληροφορίας. Co-clustering (ppt, pdf)

  • Καποιες πληροφορίες για MDL και θεωρία πληροφορίας υπάρχουν στα Κεφάλαια 2, 4 από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.
  • Deepayan Chakrabarti, Spiros Papadimitriou, Dharmendra Modha, Christos Faloutsos, Fully Automatic Cross-Associations, KDD 2004, Seattle, August 2004. [PDF]


Διάλεξη 11: Κατηγοριοποίηση. Δέντρα απόφασης. Αξιολόγηση (ppt, pdf)


Διάλεξη 12: Άλλες μεθόδοι κατηγοριοποίησης. Nearest Neighbor Classification. Support Vector Machines. Logistic Regression. Naive Bayes Classification. Επιβλεπόμενη μάθηση. (ppt, pdf)


Διάλεξη 13: Ανάλυση συνδέσμων και ιεράρχηση στο Web. PageRank -- τυχαίοι περίπατοι. Ο αλγόριθμος HITS. (ppt, pdf)


Διάλεξη 14: Απορροφητικοί τυχαίοι περίπατοι. Προβλήματα κάλυψης. (ppt, pdf)


Διάλεξη 15: To Map-Reduce υπολογιστικό παράδειγμα. (ppt, pdf)

  • Κεφάλαιο 2 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.