ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο, 2012

english

Αρχική

Υλικό

Διαφάνειες

Ασκήσεις

 


Διαφάνειες


Οι διαφάνειες του μαθήματος χρησιμοποιούν διαφάνειες και υλικό από άλλα μαθήματα και βιβλία. Ευχαριστούμε τους: Tan, Steinbach, Kumar, Anand Rajaraman and Jeff Ullman, Evimaria Terzi, για το υλικό από τις διαφάνειες τους που χρησιμοποιούμε σε αυτό το μάθημα.


Διάλεξη 1: Εισαγωγή στην Εξόρυξη Δεδομένων (ppt, pdf
).


Διάλεξη 2: Δεδομένα, προ-επεξεργασία και μετεπεξεργασία (ppt, pdf)


Διάλεξη 3
: Συχνά στοιχειοσύνολα, κανόνες συσχέτισης, Αλγόριθμος Apriori (ppt, pdf)

 

Διάλεξη 4: Συχνά στοιχειοσύνολα, κανόνες συσχέτισης, Αξιολόγηση, Αλγόριθμοι πέρα από τον Apriori (ppt, pdf)


Διάλεξη 5
: Ομοιότητα και απόσταση. Μετρικές. Min-wise independent hashing. (ppt,pdf)



Διάλεξη 6: Min-wise independent hashing. Locality Sensitive Hashing. Clustering,
Αλγόριθμος K-means (ppt,pdf)



Διάλεξη 7:
Ιεραρχικό clustering, Αλγόριθμος DBSCAN, Mixture models και ο EM αλγόριθμος. (ppt,pdf)



Διάλεξη:
Αξιολόγηση Clustering, Minimum Description Length (MDL), Εισαγωγή στο Information Theory, Co-Clustering χρησιμοποιώντας MDL (ppt,pdf)
  • Deepayan Chakrabarti, Spiros Papadimitriou, Dharmendra Modha, Christos Faloutsos, Fully Automatic Cross-Associations, KDD 2004, Seattle, August 2004. [PDF]
  • Κάποιες πληροφοριες για το MDL και εντροπία ειναι στο βιβλίο Introduction to Data Mining των Tan, Steinbach, Kumar (κεφάλαια 2,4).


Διάλεξη: Κατάτμηση ακουθιακών δεδομένων (ppt,pdf)

  • Κεφάλαιο 2, Evimaria Terzi, Problems and Algorithms for Sequence Segmentations, Ph.D. Thesis (PDF)


Διάλεξη 9: Μεiωση διάστασης, Singular Value Decomposition (SVD), Principal Component Analysis (PCA). (ppt,pdf)


Διάλεξη 10α: Κατηγοριοποίηση. Δέντρα απόφασης. Αξιολόγηση. (ppt,pdf)


Διάλεξη 10β: Κατηγοριοποίηση. k-Nearest Neighbor classifier, Logistic Regression, Support Vector Machines (SVM), Naive Bayes (ppt,pdf)


Διάλεξη 11: Naive Bayes classifier. Επιβλεπόμενη μάθηση. Web Search and PageRank. (ppt,pdf)


Διάλεξη 12: Link Analysis Ranking: PageRank, HITS, Τυχαίοι περίπατοι. (ppt,pdf)


Διάλεξη 13:
Αποροφητικοί Τυχαίοι περίπατοι. Πρβλήματα κάλυψης (Set Cover, Maximum Coverage) (ppt,pdf)