MYE012/ΠΛΕ059 – Εξόρυξη Δεδομένων

Εαρινό Εξάμηνο, 2017

 

Αρχική

Υλικό

Διαφάνειες

Ασκήσεις

Διαφάνειες

Οι διαφάνειες του μαθήματος χρησιμοποιούν διαφάνειες και υλικό από άλλα μαθήματα και βιβλία. Ευχαριστούμε τους: Tan, Steinbach, Kumar, Anand Rajaraman, Jeff Ullman, Jure Leskovec, Evimaria Terzi, Aris Anagnostopoulos για το υλικό από τις διαφάνειες τους που χρησιμοποιούμε σε αυτό το μάθημα.

Εισαγωγή: Διαδικαστικές λεπτομέρειες για το μάθημα (pptx, pdf)

Διάλεξη 1: Εισαγωγή σην Εξόρυξη Δεδομένων (pptx, pdf)

Φροντιστήριο 1: Εισαγωγή στις διακριτές πιθανότητες. (pdf)

  • Ευχαριστίες στον Άρη Αναγνωστόπουλο για τις διαφάνειες.

Διάλεξη 2: Τι είναι δεδομένα; To data mining pipeline. Προεπεξεργασία και μετεπεξεργασία. Δειγματοληψία και κανονικοποίηση. (pptx, pdf)

Διάλεξη 3: Συχνά Στοιχειοσύνολα και Κανόνες Συσχέτισης. (pptx, pdf)

Φροντιστήριο 2: Εισαγωγή στην Python. (pptx, pdf, ipynb, html)

  • To αρχείο της εικόνας εδώ

Διάλεξη 4: Ομοιότητα και απόσταση. Συστήματα συστάσεων. (pptx, pdf) 

Φροντιστήριο 3: Εισαγωγή στα Pandas. (pptx, pdf, ipynb, html)

Διάλεξη 5: Εύρεση όμοιων ζευγών. Min-hash signatures. Locality Sensitive Hashing. (pptx, pdf)

  • Κεφάλαιο 3 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.

Διάλεξη 6: Μειωση διάστασης. Singular Value Decomposition (SVD). Principal Component Analysis (PCA). (pptx, pdf)

Φροντιστήριο 4: Εισαγωγή στις βιβλιοθήκες Numpy, Scipy, SciKit για την επεξεργασία πινάκων. (ipynb, html)

Διάλεξη 7: Ομαδοποίηση (clustering). Ο αλγόριθμος k-means. Ιεραρχική ομαδοποίηση. Ο αλγόριθμος DBSCAN. Αξιολόγηση ομαδοποίησης.  (pptx, pdf)

Διάλεξη 8: Mixture models και ο αλγόριθμος ΕΜ. Κατάτμηση Ακολουθιών. (pptx, pdf)

Φροντιστήριο 5: Εισαγωγή στις βιβλιοθήκες SciKit για ομαδοποίηση και εξαγωγή χαρακτηρηστικών. (ipynb, html)

Διάλεξη 9: Κατηγοριοποίηση (classification). Δέντρα απόφασης. Αξιολόγηση κατηγοριοποίησης. (pptx, pdf)

Διάλεξη 10: Άλλες μεθόδοι κατηγοριοποίσης. Nearest Neighbor Classifier, Support Vector Machines (SVM), Logistic Regression, Naive Bayes Classifier. Επιβλεπόμενη μάθηση. (pptx, pdf)

Φροντιστήριο 6: Εισαγωγή στις βιβλιοθήκες SciKit για κατηγοριοποίηση. (ipynb,html)

Διάλεξη 11: Ανάλυση συνδέσμων για την ιεράρχηση στο Web. Τυχαίοι περίπατοι και ο αλγόριθμος PageRank. Ο αλγόριθμος HITS. Απορροφητικοί τυχαίοι περίπατοι. (pptx, pdf)

Διάλεξη 12: Εύρεση κοινοτήτων σε γράφους. Edge Betweenness Centrality. (pptx, pdf)

Φροντιστήριο 7: Εισαγωγή στην ανάλυση δικτύων με την βιβλιοθήκη NetworkX. (ipynb, html)

Διάλεξη 13: Προβληματα Κάλυψης. Προσεγγιστικοί αλγόριθμοι. (pptx, pdf)