MYE012/ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο 2022

 

Αρχική

Υλικό

Διαφάνειες

Ασκήσεις

Διαφάνειες

Οι διαφάνειες του μαθήματος χρησιμοποιούν διαφάνειες και υλικό από άλλα μαθήματα και βιβλία. Ευχαριστούμε τους: Tan, Steinbach, Kumar, Anand Rajaraman, Jeff Ullman, Jure Leskovec, Evimaria Terzi, Mark Crovella, Aris Anagnostopoulos για το υλικό από τις διαφάνειες τους που χρησιμοποιήθηκε σε αυτό το μάθημα.

Εισαγωγή: Διαδικαστικές λεπτομέρειες για το μάθημα (pptx, pdf)

Διάλεξη 1: Εισαγωγή σην Εξόρυξη Δεδομένων (pptx, pdf)

Φροντιστήριο 1: Εισαγωγή στις πιθανότητες. (pptx, pdf)

  • Ευχαριστίες στον Άρη Αναγνωστόπουλο για τις διαφάνειες.
  • Part I από το βιβλίο All of Statistics του Larry A. Wasserman

Διάλεξη 2: Τι είναι δεδομένα; To data mining pipeline. Προεπεξεργασία και μετεπεξεργασία. Δειγματοληψία και κανονικοποίηση. (pptx, pdf)

Διάλεξη 3: Εξερεύνηση δεδομένων και βασική στατιστική ανάλυση (pptx, pdf)

  • Κεφάλαιο 1 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.
  • Κεφάλαια 7-8 (confidence interval, standard error), 11 (hypothesis testing), 16 (independence and correlation tests) από το βιβλίο All of Statistics του Larry A. Wasserman (τα νούμερα των κεφαλαίων ειναι για το pdf, στο πραγματικό βιβλίο τα νουμερα ειναι -1 απο τα παραπάνω νούμερα).
  • Error bars in experimental biology.

Φροντιστήριο 2: Εισαγωγή στα notebooks. Χρήσιμες βιβλιοθήκες στην Python

  • Διαφάνειες: pptx, pdf
  • Notebook με Python Reminders (ipynb, html)

Διάλεξη 4: Ομοιότητα και απόσταση. Συστήματα συστάσεων. (pptx, pdf) 

Φροντιστήριο 3: Εισαγωγή στη βιβλιοθήκη Pandas (ipynb, html)

Φροντιστήριο 4: Βιβλιοθήκες για στατιστική ανάλυση και plotting

Διάλεξη 5: Μειωση διάστασης. Singular Value Decomposition (SVD). Principal Component Analysis (PCA). Model-Based collaborative filtering (pptx, pdf)

Φροντιστήριο 5: Εισαγωγή στη βιβλιοθήκη numpy και scipy για επεξεργασία πινάκων (ipynb, html).

Διάλεξη 6: Ομαδοποίηση (clustering). Ο αλγόριθμος k-means. Ιεραρχική ομαδοποίηση. Ο αλγόριθμος DBSCAN. Αξιολόγηση ομαδοποίησης (pptx, pdf)

Φροντιστήριο 6: Βιβλιοθήκες για data preprocessing (ipynb, html)

Διάλεξη 7: Mixture models και ο αλγόριθμος ΕΜ. (pptx, pdf)

Φροντιστήριο 7: Εισαγωγή στη βιβλιοθήκη SciKit-Learn (sklearn) για clustering (ipynb, html)

Διάλεξη 8: Εισαγωγή στην επιβλεπόμενη μάθηση. Γραμμική παλινδρόμηση (Linear Regression). Κατηγοριοποίηση (classification). Δέντρα απόφασης, Classifier Expressiveness.  Αξιολόγηση κατηγοριοποίησης. (pptx, pdf) 

  • Κεφάλαιο 14 (στο pdf) από το βιβλίο All of Statistics του Larry A. Wasserman
  • Κεφάλαια 4,5 από το βιβλίο “Introduction to Data Mining” των Tan, Steinbach, Kumar.
  • Κεφάλαιο 12 από το βιβλίο Mining Massive Datasets των Anand Rajaraman and Jeff Ullman, Jure Leskovec.

Διάλεξη 9: Nearest Neighbor Classification, Support Vector Machines, Logistic Regression, (Naive Bayes Classification). Neural Networks και Word Embeddings.To pipeline της επιβλεπόμενη μάθησης. (pptx, pdf) 

Φροντιστήριο 8:  Εισαγωγή στην βιβλιοθήκη SciKit-learn (sklearn) για classification. H βιβλιοθήκη gensim και word embeddings. (Notebook: ipynb, html).

Διάλεξη 10: Ανάλυση συνδέσμων για την ιεράρχηση στο Web. Τυχαίοι περίπατοι και ο αλγόριθμος PageRank. Ο αλγόριθμος HITS. Απορροφητικοί τυχαίοι περίπατοι και διάχυση τιμών (value propagation). (pptx, pdf) 

Φροντιστήριο 9: Εισαγωγή στη βιβλιοθήκη NetworkX (Notebook: ipynb, html).