MYE012/ΠΛΕ059 – Εξόρυξη Δεδομένων
Χειμερινό Εξάμηνο 2020
|
Διαφάνειες
Οι διαφάνειες
του μαθήματος χρησιμοποιούν διαφάνειες και υλικό από
άλλα μαθήματα και βιβλία. Ευχαριστούμε τους: Tan,
Steinbach, Kumar, Anand Rajaraman, Jeff Ullman, Jure Leskovec, Evimaria
Terzi, Mark Crovella, Aris Anagnostopoulos
για το υλικό από τις διαφάνειες τους που χρησιμοποιήθηκε
σε αυτό το μάθημα.Εισαγωγή: Διαδικαστικές λεπτομέρειες για το μάθημα (pptx, pdf) Διάλεξη 1: Εισαγωγή σην Εξόρυξη Δεδομένων (pptx, pdf)
Φροντιστήριο 1: Εισαγωγή στις διακριτές
πιθανότητες. (pdf)
Διάλεξεις 2-3: Τι είναι δεδομένα; To
data mining pipeline. Προεπεξεργασία και
μετεπεξεργασία. Δειγματοληψία και
κανονικοποίηση. Εξερεύνηση δεδομένων και βασική
στατιστική ανάλυση (pptx, pdf)
Διάλεξη 4: Ομοιότητα και απόσταση.
Συστήματα συστάσεων. (pptx, pdf)
Διάλεξη 5: Μειωση διάστασης. Singular Value
Decomposition (SVD). Principal Component Analysis
(PCA). (pptx,
pdf)
Φροντιστήριο 2: Εισαγωγή στα notebooks και στη βιβλιοθήκη Pandas
Διάλεξη 6: Ομαδοποίηση (clustering). Ο αλγόριθμος k-means.
Ιεραρχική ομαδοποίηση. Ο αλγόριθμος DBSCAN.
Αξιολόγηση ομαδοποίησης (pptx, pdf)
Διάλεξη 7: Mixture
models και ο αλγόριθμος ΕΜ. (pptx, pdf)
Φροντιστήριο 3: Εισαγωγή στη
βιβλιοθήκη Numpy (Notebook: ipynb, html, html slides, pdf). Διάλεξη 8: Εισαγωγή στην
επιβλεπόμενη μάθηση. Γραμμική παλινδρόμηση (Linear
Regression). Κατηγοριοποίηση (classification). Δέντρα απόφασης.
Αξιολόγηση κατηγοριοποίησης. (pptx, pdf)
Φροντιστήριο 4: Εισαγωγή στην
βιβλιοθήκη scikit-learn και εφαρμογές για
clustering και data processing (Notebook: ipynb, html, html slides, pdf). Διάλεξη 9: Άλλες μεθόδοι
κατηγοριοποίσης. Nearest Neighbor Classifier,
Support Vector Machines (SVM), Logistic
Regression, Neural
Networks
και
Word Embeddings, Naive
Bayes Classifier. To
pipeline της επιβλεπόμενη μάθησης. (pptx, pdf)
Φροντιστήριο 5: Εισαγωγή στην βιβλιοθήκη scikit-learn και εφαρμογές για classification. H βιβλιοθήκη gensim και word embeddings. (Notebook: ipynb, html, html slides). Διάλεξη 10: Ανάλυση συνδέσμων για
την ιεράρχηση στο Web. Τυχαίοι περίπατοι και ο
αλγόριθμος PageRank. Ο αλγόριθμος HITS. Απορροφητικοί τυχαίοι
περίπατοι και διάχυση τιμών (value propagation). (pptx, pdf)
Φροντιστήριο 6: Εισαγωγή στη βιβλιοθήκη NetworkX (Notebook: ipynb, html, html slides, pdf).
|