MYE012/ΠΛΕ059 – Εξόρυξη Δεδομένων
Χειμερινό Εξάμηνο 2022
|
Διαφάνειες
Οι διαφάνειες
του μαθήματος χρησιμοποιούν διαφάνειες και υλικό από
άλλα μαθήματα και βιβλία. Ευχαριστούμε τους: Tan,
Steinbach, Kumar, Anand Rajaraman, Jeff Ullman, Jure Leskovec, Evimaria
Terzi, Mark Crovella, Aris Anagnostopoulos
για το υλικό από τις διαφάνειες τους που χρησιμοποιήθηκε
σε αυτό το μάθημα.Εισαγωγή: Διαδικαστικές λεπτομέρειες για το μάθημα (pptx, pdf) Διάλεξη 1: Εισαγωγή σην Εξόρυξη Δεδομένων (pptx, pdf)
Φροντιστήριο
1: Εισαγωγή στις
πιθανότητες. (pptx, pdf)
Διάλεξη 2: Τι είναι δεδομένα; To
data mining pipeline. Προεπεξεργασία και
μετεπεξεργασία. Δειγματοληψία και
κανονικοποίηση. (pptx, pdf)
Διάλεξη 3: Εξερεύνηση δεδομένων και
βασική στατιστική ανάλυση (pptx, pdf)
Φροντιστήριο 2: Εισαγωγή στα notebooks.
Χρήσιμες βιβλιοθήκες στην Python Διάλεξη 4: Ομοιότητα και απόσταση.
Συστήματα συστάσεων. (pptx, pdf)
Φροντιστήριο 3: Εισαγωγή στη βιβλιοθήκη Pandas (ipynb, html)
Φροντιστήριο 4: Βιβλιοθήκες για
στατιστική ανάλυση και plotting
Διάλεξη 5: Μειωση διάστασης.
Singular Value Decomposition (SVD). Principal
Component Analysis (PCA). Model-Based
collaborative filtering (pptx, pdf)
Φροντιστήριο 5: Εισαγωγή στη βιβλιοθήκη
numpy και scipy για επεξεργασία πινάκων (ipynb, html). Διάλεξη 6: Ομαδοποίηση (clustering). Ο αλγόριθμος k-means. Ιεραρχική ομαδοποίηση. Ο αλγόριθμος DBSCAN. Αξιολόγηση ομαδοποίησης (pptx, pdf)
Φροντιστήριο 6: Βιβλιοθήκες για data
preprocessing (ipynb, html) Διάλεξη 7: Mixture models και ο αλγόριθμος ΕΜ. (pptx, pdf)
Φροντιστήριο 7: Εισαγωγή στη βιβλιοθήκη SciKit-Learn (sklearn) για clustering (ipynb, html) Διάλεξη 8: Εισαγωγή στην
επιβλεπόμενη μάθηση. Γραμμική παλινδρόμηση (Linear
Regression). Κατηγοριοποίηση (classification). Δέντρα απόφασης,
Classifier Expressiveness. Αξιολόγηση
κατηγοριοποίησης. (pptx, pdf)
Διάλεξη 9: Nearest
Neighbor Classification, Support
Vector Machines, Logistic Regression,
(Naive Bayes Classification). Neural Networks και Word
Embeddings.To
pipeline της επιβλεπόμενη μάθησης. (pptx, pdf)
Φροντιστήριο 8: Εισαγωγή
στην βιβλιοθήκη SciKit-learn (sklearn) για
classification. H βιβλιοθήκη gensim και word
embeddings. (Notebook: ipynb, html). Διάλεξη 10: Ανάλυση συνδέσμων για
την ιεράρχηση στο Web. Τυχαίοι περίπατοι και ο
αλγόριθμος PageRank. Ο αλγόριθμος HITS. Απορροφητικοί τυχαίοι
περίπατοι και διάχυση τιμών (value propagation). (pptx, pdf)
Φροντιστήριο 9: Εισαγωγή στη βιβλιοθήκη NetworkX (Notebook: ipynb, html).
|