ΠΛΕ059 – Εξόρυξη Δεδομένων

Χειμερινό Εξάμηνο, 2013

 

Αρχική

Υλικό

Διαφάνειες

Ασκήσεις

 

 



Υλικό

Βιβλία και Διαφάνειες

·        Mining Massive Datasets by Anand Rajaraman, Jeff Ullman, and Jure Leskovec. Διατίθεται δωρεάν online. Διαφάνειες από το μάθημα.

·        Υλικό από το βιβλίο Data Mining: Concepts and Techniques”, των Jiawei Han and Micheline Kamber.

·        Υλικό από το βιβλίο Introduction to Data Miningτων Tan, Steinbach, Kumar.

·        Υλικό από το βιβλίο "Introduction to Information Retrieval" των C. Manning, P. Raghavan, H. Schutze

·        Υλικό από το βιβλίο "Networks Crowds and Markets" των D. Easley, J. Kleinberg

 

Χρήσιμες εντολές Unix

Οι παρακάτω unix εντολές μπορεί να σας φανούν χρήσιμες για το pre-processing των δεδομένων,:

·        cut: επιτρέπει να πάρουμε συγκεκριμένες κολώνες από ένα αρχείο με διαχωριζόμενες τιμές

·        sort: ταξινομεί τις  γραμμές ενός αρχείου σε αλφαβητική σειρά . –n for αριθμητική σειρά

·        uniq: αφαιρεί συνεχόμενες γραμμές που είναι ίδιες.

·        grep: βρίσκει μια έκφραση μέσα σε ένα αρχείο.

 

Λογισμικό

·        WEKA Data Mining Software: Software πακέτο που υλοποιεί διάφορους αλγόριθμους εξόρυξης δεδομένων.

·        FIMI: Frequent Itemsets Mining Implementation: Μία σελίδα με πολλαπλές υλοποιήσεις αλγορίθμων για εξόρυξη συχνών στοιχειοσυνόλων. Όλοι οι αλγόριθμοι υποθέτουν είσοδο στο format των παραδειγμάτων στη σελίδα: κάθε γραμμή είναι ένα «καλάθι» από ακεραίους που χωρίζονται με κενό.

·        Liblinear: Software πακέτο για κατηγοριοποίηση. Υλοποιεί Logistic Regression και SVM classifier.

 

Δεδομένα

·        The Yelp Academic Challenge dataset

·        UCI Machine Learning Repository

o   Δεδομένα για την Άσκηση 2

§  Το Iris dataset (ARFF αρχείο).Το link στο UCI repository.

§  To SpamBase dataset (ARFF αρχείο). Το link στο UCI repository.

§  Το Mushroom dataset (ARFF file). Το link στο UCI repository.

·        Movie Lens Datasets από το GroupLens Research

·        FourSquare tips on Restaurants: μια συλλογή από foursquare tips για εστιατόρια της Νέας Υόρκης (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

·        FourSquare tips with categories: μια συλλογή από foursquare tips με την κατηγορία της επιχείρησης για εστιατόρια, κέντρα νυχτερινής διασκέδασης και καταστήματα από την Νέας Υόρκη (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

·        FourSquare users and venues: μια συλλογή από ζεύγη από user ids και venue names στην περιοχή της Νέας Υόρκης, όπου ο χρήστης με το συγκεκριμένο id έχει αφήσει tip στο συγκεκριμένο venue στο Foursquare (Ευχαριστίες στον Γιάννη Κοτρώτσιο).

·        Twitter data από το paper “What is Twitter, a Social Network, or a News Media?των Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon. Για την πρώτη άσκηση θα χρειαστείτε το Restricted User Profiles αρχείο. Τα πεδία του αρχείου εξηγούνται στην ίδια σελίδα, θα χρειαστείτε το ενδέκατο πεδίο που έχει το description.

·        English Stopwords. Txt αρχείο με λίστα από συχνές αγγλικές λέξεις (stopwords).

·        SpamAssassin.

·        Stanford Network Analysis Project Datasets.

·        Movie-Actor Graph. Κάθε γραμμή στο αρχείο είναι ένα ζεύγος ταινία, ηθοποιός, χωρισμένο με tab, δηλαδή αντιστοιχεί σε μια ακμή του γράφου.