ΘΕΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΩΝ ΕΡΓΑΣΙΩΝ

Π. Βασιλειάδης

 

DATA WAREHOUSES

(ΠΛΗΡΟΦΟΡΙΕΣ:  Πάνος Βασιλειάδης, x8814, pvassil@cs.uoi.gr)

 

ΕΙΣΑΓΩΓΗ

 

 

Τα Data warehouses είναι μια νέα μεθοδολογία διαχείρισης της πληροφορίας για μεγάλα συστήματα πληροφοριών. Ο τρόπος με τον οποίο μέχρι τώρα διαχειριζόμασταν την πληροφορία ήταν μέσω της αποθήκευσης σε μια βάση δεδομένων. Όλοι οι μεγάλοι οργανισμοί πλέον έχουν μηχανογραφηθεί κατ’ αυτόν τον τρόπο. Το πρόβλημα είναι ότι οι βάσεις δεδομένων των οργανισμών αυτών βρίσκονται σε συνθήκες συνεχούς λειτουργίας και ανανεώνονται συχνά. Τα συστήματα αυτού του είδους ονομάζονται On Line Transaction Processing (OLTP) συστήματα και έχουν το βασικό μειονέκτημα ότι η υποβολή πολύπλοκων ερωτήσεων για λήψη αποφάσεων είναι δύσκολη έως αδύνατη, λόγω του φόρτου επεξεργασίας και διαχείρισης των δοσοληψιών. Για την αντιμετώπιση του εν λόγω προβλήματος, δημιουργήθηκε η μεθοδολογία των data warehouses, που είναι “κεντρικές” βάσεις δεδομένων όπου αποθηκεύουμε την πληροφορία των OLTP συστημάτων.

Από τις υπάρχουσες OLTP βάσεις λοιπόν, εξάγονται τα δεδομένα, καθαρίζονται, μετασχηματίζονται και αποθηκεύονται στο data warehouse. Αρχικά, μπορεί να φανταστεί κανείς ένα data warehouse σαν ένα σύνολο από materialized views, views δηλαδή, όπου τα δεδομένα αποθηκεύονται. Ένα βασικό πρόβλημα είναι η ανανέωση της πληροφορίας στα views αυτά.

Η λογική δομή και σημασιολογία των δεδομένων καθώς και το κεντρικό μοντέλο του data warehouse (το οποίο ονομάζεται και business/enterprise model),αποθηκεύονται σαν τα metadata του data warehouse.

Η επερώτηση των δεδομένων γίνεται είτε απ’ ευθείας στο data warehouse είτε σε μικρότερες αποθηκευτικές δομές, που ονομάζονται data marts. Τα data marts είναι εξειδικευμένα υποσύνολα του data warehouse, όπου τα δεδομένα έχουν πιθανά υποστεί περαιτέρω επεξεργασία. Οι χρήστες υποβάλουν ερωτήσεις μέσω εφαρμογών On Line Analytical Processing (OLAP). Οι εφαρμογές αυτές αντιμετωπίζουν τα δεδομένα σαν πολυδιάστατα arrays, ή αλλιώς κύβους, έτσι ώστε να διευκολύνουν τους απλούς χρήστες. Οι κύβοι αποτελούνται από διαστάσεις (χρόνος, γεωγραφική περιοχή κ.λ.π.) και μετρήσιμα μεγέθη (π.χ. σύνολο πωλήσεων). Οι διαστάσεις οργανώνονται σε λογικές ιεραρχίες. Για παράδειγμα, ο χρόνος μπορεί να οργανωθεί στην ιεραρχία χρόνος, μήνας, μέρα. Για παράδειγμα οι πωλήσεις ενός οργανισμού μπορούν να μοντελοποιηθούν σαν ένας κύβος της μορφής

 

Day (Year-month-day)

Product

City

Sales

1997-01-01

“Report to El Greco”

Rhodes

15

1997-01-01

“Ace of Spades”

Paris

8

1997-01-01

“Report to El Greco”

Athens

11

 

με διαστάσεις οργανωμένες σε ιεραρχίες, όπως:

 

 

 

Ο χρήστης μπορεί να κάνει ερωτήσεις όπως μετασχηματισμός του κύβου σε διαφορετικά επίπεδα ιεραρχίας, επιλογή κάποιων υποσυνόλων του κύβου κ.λ.π.

 

 

Ο χώρος των αποθηκών δεδομένων επεξηγείται με μεγάλη ανάλυση στις σημειώσεις του μαθήματος επιλογής Προχωρημένα Θέματα Τεχνολογίας και Εφαρμογών Βάσεων Δεδομένων (http://www.cs.uoi.gr/~pvassil/courses/db_III/index.html)