ΣΤΟΧΟΙ ΤΟΥ ΕΡΓΟΥ - ΑΝΑΜΕΝΟΜΕΝΑ ΑΠΟΤΕΛΕΣΜΑΤΑ

Τα τελευταία χρόνια παρατηρείται μια σημαντική αύξηση στην διαθεσιμότητα υψηλού επιπέδου ψηφιακού βίντεο σαν αποτέλεσμα της επέκτασης των ευρυζωνικών υπηρεσιών και των μεγάλης χωρητικότητας αποθηκευτικών μέσων. Λόγω της εκτεταμένης χρήσης βίντεο σε πολλές διαφορετικές εφαρμογές όπως η εξ' αποστάσεως εκπαίδευση, οι ψηφιακές βιβλιοθήκες, η internet TV και οι video on demand υπηρεσίες, όπως επίσης και οι χιλιάδες ταινίες και άλλες εκπομπές που συνεχώς παράγονται και προβάλλονται, ένας τεράστιος όγκος πληροφοριών σε μορφή video καθημερινά προστίθεται στα αποθετήρια των διάφορων οργανισμών και εταιριών. Αυτό συνεπάγεται και μια μεγάλη ανάγκη για τεχνικές και εφαρμογές που θα προσφέρουν με αποτελεσματικό τρόπο δεικτοδότηση (indexing), φυλλομέτρηση (browsing) και την ανάκτηση πληροφορίας από δεδομένα βίντεο.

Η βασική ιδέα του προγράμματος είναι να ολοκληρωθεί η σχετική έρευνα και στην συνέχεια να αναπτυχθεί μια εφαρμογή που θα επιτρέπει σε εταιρίες παραγωγής, οργανισμούς που διαθέτουν οπτικοακουστικό υλικό, τηλεοπτικούς σταθμούς, επαγγελματίες κινηματογραφιστές και γενικότερα οποιονδήποτε δραστηριοποιείται στην επεξεργασία βίντεο, να οργανώνει εύκολα και αποτελεσματικά το παραγόμενο οπτικοακουστικό υλικό, καθώς και να μπορεί να δημιουργεί με αυτόματο τρόπο περιλήψεις από αμοντάριστο βίντεο. Η μοντελοποίηση, η αναπαράσταση, η περίληψη, η δεικτοδότηση, η ανάκτηση και η φυλλομέτρηση δεδομένων βίντεο με βάση το περιεχόμενο, θα είναι η βασική έρευνα του προγράμματος VIDEO-SUM.

Θα γίνει δηλαδή η έρευνα και στην συνέχεια θα αναπτυχθεί μια εφαρμογή που θα διαχειρίζεται την περιγραφή, οργάνωση, αναζήτηση, διατήρηση, αποθήκευση και επιμέλεια των βίντεο, εκπομπών, παραγωγών κτλ που διαθέτουν οι προαναφερόμενοι τελικοί χρήστες, ενώ θα δίνεται και η δυνατότητα δημιουργίας με αυτόματο και γρήγορο τρόπο, περιλήψεων βίντεο. Συνήθως τα βίντεο μεγάλης διάρκειας αφορούν πολιτιστικές εκδηλώσεις, κινηματογραφήσεις σε μνημεία, αρχαιολογικούς χώρους κτλ και συνεπώς οι περιλήψεις βίντεο τέτοιου είδους αποτελούν πηγή εξαγωγής πολύτιμης γνώσης και προβολής και συντελούν στην ανάδειξη της πολιτιστικής κληρονομιάς, διευκολύνοντας όλους τους εμπλεκόμενους φορείς. Ιδιαίτερη έμφαση θα δοθεί στην επεξεργασία δελτίων ειδήσεων και ντοκιμαντέρ.

ΤΕΧΝΙΚΟΙ Η/ΚΑΙ ΕΠΙΣΤΗΜΟΝΙΚΟΙ ΣΤΟΧΟΙ

Η πρόταση θα εστιάσει σε βιομηχανική έρευνα γύρω από τεχνικές μηχανικής μάθησης (machine learning techniques) για διαχείριση γνώσης σε ψηφιακά πολυμεσικά δεδομένα. Πιο συγκεκριμένα θα εστιάσει σε θέματα κατάτμησης (segmentation) και αναπαράστασης (representation) video με την χρήση τεχνικών μηχανικής μάθησης καθώς και με την εφαρμογή των μεθόδων που θα αναπτυχθούν σε προβλήματα περίληψης αμοντάριστου video (rushes summarization).

Επιπλέον θα γίνει παραμετροποίηση σε λογισμικά για την διατήρηση ψηφιακών βιβλιοθηκών (digital libraries) τα οποία περιλαμβάνουν την περιγραφή με xml αρχεία της σχετικής πληροφορίας, την οργάνωση σε θεματικές ενότητες (συλλογές), την δημιουργία ευρετηρίων άμεσης αναζήτησης στα ψηφιακά δεδομένα, την αποθήκευση τους σε σχεσιακές βάσεις κτλ. Μάλιστα δίνουν την δυνατότητα δημοσίευσης στο διαδίκτυο ώστε να έχουν πρόσβαση στο υλικό που περιλαμβάνεται όλοι οι ενδιαφερόμενοι χρήστες. Στην συνέχεια θα εξεταστεί το πώς οι δύο αυτές τεχνολογίες μπορούν να συνδυαστούν ώστε αν αποτελέσουν μια ολοκληρωμένη λύση για εταιρίες όπως αυτές που συμμετέχουν στο έργο VIDEO-SUM.

Για τον προσδιορισμό των χαρακτηριστικών της έρευνας αλλά και της μορφής που πρέπει να έχει η προτεινόμενη πλατφόρμα που θα αναπτυχτεί για την αξιολόγηση, ώστε να γίνει και ο κατάλληλος σχεδιασμός και να καλύπτει το τελικό αποτέλεσμα πραγματικές ανάγκες των συγκεκριμένων χρηστών, θα γίνει καταγραφή των απαιτήσεων τους μέσα από την συμμετοχή ενός τηλεοπτικού σταθμού (STAR), μιας εταιρίας παραγωγής (White Fox) και του Αθηναϊκoύ - Μακεδονικού Πρακτορείου Ειδήσεων στους εταίρους του έργου.

Στα πλαίσια του προγράμματος θα μελετηθούν θέματα και θα προταθούν μεθοδολογίες σχετικά με:

Το χαμηλότερο επίπεδο κατάτμησης video που σχετίζεται με το πρόβλημα ανίχνευσης των ορίων των πλάνων (shot boundary detection). Συστήματα ταξινόμησης SVM που χρησιμοποιούν κυρίως τεχνικά χαρακτηριστικά από τα video (frames, cuts κτλ) μπορούν να εφαρμοστούν.
Την εξαγωγή χαρακτηριστικών εικονοπλαισίων (key frame extraction) που συνοψίζουν το περιεχόμενο του κάθε πλάνου.
Την κατάτμηση video σε σκηνές (video scene segmentation). Τα πλάνα ενός video ομαδοποιούνται και ανάλογα με την ομάδα τους αποδίδεται μια ετικέτα. Για την ανίχνευση των ορίων των σκηνών με βάση τις αλλαγές στο μοτίβο των ετικετών απαιτούνται κατάλληλες τεχνικές.
Την υψηλού επιπέδου κατάτμηση μίας καταγραφής video (high level segmentation), δηλ. την κατάτμηση σε σκηνές και κεφάλαια. Η προσέγγιση θα χρησιμοποιεί αναπαράσταση των πλάνων με σημασιολογική περιγραφή. Για παράδειγμα όταν αναφερόμαστε σε ένα δελτίο ειδήσεων μια πιθανή κατάτμηση είναι σε διαλόγους, ρεπορτάζ, καιρό και διαφημιστικά.

Με βάση αυτά και με περαιτέρω έρευνα και σχετικές μελέτες θα εξεταστεί το θέμα της περίληψης αμοντάριστου video. Το αμοντάριστο video περιέχει αρκετή περιττή πληροφορία, όπως μονόχρωμα (συνεπώς ανεπιθύμητα) εικονοπλαίσια, αλλά και επαναλαμβανόμενα πλάνα. Στόχος θα είναι η ανάπτυξη και εφαρμογή κατάλληλων μεθοδολογιών για την αυτόματη απομάκρυνση των ανεπιθύμητων εικονοπλαισίων και της επαναλαμβανόμενης πληροφορίας. Τα παρόμοια πλάνα θα ομαδοποιούνται, καθώς ένα μόνο πρέπει να περιλαμβάνεται στην περίληψη.

Η σημασιολογική περιγραφή παρουσιάζει ιδιαίτερο ερευνητικό ενδιαφέρον και θα μπορούσε να εφαρμοστεί στη εξαγωγή χαρακτηριστικών εικονοπλαισίων. Επίσης θα μπορούσε να επεκταθεί για την δημιουργία ενός λεξικού όρων, με σκοπό την βελτίωση της αποτελεσματικότητας.

Στο τέλος του έργου θα έχει δημιουργηθεί και μια εφαρμογή με την οποία οι εταιρίες που δραστηριοποιούνται στον χώρο θα μπορούν αποτελεσματικά και όσο το δυνατόν πιο αυτοματοποιημένα να:

Μοντάρουν το οπτικοακουστικό υλικό που διαθέτουν, δημιουργώντας εύκολα την περίληψη του, κερδίζοντας έτσι πολύ σε χρόνο.
Κάνουν αναζητήσεις είτε με κείμενο μέσα από τις ψηφιακές βιβλιοθήκες είτε μέσα από την εφαρμογή.
Οργανώνουν λειτουργικά και αυτοματοποιημένα το υλικό τους και μέσα από μια ενιαία εφαρμογή.

ΤΕΛΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΤΟΥ ΕΡΓΟΥ

ΕΡΕΥΝΗΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ

Στα πλαίσια του έργου "VIDEOSUM", αποκτήθηκε τεχνογνωσία μέσω της ανάπτυξης και βελτίωσης αλγορίθμων πάνω στα ακόλουθα ερευνητικά ζητήματα:

Ανίχνευση ορίων μεταξύ πλάνων.
Απομάκρυνση ανεπιθύμητων εικονοπλαισίων.
Περίληψη πλάνων μέσω της εξαγωγής χαρακτηριστικών εικονοπλαισίων.
Ανίχνευση και κατηγοριοποίηση κινήσεων της κάμερας.
Ανίχνευση ακολουθιών όμοιων πλάνων
Κατάτμηση ταινιών/ντοκιμαντέρ και ελεύθερου ρεπορτάζ σε σκηνές και κεφάλαια.
Κατάτμηση δελτίου ειδήσεων σε ειδήσεις.

Μέσα από την έρευνα, προέκυψαν επιστημονικές δημοσιεύσεις οι οποίες περιγράφουν τις μεθοδολογίες που αναπτύχθηκαν και τα ερευνητικά αποτελέσματα που προέκυψαν σε ορισμένα από τα παραπάνω ερευνητικά ζητήματα. Οι ερευνητικές δημοσιεύσεις είναι οι ακόλουθες:

C1. A. Kalogeratos and A. Likas, "Dip-means: an incremental clustering method for estimating the number of clusters", Proc. Neural Information Processing Systems (NIPS'12), Lake Tahoe, Nevada, USA, 2012.

C2. K. Blekas and A. Likas, "The mixture of multi-kernel relevance vector machines model", Proc IEEE Int. Conf. Data Mining (ICDM'12), Brussels, 2012.

C3. G. Tzortzis and A. Likas, "Kernel-based Weighted Multi-view Clustering", Proc IEEE Int. Conf. Data Mining (ICDM'12), Brussels, 2012.

C4. A. Ioannidis, V. Chasanis and A. Likas, "Key-frame Extraction using Weighted Multi-View Convex Mixture Models and Spectral Clustering", 22nd International Conference on Pattern Recognition (ICPR14), Stockholm, Sweden. Best Scientific Paper Award, Track 3 "Image, Speech, Signal and Video Processing", Stockholm, 2014.

C5. V. Chasanis, A. Ioannidis, and A. Likas, "Efficient Key-frame Extraction Based on Unimodality of Frame Sequences", 12th IEEE International Conference on Signal Processing (ICSP 2014), Hangzhou, 2014.

C6. A. Pappa, V. Chasanis, and A. Ioannidis, "Rushes Video Segmentation Using Semantic Features", 8th Hellenic Conference on Artificial Intelligence (SETN 2014), Ioannina, 2014

C7. A. Ioannidis, V. Chasanis and A. Likas, "An Agglomerative Approach for Shot Summarization Based on Content Homogeneity", 7th International Conference on Machine Vision (ICMV 2014), Milan, 2014.

C8. Chasanis V, Voglis C., Ioannidis A., Lanaridis A., Vathi E., Siolas G., Likas A. and Stafylopatis A., "VideoSum: A Video Storing, Processing and Summarization Platform", 12th Asian Conference on Computer Vision (ACCV 2014). (Demo), Singapore, 2014.

C9. Chasanis V, Voglis C., Ioannidis A., Lanaridis A., Vathi E., Siolas G., Likas A. and Stafylopatis A., "VideoSum: A Video Storing, Processing and Summarization Platform", 11th European Conference on Visual Media Production (CVMP 2014). (Demo & Short Paper), London, 2014.

ΕΦΑΡΜΟΓΗ ΑΥΤΟΜΑΤΗΣ ΠΕΡΙΛΗΨΗΣ ΒΙΝΤΕΟ

Οι μεθοδολογίες που αναπτύχθηκαν με βάση τις απαιτήσεις των χρηστών υλοποιήθηκαν με τη μορφή εφαρμογής. Η εφαρμογή που προέκυψε δίνει τη δυνατότητα σε εταιρίες που δραστηριοποιούνται στο χώρο να μπορούν αποτελεσματικά και όσο το δυνατόν πιο αυτοματοποιημένα να:

Μοντάρουν το οπτικοακουστικό υλικό που διαθέτουν, δημιουργώντας εύκολα την περίληψη του, κερδίζοντας έτσι πολύ σε χρόνο.
Κάνουν αναζητήσεις με κείμενο μέσα από τις ψηφιακές βιβλιοθήκες αλλά και την ίδια την εφαρμογή.
Οργανώνουν λειτουργικά και αυτοματοποιημένα το υλικό τους και μέσα από μια ενιαία εφαρμογή.

Η εφαρμογή VIDEOSUM παρέχει τις ακόλουθες δυνατότητες:

Επεξεργασία οπτικοακουστικών δεδομένων και δημιουργία περιλήψεων που μειώνουν τον όγκο των δεδομένων, άρα και το χρόνο επεξεργασίας τους.
Αυτόματη και αποτελεσματική δεικτοδότηση οπτικοακουστικών δεδομένων.
Αναζήτηση κειμένου σε ψηφιακές βιβλιοθήκες.

Η εφαρμογή μπορεί να διαχειρίζεται διάφορους τύπους βίντεο, αμοντάριστο ή μονταρισμένο. Τα κύρια χαρακτηριστικά του συστήματος VIDEOSUM είναι:

Κατάτμηση Βίντεο: Η κατάτμηση μπορεί να εφαρμοστεί σε τρία επίπεδα. Κάθε βίντεο μπορεί να κατατμηθεί σε πλάνα, σκηνές και κεφάλαια (θεματικές ενότητες).
Περίληψη βίντεο: Αποτελεσματικοί αλγόριθμοι περίληψης παρέχουν διαφορετικές περιλήψεις του περιεχομένου του βίντεο σε διάφορα επίπεδα.
Αναπαράσταση βίντεο: Στο χρήστη διατίθενται διάφορες αναπαραστάσεις της περίληψης του βίντεο.
Αποθήκευση βίντεο: Στο χρήστη διατίθενται διάφοροι τύποι αποθήκευσης περιλήψεων, όπως βίντεο, εικόνες, xml και html αρχεία.

Το σύστημα είναι αυτόματο, εκτελώντας διάφορες λειτουργίες ανάλογο με τον τύπο του βίντεο που επεξεργάζεται. Οι παράμετροι του συστήματος μπορούν ωστόσο να τροποποιηθούν από το χρήστη ώστε να ταιριάζουν στις προτιμήσεις του. Οι βασικές λειτουργίες της εφαρμογής κατηγοριοποιούνται σε:

Ανίχνευση ορίων μεταξύ πλάνων.
Απομάκρυνση ανεπιθύμητων εικονοπλαισίων/πλάνων.
Περίληψη πλάνων μέσω της εξαγωγής χαρακτηριστικών εικονοπλαισίων.
Ανίχνευση και κατηγοριοποίηση κινήσεων της κάμερας.
Ανίχνευση ακολουθιών όμοιων πλάνων.
Κατάτμηση ταινιών/ντοκιμαντέρ και ελεύθερου ρεπορτάζ σε σκηνές και κεφάλαια.
Κατάτμηση δελτίου ειδήσεων σε θεματικές ενότητες (ειδήσεις).

ΨΗΦΙΑΚΗ ΒΙΒΛΙΟΘΗΚΗ

Παράλληλα με την υλοποίηση της εφαρμογής, υλοποιήθηκε και ψηφιακή βιβλιοθήκη που λειτουργεί συνδυαστικά με την εφαρμογή, για την οργάνωση του οπτικοακουστικού υλικού των φορέων και των παραγόμενων από την εφαρμογή περιλήψεων. Στη ψηφιακή βιβλιοθήκη έχει δοθεί η δυνατότητα αμφίδρομης αλληλεπίδρασης με την εφαρμογή εξαγωγής περίληψης VIDEOSUM. Από τη μία, είναι εφικτό μέσω του μενού της ψηφιακής βιβλιοθήκης, εφόσον επιλεχθεί ένα αρχείο βίντεο, η αυτόματη εκκίνηση της εφαρμογής περίληψης φορτώνοντας το συγκεκριμένο αρχείο. Συνολικά, αυτό επιτρέπει τη μείωση σε μεγάλο βαθμό του απαιτούμενου χρόνου για την εξαγωγή περίληψης και την αρχειοθέτηση του υλικού. Από την άλλη, στη ψηφιακή βιβλιοθήκη έχουν προσδιοριστεί πεδία που αποθηκεύουν τα αποτελέσματα και την έξοδο της εφαρμογής περίληψης. Συγκεκριμένα πρόκειται για το βίντεο περίληψη του αρχικού βίντεο (δηλαδή τη βασική έξοδο της εφαρμογής) αλλά και επιπλέον αρχεία που βοηθούν στην καλύτερη περιγραφή του υλικού: εικόνα τύπου Montage, χαρακτηριστικά εικονοπλαίσια και το αρχείο XML της περίληψης.

Η ψηφιακή βιβλιοθήκη κάνει αυτόματη δεικτοδότηση του υλικού και δίνει τη δυνατότητα φυλλομέτρησης των εγγραφών αλλά και τη δυνατότητα αναζήτησης, απλής, με λέξεις-κλειδιά ή σύνθετης, σε κάθε πεδίο ξεχωριστά. Η αναπαράσταση του αποθηκευμένου υλικού κρίνεται πλήρης καθώς στο χρήστη εμφανίζονται ταυτόχρονα το πρωτογενές βίντεο, το βίντεο περίληψης, τα πεδία με όλες τις πληροφορίες κειμένου και επιπλέον η εικόνα Montage, χαρακτηριστικά εικονοπλαίσια και το αρχείο XML. Σημειώνουμε επίσης ότι για βίντεο που έχουν αποθηκευθεί και διαθέτουν περίληψη, εάν κλιθεί η εφαρμογή περίληψης τότε ανοίγουν απευθείας και το βίντεο και το αρχείο XML με την περιγραφή της περίληψης. Επιπρόσθετα, δίνεται η δυνατότητα τοπικής μεταφόρτωσης κάθε αρχείου (βίντεο, περίληψης, εικόνων, XML) και η δυνατότητα εισαγωγής/εξαγωγής των εγγραφών σε μορφή XML για μαζική διαχείριση εγγραφών και επικοινωνία με άλλες εφαρμογές.