Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής

Πολυτεχνική Σχολή - Πανεπιστήμιο Ιωαννίνων

Σεμινάριο Τμήματος με τίτλο: «Multi-agent reinforcement learning for autonomous driving in traffic networks with unsignalized intersections», Κωνσταντίνος Μπλέκας

Περιγραφή

Στο πλαίσιο της διοργάνωσης των σεμιναρίων του τμήματος θα πραγματοποιηθεί διαδικτυακά μέσω της εφαρμογής Ms Teams την Πέμπτη 22/04/2021 και ώρα 12:00, ομιλία με τίτλο «Multi-agent reinforcement learning for autonomous driving in traffic networks with unsignalized intersections». Ομιλητής θα είναι ο Αν. Καθηγητής, κ. Κωνσταντίνος Μπλέκας, Τμήμα Μηχανικών Η/Υ & Πληροφορικής, Πανεπιστήμιο Ιωαννίνων. Μπορείτε να παρακολουθήσετε την ομιλία μέσω του παρακάτω συνδέσμου: Link MsTeams

ΠΕΡΙΛΗΨΗ

Ένα σημαντικό προβλήματα της αυτόνομης οδήγησης οχημάτων σε αστικά περιβάλλοντα για τη μείωση της κυκλοφοριακής συμφόρησης και την ασφαλή κίνηση χωρίς συγκρούσεις είναι η διαχείριση διασταυρώσεων που δεν περιέχουν φωτεινούς σηματοδότες. Στην ομιλία αυτή θα παρουσιαστεί μία μέθοδος πολλών πρακτόρων ενισχυτικής μάθησης (multi-agent reinforcement learning) για την επίλυση αυτού του προβλήματος. Η προτεινόμενη μέθοδος εισάγει την έννοια των route-agents θεωρώντας ως πράκτορες όλες τις δυνατές διαδρομές που μπορούν να ακολουθήσουν τα οχήματα στο οδικό δίκτυο. Οι route-agents έχουν σημαντικά πλεονεκτήματα αφενός στην οικονομία του πολυπρακτορικού συστήματος, και αφετέρου στη διαδικασία μάθησης αυξάνοντας την γενικευτική ικανότητα (generalization) των παραγόμενων πολιτικών και επιτρέποντας την επαναχρησιμοποίησή τους (knowledge reusing) σε άγνωστα σενάρια με μεγαλύτερο βαθμό πολυπλοκότητας. Έμφαση δίνεται στην κατασκευή του χώρου καταστάσεων (state space) των πρακτόρων όπου, παράλληλα με τις ατομικές πληροφορίες των οχημάτων χρησιμοποιούνται πληροφορίες πρόβλεψης που αποτυπώνουν την κατάσταση της ροής κυκλοφορίας που αναμένεται να συμβεί πάνω στις διασταυρώσεις. Η χρήση αυτής της πληροφορίας προσφέρει τον συντονισμό (coordination) των οχημάτων που κατευθύνονται τοπικά σε κάθε κόμβο-διασταύρωση του οδικού δικτύου και την συνεργατική συμπεριφορά των πρακτόρων στο περιβάλλον ώστε να εξυπηρετήσουν βέλτιστα όλα τα οχήματα. Για την προσέγγιση της συνάρτηση αξίας (value function) των πρακτόρων χρησιμοποιούνται μορφές (τυπικών ή βαθιών) νευρωνικών δικτύων (neural networks), ενώ για τη μάθηση των πολιτικών τους και την εκτίμηση των βαρών των νευρωνικών δικτύων χρησιμοποιείται ο αλγόριθμος double Q-learning. Επίσης, προτείνεται μία κατάλληλη συνάρτηση ανταμοιβής (reward function) με βάση την οποία πραγματοποιείται η μάθηση. Τέλος, θα παρουσιαστούν πειραματικά αποτελέσματα της μεθοδολογίας σε ποικίλα οδικά δίκτυα (τεχνητά και πραγματικά) και σενάρια που παρήχθησαν χρησιμοποιώντας το γνωστό περιβάλλον προσομοίωσης SUMO (simulation for urban mobility) και παράλληλα θα γίνει σύγκριση με τις μεθόδους που υπάρχουν ενσωματωμένες στο πακέτο αυτό.