KNAW

Onderzoek

Attention-Gated Reinforcement Learning

Pagina-navigatie:


Wijzig Onderzoekgegevens


Titel Attention-Gated Reinforcement Learning
Looptijd 03 / 2008 - 03 / 2011
Status Lopend
Onderzoeknummer OND1336426
Leverancier gegevens NWO

Samenvatting

Leren en geheugen zijn mogelijk doordat de sterktes van de verbindingen tussen neuronen veranderlijk zijn. Het is echter niet bekend hoe de sterktes precies veranderd moeten worden om iets te kunnen leren of onthouden. De bestaande theorieen daarover zijn òf niet biologisch plausibel òf niet efficient. Reinforcement Learning biedt vanuit biologisch oogpunt gezien de meest plausibele vorm van leren, omdat geleerd wordt op basis van beloning en straf, net als bij de meeste leerprocessen bij mensen en dieren. Er zijn echter veel leertaken die niet efficient door Reinforcement Learning opgelost kunnen worden. In dit onderzoeksprogramma gaan we een nieuw, krachtig model voor leren ontwikkelen door rekening te houden met een aantal cruciale neurobiologische bevindingen: (1) de wijze waarop een beloning de verbindingen tussen neuronen beinvloedt, en (2) de essentiele rol van aandacht en terugkoppel verbindingen in het leerproces. We gaan onderzoeken hoe onze nieuwe theorie, die we aandacht-gedreven Reinforcement Learning noemen (AGREL), toegepast kan worden op een groot aantal complexe leertaken. We zullen nieuwe algoritmen voor deze leertaken ontwikkelen, en het is waarschijnlijk dat AGREL daarbij een model voor leren wordt dat zowel krachtig als biologisch plausibel is. De resultaten van ons onderzoek zullen in eerste instantie van belang zijn voor het beter begrijpen van leren in de hersenen, maar kunnen daarnaast ook waardevolle inzichten opleveren voor artificiele intelligentie en robotica.

Samenvatting (EN)

Learning in the brain is possible because the connection strengths between neurons are modifiable. For learning stimulus-response mappings, there is at present no theory that provides a strategy for modifying connections strengths that is both powerful and biologically plausible. Supervised learning is powerful but biologically implausible. Reinforcement learning is biologically plausible, since learning is only guided by rewards and punishments, but it is comparatively inefficient. It lacks a mechanism that can identify units at early processing levels that play a decisive role in the network?s input-output mappings. For categorization tasks, our previous work demonstrated that this so-called credit-assignment problem can be solved by a new role of feedback connections. In our learning scheme, two factors determine plasticity of connections: (1) a reinforcement signal that is homogeneous across the network and depends on the amount of reward obtained after a learning trial, and (2) a feedback signal from the output layer that limits plasticity to those units at earlier processing levels that are crucial for the input-output mapping. The influence of this feedback signal corresponds to the effects of selective attention in the brain. We therefore call our new scheme attention-gated reinforcement learning (AGREL). The present proposal investigates whether AGREL can serve as a general learning algorithm in complex input-output mappings, regression tasks, and delayed and sequential decision tasks. It is likely that we will develop new algorithms that accomplish these tasks, and that AGREL will become a learning algorithm that is as powerful as supervised learning and yet biologically plausible.

Betrokken organisaties

Betrokken personen

Onderzoeker Dr. L.A. Watling
Projectleider Dr. A. van Ooijen

Omhoog
Ga terug naar de inhoud
Ga terug naar de site navigatie