Download præsentationen
Præsentation er lastning. Vent venligst
Offentliggjort afDagmar Holmberg Redigeret for ca. et år siden
1
Steven D. Whitehead Long-Ji Lin
2
Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning vs. Non-MDP’s Løsninger til problemer Consistent Representation Stored State Videre udvikling
3
Markov Antagelsen: Viden om nuværende tilstand er tilstrækkelig til at bestemme udfaldet af en given handling Markov Decision Process: Uformelt: En læringsopgave hvor agenten til enhver tid kan direkte observere miljøets tilstand Formelt: En tuple S: Sæt af mulige tilstande A: Sæt af mulige actions T: Transitions funktionen (T: S x A -> S) R: Belønnings funktionen (R: S x A -> Tal) Eksempler Æble Sortering Pakke Robot
4
Environment Agent Skridt: 1. Agenten observerer miljøets nuværende tilstand 2. Baseret på den tilstand, vælger agenten en action der skal udføres 3. Baseret på tilstanden og den valgte action, går miljøet i en ny tilstand, og tildeler agenten en belønning 4. Agenten modtager belønningen Q-Learning
5
Hidden state tasks: Agenten mangler et relevant stykke information i sin repræsentation af miljøet Markov antagelsen holder ikke Perceptual Aliasing Eksempler Æble Sortering (fortsat) Pakke Robot (fortsat)
6
Usikkerheder i den interne repræsentation af miljøet Perceptual Aliasing
7
Consistent Representation Stored State
8
Lion CS-QL Algorithm G-Algorithm
9
Window-Q Recurrent-Q Recurrent-model
10
Skalerbarhed: Learning Bias Hurtig/Effektiv credit assignment Generalisering Hierarkisk Indlæring
Lignende præsentationer
© 2024 SlidePlayer.dk Inc.
All rights reserved.