Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning.

Lignende præsentationer


Præsentationer af emnet: "Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning."— Præsentationens transcript:

1 Steven D. Whitehead Long-Ji Lin

2 Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning vs. Non-MDP’s Løsninger til problemer Consistent Representation Stored State Videre udvikling

3 Markov Antagelsen: Viden om nuværende tilstand er tilstrækkelig til at bestemme udfaldet af en given handling Markov Decision Process: Uformelt: En læringsopgave hvor agenten til enhver tid kan direkte observere miljøets tilstand Formelt: En tuple S: Sæt af mulige tilstande A: Sæt af mulige actions T: Transitions funktionen (T: S x A -> S) R: Belønnings funktionen (R: S x A -> Tal) Eksempler Æble Sortering Pakke Robot

4 Environment Agent Skridt: 1. Agenten observerer miljøets nuværende tilstand 2. Baseret på den tilstand, vælger agenten en action der skal udføres 3. Baseret på tilstanden og den valgte action, går miljøet i en ny tilstand, og tildeler agenten en belønning 4. Agenten modtager belønningen Q-Learning

5 Hidden state tasks: Agenten mangler et relevant stykke information i sin repræsentation af miljøet Markov antagelsen holder ikke Perceptual Aliasing Eksempler Æble Sortering (fortsat) Pakke Robot (fortsat)

6 Usikkerheder i den interne repræsentation af miljøet Perceptual Aliasing

7 Consistent Representation Stored State

8 Lion CS-QL Algorithm G-Algorithm

9 Window-Q Recurrent-Q Recurrent-model

10 Skalerbarhed: Learning Bias Hurtig/Effektiv credit assignment Generalisering Hierarkisk Indlæring


Download ppt "Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning."

Lignende præsentationer


Annoncer fra Google