Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning.

Steven D. Whitehead Long-Ji Lin

Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning vs. Non-MDP’s Løsninger til problemer Consistent Representation Stored State Videre udvikling

Markov Antagelsen: Viden om nuværende tilstand er tilstrækkelig til at bestemme udfaldet af en given handling Markov Decision Process: Uformelt: En læringsopgave hvor agenten til enhver tid kan direkte observere miljøets tilstand Formelt: En tuple S: Sæt af mulige tilstande A: Sæt af mulige actions T: Transitions funktionen (T: S x A -> S) R: Belønnings funktionen (R: S x A -> Tal) Eksempler Æble Sortering Pakke Robot

Environment Agent Skridt: 1. Agenten observerer miljøets nuværende tilstand 2. Baseret på den tilstand, vælger agenten en action der skal udføres 3. Baseret på tilstanden og den valgte action, går miljøet i en ny tilstand, og tildeler agenten en belønning 4. Agenten modtager belønningen Q-Learning

Hidden state tasks: Agenten mangler et relevant stykke information i sin repræsentation af miljøet Markov antagelsen holder ikke Perceptual Aliasing Eksempler Æble Sortering (fortsat) Pakke Robot (fortsat)

Usikkerheder i den interne repræsentation af miljøet Perceptual Aliasing

Consistent Representation Stored State

Lion CS-QL Algorithm G-Algorithm

Window-Q Recurrent-Q Recurrent-model

Skalerbarhed: Learning Bias Hurtig/Effektiv credit assignment Generalisering Hierarkisk Indlæring

Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning.

Lignende præsentationer

Præsentationer af emnet: "Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning.

Lignende præsentationer

Præsentationer af emnet: "Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback