Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning.

Slides:



Advertisements
Lignende præsentationer
Social kapital – rig på relationer
Advertisements

Mercantec NU forstår jeg det! Gennem bedre faglig læring til større faglig forståelse Mercantec.
Arkitektur - data.
Fra bygning til BIM-model
Hvad er lean Konstant fokus på spild i alle processer. Nedbringe lagre, gennemløbstider og mindske omkostninger. Sikre en høj kvalitet af produkter og.
Jørn Nielsen klinisk psykolog ph.d.
Et uformelt læringsmiljø
Krav og usecases Larman kap. 5 og 6 (del1) Larman kap del1
Om feedback og tilbagemeldinger
Kultur i organisationer
KM2: F221 Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007.
James G. March & Johan P. Olsen: Organizational Learning and the Ambiguity of the Past                    James G. March Johan P. Olsen.
Design af brugerflader8.1 Kursusgang 8 Oversigt: Sidste kursusgang Design ­ Design og beskrivelse ­ En simpel notation Eksempel på design af dialogen ­
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Representations for Path Finding in Planar Environments.
Samfundslære: Styreformer
Statistik Lektion 5 Log-lineære modeller.
Beskrivelses- og analyse-teknikker understøttet af Oracle Designer Del 2 af 2: Proces- og funktionsdiagrammering Aalborg Universitet, d. 9. oktober 2006.
Procesværktøjer.
Problemformulering Indeholder:
FEN Diskret matematik/Seminar 3 - proofs 1 Beviser Et bevis er en argumentation, som overbeviser om, at en påstand er sand, påstanden kaldes.
Den Kreative arbejdsform
SMTTE-modellen Baggrundstekster til evaluering
Karen Marie Dalgaard & Jeanette Bech Kræftstyregruppen DASYS temamøde 13. november 2008 Historisk rids Kommissorium for Den Nationale Kræftstyregruppe.
VVM redegørelsen - hvordan arbejder vi for en højere kvalitet? GRUPPEOPGAVE 1: HVAD ER KVALITETEN AF REDEGØRELSEN? Miljøvurderingsdag
Statistik II 5. Lektion Log-lineære modeller.
Workshop Motivation og fokus på målet
HVAD SIGER BIBLEN OM KVINDER SOM HANNE?. Hvem kan finde sig en dygtig hustru? For hun er langt mere værd end juveler.
Powerpoint Jeopardy Data flow diagrammer Entity relationship diagrammer State diagrammerSammenhænge mellem systemmodeller
Context- og flow-diagrammer (databaser, del 3)
Netværk – Bruger du dit ? Inspirationsaften om netværk og din arbejdsdag? Onsdag den 9. november 2011 Olsensenergy - Hanne Olsen.
Løsning – mergeSort (Effektivitet af sortering) Definition af t(n): t(n)= 2t(n) + n.
Stig Irming-Pedersen ASP.NET MVC Partner Copenhagen Software.
7 Købsadfærd på konsumentmarkedet
Den relationelle model
Statistik for geografer Lektion 4. Tidsrække Analyse Proces som varierer over tid Observationer til bestemte tidspunkter Eksempler Proces som varierer.
Statistik for geografer
Problem- baseret undervisning PBL
1 Design, analyse og verifikation. 2 Algoritmebegrebet Design Bevisteknikker Design ved hjælp at matematisk induktion Analyse O-notation Logaritmer Binær.
Statistik for geografer
Interaktionsformer En begrebsmæssig model kan understøttes med forskellige interaktionsformer Interaktionsformen fastlægger centrale egenskaber: Hvordan.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 1. oktober 2004.
8.6 Transaktioner1 Transaktioner 8.6 Transactions in SQL.
1 Kursusafslutning. 2 Plan Opgaveseminar Kursusevaluering.
DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design af interaktionselementer.
Simulation Simulation og computerspil Bo Kampmann Walther.
DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design interaktionselementer Analysedokumentet.
W4a1 PC baseret analyse og simulering. w4a2 Stokastiske processer.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Quiz 3.1. Quiz 1 – Assignment dIntProg, E14 Hvad er værdierne af x og y efter udførelse af følgende program? 1.x er 6, y er 3 2.x er 8, y er 5 3.x er.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
 Jens Bennedsen 2002Objektorienteret systemudvikling Persistens.
Algoritmer og Datastrukturer 1 Gerth Stølting Brodal Aarhus Universitet.
01.1 Mathiassen, Munk-Madsen, Nielsen & Stage, 2001 © Objektorienteret Analyse & Design (OOA&D) Grundbegreber, principper og metode Kapitel 1.
Sværhedsgraden af aftastningen
NU forstår jeg det! Gennem bedre faglig læring til større faglig forståelse Mercantec.
AS uge 17/2017 Parlamentarisme og vælgeradfærd v/ Peter Nedergaard
Grundliggende principper
Figurfarver
Implementering og dokumentation
Pædagogik og pædagogisk innovation (1)
Areal bestemt ved integration
Collectia Artificial intelligence
Sæt dit aftryk – udvikling af ideer
Intern tidsmæssig omkostning
ROBOTTERNE KOMMER - OZOBOTTERNE.
Autoriteter.
Jobfunktionsroller 8. Marts 2016.
Algoritmer og Datastrukturer 1
Præsentationens transcript:

Steven D. Whitehead Long-Ji Lin

Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning vs. Non-MDP’s Løsninger til problemer Consistent Representation Stored State Videre udvikling

Markov Antagelsen: Viden om nuværende tilstand er tilstrækkelig til at bestemme udfaldet af en given handling Markov Decision Process: Uformelt: En læringsopgave hvor agenten til enhver tid kan direkte observere miljøets tilstand Formelt: En tuple S: Sæt af mulige tilstande A: Sæt af mulige actions T: Transitions funktionen (T: S x A -> S) R: Belønnings funktionen (R: S x A -> Tal) Eksempler Æble Sortering Pakke Robot

Environment Agent Skridt: 1. Agenten observerer miljøets nuværende tilstand 2. Baseret på den tilstand, vælger agenten en action der skal udføres 3. Baseret på tilstanden og den valgte action, går miljøet i en ny tilstand, og tildeler agenten en belønning 4. Agenten modtager belønningen Q-Learning

Hidden state tasks: Agenten mangler et relevant stykke information i sin repræsentation af miljøet Markov antagelsen holder ikke Perceptual Aliasing Eksempler Æble Sortering (fortsat) Pakke Robot (fortsat)

Usikkerheder i den interne repræsentation af miljøet Perceptual Aliasing

Consistent Representation Stored State

Lion CS-QL Algorithm G-Algorithm

Window-Q Recurrent-Q Recurrent-model

Skalerbarhed: Learning Bias Hurtig/Effektiv credit assignment Generalisering Hierarkisk Indlæring