Steven D. Whitehead Long-Ji Lin. Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning.

Slides:

Advertisements

Lignende præsentationer

Social kapital – rig på relationer

Advertisements

Mercantec NU forstår jeg det! Gennem bedre faglig læring til større faglig forståelse Mercantec.

Arkitektur - data.

Fra bygning til BIM-model

Hvad er lean Konstant fokus på spild i alle processer. Nedbringe lagre, gennemløbstider og mindske omkostninger. Sikre en høj kvalitet af produkter og.

Jørn Nielsen klinisk psykolog ph.d.

Et uformelt læringsmiljø

Krav og usecases Larman kap. 5 og 6 (del1) Larman kap del1

Om feedback og tilbagemeldinger

Kultur i organisationer

KM2: F221 Kvantitative metoder 2 Specifikation og dataproblemer 2. maj 2007.

James G. March & Johan P. Olsen: Organizational Learning and the Ambiguity of the Past James G. March Johan P. Olsen.

Design af brugerflader8.1 Kursusgang 8 Oversigt: Sidste kursusgang Design Design og beskrivelse En simpel notation Eksempel på design af dialogen

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.

Representations for Path Finding in Planar Environments.

Samfundslære: Styreformer

Statistik Lektion 5 Log-lineære modeller.

Beskrivelses- og analyse-teknikker understøttet af Oracle Designer Del 2 af 2: Proces- og funktionsdiagrammering Aalborg Universitet, d. 9. oktober 2006.

Procesværktøjer.

Problemformulering Indeholder:

FEN Diskret matematik/Seminar 3 - proofs 1 Beviser Et bevis er en argumentation, som overbeviser om, at en påstand er sand, påstanden kaldes.

Den Kreative arbejdsform

SMTTE-modellen Baggrundstekster til evaluering

Karen Marie Dalgaard & Jeanette Bech Kræftstyregruppen DASYS temamøde 13. november 2008 Historisk rids Kommissorium for Den Nationale Kræftstyregruppe.

VVM redegørelsen - hvordan arbejder vi for en højere kvalitet? GRUPPEOPGAVE 1: HVAD ER KVALITETEN AF REDEGØRELSEN? Miljøvurderingsdag

Statistik II 5. Lektion Log-lineære modeller.

Workshop Motivation og fokus på målet

HVAD SIGER BIBLEN OM KVINDER SOM HANNE?. Hvem kan finde sig en dygtig hustru? For hun er langt mere værd end juveler.

Powerpoint Jeopardy Data flow diagrammer Entity relationship diagrammer State diagrammerSammenhænge mellem systemmodeller

Context- og flow-diagrammer (databaser, del 3)

Netværk – Bruger du dit ? Inspirationsaften om netværk og din arbejdsdag? Onsdag den 9. november 2011 Olsensenergy - Hanne Olsen.

Løsning – mergeSort (Effektivitet af sortering) Definition af t(n): t(n)= 2t(n) + n.

Stig Irming-Pedersen ASP.NET MVC Partner Copenhagen Software.

7 Købsadfærd på konsumentmarkedet

Den relationelle model

Statistik for geografer Lektion 4. Tidsrække Analyse Proces som varierer over tid Observationer til bestemte tidspunkter Eksempler Proces som varierer.

Statistik for geografer

Problem- baseret undervisning PBL

1 Design, analyse og verifikation. 2 Algoritmebegrebet Design Bevisteknikker Design ved hjælp at matematisk induktion Analyse O-notation Logaritmer Binær.

Statistik for geografer

Interaktionsformer En begrebsmæssig model kan understøttes med forskellige interaktionsformer Interaktionsformen fastlægger centrale egenskaber: Hvordan.

Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 1. oktober 2004.

8.6 Transaktioner1 Transaktioner 8.6 Transactions in SQL.

1 Kursusafslutning. 2 Plan Opgaveseminar Kursusevaluering.

DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design af interaktionselementer.

Simulation Simulation og computerspil Bo Kampmann Walther.

DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design interaktionselementer Analysedokumentet.

W4a1 PC baseret analyse og simulering. w4a2 Stokastiske processer.

Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.

Quiz 3.1. Quiz 1 – Assignment dIntProg, E14 Hvad er værdierne af x og y efter udførelse af følgende program? 1.x er 6, y er 3 2.x er 8, y er 5 3.x er.

Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.

 Jens Bennedsen 2002Objektorienteret systemudvikling Persistens.

Algoritmer og Datastrukturer 1 Gerth Stølting Brodal Aarhus Universitet.

01.1 Mathiassen, Munk-Madsen, Nielsen & Stage, 2001 © Objektorienteret Analyse & Design (OOA&D) Grundbegreber, principper og metode Kapitel 1.

Sværhedsgraden af aftastningen

NU forstår jeg det! Gennem bedre faglig læring til større faglig forståelse Mercantec.

AS uge 17/2017 Parlamentarisme og vælgeradfærd v/ Peter Nedergaard

Grundliggende principper

Implementering og dokumentation

Pædagogik og pædagogisk innovation (1)

Areal bestemt ved integration

Collectia Artificial intelligence

Sæt dit aftryk – udvikling af ideer

Intern tidsmæssig omkostning

ROBOTTERNE KOMMER - OZOBOTTERNE.

Jobfunktionsroller 8. Marts 2016.

Algoritmer og Datastrukturer 1

Præsentationens transcript:

Steven D. Whitehead Long-Ji Lin

Markov Decision Processes (MDP’s) Reinforcement Learning Non-Markov Decision Processes (Non-MDP’s) Reinforcement Learning vs. Non-MDP’s Løsninger til problemer Consistent Representation Stored State Videre udvikling

Markov Antagelsen: Viden om nuværende tilstand er tilstrækkelig til at bestemme udfaldet af en given handling Markov Decision Process: Uformelt: En læringsopgave hvor agenten til enhver tid kan direkte observere miljøets tilstand Formelt: En tuple S: Sæt af mulige tilstande A: Sæt af mulige actions T: Transitions funktionen (T: S x A -> S) R: Belønnings funktionen (R: S x A -> Tal) Eksempler Æble Sortering Pakke Robot

Environment Agent Skridt: 1. Agenten observerer miljøets nuværende tilstand 2. Baseret på den tilstand, vælger agenten en action der skal udføres 3. Baseret på tilstanden og den valgte action, går miljøet i en ny tilstand, og tildeler agenten en belønning 4. Agenten modtager belønningen Q-Learning

Hidden state tasks: Agenten mangler et relevant stykke information i sin repræsentation af miljøet Markov antagelsen holder ikke Perceptual Aliasing Eksempler Æble Sortering (fortsat) Pakke Robot (fortsat)

Usikkerheder i den interne repræsentation af miljøet Perceptual Aliasing

Consistent Representation Stored State

Lion CS-QL Algorithm G-Algorithm

Window-Q Recurrent-Q Recurrent-model

Skalerbarhed: Learning Bias Hurtig/Effektiv credit assignment Generalisering Hierarkisk Indlæring