Võimendusõpe

Tugevdamise õppimise bioloogiat võib leida aadressil Operantne konditsioneerimine ja premeerimine.

Täiendusõpe (RL) on tarkvaraagendi õpetamine, kuidas keskkonnas käituda, öeldes talle, kuidas ta hästi käitub. See on masinõppe valdkond, mis on inspireeritud käitumispsühholoogiast.

Võimendusõpe erineb juhitavast õppest, sest õiged sisendid ja väljundid ei ole kunagi näidatud. Samuti õpib tugevdav õppimine tavaliselt jooksvalt (veebipõhine õppimine), erinevalt juhitavast õppimisest. See tähendab, et agent peab valima, kas uurida või jääda selle juurde, mida ta kõige paremini teab.

Sissejuhatus

Tugevdamise õppimise süsteem koosneb poliitikast ( π {\displaystyle \pi }{\displaystyle \pi } ), tasu funktsioonist ( R {\displaystyle R}{\displaystyle R} ), väärtusfunktsioonist ( v {\displaystyle v}{\displaystyle v} ) ja valikulisest keskkonna mudelist.

Poliitika ütleb agendile, mida ta peab teatud olukorras tegema. See võib olla lihtne reeglite tabel või keeruline õige tegevuse otsimine. Poliitika võib olla isegi stohhastiline, mis tähendab, et reeglite asemel määrab poliitika igale tegevusele tõenäosuse. Poliitika iseenesest võib panna agenti asju tegema, kuid ta ei saa ise õppida.

Tasustamisfunktsioon määratleb agendi eesmärgi. See võtab vastu oleku (või oleku ja selles olekus sooritatud tegevuse) ja annab tagasi arvu, mida nimetatakse tasu, mis ütleb agendile, kui hea on olla selles olekus. Agendi ülesanne on saada võimalikult suur tasu, mida ta suudab pikemas perspektiivis saada. Kui tegevus annab väikese tasu, võtab agent tulevikus tõenäoliselt parema tegevuse. Bioloogia kasutab tasu signaale, nagu rõõm või valu, et organismid jääksid elus püsima, et paljuneda. Preemiasignaalid võivad olla ka stohhastilised, nagu mänguautomaat kasiinos, kus mõnikord maksavad nad ja mõnikord mitte.

Väärtusfunktsioon ütleb agendile, kui palju tasu ta saab, kui ta järgib poliitikat π {\displaystyle \pi }{\displaystyle \pi } alustades seisundist s {\displaystyle s}{\displaystyle s} . See näitab, kui soovitav on olla teatud olekus. Kuna väärtusfunktsiooni ei anta agendile otse, peab ta seni saadud tasu põhjal leidma hea hinnangu või hinnangu. Väärtusfunktsiooni hindamine on enamiku tugevdava õppimise algoritmide kõige olulisem osa.

Mudel on agendi vaimne koopia keskkonnast. Seda kasutatakse tulevaste tegevuste planeerimiseks.

Seda teades võime rääkida tugevdava õppimise episoodi põhisilmusest. Agent suhtleb keskkonnaga diskreetsetes ajasammudes. Mõelge sellest nagu kella "tiksumisest". Diskreetse aja puhul toimuvad asjad ainult "tiksude" ja "taktide" ajal, mitte aga nende vahel. Igal ajahetkel t = 0 , 1 , 2 , 3 , . . . {\displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}vaatleb agent keskkonna seisundit S t {\displaystyle S_{t}}{\displaystyle S_{t}} ja valib tegevuse A t {\displaystyle A_{t}}{\displaystyle A_{t}} , mis põhineb poliitikal π {\displaystyle \pi } {\displaystyle \pi }. Järgmisel ajasammul saab agent tasu signaali R t + 1 {\displaystyle R_{t+1}}{\displaystyle R_{t+1}} ja uue vaatluse S t + 1 {\displaystyle S_{t+1}} {\displaystyle S_{t+1}}. Väärtusfunktsiooni v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} ajakohastatakse tasu abil. See jätkub, kuni saavutatakse lõppseisund S T {\displaystyle S_{T}} . {\displaystyle S_{T}}

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3