Võimendusõpe: määratlus, põhimõtted, algoritmid ja rakendused

Võimendusõpe: määratlus, põhimõtted, peamised algoritmid ja rakendused õpib veebis, uurimise vs ärakasutamise tasakaal, inspireeritud käitumispsühholoogiast

Autor: Leandro Alegsa

26-08-2025 21:47

Tugevdamise õppimise bioloogiat võib leida aadressil Operantne konditsioneerimine ja premeerimine.

Võimendusõpe (RL) on tarkvaraagendi õpetamine, kuidas keskkonnas käituda, öeldes talle, kuidas ta hästi käitub. See on masinõppe valdkond, mis on inspireeritud käitumispsühholoogiast. Võimendusõppes ei õpetata agenti otseselt tegema kindlat käsku, vaid määratletakse eesmärk (preemia) ja agent õpib ise sellise käitumisstrateegia, mis maksimeerib kogutud preemiat.

Võimendusõpe erineb juhitavast õppest, sest õiged sisendid ja väljundid ei ole kunagi näidatud. Samuti õpib tugevdav õppimine tavaliselt jooksvalt (veebipõhine õppimine), erinevalt juhitavast õppimisest. See tähendab, et agent peab valima, kas uurida (explore) uusi tegevusi või kasutada juba teadaolevat häid lahendusi (exploit) — seda nimetatakse uurimise ja kasutamise kompromissiks.

Põhimõtted ja põhikomponendid

Agent — otsustav üksus, kes sooritab tegevusi.
Keskkond — maailm, millega agent suhtleb ja mis tagastab tagasisidet.
Seisund (state) — keskkonna kirjeldus hetkel, mil agent teeb otsuse.
Tegevus (action) — valikud, mida agent saab teha.
Preemia (reward) — kohene tagasiside, mis mõõdab tegevuse soodsust eesmärgi saavutamiseks.
Poliitika (policy) — reegel või funktsioon, mis määrab, millist tegevust mingis seisundis valida.
Väärtusfunktsioon (value) — hinnang selle kohta, kui hea on mingi seisund või seisund-tegevus paar pikas perspektiivis.
Märkov otsustusprotsess (MDP) — formaalne raamistik, mida RL sageli kasutab, kui järgmine seisund ja preemia sõltuvad ainult praegusest seisundist ja valitud tegevusest.

Peamised tüübid ja algoritmid

RL-algoritme saab üldiselt jagada kaheks: mudelipõhised (model-based), kus agent õpib keskkonna dünaamikaid ja planeerib, ning mudelivabad (model-free), kus agent õpib otseselt väärtusi või poliitikat ilma eksplitsiitse mudelita.

Q-learning — populaarne mudelivaba algoritm, mis õpib väärtusfunktsiooni (Q-funktsiooni) ja võimaldab valida tegevuse, mis maksimeerib hinnangulist preemiat.
SARSA — sarnane Q-learningule, kuid õpib väärtusi vastavalt tegelikule järgnevatele tegevustele agenti käitumise all.
Aktiivsed meetodid ja poliitika otsene õppimine — nt poliitika gradientid, kus poliitika optimeeritakse otse.
Sügavad võrgud kombinatsioonis RL-iga — nt DQN (Deep Q-Network), mis kasutavad sügavaid närvivõrke suurte seisundiruumi puhul.
Tänapäevased täiustused — proximal policy optimization (PPO), actor-critic meetodid (A2C, A3C, DDPG, SAC) jpm, mis pakuvad stabiilsemat ja efektiivsemat õppimist keerukates ülesannetes.

Rakendused

Robootika — autonoomsed liikumis- ja manipuleerimisülesanded.
Mängud — nii strateegia- kui ka lauamängud (näiteks male, Go) ning videomängud, kus RL on näidanud inimtasemel sooritust.
Soovitussüsteemid ja reklaam — otsuste tegemine, millist sisu näidata, et maksimeerida kasutaja kaasatust.
Autonoomsed sõidukid — juhtimisstrateegiate õppimine keerukates olukordades.
Finants- ja portfellihaldus — strateegiate õppimine turuolukorra põhjal.
Tööstusprotsesside optimeerimine ja ressursihaldus.

Väljakutsed ja piirangud

Proovivõtute efektiivsus — palju RL-algoritme nõuavad suurt hulka proovikordi ja seetõttu suurt arvutus- ning andmemahtu.
Uurimise ja kasutamise kompromiss — kuidas turvaliselt ja efektiivselt uurida uusi strateegiaid ilma suuri kahjusid tekitamata.
Tasude disainimise raskus — vale või halvasti määratletud preemia võib viia soovimatute käitumiseni.
Ülekantavus — simuleeritud keskkonnas õpitu ei pruugi otse reaalses maailmas toimida (sim2real probleem).
Ohutus ja eetika — RL-lahendused võivad otsida lühimatselist kasu viisil, mis ei sobi reaalse maailma piirangutega.

Kokkuvõte

Võimendusõpe on paindlik ja võimas lähenemine, mis võimaldab agendil õppida järjestikuste otsuste tegemist eesmärgiga maksimeerida pikaajalist kasu. Tänu sügavate närvivõrkude ja edasijõudnud optimeerimismeetodite arengule on RL jõudnud paljudesse praktilistesse rakendustesse, kuid püsivad väljakutsed (näiteks efektiivsus, ohutus ja tasude disain) on aktiivse uurimistöö teema.

Sissejuhatus

Tugevdamise õppimise süsteem koosneb poliitikast ( π {\displaystyle \pi } $\pi$ ), tasu funktsioonist ( R {\displaystyle R} $R$ ), väärtusfunktsioonist ( v {\displaystyle v} $v$ ) ja valikulisest keskkonna mudelist.

Poliitika ütleb agendile, mida ta peab teatud olukorras tegema. See võib olla lihtne reeglite tabel või keeruline õige tegevuse otsimine. Poliitika võib olla isegi stohhastiline, mis tähendab, et reeglite asemel määrab poliitika igale tegevusele tõenäosuse. Poliitika iseenesest võib panna agenti asju tegema, kuid ta ei saa ise õppida.

Tasustamisfunktsioon määratleb agendi eesmärgi. See võtab vastu oleku (või oleku ja selles olekus sooritatud tegevuse) ja annab tagasi arvu, mida nimetatakse tasu, mis ütleb agendile, kui hea on olla selles olekus. Agendi ülesanne on saada võimalikult suur tasu, mida ta suudab pikemas perspektiivis saada. Kui tegevus annab väikese tasu, võtab agent tulevikus tõenäoliselt parema tegevuse. Bioloogia kasutab tasu signaale, nagu rõõm või valu, et organismid jääksid elus püsima, et paljuneda. Preemiasignaalid võivad olla ka stohhastilised, nagu mänguautomaat kasiinos, kus mõnikord maksavad nad ja mõnikord mitte.

Väärtusfunktsioon ütleb agendile, kui palju tasu ta saab, kui ta järgib poliitikat π {\displaystyle \pi } $\pi$ alustades seisundist s {\displaystyle s} $s$ . See näitab, kui soovitav on olla teatud olekus. Kuna väärtusfunktsiooni ei anta agendile otse, peab ta seni saadud tasu põhjal leidma hea hinnangu või hinnangu. Väärtusfunktsiooni hindamine on enamiku tugevdava õppimise algoritmide kõige olulisem osa.

Mudel on agendi vaimne koopia keskkonnast. Seda kasutatakse tulevaste tegevuste planeerimiseks.

Seda teades võime rääkida tugevdava õppimise episoodi põhisilmusest. Agent suhtleb keskkonnaga diskreetsetes ajasammudes. Mõelge sellest nagu kella "tiksumisest". Diskreetse aja puhul toimuvad asjad ainult "tiksude" ja "taktide" ajal, mitte aga nende vahel. Igal ajahetkel t = 0 , 1 , 2 , 3 , . . . {\displaystyle t=0,1,2,3,... } $t=0,1,2,3,...$ vaatleb agent keskkonna seisundit S t {\displaystyle S_{t}} $S_{t}$ ja valib tegevuse A t {\displaystyle A_{t}} $A_{t}$ , mis põhineb poliitikal π {\displaystyle \pi } $\pi$ . Järgmisel ajasammul saab agent tasu signaali R t + 1 {\displaystyle R_{t+1}} $R_{t+1}$ ja uue vaatluse S t + 1 {\displaystyle S_{t+1}} $S_{t+1}$ . Väärtusfunktsiooni v ( S t ) {\displaystyle v(S_{t})} $v(S_{t})$ ajakohastatakse tasu abil. See jätkub, kuni saavutatakse lõppseisund S T {\displaystyle S_{T}} . $S_{T}$