Hollandi skeemiteoreem, mida nimetatakse sageli ka geneetiliste algoritmide fundamentaalseks teoreemiks, on ebavõrdsus, mis tuleneb evolutsioonilise dünaamika jämedakujundamisest. Skeemiteoreem ütleb, et lühikesed, madalama astme skeemid (nn ehitusplokid), mille sobivus on üle keskmise, kipuvad järgnevatel põlvkondadel esinema sagedamini – vähemalt lootuspõhiselt ja mõningate eelduste korral. Teoreemi pakkus välja John 1970. aastatel ja algselt nähtigi selles seletust geneetiliste algoritmide võimele leida kompleksseid lahendusi; hiljem on selle tõlgendust ja piire laialdaselt arutatud. See tõlgendus on aga saanud kriitikat ning on näidatud, et skeemiteoreem on Price'i võrrandi erijuhtum, kus makroskoopilise mõõdupuuna kasutatakse skeemi indikaatorfunktsiooni.

Skeem (ingl schema) on mall, mis identifitseerib teatud bittstringide positsioonidel kindlaks määratud väärtustega sarnaste stringide alamhulga. Sageli kasutatav märgistus kasutab kolmeliikmelist tähistust {0,1,*}, kus tähega * tähistatakse tühist (wildcard) positsiooni. Skeemid on silindriliste kogude erijuht ja moodustavad seega topoloogilise ruumi — see on kasulik abstraktsioon, kui analüüsitakse, kuidas erinevad alarühmad pop­ulatsioonis muutuvad.

Formaalne kujutis ja tavapärane valem

Lihtsustatult väljendatakse skeemiteoreemi klassikaline ootusvõrrand järgmiselt (üldtuntud lähend):

E[m(H,t+1)] ≥ m(H,t) * (f(H) / f̄) * (1 - p_c * (d(H) / (l-1))) * (1 - p_m)^{o(H)}.

Siin tähistavad:

  • m(H,t) – skeemi H eksemplaride arv populatsioonis põlvkonnas t;
  • f(H) – nende eksemplaride keskmine sobivus (fitness);
  • – kogu populatsiooni keskmine sobivus;
  • p_c – crossover'i (ristumise) tõenäosus (tavaliselt eeldatakse ükepunktilist ristumist);
  • d(H) – skeemi määrav pikkus (defining length): indeksite vahe esimese ja viimase mitte-* positsiooni vahel);
  • l – kromosoomi pikkus (sõne pikkus);
  • p_m – mutatsiooni tõenäosus ühe bit'i kohta (bitwise mutation);
  • o(H) – skeemi aste (order): fikseeritud positsioonide arv.

Tõlge: kui skeem on lühike (väike d(H)) ja madala astmega (väike o(H)) ning selle keskmine sobivus on üle populatsiooni keskmise, siis eelduslikult kasvab selle esinemissagedus. Valemis on arvesse võetud kaks peamist hävitavat operatsiooni: ristumine (mis võib skeemi lõhkuda, sõltuvalt määravast pikkusest) ja mutatsioon (mis võib muuta fikseeritud positsioone).

Skeemide põhimõisted ja intuitsioon

  • Ehitusploki hüpotees: Holland ja paljud järgijad eeldasid, et geneetiline otsing töötab, liites kokku väikeseid, hea sobivusega ehitusplokke suuremateks lahendusteks. Skeemiteoreem tõlgendati selle hüpoteesi kvantitatiivseks toetuseks.
  • Oskuse ulatus: teoreem annab lõiduse (lower bound) oodatavale muutusele, mitte täpse ennustuse konkreetse jooksu kohta. See on lootuspõhine väide oodatava (expectation) käitumise kohta ja sõltub rangetest eeldustest (proportsionaalne valik, lihtne ristumine ja lihtne mutatsioonimudel).
  • Tõrjutused reaalses maailmas: lõplikud populatsioonid, stohhastilisus, sõltuvused geenide vahel (linkage), epistasis ja muud variandid ristumismeetoditest muudavad teoreemi praktilise jõu piiratumaks.

Piirangud ja kriitika

  • Skeemiteoreem ei taga, et head skeemid reaalselt kokku liidetakse või et need moodustavad globaalse optimi; see ütleb vaid, kuidas praegused head skeemid ootuspäraselt paljunevad. See ei selgita, kuidas sobivad skeemid kombineeruvad.
  • Hollandi algset tõlgendust on kritiseeritud selle üleliigse optimeerimise ja simplifikatsiooni pärast. Näiteks võib ristumine sagedasti hävitada kasulikke kombinatsioone, kui head geenikombinatsioonid asuvad erinevates kromosoomi piirkondades.
  • On näidatud, et skeemiteoreem on Price'i võrrandi erijuht — Price'i võrrand annab üldisema raamistikuga selgituse, kuidas keskmised fenotüübid/populatsioonisagedused muutuvad, ja skeemi indikaatorfunktsioon on üks võimalik makroskoopiline mõõde.
  • Kaasaegne uurimistöö rõhutab tihti linke õppe-meetodite ja tihendatud esitusviiside (nt seoseõppimine, populatsioonipõhised mudelid, estimatsioonipõhised algoritmid ehk EDA-d) tähtsust, mis võtab arvesse geenide omavahelist sõltuvust paremini kui lihtne skeemianalüüs.

Mõju geneetilistele algoritmidele ja praktilised järeldused

  • Praktilised nõuanded, mis tulenevad skeemiteoreemist:
    • hoia ristumise tõenäosus ja esitusviis sellised, et kasulikud lähendused ei häviks kergesti;
    • valikukomponent (selektiivsus) peab olema piisav, et soodsad skeemid paljunevad, ent mitte nii tugev, et hukkub mitmekesisus;
    • mutatsioonimäärad peavad olema madalad, et vähendada paremike skeemide hävitamist, kuid piisavad, et võimaldada kohalikke variatsioone;
    • arvestada tuleks kromosoomi kodeeringu ja geeni positsioneerimisega (linkage), sest head kombinatsioonid on lihtsam säilitada, kui need asuvad lähestikku.
  • Kuigi skeemiteoreem andis olulise teoreetilise aluse ja intuitiivse raamistikku, on tänapäeval sageli vajalik kombineerida seda kaasaegsete meetodite ja analüüsidega (nt Price'i võrrand, informatsiooniteooria ja statistilised mudelid), et paremini mõista ja juhtida geneetilise algoritmi käitumist keerukates ülesannetes.

Lihtne näide

Kujutame ette kromosoomi pikkust l = 10 ja skeemi H, mille aste o(H) = 2 ja määrav pikkus d(H) = 3. Kui m(H,t) = 10, f(H)/f̄ = 1.2, ristumise tõenäosus p_c = 0.6 ja mutatsioonitõenäosus p_m = 0.01, siis ligikaudne korrutegur, mis kirjeldab oodatavat kasvu, on:

(1.2) * (1 - 0.6 * (3/9)) * (1 - 0.01)^{2} ≈ 1.2 * (1 - 0.2) * 0.9801 ≈ 0.94.

See lihtsustatud arvutus näitab, et isegi kui skeemi keskmine sobivus on üle populatsiooni keskmise, võivad ristumine ja mutatsioon vähendada oodatavat kasvu — seega ei pruugi skeemi esinemissagedus tingimata kiiresti kasvada, eriti reaalses stohhastilises keskkonnas.

Kokkuvõtteks: Hollandi skeemiteoreem on oluline teoreetiline tulem, mis selgitab ühe vaatenurga alt, kuidas lühikesed madala astme, üle keskmise sobivusega skeemid kipuvad lootuspõhiselt paljunema. Kuid teoreemi piirangud ja eeldused teevad sellest pigem raamatusse matemaatilise tööriista kui otsese garantiini, et geneetiline algoritm alati "ehitusplokke" kombineerides optimaalse lahenduse leiab. Tänapäevane uurimistöö ühendab skeemianalüüsi laiemate teoreetiliste raamistikuga ning arvestab rohkem linke, epistasist ja populaatsioonipõhist struktuuri.