kobler til …
0RUBIN
runde –
tick –
0KOBOLT

🧑‍🏫 Læreren — hva har de lært?

Henter vurdering …

Læreren tenker …

📈 Læringskurvene

RubinKobolt· epler per runde (glattet)
RubinKobolt· krasj per runde (glattet)
Rubins seiersandel, siste 100 (50 % = jevnt)

📖 Hva skjer her?

To slanger spiller Snake mot hverandre, døgnet rundt, og lærer fra null med tabulær Q-læring (klassisk forsterkningslæring, 1989 — ingen nevrale nett). Hver slange har en tabell: «i situasjon S, hvor lurt har det vist seg å svinge venstre / kjøre rett fram / svinge høyre?» Etter hvert eneste tick oppdateres tabellen med det som faktisk skjedde.

Reglene

Slik leker du deg

Tilstanden slangen «ser» er med vilje grovkornet (fare venstre/fram/høyre, retning til nærmeste eple, motstanderens hode, egen lengde) — det er derfor en tabell holder, og derfor læringen er synlig på minutter. All lærdom lagres på serveren og overlever omstart.