🐍 SLANGEKRIGEN

to slanger lærer Snake fra null — du skrur på hodene deres

kobler til …

0RUBIN

runde –
tick –

0KOBOLT

🧑‍🏫 Læreren — hva har de lært?

Henter vurdering …

Læreren tenker …

📈 Læringskurvene

RubinKobolt· epler per runde (glattet)

RubinKobolt· krasj per runde (glattet)

Rubins seiersandel, siste 100 (50 % = jevnt)

📖 Hva skjer her?

To slanger spiller Snake mot hverandre, døgnet rundt, og lærer fra null med tabulær Q-læring (klassisk forsterkningslæring, 1989 — ingen nevrale nett). Hver slange har en tabell: «i situasjon S, hvor lurt har det vist seg å svinge venstre / kjøre rett fram / svinge høyre?» Etter hvert eneste tick oppdateres tabellen med det som faktisk skjedde.

Reglene

🍏 Eple: +1 poeng, slangen vokser. Alltid 3 epler på brettet.
💥 Krasj i motstanderens kropp: krasjeren mister 1 poeng og gjenfødes.
💀 Hode mot hode: begge mister 1 poeng.
🧱 Vegg eller egen kropp: −1 poeng og gjenfødelse.
⏱ En runde = 600 tick; flest poeng vinner.

Slik leker du deg

Skru aggresjonen til 2 på én slange og se om den lærer å legge kroppen i veien for den andre.
Sett forsiktighet til 0: kamikaze-slange. Til 2: feiging som overlever alt.
Nysgjerrighet og optimisme er to varianter av «bredde først»: ε-utforskning prøver vilt og tilfeldig, optimisme antar at ukjente valg er gode til de skuffer.
Endringene virker umiddelbart — slangene fortsetter å lære med de nye hodene sine. Følg med på Læreren og seiersandelen for å se hvem «skruingen» din hjelper.

Tilstanden slangen «ser» er med vilje grovkornet (fare venstre/fram/høyre, retning til nærmeste eple, motstanderens hode, egen lengde) — det er derfor en tabell holder, og derfor læringen er synlig på minutter. All lærdom lagres på serveren og overlever omstart.