📖 Hva skjer her?
To slanger spiller Snake mot hverandre, døgnet rundt, og lærer fra null med tabulær Q-læring (klassisk forsterkningslæring, 1989 — ingen nevrale nett). Hver slange har en tabell: «i situasjon S, hvor lurt har det vist seg å svinge venstre / kjøre rett fram / svinge høyre?» Etter hvert eneste tick oppdateres tabellen med det som faktisk skjedde.
Reglene
- 🍏 Eple: +1 poeng, slangen vokser. Alltid 3 epler på brettet.
- 💥 Krasj i motstanderens kropp: krasjeren mister 1 poeng og gjenfødes.
- 💀 Hode mot hode: begge mister 1 poeng.
- 🧱 Vegg eller egen kropp: −1 poeng og gjenfødelse.
- ⏱ En runde = 600 tick; flest poeng vinner.
Slik leker du deg
- Skru aggresjonen til 2 på én slange og se om den lærer å legge kroppen i veien for den andre.
- Sett forsiktighet til 0: kamikaze-slange. Til 2: feiging som overlever alt.
- Nysgjerrighet og optimisme er to varianter av «bredde først»: ε-utforskning prøver vilt og tilfeldig, optimisme antar at ukjente valg er gode til de skuffer.
- Endringene virker umiddelbart — slangene fortsetter å lære med de nye hodene sine. Følg med på Læreren og seiersandelen for å se hvem «skruingen» din hjelper.
Tilstanden slangen «ser» er med vilje grovkornet (fare venstre/fram/høyre, retning til nærmeste eple, motstanderens hode, egen lengde) — det er derfor en tabell holder, og derfor læringen er synlig på minutter. All lærdom lagres på serveren og overlever omstart.