Arkistojen todellinen yllätyspommi: esittelyssä Raideliikennelain Ratkaisija

No huhhuh. Kaikkea sitä löytääkin. Olin aidosti unohtanut täysin, että mun on pitänyt tehdä joskus juttu ilmeisesti “Raideliikennelain Ratkaisijasta”, jonka oon aikaleimojen mukaan kyhännyt joskus helmikuun alussa – tää olikin varmaan ihan viimeisiä mitä enää GPT Builderilla tuli tehtyä. Katselin jostain syystä luonnollisesti tiedostotyypin mukaan lajiteltua** .docx kansiotani dokumenttikansiossa ja luulin huomaavani nimeltään tän blogin toisen ja hyvin todennäköisesti myös napsun verran paremman tekoälyn “Rautatie Asiantuntijan” alkuperäisen kirjoituksen ja tuli mieleen, että kuvat täällä blogissa on siitä(kin) kiireessä otettuina niin paskalaatuisia, että mikäli löysin alkuperäisen vedoksen, voisin käydä nopeasti vaihtamassa ne – jos sillä säästäisi edes yhden enää kyseistä juttua lukevan hajotuksen. Mutta Raide kuin raide, laki kuin ratkaisija jne ja en tajunnut kuin vasta avattuani tiedoston, että täältähän löytyy _täysin suurelle yleisölle julkaisemattomasta GPT:stä_ ilmeisesti pitkän ja laadukkaan testauksen aikana otettuja screenshoteja täysi kansiollinen. Eli olkaa hyvä, nöyrässä palveluksessanne, Raideliikennelain Ratkaisija:

Oikein navigoija Raideliikennelain lehtikeleissä. Kuvaankin on käyty ihan kompassin kaltainen hakemassa – ollut ilmeisesti luovuus maksimeissaan kyseisenä päivänä. Harmi, että tekstiä ei ollut irronnut kuitenkaan, muuten tietenkin julkaisisin tekstit myös sellaisenaan. Menin tämän jälkeen toki heti nuuhkimaan löytyisikö tämä taideteos vielä jostain ChatGPT:n uumenista ja kyllähän sieltä kyseinen kapistus vielä löytyi – ehkä kuitenkin parin yllätyksen kera.

Muisti palaa pätkittäin

Lähdin luonnollisesti selvittämään asiaa samalla pelonsekaisella tunteella kuin kaikki teletunnistetietoja tarkemmin tutkineet tietävät. GPT Builder btw näytti muutaman kk jälkeen ainakin jotenkin freesimmältä kuin viimeksi törmättiin. Kiitettävällä nopeudella ja helppoudella paljastui myös tuotteen koko lyhyt, mutta todennäköinen elinkaari alusta loppuunsa.

Ensimmäisenä ajatuksena hieman hävetti, sillä aikaleimoista päätellen oon selkeesti käyttänyt tähän joku 5h tai saleen ainakin 3h, vaikkei olisi täydellä fokuksella tehnyt – ja kun muisti palasi pätkittäin, niin tää oli muistaakseni suhteellisen luokaton tasoltaan ja ei jaksanut hinkata paremmaksi, vaikka aika helposti olisi saanut parannettua jo silloin. Mutta kun mitään tuotetta en oo saanut pihalle muutenkaan varmaan tammikuun RAG:in jälkeen, niin pakkohan se on Kari Peitsamon tai Huge L:n tyyliä noudattaen julkaista eetteriin matskua – kokeilematta tietenkin, sillä sitä ei oikeasti nyt kehdannut tehdä. Oli lisäksi pakko kaivaa kalenteri esiin ja aika sanattomaksihan se vetää, että 3.2.2024 oli ilmeisesti lauantai-ilta. Siis kyllä mä näitä ja muita tekoälyjuttuja muistan sunnuntaina tehneeni ehkä jokaisena ja joskus ehkä perjantai-iltanakin, mutta tää oli kyllä jo oikeasti snadi yllätys. Ei auta kuin kunnioittaa käsittääkseni kuitenkin vapaaehtoista päätöstäni, että Raideliikennelain saattaminen tekoälymuotoon on ollut kyseisenä lauantaina kaikista mahdollisista tarjolla olleista vaihtoehdoista varmasti oikea päätös.

Samalla laitan julkisesti ihmeteltäväksi, jos joku keksisi selityksen sille, kun screenshotien löytämisen jälkeen löysin tosiaan kyseisen GPT:n tänään ChatGPT:n uumenista ja julkaisin eetteriin, niin huomasin, että olin nimennyt sen englanninkieliseksi. Ainakin itselleni tämä jäänee ikuiseksi mysteeriksi. Sen verran oli sentään viisautta, että olin jättänyt tuotoksen kokonaan julkaisematta suurelle yleisölle. Mutta mitähän mä olin kelannut, että ketä voisi kiinnostaa Suomen raideliikennelaki lontooksi, kun eihän se nyt kiinnosta edes suomeksi. Ei auta, jotkut jutut vaan jää mysteereiksi – pakko yrittää vaan jatkaa eteenpäin, kantaen tätäkin lastia harteillaan. Muutin sen nyt kuitenkin suomeksi ennen julkaisua ja en voinut samalla välttyä huomaamatta, että koodissa se oli kuitenkin pakotettu puhumaan Suomea, joo o.

Aikaleimat saattavat samalla myös kertoa, että nää blogit tuli tehtyä ihan oikeasti omalla ajalla – näköjään jopa häpeällisen omalla ajalla. Jopa ChatGPT Plussasta löytyy kyllä kuitit tuntikirjanpidon lisäksi. Jätetään ehkä jälkimmäinen kuitenkin vielä suurelta yleisöltä piiloon, etteivät aikaleimat järkytä kenenkään työn ja vapaa-ajan tasapainoa.

Mutta en tosiaan usko, että ketään kiinnostaa suomeksikaan tätä ilolla kahlata, mutta jos joku on pakotettu esimerkiksi töidensä takia tarkistelemaan asioita laista ja hyvästä samankaltaisesta tuotteesta olisi hyötyä, niin laittakaa viestiä, niin lupaan tehdä paremman – ja varmaan aika paljonkin. Voin vaikka laittaa kaikki raideliikennettä koskevat lait samaan nippuun. Ja koska en koskaan tee klikkiotsikoita, niin tässä se on nyt koko kansalle ilmaiseksi, nykyään kun kaikki käsittääkseni pääsevät GPT Storeen, vaikka olisi pelkästään ilmainen ChatGPT käytössä: https://chatgpt.com/g/g-On73AVmmc-rautatielain-ratkaisija.

Rautatiestatseja

Joku 315k tokenia käsittääkseni Suomen kaikki? rautatielait siis yhteensä. Eli pyöristetään vaikka 400k, sillä jos noita ei jaksa alkaa tarkemmin pilkkomaan, niin joutuu iskemään varmaan joku 20% päällekkäin että tekoälyllä säilyy konteksti hallussa. Gpt-4o on $5/1M tokenia sisään ja $15/1M tokenia ulos, niin ainakin neljässä osassa saisi varmaan eri osista aika hyviä vastauksia 🙂

Näköjään Raideliikennelaki saattaa tsägällä upota gpt-4o:n API:n kautta yhteen context windowiin. Joten luulen, että yhtä laadukkaita vastauksia vähintään saanee sitä kautta, mikäli on valmis investoimaan juridiseen assariin sellaisen ehkä $0,5 max $1 per kyssäri. Voi olla parempi value kyllä kuin mun nykyisessä ilmaisratkaisussa, jonka value saattaa olla negatiivinen. Joutui muuten kiinnittämään huomiota tuohonkin aikaleimaan, pakko olla varmaan PM, koska ei voi myöntää ladanneensa raideliikennelakia tuohon kellonaikaan…

Mutta katsotaan viimein nyt sitten miten meidän lehtikelien taitaja on nyt sitten navigoinut – tulee itselle samalla vastaavana yllätyksenä

Lehtikelien navigoijan tähtihetket

Hieno toi aloitus “vastaus perustuu tietoon” 😀 Varmaan joskus kokeillut itsekin samaa – muistaakseni takuuvarma tapa saada toinen luottamaan sanaan ja ymmärtämään asia. Kai tuossa ihan oikeita asioita mainittiin ja linkit plussaa mutta, vähän jään itse epäilemään, että olisikohan pidemmälläkin dokkarissa (en tosin muista monta lukua) ollut vielä jotain mikä olisi syytä mainita. Mutta ei tietty hajuakaan, kuten yleensä. Se on kyllä jännä, että miten ei kymmenessä vuodessa oppinut yhtä toimialaa kunnolla, mutta ei se silti haitannut ehkä kuitenkaan siinä, että pystyi vähän pushaamaan hommaa joissain jutuissa kohti nykyaikaa.

Tää nyt taisi olla suhteellisen paska tai ainakin keskinkertainen vastaus, sillä varmaan tuolta laista luulisi parempikin kohta löytyvän sovitteluun – oonkohan ohjelmoinut tän kertomaan millon on jäljillä “eli tietää” ja jättämään kertomatta kun mennään aika soveltaen. No jatketaan, vähän tässä tietty tulee jo mieleen, että oli varmaan syynsä unohtaa tää kokeilu – varsinkin kun GPT Storeen ei ollut mitään järkeä panostaa.

Okei onhan tässä oikeitakin asioita mainittu, mutta nyt alkaa ehkä vielä enemmän valkenemaan, että miksi tämä kyseinen GPT ja demo oli haudattu syvälle dokumenttien sekaan…

Oonkohan joutunut itse tarkistamaan tuon käyttösopimuksen jostain.

Kootut selitykset

Vaikka lopussa tulikin linkit ja vastaukset olivat osittain oikeita, niin olihan tää nyt lopulta suhteellisen farssi ja varmaan opetus siitä, että kaikkea ei välttämättä tarvitse heti julkaista mitä piirongin perältä sattuu löytämään. En pystynyt katsomaan koodia tarkemmin, mutta aika heikolta näytti – sinänsä hyvästä ajatuksesta huolimatta tyritty prompt engineeringiin.

Tajusin, että tää taisi olla, että ensimmäistä kertaa harjoittelin keywordien tekoa kunnolla, jotta niiden avulla löytäisi oikean kohdan laista käyttäen niitä indeksinä ja muistaakseni ne teinkin aika huolella tekoälyä / ML:ää apuna käyttäen, mutta sitten tainnut jäädä se miten niitä hyödynnetään toteutuksessa aika täysin kesken. Lisäksi olin antanut jonkun turvallisuusesimerkin minkä näin vilaukselta, joka oli suunnannut selvästi mallia liikaa noihin samoihin turvallisuusvastauksiin

Sinänsä ajatus oli kyllä ihan oikea miltä pohjalta näin lähtee rakentamaan. Tuohon aikaan oli aika paljon haastavampaa myös context window:n koon mukaan.. ei todellakaan voinut kuvitella, että nielaisisi koko dokkarin muutamalla markalla kitusiin, vaan tuo keyword-indeksin kautta tapahtuva haku varsinaiseen lakitekstiin (kuvasta päätellen) on ollut ihan ok ajatus, vaikka en juuri uskaltanut katsoa “koodia” tarkemmin. Huomaan myös vastauksista, että tekoäly itsessään on mennyt älyttömästi eteenpäin noihin vastauksiin verrattuna, ihan ilman mitään mun roolia tässä – eli sinänsä hyvä checkpoint.

Mutta pahoittelut kaikille sääntelijöille, juristeille jne ja jos joku parka eksyy käyttämään tuota lukematta tätä tekstiä. Oisko se vähän parempia tuotteita sitten vaikka ensi kerralla ulos. Ja tosiaan jos jollekin on käyttöä tuolle, niin lupaan kyllä sen verran panostaa, että laitan tuon hyvälle tasolle, missä ei luulisi menevän kauaa, niin voi olla ihan ok ainakin ilmaistyökaluna eikä joudu kärsimään sen käytöstä.

Omia kuulumisia, tekoälymallit ja fine-tuning

Tän show:n jälkeen onkin varmaan kaikista otollisin paikka mainita, että kun mun velvoitteet työnantajaa kohtaan lakkasivat, niin 30min sen jälkeen oli y-tunnus plakkarissa, ja vajaa parin viikon hedelmällisen pallottelun jälkeen PRH:n kanssa nimeksi tuli nyt lopulta Liikenne AI Oy / Trafik AI Ab / Traffic AI Ltd, millä lähdetään liikkeelle. Ois se eka oman fiman nimi voinut varmaan paskempikin olla 😀 Domainiin liikenne.ai saattaa tulla jotain joskus… syssymmällä. Sen verran voi myös spoilata, että aika yleispäteviä juttuja tässä on toki duunannut ja muutkin toimialat kiinnostavat, saattaa ehkä joku suht hyvä toinenkin domain olla ostettuna. Saa olla yhteydessä 😉 Eikä ollut todellakaan ajatus perustaa lafkaa ihan heti, vaikka jonkun shotin ajattelinkin antaa hommalle… mutta tajusin firman perustamista noin 12h aiemmin, että mun pitää varmaan hankkia muutamat GPU:t kuitenkin itsellekin – jonkunhan se on tällekin jengille omat tekoälymallit koulutettava ja varmaan tuo tukee omaakin puuhastelua.

Ylimääräiselle kapalle lienee myös aina kysyntää. Toivon tietty, että open source -toimijoilta tulisi myös varteenotettava malli fine-tunattavaksi ja erityisesti suomen kielelllä, sillä suomen kielestä on ollut kiva lähteä liikkeelle – ja sen jälkeen muut isot kielet ovatkin suht iisejä. Kysyntä GPU:ille taitaa väistämättä kasvaa, kun mallien koulutuskustannukset laskevat, laskentateho nousee ja kohta jengi saa himaan offlineen itselleen finetunatun, ehkä 1v sitten GPT-4 -tasoisen tekoälyn. Niin ja tällä nyt en todellakaan suosita muita laittamaan ostohousuja jalkaan. Ostakaa mieluummin sitten multa mallinne 🙂 Tosin myöskään siitä ei ole minkäänlaista pelkoa, että olisin datacenteriksi alkamassa – mielenkiinto ja painopiste huomattavasti enemmän softapuolella.

Uusi Poro 34b-chat -malli näyttää siltä, että sillä voisi ehkä jaksaa harjoitella (ja olinkin jopa maailman 17. kyseisen mallin lataaja haha, vaikken ihan niin innokas ollut), mutta muuten rehellisesti sanoen lähinnä oon odottanut, jos GPT-4 tulisi jossain vaiheessa viimein myös fine-tunattavien mallien joukkoon. Ja jos olisi enemmän kuin joku 4 hyperparametria millä kikkailla – jopa ilman OpenAI:n edukasta tiimiä. Tietty mieluiten ottaisi kilpailukykyisen open source -mallin, sillä ei se ihan halpaa lystiä tule olemaan GPT-4:lla finetunata oma kunnollinen malli, ehkä moneen kertaan.

Tekoälymarkkinasta

Lisäksi nyt kun muisti tulee viimeinkin tekoälymalleihin täällä Euroopassakin, niin sanoisin, että työikäisestä jengistä noin 1/1 tulee haluamaan fine-tunatun assarin itselleen, joissain ammateissa voi alkaa olla aika pakollistakin. Sillä välin varmaan pitäisin viimeistään huolta siitä, että liiketoiminnalle tärkeistä pisteistä kuten asiakaskohtaamisista kerätään kaikki data talteen (tietty lakeja noudattaen). Ja muistaa katsoa tarkkaan keiltä toimijoilta ottaa “apua” tulemaan esim oman henkilöstön tai asiakkaiden ja LLM:n väliin tuottamaan oleellista tietoa. Usea niin kyllä toimija tekeekin, ei siinä mitään. Mutta sanotaanko, että jos joskus kysyisin teiltä itseäni tuohon väliin, niin olisin ensitapaamisesta lähtien kristallinkirkas, mitä aion tehdä / saavuttaa kyseisen hankkimani datan avulla. Muutenkin tuon pitäisi olla about jokaisen firman tärkein tehtävä ja olla homma omassa hallussa – toki apuja voi ottaa jeesiksi.

Vaikka yrittäjiä alalle syntyy paljon, niin onhan tässä aika älytön tyhjiö markkinoilla kunnon tekoälyratkaisuiden / tuotteiden suhteen ja vähän jokaisella toimialalla. Täysin blue waters siinä mielessä. Tosin kynnys lähteä oikeasti tekemään asioita on aika poikkeuksellisenkin korkea, ei suosi lainkaan start-upeja ja vaatii lähtökohtaisesti kunnon osaavan tiimin ja pätäkkää. Jos on halunnut oikeasti jotain kunnon apua esim OpenAI:n tai Hugging Facen kaltaisilta toimijoilta, niin on pitänyt keskustelun avaukseksi kaivaa se 7-8fig taskusta, mihin kovin moni suomalainen firma on tuskin taipunut vielä. Tekoälyn tehokkuushyödyt ovat kuitenkin useimmissa tapauksissa niin kiistattomia ja investointina riskiin suhteutetuna naurettavan hyviä, että niitä ei voi oikein kukaan enää sivuuttaa. Toisaalta se saa jopa tuon tehokkuusaspektin hieman sivuseikaksi (vaikkei sinänsä pitäisi) ja yhä enemmän rinnalla korostuvat laadulliset seikat. Itse sain jo Fintrafficilla ollessa huomattavasti lisävahvistusta siihen, kuinka paljon liikenteen turvallisuutta ja laatua on mahdollista parantaa – ja tavallaan se vaatii paljon, mutta tavallaan se on ollut ennen tekoälyä hitaampaa ja vaikeampaa. Tämän arvonluonnin nopeuden ja tehokuuden lisäksi tekoälyllä on melkein aina käsi kädessä merkittävä vaikutus palvelun laatuun, ihan jo mikäli hyvin monet ihmiset saavat tarvitsemansa, laadukkaan tiedon saatavilleen nopeammin tai pystytään parhaimmillaan luopua osasta ihmiskontrollista kokonaan ja keskittyä mielekkäämpään arvonluontiin. Ihmisestä ei saisi ainakaan ajautua tulemaan kumileimaisin tietty missään.

Mukavaa kesäistä viikkoa kaikille! Ja loppuun vielä jutun alussa mieleen tullut pieni pushaus koodaamisen kokeilemiseen – joka varmasti kannattaa aina.

Kokeile koodaamista! – koskee kaikkia ATK:n käyttäjiä

**Koska Windowsin mukana ei ole tullut valmiina – varmaan teknisen haastavuutensa vuoksi – oon joutunut ihan itse kyhäämään Pythonilla simppelin “tiedostojärjestelmän” koneelle. Se kun on siistiä vaan dumpata kaikki mahdollinen miettimättä johonkin C:/Lataukset, josta sitten kaikki löytää jotenkin ihan itsekseen oikeisiin mestoihin. Aluksi toki liikkuu dokkarit lajiteltuina ihan tiedostotyypin mukaan (miten tääkin juttu sai alkunsa) ja sitten osa on kopioitu (tai linkitetty) nimen perusteella johonkin projektikansioihin jne. Koodaussetit ovat ainoa poikkeus siinä, että devauskansio pitää olla master. Oonkin jo suositellut tätä aika monelle toki heikolla menestyksellä, jos saisi kokeilemaan mikä on mahdollista – oikeasti about puolessa tunnissa – kunhan asettaa kännykän äänettömälle johonkin hieman käden ulottamattomiin, avaa ChatGPT:n ja laittaa Pythonin latautumaan koneelle. Samalla voi vaikka ladata yhden yleisimmistä ohjelmistoymäristöistä VSCode:n (mitä osaa kyllä suoraan käyttää). Tietty pärjää myös jollain Notepad++:lla tai vaikka Notepadilla tarvittaessa.

Kaikki tarvittava on ilmaista ja kun aikaa menee jo reilusti arvoa tuottavaan ratkaisuun ihan normaalilta ATK-käyttäjältä se 30min, niin oon aika saletti, että ei kovin montaa viikkoa tarvitse venata, että kyseinen investointi kääntyy posiksi ajankäytön suhteen – ikuisesti. Tottakai, kun sitä hinkkaa vielä paremmaksi, niin saa aikaa kulumaan hieman kauemmin, mutta senkin kyllä säästää heittämällä ajansäästössä. Sanotaanko, että jos ChatGPT:n tukemana saa MVP:hen kulumaan reippaasti yli tuon 30min, niin kyllä mielellään tarjoan stoben että kuulen siitä seikkailusta. Adminit tarvii koneeseen, ei välttämättä vielä asennuksiin, mutta kun ajastaa scriptin pyörimään taitaa tarvita. Mutta silti ei siis todellakaan vaadi mun mielestä minkäänlaista ohjelmointitaustaa, jos nyt osaa tietokonetta käyttää “ok”. WIN+R taskschd.msc voi kokeilla ja jos tuon saa auki selviää kyllä koko haasteesta. Ja en halua nyt kuulla mistään Cron Jobeista jne viisastelua, te ette olleet nyt kohdeyleisöä.

Modernin tekoälyn ohjelmointi sopii erityisesti johtajille?

Mutta tosiaan koodauksen kynnys noin yleisestikin madaltuu koko ajan ja vaikka vaikeat jutut ovat aina vaikeita juttuja, niin veikkaan, että erityisesti nyt tyyliin ensi vuonna mahdollisuudet tehostaa omaa arkea kaikella näppärällä paranevat huomattavasti. Lisäksi suosittelen varsinkin kaikkia johtajatyyppejä ja luovempia henkilöitä kokeilemaan vaikka alkuun tuolla GPT Builderilla tekoälyjen ohjelmointia. Oon ollut aistivinani, että tekoälyjen ohjelmointi sopii ehkä paremmin perinteisille johtajatyypeille, sillä ainakin yleensä heillä on taipumus sietää ehkä keskimääräistä paremmin epävarmuutta, mistä voi saada tietenkin myös silloin toivottavasti isomman palkinnon laadussa ja nopeudessa. Moderni tekoäly sopii mielestäni lähtökohtaisesti hyvin nimenomaan johtajille.

Avatar
Timo Nieminen
https://selko.ai

Leave a Reply