AI-trendit

Generatiivinen tekoäly ohitti 100:n ÄO:n ensimmäistä kertaa (eikä kyseessä ollut ChatGPT)

Uusi generatiivisen tekoälyn kielimalli ohitti ensimmäisen kerran ihmisten keskivertotuloksen älykkyyosamäärätestissä. Lue miten voit testata sen älykkyyttä itse.

Lari Numminen

25 huhti 2024 — 3 min read

Oletko koskaan miettinyt, kuinka älykkäitä eri tekoälyt työkalut oikeasti ovat? Nyt tätäkin on testattu ja testitulokset voivat yllättää.

Välillä ChatGPT:tä käyttäessä tulee mieleen, että eivät ne kovin älykkäitä voi olla. Yksinkertaisiinkin kysymyksiin on välillä vaikeata saada selkeitä vastauksia.

Älykkyyttä voi mitata ÄO-testin avulla

Ihmisten kesken älykyyttä on mitattu jo pitkään älykkyysosamäärätestin, eli ÄO-testin avulla. Vaikka tämä testi ei myöskään ole täydellinen tapa mitata älykkyyttä, ÄO-testit antavat suhteellisen standardit raamit älykkyyden testaamista ihmisten ja koneiden välillä.

Tekoälyn kohdalla viimeaikainen kehitys testituloksissa on ollut huimaa. Maaliskuussa 2024 saavutettiin merkittävä virstanpylväs: Anthropicin Claude-3 tekoäly on ensimmäisenä ylittänyt ihmisen keskimääräisen älykkyysosamäärän, eli 100 pisteen rajan ÄO-testissä.

Miten testi suoritettiin

Tekoälyjen kielimallien ÄO-testin suoritti maaliskuussa 2024 Maxim Lott Norjan Mensan epävirallista testiä hyödyntäen. Kyseessä ei siis ollut virallinen ja akkreditoitu testitulos, koska niitä ei tällä hetkellä käytetä tekoälyn testaamisessa.

Miksi tekoälyn ÄO on kehittynyt nopeasti

Aiemmin tekoälyt suoriutuivat huonosti visuaalisista älykkyystesteistä, kun niiden visuaalinen päättelytaito ei voinut vastata ihmisen aivojen monimutkaista toimintaa. Maxim Lott hyödynsi sokeille ihmisille tarkoitettua tekstimuotoista ÄO-testiä. Kun testit muutettiin sanalliseen muotoon, tekoälyjen suoriutuminen parani merkittävästi.

Tämä viittaa siihen, että ongelma oli enemmän "näössä" kuin "ajattelussa". Tekoälyt siis kykenevät yhä paremmin käsittelemään monimutkaista tietoa ja ratkaisemaan ongelmia, kunhan tieto on esitetty niille sopivassa muodossa.

Claude-3 vs. GPT-4: Kumpi on älykkäämpi?

Maaliskuussa 2024 julkaistu Claude-3 saavutti ÄO-testissä tuloksen 101, ylittäen näin ihmisen keskimääräisen ÄO:n. Tämä on merkittävä harppaus tekoälyn älykkyydessä. Mutta miten Claude-3 pärjää verrattuna tunnettuun GPT-4:ään?

Testien perusteella Claude-3 suoriutui paremmin kuin GPT-4. Tämä viittaa siihen, että Anthropicin tekoäly on tällä hetkellä älykkäin markkinoilla oleva kielimalli. On kuitenkin huomioitava, että GPT:n seuraava versio saattaa kuroa eron kiinni tai jopa ohittaa Claude-3:n. Huhujen mukaan se on tulossa jo kesällä 2024.

Vertailu eri tekoälyjen ÄO-tuloksista

Tekoälyn kielimallien vertailussa on hyvä muistaa, että tulokset riippuvat paljon mistä tuotantoversiosta on kyse. Esim. ChatGPT-4 on huimasti kehittyneempi kuin hieman vanhempi ChatGPT-3,5-malli.

Katsotaan miten eri tekoälyn kielimallit pärjäsivät kokonaisuudessa kevään 2024 vertailussa.

AI	ÄO-tulos	Vastaukset oikein (35 kysymyksestä)	Parempi kuin sattumanvarainen arvaus
Claude-3	101	18.5	99.999999%+
ChatGPT-4	85	13	99.9986%
Claude-2	82	12	99.9911%
Bing Copilot	79	11	99.9314%
Gemini (normal)	77.5	10.5	99.8212%
Gemini Advanced	76	10	99.5894%
Grok	68.5	7.5	87.9402%
Llama-2 (Meta)	67	7	80.3278%
Claude-1	64	6	56.3155%
ChatGPT-3.5	64	6	56.3155%
Grok Fun	64	6	56.3155%
Random Guesser	63.5	5.8333	50%

Tuloksissa laskettiin myös vertaus sattumanvaraiseen arvaukseen. Koska kyseessä oli lyhyt (vain 35 kysymyksen) Norjan Mensan toteuttama ÄO-koe tämä antaa hieman tarkemman kuvan siitä, että kyseessä ei ollut vain hyvä tuuri.

Mitä tämä tarkoittaa luovan alan ammattilaisille?

Tekoälyn nopea kehitys avaa uusia mahdollisuuksia luovan alan ammattilaisille. Yhä älykkäämmät tekoälyt voivat toimia työkaluna ideoinnissa, ongelmanratkaisussa ja rutiininomaisten tehtävien automatisoinnissa. Ne voivat auttaa sinua tuottamaan entistä laadukkaampia ja innovatiivisempia ratkaisuja nopeammin.

Toisaalta on myös tärkeää pohtia tekoälyn vaikutuksia luoviin aloihin. Voivatko tekoälyt tulevaisuudessa korvata ihmisen luovan työn? Todennäköisesti eivät täysin, mutta ne voivat muuttaa työnkuvaa merkittävästi. Sinun onkin hyvä pysyä ajan tasalla tekoälyn kehityksestä ja miettiä, miten voit hyödyntää sitä omassa työssäsi.

Jokainen luovan työn ammattilainen voi jo nyt olettaa, että tulee olemaan joitain tehtäviä, mitä tekoäly voi suorittaa älykkäämiin ja nopeammin. Se ei kuitenkaan tarkoita sitä, että tekoäly voisi viedä kokeneen ammattilaisen työt, tai korvata ihmisen ammattitaitoa ja kokonaisvaltaista päättelytaitoa.

Kohti älyllisesti ylivertaisia tekoälyjä?

Jos Anthropicin osoittamien tekoälyjen kehitys jatkuu nykyistä vauhtia, voimme odottaa lähivuosina tekoälyjä, joiden älykkyys ylittää merkittävästi ihmisten keskimääräisen tason. Tutkijoiden ennusteen mukaan tulevat versiot voivat saavuttaa jopa 120-140 ÄO:n seuraavien 4-10 vuoden aikana.

Kuinka kokeilla Anthropicin Claude-3 Opus -kielimallia

Tällä hetkellä maailman kehittynein tekoälyn kielimalli Anthropic Claude-3 Opus ei ole saatavilla Suomessa, mutta työkalua voi käyttää epäsuorasti eri Chat-sovellusten kautta.

Esimerkiksi Poe-niminen Chat-sovellus, joka löytyy osoitteesta poe.com sallii tämän kielimallin käytön noin €22 euron kuukausihintaan.

Miten Claude-3 ymmärtää ja kirjoittaa suomea?

Voin itse kertoa, että käytin Claude-3:ea tämän artikkelin suunnittelussa ja kirjoittamisessa. Kokonaisuudessa tulokset eivät olleet kaukana ChatGPT:n edistyneemmästä GPT-4-kielimallista, eikä suomenkielinen sisältö ollut merkittävällä tavalla parempi tai huonompi.

On myös hyvä muistaa, että ChatGPT:ssä on useita toimintoja, kuten kuvien generointi Dall-E-toiminnon avulla, joita ei muista sovelluksista löydy.

Summa summarum

Tekoälyn älykkyys kehittyy älytöntä vauhtia, ja Claude-3 on jo älykkäämpi kuin keskiverto ihminen. Tämä avaa uusia mahdollisuuksia kaikille luovan alan ammattilaisille, mutta herättää myös kysymyksiä tekoälyn vaikutuksista ja etiikasta.

Sinun kannattaakin seurata tekoälyn kehitystä tarkasti ja pohtia, kannattaako tekoälyä hyödyntää omassa työssäsi. Samalla on hyvä osallistua keskusteluun tekoälyn vastuullisesta kehityksestä ja sen roolista tulevaisuuden yhteiskunnassa.