Kiek kartų žodyje „braškė“ yra raidė R? Remiantis nuostabiais AI produktais, tokiais kaip GPT-4o ir Claude, atsakymas yra dvigubas.
Dideli kalbų modeliai gali rašyti esė ir išspręsti lygtis per kelias sekundes. Jie gali susintetinti terabaitus duomenų greičiau nei žmonės gali atversti knygą. Tačiau šie, atrodytų, visažinantys AI kartais žlunga taip įspūdingai, kad nelaimė virsta virusiniu memu, ir mes visi džiaugiamės palengvėjimu, kad galbūt dar liko laiko, kol turime nusilenkti savo naujiems dirbtinio intelekto valdovams.
Tai, kad dideli kalbos modeliai nesugeba suprasti raidžių ir skiemenų sąvokų, rodo didesnę tiesą, kurią dažnai pamirštame: šie dalykai neturi smegenų. Jie nemąsto taip, kaip mes. Jie nėra žmonės ir net ne itin žmogiški.
Dauguma LLM yra sukurti ant transformatorių, tam tikros gilaus mokymosi architektūros. Transformatorių modeliai skaido tekstą į žetonus, kurie gali būti pilni žodžiai, skiemenys arba raidės, priklausomai nuo modelio.
„LLM yra pagrįsti šia transformatoriaus architektūra, kuri iš tikrųjų neskaito teksto. Kas atsitinka, kai įvedate raginimą, kad jis paverčiamas kodavimu“, – „TechCrunch“ pasakojo AI tyrinėtojas ir Albertos universiteto docentas Matthew Guzdial. „Kai jis mato žodį „the“, jis turi vieną užkodavimą, ką reiškia „the“, bet jis nežino apie „T“, „H“, „E“.
Taip yra todėl, kad transformatoriai negali efektyviai priimti ar išvesti tikrojo teksto. Vietoj to, tekstas konvertuojamas į skaitines jo paties reprezentacijas, kurios vėliau yra kontekstualizuojamos, kad AI pateiktų logišką atsakymą. Kitaip tariant, dirbtinis intelektas gali žinoti, kad žetonai „šiaudai“ ir „uogos“ sudaro „braškę“, tačiau jis gali nesuprasti, kad „braškė“ sudaryta iš raidžių „s“, „t“, „r“, „a“, „w“, „b“, „e“, „r“, „r“ ir „y“ ta konkrečia tvarka. Taigi jis negali pasakyti, kiek raidžių – jau nekalbant apie „r“ raidžių skaičių – yra žodyje „braškė“.
Tai nėra lengva išspręsti problemą, nes ji yra įterpta į pačią architektūrą, dėl kurios šie LLM veikia.
Kyle'as Wiggersas iš TechCrunch praėjusį mėnesį įsigilino į šią problemą ir kalbėjosi su Sheridan Feucht, Šiaurės rytų universiteto doktorantu, studijuojančiu LLM interpretaciją.
„Kažkaip sunku apeiti klausimą, koks tiksliai turėtų būti „žodis“ kalbos modeliui, ir net jei žmonių ekspertai susitartų dėl tobulo žodyno, modeliams tikriausiai vis tiek būtų naudinga „smulkinti“ dar toliau“, – „TechCrunch“ pasakojo Feuchtas. „Manau, kad dėl tokio neryškumo nėra tokio dalyko kaip tobulas tokenizatorius.
Ši problema tampa dar sudėtingesnė, nes LLM mokosi daugiau kalbų. Pavyzdžiui, kai kurie ženklinimo metodai gali manyti, kad tarpas sakinyje visada bus prieš naują žodį, tačiau daugelyje kalbų, pvz., kinų, japonų, tajų, laosų, korėjiečių, khmerų ir kitose, tarpai žodžiams atskirti nenaudojami. Google DeepMind AI tyrėja Yennie Jun 2023 m. tyrime nustatė, kad kai kurioms kalboms reikia iki dešimties kartų daugiau žetonų nei anglų kalbai, kad būtų galima perduoti tą pačią reikšmę.
„Tikriausiai geriausia leisti modeliams žiūrėti į personažus tiesiogiai, neįvedant žetonų, tačiau šiuo metu tai tiesiog neįmanoma skaičiuojant transformatoriams“, – sakė Feuchtas.
Vaizdo generatoriai, tokie kaip Midjourney ir DALL-E, nenaudoja transformatoriaus architektūros, esančios po teksto generatorių, tokių kaip ChatGPT, gaubtu. Vietoj to vaizdo generatoriai dažniausiai naudoja difuzijos modelius, kurie atkuria vaizdą iš triukšmo. Difuzijos modeliai mokomi didelėse vaizdų duomenų bazėse ir skatinami bandyti atkurti kažką panašaus į tai, ko išmoko iš mokymo duomenų.
Asmelash Teka Hadgu, vienas iš Lesan įkūrėjų ir DAIR instituto bendradarbis, TechCrunch sakė: „Vaizdo generatoriai paprastai veikia daug geriau su artefaktais, tokiais kaip automobiliai ir žmonių veidai, ir mažiau veikia mažesnius dalykus, tokius kaip pirštai ir rašysena.
Taip gali būti dėl to, kad šios smulkesnės detalės treniruočių rinkiniuose dažnai nerodomos taip ryškiai, kaip tokios sąvokos, kaip medžių lapai paprastai būna žali. Tačiau difuzijos modelių problemas gali būti lengviau išspręsti nei tas, kurios kenčia nuo transformatorių. Kai kurie vaizdų generatoriai patobulino rankų atvaizdavimą, pavyzdžiui, išmoko kurti daugiau tikrų žmogaus rankų vaizdų.
„Net tik praėjusiais metais visi šie modeliai buvo labai prasti pirštais, ir tai lygiai tokia pati problema, kaip ir teksto“, – paaiškino Guzdial. „Jiems tai labai gerai sekasi vietoje, taigi, jei pažvelgtumėte į ranką su šešiais ar septyniais pirštais, galėtumėte pasakyti: „Oho, tai atrodo kaip pirštas“. Panašiai galima sakyti, kad sugeneruotas tekstas atrodo kaip „H“, o panašus į „P“, bet jie tikrai nemoka struktūrizuoti visus šiuos dalykus.
Štai kodėl, jei paprašysite dirbtinio intelekto vaizdų generatoriaus sukurti meniu meksikietiškam restoranui, galite gauti įprastų prekių, pvz., „Tacos“, bet labiau tikėtina, kad rasite tokius pasiūlymus kaip „Tamilos“, „Enchidaa“ ir „Burhiltos“. .
Kadangi šie memai apie „braškių“ rašybą sklinda internete, „OpenAI“ kuria naują AI produktą, pavadintą „Strawberry“, kuris, kaip manoma, dar labiau mokės samprotauti. LLM augimą ribojo tai, kad pasaulyje tiesiog nėra pakankamai mokymo duomenų, kad tokie produktai kaip ChatGPT būtų tikslesni. Tačiau „Strawberry“ gali generuoti tikslius sintetinius duomenis, kad „OpenAI“ LLM būtų dar geresni. Anot „The Information“, „Strawberry“ gali išspręsti „New York Times“ žurnalo „Connections“ žodžių galvosūkius, kuriems išspręsti reikalingas kūrybiškas mąstymas ir modelių atpažinimas, ir gali išspręsti matematikos lygtis, kurių dar nematė.
Tuo tarpu „Google DeepMind“ neseniai pristatė „AlphaProof“ ir „AlphaGeometry 2“ – AI sistemas, skirtas formaliam matematiniam samprotavimui. „Google“ teigia, kad šios dvi sistemos išsprendė keturias iš šešių tarptautinės matematikos olimpiados uždavinių, o tai būtų pakankamai geras pasirodymas, norint pelnyti sidabro medalį prestižiniame konkurse.
Šiek tiek trolis, kad memai apie AI nesugebėjimą rašyti „braškių“ sklando tuo pačiu metu, kai yra pranešimai apie OpenAI „Strawberry“. Tačiau OpenAI generalinis direktorius Samas Altmanas pasinaudojo galimybe parodyti mums, kad jo sode yra gana įspūdingas uogų derlius.