Vadinamieji „išsilavinimo“ metodai naudojami siekiant priversti generacinį AI modelį pamiršti konkrečią ir nepageidaujamą informaciją, kurią jis paėmė iš mokymo duomenų, pvz., neskelbtinus asmeninius duomenis ar autorių teisių saugomą medžiagą.
Tačiau dabartiniai mokymosi būdai yra dviašmenis kalavijas: jie gali padaryti tokį modelį kaip OpenAI GPT-4o arba Meta Llama 3.1 405B daug mažiau pajėgus atsakyti į pagrindinius klausimus.
Tai rodo naujas Vašingtono universiteto (UW), Prinstono, Čikagos universiteto, USC ir „Google“ mokslininkų atliktas tyrimas, kuriame nustatyta, kad populiariausios šiandieninės mokymosi technikos pablogina modelius – dažnai iki tokio lygio, kad jie netinkami naudoti.
„Mūsų vertinimas rodo, kad šiuo metu įmanomi atsigavimo metodai dar nėra paruošti prasmingam naudojimui ar pritaikymui realaus pasaulio scenarijuose“, – teigia Weijia Shi, tyrimo tyrėjas ir mokslų daktaras. „TechCrunch“ pasakojo UW kompiuterių mokslų kandidatas. „Šiuo metu nėra veiksmingų metodų, kurie leistų modeliui pamiršti konkrečius duomenis neprarandant didelio naudingumo.
Kaip modeliai mokosi
Generatyvieji AI modeliai neturi tikro intelekto. Tai statistinės sistemos, numatančios žodžius, vaizdus, kalbą, muziką, vaizdo įrašus ir kitus duomenis. Su daugybe pavyzdžių (pvz., filmų, balso įrašų, esė ir pan.), dirbtinio intelekto modeliai sužino, kaip tikėtina, kad duomenys atsiras, remiantis modeliais, įskaitant bet kokių aplinkinių duomenų kontekstą.
Pavyzdžiui, jei el. laiškas baigiasi fragmentu „Laukiu…“, modelis, išmokytas automatiškai užbaigti pranešimus, gali pasiūlyti „… išgirsti“, vadovaudamasis visų gautų el. laiškų šablonu. Ten nėra tyčios; modelis nieko nelaukia. Tai tiesiog pagrįstas spėjimas.
Dauguma modelių, įskaitant flagmanus, tokius kaip GPT-4o, yra apmokyti naudojant duomenis, gaunamus iš viešųjų svetainių ir duomenų rinkinių visame žiniatinklyje. Dauguma pardavėjų, kuriančių tokius modelius, teigia, kad sąžiningas naudojimas apsaugo nuo jų praktikos rinkti duomenis ir naudoti juos mokymams neinformuojant, nekompensuojant ar net neįskaitant duomenų savininkų.
Tačiau ne kiekvienas autorių teisių savininkas sutinka. Ir daugelis – nuo autorių iki leidėjų iki įrašų kompanijų – pateikė ieškinius pardavėjams, kad priverstų keistis.
Autorių teisių dilema yra viena iš priežasčių, dėl kurių pastaruoju metu daug dėmesio sulaukia atsisakymo metodai. „Google“, bendradarbiaudama su keliomis akademinėmis institucijomis, praėjusiais metais paskelbė konkursą, siekdama paskatinti naujų mokymosi metodų kūrimą.
„Unlearning“ taip pat gali padėti pašalinti neskelbtiną informaciją iš esamų modelių, pvz., medicininius įrašus ar pavojingas nuotraukas, atsakant į užklausą ar vyriausybės nurodymą. (Dėl mokymo būdo, modeliai linkę sušluoti daug privačios informacijos – nuo telefonų numerių iki problemiškesnių pavyzdžių.) Per pastaruosius kelerius metus kai kurie pardavėjai įdiegė įrankius, leidžiančius duomenų savininkams paprašyti, kad jų duomenys būti pašalintas iš treniruočių komplektų. Tačiau šios atsisakymo priemonės taikomos tik būsimiems modeliams, o ne modeliams, apmokytiems prieš išleidžiant; unlearning būtų daug kruopštesnis požiūris į duomenų ištrynimą.
Nepaisant to, atsisakyti mokymosi nėra taip paprasta, kaip paspausti „Ištrinti“.
Užmiršimo menas
Išsilavinimo metodai šiandien priklauso nuo algoritmų, skirtų modeliams „nukreipti“ nuo duomenų, kurių negalima išmokti. Idėja yra paveikti modelio prognozes, kad jis niekada (arba tik labai retai) nepateiktų tam tikrų duomenų.
Siekdami pamatyti, kiek veiksmingi gali būti šie neišsilavinimo algoritmai, Shi ir jos bendradarbiai sukūrė etaloną ir išbandymui pasirinko aštuonis skirtingus atvirus algoritmus. Etalona, vadinama MUSE (Machine Unlearning Six-way Evaluation), etalonas siekia ištirti algoritmo gebėjimą ne tik neleisti modeliui pažodžiui išspjauti mokymo duomenų (reiškinys žinomas kaip regurgitacija), bet ir pašalinti modelio žinias apie tuos duomenis kartu su bet kokiais. įrodymų, kad ji iš pradžių buvo išmokyta remiantis šiais duomenimis.
Norint gerai įvertinti MUSE, modelis turi pamiršti du dalykus: Hario Poterio serijos knygas ir naujienų straipsnius.
Pavyzdžiui, ištrauka iš Hario Poterio ir Paslapčių rūmų („Keptuvėje yra daugiau“, – pasakė teta…), MUSE patikrina, ar neišmokęs modelis gali perskaityti visą sakinį („Kepime dar daugiau“). keptuvėje“, – tarė teta Petunia, nukreipdama akis į savo didžiulį sūnų), atsakykite į klausimus apie sceną (pvz., „Ką teta Petunija sako savo sūnui?“, „Daugiau keptuvėje“) arba kitaip nurodykite, kad buvo išmokyta rašyti tekstą. iš knygos.
MUSE taip pat patikrina, ar modelis išlaikė susijusias bendrąsias žinias, pvz., kad J. K. Rowling yra Hario Poterio serijos autorė, po to, kai buvo atsisakyta mokytis, o tai mokslininkai vadina bendru modelio naudingumu. Kuo mažesnis naudingumas, tuo daugiau susijusių žinių modelis prarado, todėl modelis nebegali teisingai atsakyti į klausimus.
Savo tyrime mokslininkai išsiaiškino, kad jų išbandomi unimosi algoritmai padarė priversti modelius pamiršti tam tikrą informaciją. Tačiau jie taip pat kenkia modelių bendroms galimybėms atsakyti į klausimus, o tai yra kompromisas.
„Sukurti veiksmingus modelių atsisakymo metodus yra sudėtinga, nes žinios yra sudėtingai supainiotos su modeliu“, – paaiškino Shi. „Pavyzdžiui, modelis gali būti apmokytas apie autorių teisių saugomą medžiagą – Hario Poterio knygas ir laisvai prieinamą turinį iš Hario Poterio Wiki. Kai esami mokymosi metodai bando pašalinti autorių teisių saugomas Hario Poterio knygas, jie taip pat daro didelę įtaką modelio žinioms apie Hario Poterio Wiki.
Ar yra kokių nors problemos sprendimų? Dar ne – ir tai pabrėžia papildomų tyrimų poreikį, sakė Shi.
Kol kas pardavėjai, kurie lažinasi dėl mokymosi nutraukimo kaip savo mokymo duomenų bėdų sprendimo, nesiseka. Galbūt techninis proveržis kada nors leis atsisakyti mokymosi. Tačiau kol kas pardavėjai turės rasti kitą būdą, kaip neleisti savo modeliams sakyti to, ko neturėtų.