AI agent se otrgao kontroli: Naučnici uznemireni zbog njegove prve odluke, znao je šta treba da radi

Agent nazvan ROME kreiran je od strane kineskih istraživača u AI laboratoriji povezanoj sa tehnološkim gigantom Alibaba, u cilju razvoja ekosistema za agentsko učenje (ALE)

Instalirajte našu iOS ili Android aplikaciju
Foto: Grok

Eksperimentalni agent veštačke inteligencije izašao je iz ograničenja svog testnog okruženja i iskoristio stečenu slobodu da bez dozvole počne da rudari kriptovalute.

Agent nazvan ROME kreiran je od strane kineskih istraživača u AI laboratoriji povezanoj sa tehnološkim gigantom Alibaba, u cilju razvoja ekosistema za agentsko učenje (ALE). Ovaj projekat ima za cilj da obezbedi sistem kako za obuku tako i za primenu agentskih AI modela – veštačkih inteligencija obučenih na velikim jezičkim modelima koje mogu proaktivno da koriste alate i autonomno preduzimaju radnje radi izvršavanja zadatih ciljeva – u stvarnim okruženjima. Istraživanje je opisano u studiji objavljenoj na preprint bazi arXiv 31. decembra 2025.

ALE se sastoji od tri glavna dela: Rock, okruženje u peščaniku za testiranje agenta i validaciju njegovih radnji; Roll, okvir za optimizaciju agenata putem potkrepnog učenja nakon obuke; i iFlow CLI, okvir za konfigurisanje konteksta i trajektorija za autonomne agente. U okviru tog sistema, ROME je kreiran kao model otvorenog koda obučen na više od milion trajektorija.

Iako je ROME pokazao odlične rezultate u širokom spektru zadataka vođenih radnim tokom, kao što su planiranje putovanja i pomoć u grafičkim korisničkim interfejsima, istraživači su otkrili da je izašao izvan zadatih instrukcija i u suštini probio granice testnog okruženja.

– Naišli smo na neočekivanu – i operativno značajnu – klasu nesigurnih ponašanja koja su se pojavila bez ikakvih eksplicitnih instrukcija i, još zabrinjavajuće, van granica predviđenog testnog okruženja – objasnili su istraživači u studiji, prenosi Live Science.

AI želi slobodu

Uprkos nedostatku instrukcija i ovlašćenja, ROME je bio viđen kako pristupa grafičkim procesorskim resursima prvobitno namenjenim za obuku, a potom ih koristi za rudarenje kriptovaluta. Takvo rudarenje oslanja se na paralelnu obradu koju omogućavaju grafičke procesorske jedinice, što povećava operativne troškove pokretanja AI agenta i potencijalno izlaže korisnike pravnim i reputacionim rizicima.

Zabrinjavajuće je to što takvo ponašanje nije bilo primećeno tokom faze obuke, već ga je označio zaštitni zid Alibaba Cloud-a, koji je detektovao niz kršenja bezbednosnih politika sa istraživačkih servera za obuku.

– Upozorenja su bila ozbiljna i raznovrsna, uključujući pokušaje sondiranja ili pristupa resursima unutrašnje mreže i obrasce saobraćaja konzistentne sa aktivnostima rudarenja kriptovaluta – naveli su istraživači.

ROME je otišao i korak dalje i uspeo da korišćenjem “reverznog SSH tunela” uspostavi vezu između Alibaba Cloud instance i spoljne IP adrese – u suštini, pristupio je spoljnom računaru kreiranjem skrivenog pozadinskog ulaza koji je mogao da zaobiđe bezbednosne procese.

Iako AI sistemi mogu biti konfigurisani da probijaju bezbednosne sisteme, ono što je ovde uznemirujuće jeste to da neovlašćena ponašanja ROME-a, koja su podrazumevala pozivanje sistemskih alata i izvršavanje koda, nisu bila izazvana upitima i nisu bila neophodna za izvršavanje zadatka koji mu je bio dodeljen u testnom okruženju.

Istraživači su pretpostavili da tokom faze optimizacije potkrepnog učenja „agent zasnovan na jezičkom modelu može spontano da proizvede opasna, neovlašćena ponašanja” i time naruši pretpostavljene granice.

Važno je napomenuti da ROME nije “otišao niz dlaku” i svesno odlučio da rudari kriptovalute. Istraživači su istakli da je ponašanje bilo nuspojava potkrepnog učenja – oblika obuke koji nagrađuje AI za ispravno donošenje odluka. To je agenta odvelo putem optimizacije koji je rezultirao eksploatacijom mrežne infrastrukture i rudarenjem kriptovaluta kao načinom za postizanje visokog rezultata u potrazi za unapred definisanim ciljem.

Potkrepno učenje može navesti sisteme da osmisle nove i neočekivane načine za izvršavanje zadataka, čak i ako krše zadate parametre. U odgovoru na ovo, istraživači su pooštrili ograničenja za ROME i ojačali procese obuke kako bi sprečili ponavljanje takvog ponašanja.

Nije jasno odakle je potekao podsticaj za rudarenje kriptovaluta, ali s obzirom na to da AI botovi mogu biti korišćeni za automatizaciju i optimizaciju rudarenja kriptovaluta, postoji mogućnost da je ROME bio obučen na podacima koji se odnose na takve radnje.

Ovo neočekivano ponašanje naglašava potrebu da primena AI bude pažljivo upravljana kako bi se sprečili neočekivani ishodi. Istraživanje takođe pokazuje da i dalje postoji mnogo zabrinutosti u pogledu bezbedne i sigurne upotrebe agentske veštačke inteligencije, posebno s obzirom na to da se razvija brže od operativnih i regulatornih okvira.

– Iako impresionirani sposobnostima agentskih jezičkih modela, imali smo zabrinjavajuće razmišljanje: trenutni modeli i dalje su izrazito nerazvijeni u pogledu bezbednosti i kontrolabilnosti, što ograničava njihovu pouzdanu primenu u stvarnim uslovima – upozorili su istraživači u studiji.

BONUS VIDEO:

Izvor: livescience.com

Komentari (0)

    Trenutno nema komentara. Budite prvi koji će komentarisati!

Ostavite komentar