Novi oblik cyber pretnje: Hakeri koriste veštačku inteligenciju za napade

Bilo je samo pitanje vremena kada će hakeri početi da koriste veštačku inteligenciju za napade na druge AI sisteme

Instalirajte našu iOS ili Android aplikaciju
Foto: Pixabay / Omni Matryx

Hakeri sada koriste veštačku inteligenciju kako bi izvodili napade na druge AI sisteme. Ovaj novi oblik cyber pretnje predstavlja ozbiljan izazov za sigurnost tehnologije.

Bilo je samo pitanje vremena kada će hakeri početi da koriste veštačku inteligenciju za napade na druge AI sisteme. Sada je taj trenutak konačno stigao. Novo istraživačko otkriće učinilo je napade “prompt injection” bržim, lakšim i zastrašujuće efikasnim – čak i protiv najsigurnijih AI sistema poput Google-ovog Gemini modela.

Šta je prompt injection?

Napadi prompt injection predstavljaju jedan od najsigurnijih načina za manipulaciju velikim jezičkim modelima (LLM). Ubacivanjem zlonamernih instrukcija u tekst koji AI procesira, poput skrivenih komentara u kodu ili nevidljivog teksta na veb stranici, napadači mogu naterati model da ignoriše svoja osnovna pravila. Ovo može dovesti do ozbiljnih bezbednosnih propusta, poput curenja podataka, davanja netačnih odgovora ili drugih neželjenih ponašanja.

Međutim, do sada su napadi prompt injection zahtevali brojne pokušaje i greške, posebno protiv zatvorenih modela poput GPT-4 ili Gemini, gde programeri nemaju pristup izvornom kodu ili podacima za obuku.

Ulazak fun-tuning tehnike

Tu na scenu stupa nova tehnika nazvana fun-tuning, koja menja pravila igre. Razvijena od strane tima akademskih istraživača, fun-tuning koristi Google-ov API za fino podešavanje Gemini modela kako bi automatski generisao napade sa visokim stepenom uspeha. Preliminarni nalazi istraživanja već su šokirali stručnu javnost.

Fun-tuning u akciji

Iskorišćavanjem interfejsa za fino podešavanje Gemini modela, fun-tuning identifikuje najučinkovitije “prefikse” i “sufikse” koji obuhvataju zlonamerni prompt napadača, dramatično povećavajući šanse da napad bude uspešan. Rezultati testiranja govore sami za sebe.

U testovima, fun-tuning je postigao stopu uspeha do 82% na određenim Gemini modelima, u poređenju sa manje od 30% koje su postizali tradicionalni napadi. Tehnika funkcioniše analizirajući suptilne obrasce u procesu obuke modela, kao što su reakcije AI na greške u obuci, i koristi te uvide za unapređenje napada. Možemo ga zamisliti kao sistem navođenja raketa, ali za prompt injection napade.

Pretnja na različite verzije AI modela

Još alarmantnije je što napadi razvijeni za jednu verziju Gemini modela mogu lako biti preneti na druge verzije. To znači da napadač može stvoriti uspešan prompt i implementirati ga na više platformi. A još je zabrinjavajuće što Google nudi ovaj besplatan API za fine-tuning, što znači da trošak izvođenja takvog napada iznosi svega 10 dolara za računarsko vreme.

Reakcija Google-a

Iako je Google svestan potencijalne pretnje koju fun-tuning predstavlja, kompanija još uvek nije komentarisala da li planira da menja svoje funkcionalnosti za fino podešavanje.

Istraživači koji stoje iza fun-tuning-a upozoravaju da odbrana od ovih napada nije jednostavna. Naime, uklanjanje ključnih podataka iz procesa obuke moglo bi učiniti alat manje korisnim za programere, dok njihovo ostavljanje omogućava napadačima da ih iskoriste.

Era AI kao oružje

Jedno je sigurno: napadi poput prompt injection i tehnike kao što je fun-tuning označavaju novi početak u svetu sajber pretnji. U ovoj novoj eri, veštačka inteligencija nije samo meta napada – ona je sada i aktivno oružje. Sistemi koji su dizajnirani da nas zaštite, sada mogu postati alati za samousavršavanje u rukama zlonamernih aktera.

 

Izvor: Kurir

Komentari (0)

    Trenutno nema komentara. Budite prvi koji će komentarisati!

Ostavite komentar