19 edycja
Studenckiego Festiwalu Informatycznego
19 edycja
2024
Exploiting Novel GPT-4 APIs, czyli jak zaatakować GPT-4
Edycja: 19. Studencki Festiwal Informatyczny
Data: 5 kwietnia 2024 21:00
Typ: Lightning Talki
Kategoria: SI
Prelegent
Abstrakt
Duże modele językowe takie jak GPT-4 są podatne na włamania (tzw. jailbreaks), które zmuszają je do odpowiedzi w niebezpieczny, kontrowersyjny lub toksyczny sposób. Opowiem o projekcie, gdzie wykorzystaliśmy niestandardowe API modeli językowych, takie jak np. fine-tuning, by znaleźć kolejne podatności tych modeli. Zmusiliśmy je m. in. do tworzenia teorii spiskowych i ujawniania adresów e-mail prawdziwych osób.
Czas trwania
30 min