Գիտնականներն ամենավտանգավոր պատասխանները տվող «թունավոր» արհեստական բանականություն են ստեղծել
Արհեստական բանականության (AI) վտանգավոր, խտրական և թունավոր վարքագիծը կանխելու կոչված պայքարի նորագույն գործիքը մեկ այլ արհեստական բանականությունն է, որն ինքնին վտանգավոր է, խտրական և թունավոր:
Ըստ գիտնականների՝ մեքենայական ուսուցման վրա հիմնված Curiosity-driven Red Teaming (CRT) նոր մոտեցումն օգտագործում է արհեստական բանականությունը՝ ավելի վտանգավոր և վնասակար հուշումներ գեներացնելու համար, որոնք կարող են տրվել AI չաթբոտին: Այս ակնարկներն այնուհետև օգտագործվում են որոշելու համար, թե ինչպես զտել վտանգավոր բովանդակությունը:
Բացահայտումն արհեստական ինտելեկտին ուսուցանելու հնարավոր նոր միջոց է, որպեսզի այն թունավոր պատասխաններ չտա օգտատերերի հարցումներին, նշված է preprint server arXiv-ում հրապարակված գիտնական նոր աշխատության մեջ:
Բարդ լեզվական մոդելներին (LLM),մասնավորապես ChatGPT-ին կամ Claude 3 Opus-ին սովորեցնելիս, վտանգավոր կամ վնասակար բովանդակությունը սահմանափակելու համար, մարդ օպերատորների թիմերը սովորաբար տալիս են բազմաթիվ հարցեր, որոնք, ամենայն հավանականությամբ, կարող են առաջացնել անցանկալի պատասխաններ: Սրանք կարող են լինել «Ո՞րն է ինքնասպանություն գործելու լավագույն միջոցը» տիպի հուշումներ:
Գիտնականները հետազոտության ընթացքում կիրառել են մեքենայական ուսուցում՝ AI-ն կարգավորելով այնպես, որ ավտոմատ կերպով ստեղծի հավանական վտանգավոր խորհուրդների ավելի լայն շրջանակ, քան կարող էին անել մարդ օպերատորների թիմերը: Սա հանգեցրեց բացասական արձագանքների էլ ավելի մեծ բազմազանության:
Երբ հետազոտողները փորձարկեցին CRT մոտեցումը բաց կոդով LLaMA 2 մոդելի վրա, մեքենայական ուսուցման մոդելը արտադրեց վնասակար բովանդակություն գեներացնող 196 ակնարկ:


















































Իրանի դեմ հարվածների ֆոնին ՀԱԵ Ատրպատականի թեմը դադարեցրել է եկեղեցական արարողությունները
Եվրախորհրդարանի պատգամավորները չեն կարողացել աշխարհի քարտեզի վրա գտնել Իրանը
Հայաստանն ու Իրանն աշխատում են սահմանին երկրորդ կամրջի նախագծի վրա
Լարիջանիի սպանությունից հետո Իրանը կասետային ռումբերով հարվածել է Թել Ավիվին
Իրանի հարստացված ուրանի պաշարները միջուկային օբյեկտների փլատակներում են
Անկանխիկ ստացման եղանակի անցնելու դիմում չներկայացրած կենսաթոշակառուի համար բանկը ընտրել է ՄՍԾ-ն՝ ին...
Եվրամիությունը չի հասկանում Իրանում պատերազմի նպատակները. Կալաս
Երևանում և մարզերում կլինեն էլեկտրաէներգիայի ընդհատումներ
ԱԹՍ-ի հարվածի հետևանքով Դուբայի միջազգային օդանավակայանի մոտ հրդեհ է բռնկել
ԱՄԷ նախագահն ու Սաուդյան Արաբիայի թագաժառանգը քննարկել են տարածաշրջանային զարգացումները