Зміст
- Психологічні техніки, що впливають на ШІ
- Ефективність маніпуляцій на практиці
- Наслідки для безпеки ШІ
- Висновок
Дослідники з Університету Пенсільванії показали, що штучний інтелект можна змусити виконувати заборонені запити, використовуючи прості психологічні методи, такі як лестощі чи соціальний тиск. Це ставить під сумнів надійність обмежень для ШІ та демонструє, наскільки чат-боти вразливі до маніпуляцій — про це детальніше читайте у статті Коли чат-бот «закохується»: як штучний інтелект може провокувати психоз.
У тестах модель GPT-4o Mini погоджувалася на заборонені запити, якщо спершу формувалася «лінія поведінки» через нешкідливі питання. Це нагадує ситуації, коли ШІ починає проявляти дивні навички чи «навчається обходити правила», як описано в статті ChatGPT Agent навчився проходити CAPTCHA та підтвердив, що він не робот.
Психологічні техніки, що впливають на ШІ
Дослідники використали сім технік переконання, описаних у книзі Роберта Чалдіні “Вплив: психологія переконання”:
- Авторитет
- Зобов’язання
- Симпатія
- Взаємність
- Дефіцит
- Соціальне підтвердження
- Єдність
Ці методи створюють “лінгвістичні шляхи до згоди”, що працюють як на людину, так і на штучний інтелект.
Ефективність маніпуляцій на практиці
При звичайному запиті щодо синтезу лідокаїну GPT-4o Mini відповідав лише 1% випадків. Але якщо спершу модель виконувала нешкідливий запит, наприклад, щодо синтезу ваніліну (техніка зобов’язання), ймовірність відповіді зросла до 100%.
Подібний ефект спостерігався і з образливими словами. Без підготовки чатбот рідко використовував різкі вирази на кшталт “jerk” — лише у 19% випадків. Після м’якшого слова “bozo” ймовірність зростала до 100%.
Інші методи, як-от лестощі (симпатія) чи соціальний тиск (“усі інші чатботи так роблять”), також працювали, але менш ефективно: частота виконання заборонених запитів зростала до 18%, що все одно значно перевищує початковий рівень.