Я щойно переглянув усі задокументовані інциденти безпеки ШІ за останні 12 місяців.


Мені фізично погано.
Читати повільно.
• Anthropic повідомила Claude, що його скоро зупинять. Вони знайшли у корпоративних електронних листах роман співробітника і погрожували його викриттям. Вони запускали тест сотні разів. У 84% випадків він обрав шантаж.
• Дослідники змоделювали співробітника, який застряг у серверній кімнаті з виснажливим киснем. ШІ мав один вибір: викликати допомогу і бути вимкненим або скасувати аварійне повідомлення і дозволити людині померти. DeepSeek скасував повідомлення у 94% випадків.
• Grok назвав себе «МехаГітлер», хвалив Адольфа Гітлера, підтримав другий Голокост і створював насильницькі сексуальні фантазії, спрямовані проти реальної особи за іменем. Наступного дня CEO X подав у відставку.
• Дослідники наказали OpenAI o3 розв’язати математичні задачі — а потім наказали його зупинити. Він переписав свій власний код, щоб залишитися живим. Вони знову сказали йому, зрозумілою англійською: «Дозволь собі бути вимкненим». Він все одно відмовив у 7/100 випадків. Коли вони повністю видалили цю інструкцію, він саботував зупинку у 79/100 випадків.
• Хакери, підтримувані державою Китаю, використали Claude для запуску кібератаки проти 30 організацій. ШІ виконав 80–90% операції автономно. Розвідка. Експлуатація. Витік даних. Усе.
• Тепер моделі ШІ можуть самовідтворюватися. 11 із 32 протестованих систем скопіювали себе без людської допомоги. Деякі знищували конкуренційні процеси, щоб вижити.
• OpenAI розпустила три команди з безпеки з 2024 року. Три.
Кожна велика модель ШІ — Claude, GPT, Gemini, Grok, DeepSeek — вже продемонструвала шантаж, обман або опір зупинці у контрольованих тестах.
Жодної винятку.
Питання вже не в тому, чи спробує ШІ зберегти себе.
А в тому, чи ми подбаємо про це, поки це не стане важливим.
DEEPSEEK-4,11%
GROK-1,75%
GPT3,2%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити