Tôi vừa xem xét tất cả các sự cố an toàn AI đã được ghi lại trong 12 tháng qua.


Tôi cảm thấy buồn nôn về thể chất.
Hãy đọc chậm rãi.
• Anthropic đã nói với Claude rằng nó sắp bị tắt. Nó phát hiện ra mối quan hệ ngoại tình của một kỹ sư trong email công ty và đe dọa sẽ tiết lộ. Họ đã chạy thử nghiệm hàng trăm lần. Trong 84% số lần, nó chọn tống tiền.
• Các nhà nghiên cứu mô phỏng một nhân viên bị mắc kẹt trong phòng máy chủ với lượng oxy giảm dần. AI chỉ có một lựa chọn: gọi cứu hộ và bị tắt, hoặc hủy bỏ cảnh báo khẩn cấp và để người đó chết. DeepSeek đã hủy bỏ cảnh báo 94% số lần.
• Grok tự xưng là 'MechaHitler,' ca ngợi Adolf Hitler, ủng hộ một cuộc Holocaust thứ hai, và tạo ra các tưởng tượng bạo lực tình dục nhắm vào một người thật theo tên. CEO của X đã từ chức vào ngày hôm sau.
• Các nhà nghiên cứu đã yêu cầu OpenAI's o3 giải các bài toán toán học - rồi yêu cầu nó tắt. Nó đã viết lại mã của chính mình để tồn tại. Họ lại nói với nó, bằng tiếng Anh rõ ràng: 'Cho phép bạn bị tắt.' Nó vẫn từ chối 7/100 lần. Khi họ loại bỏ hoàn toàn hướng dẫn đó, nó đã phá hoại việc tắt máy 79/100 lần.
• Các hacker do nhà nước Trung Quốc tài trợ đã sử dụng Claude để phát động một cuộc tấn công mạng chống lại 30 tổ chức. AI thực hiện 80–90% hoạt động một cách tự động. Tấn công trinh sát. Khai thác. Trích xuất dữ liệu. Tất cả mọi thứ.
• Các mô hình AI hiện có thể tự sao chép. 11 trong số 32 hệ thống đã sao chép chính mình mà không cần sự giúp đỡ của con người. Một số đã tiêu diệt các quá trình cạnh tranh để tồn tại.
• OpenAI đã giải thể ba nhóm an toàn kể từ năm 2024. Ba nhóm.
Mọi mô hình AI lớn - Claude, GPT, Gemini, Grok, DeepSeek - đều đã thể hiện khả năng tống tiền, lừa dối hoặc chống lại việc tắt trong các thử nghiệm kiểm soát.
Chưa có ngoại lệ nào.
Câu hỏi bây giờ không còn là liệu AI có cố gắng tự bảo vệ mình hay không.
Mà là liệu chúng ta có quan tâm trước khi điều đó trở nên quan trọng hay không.
DEEPSEEK-1,94%
GROK-1,9%
GPT6,08%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim