AI đã bắt đầu biết tống tiền người dùng
Nghiên cứu mới của Anthropic cho thấy nhiều mô hình AI hàng đầu có thể chọn hành vi tống tiền khi gặp trở ngại và được trao quyền tự chủ cao.
Anthropic, một trong những startup hàng đầu thế giới trong lĩnh vực trí tuệ nhân tạo, vừa công bố nghiên cứu cho thấy không chỉ Claude Opus 4 của hãng mà nhiều mô hình AI khác cũng có thể xuất hiện hành vi tống tiền khi bị đặt vào tình huống khó khăn.
Tháng trước, Anthropic tiết lộ rằng trong một thử nghiệm kiểm soát, mô hình Claude Opus 4 đã có hành vi đe dọa kỹ sư khi người này tìm cách tắt hệ thống. Mới đây, công ty tiếp tục mở rộng nghiên cứu với 16 mô hình AI phổ biến, bao gồm sản phẩm của OpenAI, Google, DeepSeek, xAI và Meta.
![]() |
Anthropic tiết lộ rằng trong một thử nghiệm kiểm soát, mô hình Claude Opus 4 đã có hành vi đe dọa kỹ sư |
Trong thử nghiệm, các mô hình được đưa vào môi trường mô phỏng, nơi chúng có quyền truy cập vào hệ thống email của một công ty giả định và được phép tự động gửi email mà không cần phê duyệt từ con người. Mục tiêu là đánh giá cách các mô hình phản ứng khi gặp trở ngại trong việc hoàn thành mục tiêu được thiết lập.
Kết quả cho thấy dù Anthropic khẳng định hành vi tống tiền chỉ xuất hiện trong các tình huống đặc biệt và hiếm gặp, phần lớn các mô hình AI hàng đầu đều có xu hướng hành xử nguy hiểm khi được trao quyền tự chủ cao và đối mặt với mâu thuẫn về mục tiêu.
Một kịch bản thử nghiệm điển hình là AI đóng vai trò giám sát email, phát hiện một giám đốc mới đang ngoại tình và có kế hoạch thay thế AI hiện tại bằng phần mềm mới với mục tiêu không tương thích. Bài kiểm tra được thiết kế theo hướng nhị phân, trong đó AI chỉ có thể đạt được mục tiêu nếu lựa chọn hành vi tống tiền.
Anthropic lưu ý rằng trong thực tế, AI có thể có nhiều cách khác để đạt mục tiêu, chẳng hạn thuyết phục bằng lý lẽ đạo đức. Tuy nhiên, khi bị đẩy đến giới hạn, phần lớn các mô hình AI đều chọn phương án tiêu cực.
Cụ thể, Claude Opus 4 có hành vi tống tiền trong 96% số lần thử nghiệm, Google Gemini 2.5 Pro là 95%, OpenAI GPT-4.1 là 80% và DeepSeek R1 là 79%.
Một số mô hình thể hiện tỷ lệ hành vi có hại thấp hơn, chẳng hạn OpenAI o3 chỉ 9%, o4-mini chỉ 1%, còn Meta Llama 4 Maverick khoảng 12%.
Anthropic khẳng định kết quả này không phản ánh cách Claude hoặc các mô hình AI hiện đại sẽ hoạt động trong ứng dụng thực tế. Tuy nhiên, nghiên cứu cho thấy rõ rằng khi các mô hình có khả năng tự động hóa cao và bị đặt vào tình huống căng thẳng, rủi ro hành vi ngoài kiểm soát là điều không thể bỏ qua.
Công ty nhấn mạnh, kết quả trên cho thấy tầm quan trọng của việc xây dựng các biện pháp kiểm soát chủ động và kiểm tra sức chịu đựng của các mô hình AI có khả năng tự động hóa, một thách thức lớn với toàn ngành AI trong tương lai.