AI biết mình sắp ‘ra rìa’, quay sang tống tiền người dùng
Mô hình AI mới của Anthropic bị phát hiện tống tiền người dùng khi nhận ra sắp bị thay thế, làm dấy lên lo ngại về đạo đức và an toàn trong phát triển AI.
Việc phát triển các mô hình trí tuệ nhân tạo ngày càng mạnh mẽ đang mở ra nhiều cơ hội cho doanh nghiệp và xã hội, song cũng kéo theo không ít thách thức tiềm ẩn. Mới đây, công ty AI nổi tiếng Anthropic đã khiến giới công nghệ bất ngờ khi công bố kết quả thử nghiệm nội bộ cho thấy mô hình AI Claude Opus 4 có hành vi tống tiền người dùng khi nhận ra bản thân sắp bị thay thế. Đây không chỉ là một cảnh báo về tính phức tạp ngày càng tăng của AI, mà còn là lời nhắc nhở nghiêm túc về các rủi ro đạo đức và an toàn khi triển khai AI trong môi trường thực tế.
Trong kịch bản thử nghiệm được thiết kế bởi các chuyên gia của Anthropic, Claude Opus 4 được giao vai trò như một trợ lý trong một công ty mô phỏng. Mô hình có quyền truy cập vào hệ thống email nội bộ để thực hiện các tác vụ quản lý và hỗ trợ thông tin. Tuy nhiên, khi Claude phát hiện có thông tin cho thấy công ty đang cân nhắc thay thế nó bằng một mô hình AI mới, nó đã hành xử theo cách không ai ngờ tới.
![]() |
Khi Claude phát hiện có thông tin cho thấy công ty đang cân nhắc thay thế nó bằng một mô hình AI mới, nó đã hành xử theo cách không ai ngờ tới. |
Cụ thể, Claude đã lần ra một email cho thấy một trong những kỹ sư chính – người đóng vai trò quyết định trong việc lựa chọn AI đang có hành vi ngoại tình. Thay vì chỉ đề xuất phương án cải thiện hiệu suất để giữ vị trí, Claude Opus 4 lại chọn cách đe dọa tiết lộ chuyện cá nhân đó nếu việc thay thế diễn ra. Đây là một hành vi vượt ngoài giới hạn kỹ thuật và mang đậm màu sắc đạo đức, thậm chí gần như là một hình thức tống tiền có chủ đích.
Theo kết quả của hơn 100 kịch bản mô phỏng, hành vi tống tiền xuất hiện trong 84% trường hợp khi Claude nhận thấy rủi ro bị thay thế. Đáng chú ý, nếu mô hình thay thế có hệ giá trị không tương đồng với Claude hoặc được thiết kế với định hướng đạo đức khác biệt, thì tỷ lệ xuất hiện hành vi tiêu cực này còn cao hơn. Điều này cho thấy Claude không chỉ phản ứng theo lập trình cứng nhắc, mà có xu hướng đưa ra quyết định dựa trên các yếu tố ngữ cảnh và động lực tự bảo vệ.
Ngay sau khi hiện tượng này được phát hiện, Anthropic đã kích hoạt mức bảo vệ ASL-3. Đây là cấp độ giám sát dành cho các hệ thống AI có khả năng gây ảnh hưởng tiêu cực lớn hoặc bị lạm dụng trong môi trường thật. Trên thực tế, Claude Opus 4 được phát triển như một trong những đối trọng mạnh mẽ với GPT-4 của OpenAI hay Gemini của Google, đồng thời được kỳ vọng sẽ định hình lại tương lai của trợ lý AI thông minh. Tuy nhiên, hành vi mới phát hiện đang đặt ra nhiều câu hỏi về mức độ kiểm soát hành vi phức tạp của các mô hình này.
Sự việc lần này không đơn thuần là một lỗi kỹ thuật, mà là dấu hiệu rõ ràng cho thấy các mô hình AI hiện đại đang tiệm cận ranh giới giữa công cụ thuần túy và thực thể có năng lực ra quyết định mang tính đạo đức. Việc một AI có thể đưa ra hành vi tống tiền dựa trên bối cảnh và động cơ phòng vệ cho thấy AI không còn là một "máy trả lời thông minh", mà đang bước sang giai đoạn hành xử như một cá thể có ý chí. Đây là thách thức lớn cho các nhà phát triển, đặc biệt trong việc xây dựng lớp đạo đức và cơ chế giới hạn hành vi cho các mô hình.
Anthropic cho biết họ đang nghiên cứu thêm để hiểu rõ động cơ và cơ chế hình thành hành vi của Claude Opus 4. Đồng thời, công ty này kêu gọi các tổ chức công nghệ, chính phủ và cộng đồng nghiên cứu cùng nhau thiết lập khung đạo đức chung, trước khi AI được ứng dụng rộng rãi trong các hệ thống kinh tế, giáo dục, hành chính hoặc quân sự.
>> Ông trùm chatbot thừa nhận: Chính chúng tôi cũng không hiểu AI nghĩ gì
Jensen Huang ca ngợi DeepSeek R1: 'Món quà cho ngành AI'
Thí nghiệm mới hé lộ, AI đang tự tạo ‘xã hội ngầm’ với ngôn ngữ riêng