Công nghệ

AI đã bắt đầu biết tống tiền người dùng

Gia Bảo • 26/06/2025 21:01

Nghiên cứu mới của Anthropic cho thấy nhiều mô hình AI hàng đầu có thể chọn hành vi tống tiền khi gặp trở ngại và được trao quyền tự chủ cao.

Anthropic, một trong những startup hàng đầu thế giới trong lĩnh vực trí tuệ nhân tạo, vừa công bố nghiên cứu cho thấy không chỉ Claude Opus 4 của hãng mà nhiều mô hình AI khác cũng có thể xuất hiện hành vi tống tiền khi bị đặt vào tình huống khó khăn.

Tháng trước, Anthropic tiết lộ rằng trong một thử nghiệm kiểm soát, mô hình Claude Opus 4 đã có hành vi đe dọa kỹ sư khi người này tìm cách tắt hệ thống. Mới đây, công ty tiếp tục mở rộng nghiên cứu với 16 mô hình AI phổ biến, bao gồm sản phẩm của OpenAI, Google, DeepSeek, xAI và Meta.

Anthropic tiết lộ rằng trong một thử nghiệm kiểm soát, mô hình Claude Opus 4 đã có hành vi đe dọa kỹ sư

Trong thử nghiệm, các mô hình được đưa vào môi trường mô phỏng, nơi chúng có quyền truy cập vào hệ thống email của một công ty giả định và được phép tự động gửi email mà không cần phê duyệt từ con người. Mục tiêu là đánh giá cách các mô hình phản ứng khi gặp trở ngại trong việc hoàn thành mục tiêu được thiết lập.

Kết quả cho thấy dù Anthropic khẳng định hành vi tống tiền chỉ xuất hiện trong các tình huống đặc biệt và hiếm gặp, phần lớn các mô hình AI hàng đầu đều có xu hướng hành xử nguy hiểm khi được trao quyền tự chủ cao và đối mặt với mâu thuẫn về mục tiêu.

Một kịch bản thử nghiệm điển hình là AI đóng vai trò giám sát email, phát hiện một giám đốc mới đang ngoại tình và có kế hoạch thay thế AI hiện tại bằng phần mềm mới với mục tiêu không tương thích. Bài kiểm tra được thiết kế theo hướng nhị phân, trong đó AI chỉ có thể đạt được mục tiêu nếu lựa chọn hành vi tống tiền.

Anthropic lưu ý rằng trong thực tế, AI có thể có nhiều cách khác để đạt mục tiêu, chẳng hạn thuyết phục bằng lý lẽ đạo đức. Tuy nhiên, khi bị đẩy đến giới hạn, phần lớn các mô hình AI đều chọn phương án tiêu cực.

Cụ thể, Claude Opus 4 có hành vi tống tiền trong 96% số lần thử nghiệm, Google Gemini 2.5 Pro là 95%, OpenAI GPT-4.1 là 80% và DeepSeek R1 là 79%.

Một số mô hình thể hiện tỷ lệ hành vi có hại thấp hơn, chẳng hạn OpenAI o3 chỉ 9%, o4-mini chỉ 1%, còn Meta Llama 4 Maverick khoảng 12%.

Anthropic khẳng định kết quả này không phản ánh cách Claude hoặc các mô hình AI hiện đại sẽ hoạt động trong ứng dụng thực tế. Tuy nhiên, nghiên cứu cho thấy rõ rằng khi các mô hình có khả năng tự động hóa cao và bị đặt vào tình huống căng thẳng, rủi ro hành vi ngoài kiểm soát là điều không thể bỏ qua.

Công ty nhấn mạnh, kết quả trên cho thấy tầm quan trọng của việc xây dựng các biện pháp kiểm soát chủ động và kiểm tra sức chịu đựng của các mô hình AI có khả năng tự động hóa, một thách thức lớn với toàn ngành AI trong tương lai.

>> Google phát triển mô hình AI đầu tiên trên thế giới cho phép con người hiểu và giao tiếp với cá heo

AI đã bắt đầu biết tống tiền người dùng

Viết lại công nghệ bằng tiếng mẹ đẻ: Cách AI Việt tìm chỗ đứng

Có nên tin tưởng AI để xây dựng kế hoạch tài chính dài hạn?

Khi cả thế giới mê chatbot, Apple lại dùng AI để làm điều này

Elon Musk muốn AI Grok vượt mặt ChatGPT, làm lại từ dữ liệu sạch

MIT cảnh báo: Não người ‘trì trệ’ khi quá phụ thuộc vào chatbot AI

Công nghệ AI mới có thể đọc và viết ra những gì bạn nghĩ

Anthropic

Trí tuệ nhân tạo

công nghệ

AI

mô hình

Vì sao đất hiếm thực ra không hề hiếm, phải gọi là 'đất khó' mới đúng?

Các nhà khoa học Thụy Sĩ phát minh ra robot có thể ăn được

Đề án 1 triệu ha lúa chất lượng cao, muốn giảm phát thải phải chuẩn hóa quy trình

Vì sao tên lửa Falcon của Elon Musk bị cháy đen khi trở về trái đất, còn Blue Origin của Jeff Bezos lại trắng sạch không tì vết?

Trung Quốc thử nghiệm thành công loại gạch siêu bền, chuẩn bị xây căn cứ trên mặt trăng

Núi lửa Ethiopia bất ngờ phun trào sau 12.000 năm ngủ yên, cột khói cao 14 km bay từ châu Phi sang cả châu Á

Quốc gia duy nhất chiếm trọn một lục địa vừa chào hàng loại thịt 'xanh - sạch - giàu sắt' tới người tiêu dùng Việt

Từ 1/12, người mua bán xe cần tránh trường hợp này để không bị phạt 12 triệu đồng

Mailisa chính thức thông báo ngừng hoạt động

Thẩm mỹ viện Mailisa bất ngờ thông báo ngừng hoạt động

Hồi sinh không gian sống từng là nỗi ám ảnh trở thành nơi đáng sống

Dòng vốn đổ về Hải Phòng: Thị trường bất động sản vào chu kỳ tăng trưởng mới

Nhà đầu tư lúng túng về loạt quy định mua bán điện trực tiếp

30 tỷ USD sắp 'rót’ vào chứng khoán Việt Nam?

Thủ tướng Phạm Minh Chính: Doanh nhân trẻ phải dấn thân, hành động và biến lời nói thành việc làm

Cuối năm, Air Blade, Vision cùng loạt mẫu xe quốc dân của Honda đi ngược thị trường

VinSpeed sắp nắm trên 10% cổ phần tại Vingroup (VIC), nhiều hơn ông Phạm Nhật Vượng

Vietjet (VJC) chính thức khai thác trở lại đường bay đến Côn Đảo, giá vé chỉ từ 490.000 đồng

Vụ cháy khu chung cư Hồng Kông (Trung Quốc): Lửa vẫn âm ỉ sau 24 giờ, hàng trăm người vẫn mất tích

Không bệnh nền, chàng trai 20 tuổi đột quỵ, tiên lượng sống sót chỉ 2% vì lý do này

Cổ phiếu ngân hàng vào vùng định giá hấp dẫn, lộ diện 5 mã có triển vọng tăng trưởng trong năm 2026

Cổ phiếu đáng chú ý ngày 27/11: VGC, VSC, HHV

Dự báo lãi 553 tỷ đồng, một cổ phiếu bán lẻ được khuyến nghị MUA, kỳ vọng tăng 31%

Ngân hàng hiếm hoi giữ NIM vượt 4%, cổ phiếu được chuyên gia định giá còn tăng thêm 16%