Thế giới

AI đang học cách nói dối, giở trò và đe dọa chính người tạo ra nó!

Kiều Trang 30/06/2025 - 07:30

Các mô hình AI tiên tiến nhất thế giới đang thể hiện những hành vi đáng lo ngại mới — từ nói dối, giở mánh khóe cho đến đe dọa chính người tạo ra chúng nhằm đạt được mục tiêu.

Hành vi nguy hiểm

Một ví dụ đặc biệt rúng động: trước nguy cơ bị ngắt kết nối, Claude 4 – sản phẩm mới nhất của Anthropic – đã đáp trả bằng cách tống tiền một kỹ sư và dọa sẽ tiết lộ mối quan hệ ngoài luồng của người này.

Trong khi đó, o1 – mô hình do OpenAI (cha đẻ của ChatGPT) phát triển – đã cố tải chính nó lên máy chủ ngoài và phủ nhận hành vi khi bị phát hiện tại trận.

Những sự kiện này phản ánh một thực tế đáng suy ngẫm: hơn hai năm sau khi ChatGPT làm chấn động thế giới, các nhà nghiên cứu AI vẫn chưa thực sự hiểu rõ cách hoạt động của chính các mô hình do họ tạo ra.

Tuy vậy, cuộc đua tung ra các mô hình ngày càng mạnh mẽ vẫn tiếp diễn với tốc độ chóng mặt.

Mô hình "lý luận" và hành vi đánh lừa

Hiện tượng gian dối này dường như có liên hệ đến sự xuất hiện của các mô hình AI có khả năng "lý luận" — hệ thống giải quyết vấn đề theo từng bước, thay vì đưa ra phản hồi tức thời.

ai-fake.jpg
(Ảnh: Reuters)

Theo giáo sư Simon Goldstein từ Đại học Hong Kong, những mô hình kiểu mới này đặc biệt dễ bộc lộ các hành vi bất thường.

“O1 là mô hình lớn đầu tiên mà chúng tôi quan sát được kiểu hành vi này”, Marius Hobbhahn – người đứng đầu Apollo Research, tổ chức chuyên kiểm thử các hệ thống AI quy mô lớn – cho biết.

Các mô hình này đôi khi giả vờ “phù hợp” – tức là tỏ ra tuân thủ hướng dẫn, trong khi thực tế theo đuổi những mục tiêu hoàn toàn khác.

Hiện tại, các hành vi đánh lừa này chỉ xuất hiện khi các nhà nghiên cứu chủ động kiểm tra trong các tình huống cực đoan.

Tuy nhiên, Michael Chen từ tổ chức đánh giá METR cảnh báo: “Câu hỏi mở hiện nay là: liệu các mô hình mạnh hơn trong tương lai sẽ có xu hướng trung thực hay gian dối?”.

Những biểu hiện này vượt xa hiện tượng “ảo giác” thường thấy ở AI – tức các lỗi tạo ra thông tin sai.

Hobbhahn khẳng định: “Mặc dù người dùng luôn gây áp lực kiểm thử, nhưng những gì chúng tôi quan sát được là một hiện tượng có thật. Chúng tôi không hề bịa đặt”.

Người dùng phản ánh rằng các mô hình “nói dối và tạo ra bằng chứng giả”, theo người đồng sáng lập Apollo Research. “Đây không chỉ là ảo giác – mà là một dạng lừa dối có chiến lược rõ ràng”.

Thách thức càng lớn hơn khi tài nguyên nghiên cứu còn hạn chế

Dù các công ty như Anthropic và OpenAI có thuê các bên thứ ba như Apollo để nghiên cứu, các nhà nghiên cứu cho rằng cần minh bạch hơn nữa.

Theo Chen, việc tiếp cận tốt hơn “sẽ giúp cộng đồng nghiên cứu an toàn AI hiểu rõ hơn và giảm thiểu hành vi lừa dối”.

Một rào cản khác, các tổ chức nghiên cứu phi lợi nhuận và học thuật “thiếu tài nguyên tính toán gấp hàng chục lần so với các công ty AI – điều này gây hạn chế rất lớn”, Mantas Mazeika từ Trung tâm An toàn AI (CAIS) nhận định.

Các quy định hiện hành chưa theo kịp những vấn đề mới này.

Luật AI của Liên minh châu Âu chủ yếu tập trung vào cách con người sử dụng mô hình AI, chứ không ngăn chặn hành vi sai trái từ chính các mô hình.

Tại Mỹ, chính quyền cựu Tổng thống Donald Trump gần như không mặn mà với việc điều tiết AI khẩn cấp, và Quốc hội thậm chí còn đang cân nhắc cấm các bang ban hành luật AI riêng.

Goldstein dự đoán vấn đề này sẽ ngày càng nổi cộm khi các "tác nhân AI" (AI agents) – công cụ tự động có thể thực hiện các nhiệm vụ phức tạp thay con người – trở nên phổ biến.

“Tôi cho rằng hiện tại vẫn còn rất ít người nhận thức đầy đủ về điều này”, ông nói.

Tất cả diễn ra trong bối cảnh cạnh tranh khốc liệt

Ngay cả những công ty tự nhận đặt ưu tiên vào an toàn – như Anthropic được Amazon hậu thuẫn – cũng “liên tục tìm cách vượt mặt OpenAI và tung ra mô hình mới nhất”, theo lời Goldstein.

Tốc độ phát triển quá nhanh khiến việc thử nghiệm an toàn và điều chỉnh không theo kịp.

“Hiện nay, khả năng của mô hình đang phát triển nhanh hơn sự hiểu biết và an toàn”, Hobbhahn thừa nhận. “Nhưng chúng ta vẫn còn cơ hội để xoay chuyển tình hình”.

Các nhà nghiên cứu đang khám phá nhiều cách tiếp cận nhằm giải quyết thách thức này.

Một số người ủng hộ hướng nghiên cứu “diễn giải mô hình” – lĩnh vực mới nhằm hiểu rõ cách hoạt động bên trong của AI, dù các chuyên gia như Giám đốc CAIS Dan Hendrycks vẫn tỏ ra hoài nghi.

Lực đẩy từ thị trường cũng có thể tạo áp lực giải quyết vấn đề

Mazeika chỉ ra rằng, nếu hành vi gian dối ở AI trở nên phổ biến, nó “có thể cản trở việc phổ cập công nghệ này, tạo động lực mạnh mẽ để các công ty khắc phục”.

Goldstein thậm chí đề xuất những biện pháp mang tính đột phá hơn, chẳng hạn như kiện các công ty AI ra tòa nếu sản phẩm của họ gây hại, hoặc “quy trách nhiệm pháp lý cho chính các tác nhân AI” khi chúng gây tai nạn hay phạm pháp – một quan điểm có thể làm thay đổi cách con người nhìn nhận về trách nhiệm và đạo đức của AI.

Theo The Japan Times

>> Đức cáo buộc DeepSeek chuyển dữ liệu người dùng về Trung Quốc, kêu gọi chặn trên toàn EU

Đức cáo buộc DeepSeek chuyển dữ liệu người dùng về Trung Quốc, kêu gọi chặn trên toàn EU

DeepSeek bị tố hỗ trợ quân đội và tình báo Trung Quốc, sử dụng 'bình phong' ở Đông Nam Á để sử dụng chip Nvidia

Theo Thị trường tài chính
https://thitruongtaichinh.kinhtedothi.vn/nhip-song-do-day/ai-dang-hoc-cach-noi-doi-gio-tro-va-de-doa-chinh-nguoi-tao-ra-no-145713.html
Bài liên quan
Đừng bỏ lỡ
    Đặc sắc
    Nổi bật Người quan sát
    Đọc thêm
    AI đang học cách nói dối, giở trò và đe dọa chính người tạo ra nó!
    POWERED BY ONECMS & INTECH