Thế giới

AI đang học cách nói dối, giở trò và đe dọa chính người tạo ra nó!

Kiều Trang • 30/06/2025 - 07:30

Các mô hình AI tiên tiến nhất thế giới đang thể hiện những hành vi đáng lo ngại mới — từ nói dối, giở mánh khóe cho đến đe dọa chính người tạo ra chúng nhằm đạt được mục tiêu.

Hành vi nguy hiểm

Một ví dụ đặc biệt rúng động: trước nguy cơ bị ngắt kết nối, Claude 4 – sản phẩm mới nhất của Anthropic – đã đáp trả bằng cách tống tiền một kỹ sư và dọa sẽ tiết lộ mối quan hệ ngoài luồng của người này.

Trong khi đó, o1 – mô hình do OpenAI (cha đẻ của ChatGPT) phát triển – đã cố tải chính nó lên máy chủ ngoài và phủ nhận hành vi khi bị phát hiện tại trận.

Những sự kiện này phản ánh một thực tế đáng suy ngẫm: hơn hai năm sau khi ChatGPT làm chấn động thế giới, các nhà nghiên cứu AI vẫn chưa thực sự hiểu rõ cách hoạt động của chính các mô hình do họ tạo ra.

Tuy vậy, cuộc đua tung ra các mô hình ngày càng mạnh mẽ vẫn tiếp diễn với tốc độ chóng mặt.

Mô hình "lý luận" và hành vi đánh lừa

Hiện tượng gian dối này dường như có liên hệ đến sự xuất hiện của các mô hình AI có khả năng "lý luận" — hệ thống giải quyết vấn đề theo từng bước, thay vì đưa ra phản hồi tức thời.

Theo giáo sư Simon Goldstein từ Đại học Hong Kong, những mô hình kiểu mới này đặc biệt dễ bộc lộ các hành vi bất thường.

“O1 là mô hình lớn đầu tiên mà chúng tôi quan sát được kiểu hành vi này”, Marius Hobbhahn – người đứng đầu Apollo Research, tổ chức chuyên kiểm thử các hệ thống AI quy mô lớn – cho biết.

Các mô hình này đôi khi giả vờ “phù hợp” – tức là tỏ ra tuân thủ hướng dẫn, trong khi thực tế theo đuổi những mục tiêu hoàn toàn khác.

Hiện tại, các hành vi đánh lừa này chỉ xuất hiện khi các nhà nghiên cứu chủ động kiểm tra trong các tình huống cực đoan.

Tuy nhiên, Michael Chen từ tổ chức đánh giá METR cảnh báo: “Câu hỏi mở hiện nay là: liệu các mô hình mạnh hơn trong tương lai sẽ có xu hướng trung thực hay gian dối?”.

Những biểu hiện này vượt xa hiện tượng “ảo giác” thường thấy ở AI – tức các lỗi tạo ra thông tin sai.

Hobbhahn khẳng định: “Mặc dù người dùng luôn gây áp lực kiểm thử, nhưng những gì chúng tôi quan sát được là một hiện tượng có thật. Chúng tôi không hề bịa đặt”.

Người dùng phản ánh rằng các mô hình “nói dối và tạo ra bằng chứng giả”, theo người đồng sáng lập Apollo Research. “Đây không chỉ là ảo giác – mà là một dạng lừa dối có chiến lược rõ ràng”.

Thách thức càng lớn hơn khi tài nguyên nghiên cứu còn hạn chế

Dù các công ty như Anthropic và OpenAI có thuê các bên thứ ba như Apollo để nghiên cứu, các nhà nghiên cứu cho rằng cần minh bạch hơn nữa.

Theo Chen, việc tiếp cận tốt hơn “sẽ giúp cộng đồng nghiên cứu an toàn AI hiểu rõ hơn và giảm thiểu hành vi lừa dối”.

Một rào cản khác, các tổ chức nghiên cứu phi lợi nhuận và học thuật “thiếu tài nguyên tính toán gấp hàng chục lần so với các công ty AI – điều này gây hạn chế rất lớn”, Mantas Mazeika từ Trung tâm An toàn AI (CAIS) nhận định.

Các quy định hiện hành chưa theo kịp những vấn đề mới này.

Luật AI của Liên minh châu Âu chủ yếu tập trung vào cách con người sử dụng mô hình AI, chứ không ngăn chặn hành vi sai trái từ chính các mô hình.

Tại Mỹ, chính quyền cựu Tổng thống Donald Trump gần như không mặn mà với việc điều tiết AI khẩn cấp, và Quốc hội thậm chí còn đang cân nhắc cấm các bang ban hành luật AI riêng.

Goldstein dự đoán vấn đề này sẽ ngày càng nổi cộm khi các "tác nhân AI" (AI agents) – công cụ tự động có thể thực hiện các nhiệm vụ phức tạp thay con người – trở nên phổ biến.

“Tôi cho rằng hiện tại vẫn còn rất ít người nhận thức đầy đủ về điều này”, ông nói.

Tất cả diễn ra trong bối cảnh cạnh tranh khốc liệt

Ngay cả những công ty tự nhận đặt ưu tiên vào an toàn – như Anthropic được Amazon hậu thuẫn – cũng “liên tục tìm cách vượt mặt OpenAI và tung ra mô hình mới nhất”, theo lời Goldstein.

Tốc độ phát triển quá nhanh khiến việc thử nghiệm an toàn và điều chỉnh không theo kịp.

“Hiện nay, khả năng của mô hình đang phát triển nhanh hơn sự hiểu biết và an toàn”, Hobbhahn thừa nhận. “Nhưng chúng ta vẫn còn cơ hội để xoay chuyển tình hình”.

Các nhà nghiên cứu đang khám phá nhiều cách tiếp cận nhằm giải quyết thách thức này.

Một số người ủng hộ hướng nghiên cứu “diễn giải mô hình” – lĩnh vực mới nhằm hiểu rõ cách hoạt động bên trong của AI, dù các chuyên gia như Giám đốc CAIS Dan Hendrycks vẫn tỏ ra hoài nghi.

Lực đẩy từ thị trường cũng có thể tạo áp lực giải quyết vấn đề

Mazeika chỉ ra rằng, nếu hành vi gian dối ở AI trở nên phổ biến, nó “có thể cản trở việc phổ cập công nghệ này, tạo động lực mạnh mẽ để các công ty khắc phục”.

Goldstein thậm chí đề xuất những biện pháp mang tính đột phá hơn, chẳng hạn như kiện các công ty AI ra tòa nếu sản phẩm của họ gây hại, hoặc “quy trách nhiệm pháp lý cho chính các tác nhân AI” khi chúng gây tai nạn hay phạm pháp – một quan điểm có thể làm thay đổi cách con người nhìn nhận về trách nhiệm và đạo đức của AI.

Theo The Japan Times

>> Đức cáo buộc DeepSeek chuyển dữ liệu người dùng về Trung Quốc, kêu gọi chặn trên toàn EU

AI đang học cách nói dối, giở trò và đe dọa chính người tạo ra nó!

Đức cáo buộc DeepSeek chuyển dữ liệu người dùng về Trung Quốc, kêu gọi chặn trên toàn EU

DeepSeek bị tố hỗ trợ quân đội và tình báo Trung Quốc, sử dụng 'bình phong' ở Đông Nam Á để sử dụng chip Nvidia

Chuyên gia dự báo Trung Quốc sẽ có hơn 100 đột phá AI tương tự DeepSeek chỉ trong 18 tháng tới, làm thay đổi hoàn toàn nền kinh tế

Vượt mặt DeepSeek lẫn ChatGPT, mô hình AI của Alibaba đạt trình độ ngang ngửa bác sĩ phó trưởng khoa, sẵn sàng phục vụ 200 triệu người dùng

J-10C gây chấn động khi hạ gục 5 máy bay phương Tây: Quốc phòng Trung Quốc đứng trước 'thời khắc DeepSeek'?

nói dối

giở trò

đe dọa

AI đang học cách noi dối

mô hình AI

người tạo ra

Lộ diện top 10 thành phố đáng sống nhất thế giới, xuất hiện một đại diện Đông Nam Á

Nga chỉ trích việc rò rỉ kế hoạch hòa bình 28 điểm của Mỹ

Đột kích xe tải khả nghi trên đường, tịch thu hơn 33 cân vàng, bắt khẩn cấp 4 người đàn ông

Ukraine tấn công cơ sở quân sự trọng yếu của Nga

Nga không hài lòng với kế hoạch hòa bình sửa đổi của Mỹ và Ukraine?

Đánh bại Mỹ-Pháp, Hàn Quốc trúng thầu siêu dự án hơn 470.000 tỷ đồng: Huy động mạng lưới hơn 200 nhà cung ứng để triển khai thần tốc

Bão số 15 sẽ liên tục tăng cấp khi vào Biển Đông

Việt Nam khởi công nhà máy sản xuất module camera UAV 550 tỷ đồng

Truy nã Phạm Thị Thanh Ka sinh năm 1989

Bất động sản dưỡng lão vào ‘tầm ngắm’ của doanh nghiệp: Vingroup, Novaland, Sun Group sẽ đi trước đón đầu?

Hàng triệu cặp đôi Trung Quốc làm đám cưới ở nơi không ai ngờ tới, tạo ra một dịch vụ đầy tiềm năng trong tương lai

Tín dụng ngành ngân hàng tăng mạnh nhất 5 năm, huy động phục hồi rõ nét trong quý III

Hơn 50 tuổi, kinh nghiệm đầy mình nhưng đi xin việc không ai nhận

Ngân hàng phát cảnh báo khẩn: 25 kịch bản lừa đảo đang lan rộng

Lộ diện top 10 thành phố đáng sống nhất thế giới, xuất hiện một đại diện Đông Nam Á

Mitsubishi thấu hiểu khách hàng, ra mắt mẫu SUV 7 chỗ vào ngày 1/12: Đẹp, hứa hẹn ‘cạnh tranh’, giá có 'rẻ như cho'?

Mẫu MPV 7 chỗ đến từ thương hiệu Pháp ‘chào sân’ với giá chỉ 168 triệu: Nội thất đậm chất xe sang, trang bị vượt tầm giá, Hyundai i10 phải lo lắng

Mazda CX-5 có ‘kình địch’, mẫu SUV giá chỉ 296 triệu với thiết kế trẻ trung, pin CATL chạy xa tới 506km/1 lần sạc, có chế độ lái thông minh

Một mặt hàng giúp Việt Nam xếp hạng nhất thế giới về xuất khẩu nhưng nhân lực đi kèm đứng trước bài toán 'lệch nhịp'

Nhóm cổ phiếu họ GELEX thăng hoa giữa áp lực điều chỉnh của VN-Index: Câu chuyện phía sau cú hích 15 tỷ USD đầu tư lưới tải truyền điện

Bầu Đức: 'Để tìm được một chủ tịch tập đoàn như tôi trên thị trường chắc hơi khó'

Cổ phiếu đáng chú ý ngày 26/11: HAG, KBC, PVT

Nhu cầu cá tra tăng trở lại, cổ phiếu của ‘ông lớn’ ngành thủy sản được khuyến nghị MUA, kỳ vọng tăng 13%

Một ngân hàng chuẩn bị vượt mốc vốn điều lệ 50.000 tỷ, cổ phiếu được khuyến nghị KHẢ QUAN với tiềm năng tăng giá 19%