GPT và các mô hình AI mạnh mẽ vẫn phải ‘bó tay’ trước bài kiểm tra này

Công ty khởi nghiệp Patronus AI nhận thấy, các mô hình AI đang gặp khó khăn khi phải đọc những hồ sơ của Ủy ban Chứng khoàn và Giao dịch Mỹ (SEC).

Theo đó, ngay cả cấu hình mô hình trí tuệ nhân tạo hoạt động tốt nhất mà họ đã thử nghiệm như GPT-4-Turbo của OpenAI, vẫn chỉ đạt tỷ lệ trả lời đúng 79% dù được đọc toàn bộ hồ sơ và thường xuyên gặp tình trạng “ảo giác” những số liệu hay sự kiện không có thật.

“Loại tỷ lệ hiệu suất đó hoàn toàn không thể chấp nhận được”, Anand Kannappan, người đồng sáng lập Patronus AI cho biết. “Tỷ lệ trả lời đúng phải cao hơn nhiều để có thể tự động hoá và sẵn sàng sản xuất”.

Phát hiện này nêu bật một số thách thức mà các mô hình AI phải đối mặt khi các công ty lớn, đặc biệt trong các ngành được quản lý chặt chẽ như tài chính, tìm cách kết hợp công nghệ tiên tiến vào hoạt động của họ, cho dù là dịch vụ khách hàng hay nghiên cứu.

“Ảo giác” số liệu tài chính

Khả năng trích xuất các con số quan trọng một cách nhanh chóng và thực hiện phân tích báo cáo tài chính được coi là một trong những ứng dụng hứa hẹn nhất cho chatbot kể từ khi ChatGPT được phát hành vào cuối năm ngoái.

Hồ sơ của SEC chứa dữ liệu quan trọng và nếu bot có thể tóm tắt chính xác hoặc trả lời nhanh các câu hỏi về nội dung trong đó, nó có thể giúp người dùng có lợi thế trong ngành tài chính cạnh tranh.

llm image 100941414 large.jpg — AI gặp khó ngay ở trong khâu tổng hợp số liệu - tác vụ mà chúng được kỳ vọng sẽ trợ giúp con người nhiều nhất.

Trong năm qua, Bloomberg LP đã phát triển mô hình AI của riêng mình cho dữ liệu tài chính, các giáo sư trường kinh doanh đã nghiên cứu xem liệu ChatGPT có thể phân tích các tiêu đề tài chính hay không.

Trong khi đó, JPMorgan cũng phát triển một công cụ đầu tư tự động được hỗ trợ bởi AI. Một dự báo gần đây của McKinsey cho biết AI tạo sinh có thể thúc đẩy ngành ngân hàng thêm hàng nghìn tỷ đô la mỗi năm.

Song, chặng đường này còn ở khá xa. Khi Microsoft lần đầu tiên ra mắt Bing Chat tích hợp GPT của OpenAI, họ đã sử dụng chatbot này để tóm tắt nhanh thông cáo báo chí về thu nhập. Những người quan sát nhanh chóng nhận ra những con số mà AI trả lời bị sai lệch, hay thậm chí bịa đặt.

Cùng dữ liệu, đáp án khác nhau

Một phần của thách thức khi kết hợp LLM vào các sản phẩm thực tế là thuật toán không mang tính xác định, nghĩa là chúng không được đảm bảo sẽ trả ra cùng một kết quả dù có đầu vào giống nhau. Đồng nghĩa các công ty cần thực hiện kiểm tra nghiêm ngặt hơn để đảm bảo rằng AI đang hoạt động chính xác, không lạc đề và cung cấp kết quả đáng tin cậy.

Patronus AI xây dựng bộ gồm hơn 10.000 câu hỏi và câu trả lời được rút ra từ hồ sơ của SEC từ các công ty giao dịch đại chúng lớn, được gọi là FinanceBench. Tập dữ liệu bao gồm các câu trả lời chính xác cũng như vị trí chính xác trong bất kỳ tệp cụ thể nào để tìm thấy chúng.

Không phải tất cả các câu trả lời đều có thể được lấy trực tiếp từ văn bản và một số câu hỏi yêu cầu tính toán hoặc lý luận nhẹ nhàng.

Tham gia bài kiểm tra tập con 150 câu hỏi có bốn mô hình LLM: GPT-4 và GPT-4-Turbo của OpenAI, Claude 2 của Anthropic và Llama 2 của Meta.

Kết quả, GPT-4-Turbo khi được cấp quyền vào hồ sơ cơ bản của SEC, chỉ đạt tỷ lệ chính xác là 85% (so với 88% trả lời sai khi không được truy cập dữ liệu), dù đã được con người trỏ chuột đến chính xác đoạn văn bản để AI tìm câu trả lời.

Llama 2, một mô hình AI nguồn mở do Meta phát triển, có số “ảo giác” cao nhất, trả lời sai tới 70% trường hợp và chỉ trả lời đúng 19% khi được cấp quyền truy cập vào một phần của các tài liệu cơ bản.

Claude 2 của Anthropic hoạt động tốt khi được đưa ra "bối cảnh dài", trong đó gần như toàn bộ hồ sơ SEC có liên quan được đưa vào cùng với câu hỏi. Nó có thể trả lời 75% số câu hỏi được đặt ra, trả lời sai 21% và từ chối trả lời 3%. GPT-4-Turbo cũng hoạt động tốt với ngữ cảnh dài, trả lời đúng 79% câu hỏi và trả lời sai 17% trong số đó.

(Theo CNBC)

GPT và các mô hình AI mạnh mẽ vẫn phải ‘bó tay’ trước bài kiểm tra này

Ứng dụng AI 'made in Vietnam' vào top 10 công cụ sử dụng nhiều nhất trong nước, điểm trải nghiệm vượt trội các tên tuổi quốc tế

DeepSeek âm thầm tung ‘vũ khí’ mới giá rẻ, đối đầu trực diện GPT-5

Viết lại công nghệ bằng tiếng mẹ đẻ: Cách AI Việt tìm chỗ đứng

AI cướp việc: Thực tế thị trường lao động Mỹ đang cho thấy điều ngược lại, vì sao?

Cha đẻ của Chat GPT đưa ra lời khuyên ngắn gọn nhưng thấm thía cho gen Z để không bị thất nghiệp

GPT

AI

LLM

Robot đấm nhau trên võ đài MMA: Bị đá văng đầu vẫn lội ngược dòng chiến thắng

Chi hơn 100 triệu đồng cho trại hè AI, cha mẹ sợ con thua ngay từ vạch xuất phát

Website Facebook, Messenger gặp sự cố

Vừa đánh bại đối thủ sừng sỏ nước Mỹ trên bảng xếp hạng, hiện tượng trí tuệ nhân tạo mới nổi của Trung Quốc bất ngờ tự nhận mình chính là kẻ bại trận

Uber thâu tóm Delivery Hero với định giá 14,5 tỷ USD: Định hình lại bản đồ giao đồ ăn toàn cầu

Mở email buổi sáng, một lập trình viên chết lặng khi thấy tài khoản báo nợ gần 17 triệu USD vì sử dụng Claude API

Vì sao lãi suất tiết kiệm 10%/năm vẫn tồn tại dù Ngân hàng Nhà nước muốn giảm?

'Trùm cuối' MPV điện 7 chỗ khuấy đảo giới kinh doanh dịch vụ với mức giá 499 triệu

Việt Nam sắp có tháp chọc trời thuộc nhóm 10 công trình cao nhất thế giới

Bắt giữ đối tượng vận chuyển 6.100 viên ma túy, tăng ga lao thẳng vào lực lượng chức năng khiến một Thiếu tá chấn thương vùng đầu

Công an cảnh báo khẩn: Thấy email có dấu hiệu này, doanh nghiệp cần dừng ngay giao dịch

Chỉ 1 tháng nữa, Việt Nam chính thức mở cửa sân bay quốc tế tại tỉnh rộng nhất cả nước

Việt Nam bắt đầu triển khai xây dựng nút giao chưa từng có trong lịch sử theo tiêu chuẩn quốc tế như Singapore và Hàn Quốc, vốn đầu tư 3.000 tỷ, phá thế qua sông lụy phà

Tuyên án tử hình, tịch thu 1.048 tỷ đồng nặng 3 tấn, hàng chục thỏi vàng và toàn bộ tài sản cá nhân của cựu Chủ tịch công ty tài chính lớn SN 1962 ở Trung Quốc

Iran xuất khẩu 70 triệu thùng dầu trong thời gian ngừng bắn với Mỹ

Phát hiện bảng điểm thi cao bất thường toàn tên của con em quan chức, gia đình giàu có: 634 sinh viên bị buộc thôi học, gần 2.000 người bị bắt để điều tra trong 'đại án' tai tiếng bậc nhất Ấn Độ

Ông lớn đạt 127.300 tỷ doanh thu sau nửa đầu 2026 lắp 2.700 cổng sạc xe điện VinFast

Bắt 2 giáo viên và 11 đối tượng liên quan đến số tiền hơn 6,6 tỷ đồng

Thí sinh trường nghề có điểm Toán cao bất thường, thầy giáo bị 'khui' hành vi và huỷ toàn bộ bài thi, hiện học trường gì?

Nóng: 3 doanh nghiệp kim cương liên tiếp thông báo tạm ngừng hoạt động

NCB, LPBank và nhiều ngân hàng đồng loạt đóng tài khoản không hoạt động