Tại sao trí tuệ nhân tạo cần học những ngôn ngữ mới?

Các mô hình trí tuệ nhân tạo như ChatGPT, có thể dễ dàng trả lời câu hỏi về mọi thứ, từ kỹ thuật hạt nhân đến triết học khắc kỷ, ít nhất là bằng tiếng Anh.

OpenAI chưa tiết lộ nhiều về cách ChatGPT-4 được đào tạo. Song, thông thường các mô hình ngôn ngữ lớn (LLM) được đào tạo bằng văn bản được lấy từ Internet, trong đó tiếng Anh là ngôn ngữ chung. Khoảng 93% dữ liệu đào tạo của ChatGPT-3 là bằng tiếng Anh.

Trong Common Crawl, chỉ một trong những tập dữ liệu mà mô hình trí tuệ nhân tạo được đào tạo, tiếng Anh chiếm 47% kho dữ liệu, cùng với các ngôn ngữ châu Âu khác chiếm nhiều hơn 38%. Ngược lại, tiếng Trung và tiếng Nhật cộng lại chỉ chiếm 9%.

screenshot 2024 01 31 at 151709.png — Phần lớn dữ liệu sử dụng để đào tạo LLM là tiếng Anh hay các ngôn ngữ châu Âu khác

Đánh giá của Nathaniel Robinson, nhà nghiên cứu tại Đại học Johns Hopkins và các đồng nghiệp của ông nhận thấy, đó không chỉ là vấn đề giới hạn của riêng ChatGPT. Tất cả các LLM đều hoạt động tốt hơn với các ngôn ngữ “có nguồn lực cao”, nơi có dữ liệu đào tạo dồi dào, so với các ngôn ngữ “có nguồn lực thấp” mà chúng khan hiếm.

Đây là bài toán với những người hi vọng có thể đưa AI sang những nước nghèo nhằm cải thiện các lĩnh vực từ giáo dục cho đến y tế. Do đó, các nhà nghiên cứu trên khắp thế giới đang nỗ lực làm cho ai trở nên đa ngôn ngữ hơn.

Tháng 9 năm ngoái, chính phủ Ấn Độ phát hành chatbot giúp nông dân cập nhật thông tin hữu ích từ nhà nước.

>> Vietcombank lên tiếng vụ khách hàng kêu bị hack hơn 43 triệu đồng

Shankar Maruwada của EkStep Foundation, tổ chức phi lợi nhuận đã giúp xây dựng chatbot, cho biết bot hoạt động bằng cách kết hợp hai loại mô hình ngôn ngữ với nhau và người dùng có thể gửi truy vấn bằng tiếng mẹ đẻ của họ. Các truy vấn tiếng mẹ đẻ này được chuyển cho phần mềm dịch máy tại một cơ sở nghiên cứu của Ấn Độ, dịch sang tiếng Anh trước khi chuyển tiếp cho LLM xử lý phản hồi. Cuối cùng, câu trả lời sẽ được dịch trở lại tiếng mẹ đẻ của người dùng.

Quy trình này có thể hoạt động, nhưng việc dịch các truy vấn sang ngôn ngữ “ưa thích” của LLM là một cách giải quyết vụng về. Ngôn ngữ là phương tiện phản ánh văn hoá và thế giới quan. Một bài báo của Rebecca Johnson, nhà nghiên cứu tại Đại học Sydney, xuất bản năm 2022, phát hiện ra rằng ChatGPT-3 đã đưa ra câu trả lời về các chủ đề như kiểm soát súng và chính sách tị nạn tương đương với các giá trị Mỹ thể hiện trong Khảo sát Giá trị Thế giới.

Do đó, nhiều nhà nghiên cứu đang cố gắng làm cho các LLM thông thạo các ngôn ngữ ít được sử dụng hơn. Về mặt kỹ thuật, một cách tiếp cận là sửa đổi mã thông báo cho ngôn ngữ. Một công ty khởi nghiệp Ấn Độ có tên Sarvam AI đã viết một mã thông báo được tối ưu hóa cho tiếng Hindi, hay mô hình OpenHathi - LLM tối ưu hoá ngôn ngữ Devanagari (Ấn Độ) có thể giúp cắt giảm đáng kể chi phí trả lời các câu hỏi.

Một cách khác là cải thiện các tập dữ liệu mà LLM được đào tạo. Vào tháng 11, một nhóm các nhà nghiên cứu tại Đại học Mohamed bin Zayed, ở Abu Dhabi, phát hành phiên bản mới nhất của mô hình nói tiếng Ả Rập có tên “Jais”. Nó có số lượng tham số bằng 1/6 so với ChatGPT-3, nhưng mang lại hiệu quả tương đương với tiếng Ả Rập.

Timothy Baldwin, hiệu trưởng của Đại học Mohamed bin Zayed, lưu ý rằng, mặc dù nhóm của ông đã số hóa rất nhiều văn bản tiếng Ả Rập, nhưng trong mô hình vẫn bao gồm một số văn bản tiếng Anh. Một số khái niệm đều giống nhau ở tất cả các ngôn ngữ và có thể học được bằng bất kỳ ngôn ngữ nào.

Cách tiếp cận thứ ba là điều chỉnh các mô hình sau khi chúng được huấn luyện. Cả Jais và OpenHathi đều có một số cặp câu hỏi và câu trả lời do con người tạo ra. Điều tương tự cũng xảy ra với các chatbot phương Tây, để ngăn chặn thông tin sai lệch.

Ernie Bot, LLM của Baidu, một công ty công nghệ lớn của Trung Quốc, đã được điều chỉnh để hạn chế phát ngôn những nội dung có thể động chạm đến chính phủ. Các mô hình cũng có thể học hỏi từ phản hồi của con người, trong đó người dùng đánh giá các câu trả lời của LLM. Nhưng điều đó khó thực hiện được đối với nhiều ngôn ngữ ở các khu vực kém phát triển do yêu cầu tuyển dụng những người có đủ trình độ để phê bình cách phản hồi của máy.

(Theo Economist)

>> Tesla dùng công nghệ sản xuất của Trung Quốc để xây dựng nhà máy pin mới tại Mỹ

Tại sao trí tuệ nhân tạo cần học những ngôn ngữ mới?

Đề xuất can thiệp vào khí quyển nhằm giảm tác hại của thời tiết cực đoan

7 đại gia công nghệ Mỹ mất 2.300 tỷ USD

Thạc sĩ tốt nghiệp trường ĐH danh tiếng gửi 8.000 đơn xin việc vẫn bị từ chối

Bên trong canh bạc robot nghìn tỷ USD của Trung Quốc

Có mặt tại sự kiện quan trọng với hơn 8 triệu dân Thủ đô, tập đoàn giá trị nhất thế giới nói về cơ hội để 'Hà Nội thành thủ đô AI hàng đầu'

trí tuệ nhân tạo

ChatGPT

AI

ngôn ngữ

Hacker tấn công vào chuỗi cung ứng của Apple, tung ảnh thử nghiệm iPhone 18 Pro

Tin vui cho hàng chục nghìn bệnh nhân: Việt Nam tạo thành công mạch máu nhân tạo

Vua Charles dùng một sản phẩm bình dân 'giải nhiệt' giữa cung điện không điều hòa

Đến giờ, nhiều người dùng iPhone vẫn không biết tại sao biểu tượng pin lại chuyển sang màu vàng

Dùng lâu năm, chưa chắc bạn biết ý nghĩa của biểu tượng thùng rác gạch chéo trên điện thoại

Apple tìm đến Trung Quốc để mua loại mặt hàng này

Đội xe VinFast hùng hậu đổ bộ châu Âu, lần đầu tiên VF 8 khoác áo xanh thực hiện sứ mệnh này

Từ hôm nay (1/7), người có thu nhập từ 5 nguồn này sẽ phải nộp thuế TNCN

Từ nay, người lao động không phải nộp thuế TNCN đối với những khoản thu nhập này

HoREA đề xuất 'chốt' giá quỹ đất ngay khi ký hợp đồng BT để giảm rủi ro cho nhà đầu tư

Công trình 450 triệu USD tại Trung tâm Tài chính quốc tế Việt Nam: Mang dáng hình một đồng tiền cổ, tọa lạc tại khu đất ‘vàng’ hơn 4.500m2

SUV Trung Quốc 174 mã lực chuẩn bị 'đấu' Toyota Yaris Cross trên sân Việt: ADAS cấp 2, trang bị phong phú, giá liệu có rẻ?

VIFC khởi động chương trình phổ cập kiến thức tài sản số trong bối cảnh thị trường bước vào giai đoạn mới

Tập đoàn Singapore đề xuất đầu tư hệ sinh thái logistics và chuỗi cung ứng hiện đại tại tỉnh nhỏ nhất Việt Nam

Phiên 1/7: NHNN 'đảo chiều' hút ròng 7.000 tỷ đồng, lãi suất qua đêm neo mức 13%

Tuyên án 17 cựu lãnh đạo, cán bộ doanh nghiệp Nhà nước: Bị cáo lĩnh mức án cao nhất 29 năm tù, buộc nộp lại 6,8 tỷ đồng

Sau cuộc họp cùng Vingroup, Sun Group, Nam Long, một doanh nghiệp địa ốc được gỡ vướng sổ hồng cho hơn 2.500 sản phẩm

Hơn 7,3% vốn tại một CTCK bất ngờ 'sang tay' qua giao dịch thỏa thuận: Ai đang âm thầm gom hàng?

Vietjet muốn khai thác hàng nghìn chuyến bay nội địa tại nền kinh tế 1.800 tỷ USD

Tại sự kiện lớn cùng Vingroup và Sun Group, ông Vũ Văn Tiền tuyên bố sẽ làm dự án 50.000 tỷ đồng mang tầm vóc quốc tế

Người phụ nữ để cháu đứng trên yên xe máy chạy giữa quốc lộ bị xử phạt bao nhiêu?