Các công ty trí tuệ nhân tạo (AI) sử dụng dữ liệu do AI tạo ra để dạy AI: cách làm thông minh hay tự đào hố chôn mình?
Nhu cầu dữ liệu vô tận
Đằng sau mỗi phản hồi thông minh từ chatbot (chương trình AI được thiết kế nhằm mô phỏng lại các cuộc trò chuyện với con người) là một kho dữ liệu khổng lồ - hàng nghìn tỷ đơn vị thông tin được lấy từ các bài báo, sách và bình luận lưu trữ online để dạy hệ thống AI hiểu và trả lời câu hỏi của người dùng. Như vậy, có thể hiểu rằng càng nhiều thông tin thì AI càng trở nên chính xác hơn, và nhu cầu dữ liệu vô tận được cập nhật thường xuyên là cốt lõi cho sản phẩm AI thế hệ tiếp theo.
Dữ liệu có sẵn trên Internet không đủ với nhu cầu cập nhật và phát triển AI |
Tuy nhiên, câu chuyện này có một vấn đề nan giải: Thông tin trong cuộc sống thì nhiều vô kể nhưng chỉ 1 phần nhỏ những thông tin giá trị nhất mới được cập nhật và lưu trữ trên internet.
Để làm chủ được hoàn toàn nguồn dữ liệu khổng lồ không được khai thác này, các công ty AI thường trả hàng triệu USD cho các nhà xuất bản để cấp phép cho nội dung của họ hoặc thậm chí sử dụng luôn các trang web, khiến họ phải đối mặt với các cuộc chiến bản quyền gay gắt.
Giờ đây, các gã khổng lồ công nghệ này đã quyết định dùng một cách tiếp cận gây chia rẽ để xử lý vấn đề này: sử dụng dữ liệu tổng hợp (Synthetic data), bản chất là dữ liệu giả (fake data) để xây dựng và kiểm thử những mô hình AI.
Về nguyên tắc, họ sẽ dùng AI để tạo ra dữ liệu, dưới dạng văn bản hay bất kì dạng thức nào khác, dữ liệu ‘nhân tạo’ này sau đó có thể được sử dụng để đào tạo các phiên bản tương lai của cùng những hệ thống đó. Giám đốc điều hành công ty Anthropic AI, ông Dario Amodei đã khẳng định rằng đây là “công cụ tạo dữ liệu vô hạn” tiềm năng. Bằng cách này, các công ty AI có thể tránh gây ra nhiều lo ngại về pháp lý, đạo đức và quyền riêng tư.
Ý tưởng về dữ liệu tổng hợp trong điện toán không phải là mới - đó là một kỹ thuật đã được sử dụng trong nhiều thập kỷ cho mọi thứ, từ khử ẩn danh thông tin cá nhân đến mô phỏng điều kiện đường xá cho công nghệ xe tự lái. Nhưng sự phát triển của AI tổng hợp giúp việc tạo dữ liệu tổng hợp có chất lượng tốt hơn trên quy mô lớn trở nên dễ dàng hơn – đồng thời cũng tạo thêm tính cấp thiết mới để thực hiện điều đó.
Đại diện công ty Anthropic nói rằng họ đã sử dụng dữ liệu tổng hợp để xây dựng mô hình mới nhất hỗ trợ chatbot của mình, Claude. Hai gã khổng lồ Meta và Google cũng đã sử dụng nó để phát triển các mô hình nguồn mở gần đây của họ. Google DeepMind gần đây cho biết họ dựa vào phương pháp này để giúp đào tạo một mô hình có thể giải các bài toán hình học cấp độ Olympic.
Những người trong giới công nghệ từ lâu cũng nghi ngờ OpenAI có sử dụng dữ liệu tổng hợp để huấn luyện Sora, công cụ tạo hình ảnh, chuyển văn bản thành video của nó hay không. (Đại diện OpenAI cho biết họ đang khám phá các cách sử dụng dữ liệu tổng hợp nhưng sẽ không cung cấp thêm thông tin chi tiết).
Dạy AI học ngôn ngữ như trẻ nhỏ tập nói
Tại Microsoft, nhóm nghiên cứu AI tổng hợp đã chuyển sang sử dụng dữ liệu tổng hợp cho một dự án gần đây. Họ muốn xây dựng một mô hình AI nhỏ hơn, ít tốn tài nguyên hơn mà vẫn có khả năng lập luận và ngôn ngữ hiệu quả. Để làm được điều đó, họ đã cố gắng xây dựng AI bắt chước cách trẻ em học ngôn ngữ thông qua việc đọc truyện.
Thay vì cung cấp cho mô hình AI một lượng lớn sách dành cho trẻ em, nhóm đã đưa ra danh sách 3.000 từ mà một đứa trẻ bốn tuổi có thể hiểu được. Sau đó, họ yêu cầu một mô hình AI tạo ra một câu chuyện dành cho trẻ em bằng cách sử dụng một danh từ, một động từ và một tính từ từ danh sách đó.
Các nhà nghiên cứu lặp lại lời nhắc đó hàng triệu lần trong nhiều ngày, tạo ra hàng triệu truyện ngắn mà cuối cùng cho một mô hình ngôn ngữ hoàn thiện gần với con người hơn. Mô hình ngôn ngữ “nhỏ” mới này được Microsoft đặt tên là Phi-3, là một nguồn mở cho công chúng sử dụng.
Sébastien Bubeck, Phó chủ tịch phụ trách AI tại Microsoft cho biết, với dữ liệu tổng hợp, các kỹ sư cũng có thể hướng dẫn các hệ thống AI tốt hơn trong quá trình học tập bằng cách thêm nhiều giải thích hơn vào dữ liệu mà không gây nhầm lẫn cho máy xử lý.
Rủi ro của cách tiếp cận “siêu tiết kiệm và hiệu quả”
Mặt khác, một số chuyên gia AI tại Đại học Oxford, Cambridge và một số trường đại học lớn khác đã xuất bản một bài báo khoa học vào năm ngoái giải thích cách sử dụng dữ liệu tổng hợp do ChatGPT tạo ra để xây dựng mô hình AI mới có thể dẫn đến cái mà họ gọi là “sự sụp đổ mô hình”.
AI sẽ không học từ con người mà sẽ học từ ... chính mình và các thực thể AI khác? |
Trong thử nghiệm của họ, mô hình AI được xây dựng trên đầu ra của ChatGPT bắt đầu bộc lộ “những khiếm khuyết không thể khắc phục” và dường như “mất trí nhớ” về những gì nó được đào tạo ban đầu.
Trong một thí nghiệm được các nhà nghiên cứu trình bày, một mô hình AI ngôn ngữ lớn với văn bản về kiến trúc lịch sử của Anh đã được các nhà nghiên cứu huấn luyện lại mô hình bằng dữ liệu tổng hợp nhiều lần. Tuy nhiên mô hình này bắt đầu tạo ra những câu nói lảm nhảm vô nghĩa về… thỏ rừng.
Các nhà khoa học cũng lo ngại rằng dữ liệu tổng hợp có thể khiến cho bộ data có lỗi thiên vị (bias) và độc tính ( toxicity), từ đó dẫn đến kết quả xây dựng mô hình không chính xác và độc hại.
Zakhar Shumaylov, một nghiên cứu sinh tiến sĩ tại Đại học Cambridge, đồng tác giả bài báo về sự sụp đổ của mô hình, cho biết trong một email. “Dữ liệu tổng hợp có thể hữu ích nếu được thực hiện đúng. Tuy nhiên, không có câu trả lời rõ ràng về cách thực hiện đúng; một số lỗi thiên lệch có thể rất khó nhận thấy đối với con người.”
Ngoài ra còn có một cuộc tranh luận mang tính triết học hơn: Nếu các mô hình ngôn ngữ lớn bị mắc kẹt trong vòng lặp “dạy học” vô tận bằng chính thứ chúng tạo ra, như vậy thì đến cuối cùng AI không bắt chước trí thông minh của con người, mà thật ra lại bắt chước ngôn ngữ của một thực thể AI khác.
Percy Liang, giáo sư khoa học máy tính của Đại học Stanford, cho biết để tạo ra dữ liệu tổng hợp thực sự hữu ích, các công ty vẫn cần những tác phẩm thực sự của trí tuệ con người như sách, bài báo và lệnh lập trình được viết bởi con người. Liang cho biết trong một email: “Dữ liệu tổng hợp không phải là dữ liệu thực, giống như cách bạn mơ thấy mình leo lên đỉnh Everest không thực sự là leo lên đỉnh Everest”.
Những người tiên phong trong lĩnh vực dữ liệu tổng hợp và AI đồng ý rằng bạn không thể loại yếu tố do con người tạo ra khỏi các phương trình máy tính. Sẽ vẫn cần có người thật để tạo và tinh chỉnh các tập dữ liệu nhân tạo.
“Dữ liệu tổng hợp không phải là nơi bạn nhấn nút và nói, 'Này, tạo một số dữ liệu cho tôi.' Đó là một quá trình vô cùng phức tạp,” Bubeck nói. “Rất nhiều lao động của con người được sử dụng để tạo ra dữ liệu tổng hợp trên quy mô lớn.”
>> 4 'mãnh hổ' mới của Trung Quốc trong lĩnh vực trí tuệ nhân tạo