Tập đoàn Viettel vừa được giao nghiên cứu, thử nghiệm phát triển mô hình ngôn ngữ lớn tiếng Việt và trợ lý ảo cho cán bộ, công chức tại Bộ TT&TT.
Thứ trưởng Nguyễn Huy Dũng vừa ký quyết định phê duyệt đơn vị nghiên cứu, thử nghiệm phát triển mô hình ngôn ngữ lớn Tiếng Việt và trợ lý ảo cho cán bộ, công chức tại Bộ TT&TT.
Theo đề nghị của Cục trưởng Cục Chuyển đổi số quốc gia, Tập đoàn Công nghiệp - Viễn thông quân đội (Viettel) được Bộ TT&TT lựa chọn làm đơn vị nghiên cứu, thử nghiệm phát triển mô hình ngôn ngữ lớn tiếng Việt và trợ lý ảo cho cán bộ, công chức.
Việc nghiên cứu, thử nghiệm sẽ được thực hiện trong năm 2023. Đơn vị được lựa chọn sẽ chủ động bố trí nhân lực và các nguồn lực của mình trong quá trình nghiên cứu, thử nghiệm theo các quy định hiện hành.
Mục tiêu của việc nghiên cứu, thử nghiệm nhằm tạo ra một trợ lý ảo phiên bản cơ bản dành cho cán bộ, công chức nhà nước và ứng dụng trợ lý ảo phiên bản dành cho Bộ TT&TT.
Bộ TT&TT cũng kỳ vọng sẽ xây dựng được một bộ dữ liệu chung bằng ngôn ngữ tiếng Việt có chất lượng tốt, độ phủ rộng để phục vụ huấn luyện khả năng giao tiếp nhuần nhuyễn cho mô hình ngôn ngữ lớn tiếng Việt.
Nền tảng dịch vụ mô hình ngôn ngữ lớn tiếng Việt sẽ có các thành phần cơ bản bao gồm công cụ phục vụ thu thập, xử lý, dán nhãn dữ liệu và các giao diện lập trình ứng dụng (API) phục vụ phát triển trợ lý ảo.
Sau quá trình nghiên cứu, thử nghiệm, nền tảng trợ lý ảo cho cán bộ, công chức cần đáp ứng các yêu cầu cơ bản như có thể sử dụng trên website và mobile, hỗ trợ giao diện điều khiển bằng giọng nói tiếng Việt, có thể tích hợp dễ dàng vào website, Zalo OA… các kênh ứng dụng OTT phổ biến khác tại Việt Nam.
Trợ lý ảo cần có khả năng cho phép tự bổ sung dữ liệu riêng, cá nhân hóa trên trợ lý ảo thông qua nền tảng mà không cần tới nhân sự kỹ thuật.
Nền tảng trợ lý ảo cho cán bộ, công chức cũng được yêu cầu có kết nối dữ liệu đào tạo tới các cổng dữ liệu lớn của Chính phủ: Cổng dữ liệu văn bản hành chính, cổng dữ liệu mua sắm công, cổng dữ liệu công dân…
Đồng thời, trợ lý ảo này cần có kết nối dữ liệu đào tạo với máy tìm kiếm của doanh nghiệp trong nước để cung cấp thông tin từ Internet (có qua kiểm duyệt).
Đối với bộ công cụ chuẩn bị dữ liệu huấn luyện trợ lý ảo, yêu cầu đặt ra là phải đáp ứng việc nhập dữ liệu văn bản để huấn luyện, có thể bóc nội dung tiếng Việt từ file hình ảnh/file scan có chứa tiếng Việt, có thể tự động bóc băng nội dung tiếng Việt từ file ghi âm cuộc họp, file video báo chí, truyền thông... để đưa vào huấn luyện, có thể tích hợp tự động để lấy dữ liệu từ các bộ công cụ làm việc phổ biến tại Việt Nam.
Để thực hiện nghiên cứu, thử nghiệm phát triển mô hình ngôn ngữ lớn tiếng Việt và trợ lý ảo cho cán bộ, công chức, sẽ có một tổ công tác được thành lập, đặt dưới sự chỉ đạo chung của Bộ trưởng Bộ TT&TT.