DeepSeek trình làng công nghệ AI đọc hiểu tài liệu như con người, giúp xử lý dữ liệu nhanh gấp 20 lần
DeepSeek vừa ra mắt DeepSeek-OCR, mô hình “mắt thần AI” có khả năng đọc hiểu như con người và giúp xử lý dữ liệu nhanh gấp 20 lần.
Startup AI DeepSeek tiếp tục khiến giới công nghệ kinh ngạc khi ra mắt mô hình đa phương thức DeepSeek-OCR, được mệnh danh là “mắt thần AI”. Công nghệ mới này cho phép máy tính đọc hiểu văn bản như con người, đồng thời giảm đến 20 lần số lượng token cần xử lý, giúp tiết kiệm đáng kể chi phí tính toán mà vẫn duy trì độ chính xác vượt trội.

Khác với các mô hình ngôn ngữ truyền thống vốn xử lý văn bản theo từng token, DeepSeek-OCR chuyển đổi toàn bộ nội dung thành hình ảnh, sau đó sử dụng năng lực nhận thức thị giác để nén và hiểu thông tin. Cách tiếp cận này tương tự như cách con người đọc một trang sách, khi ta nắm bắt ý nghĩa tổng thể thay vì ghép từng chữ riêng lẻ.
Nhờ cơ chế đó, mô hình có thể xử lý khối lượng dữ liệu khổng lồ mà chi phí tính toán không tăng tương ứng. Theo kết quả thử nghiệm, DeepSeek-OCR giúp giảm số token từ 7 đến 20 lần so với phương pháp truyền thống nhưng vẫn giữ được độ chính xác cao. Không chỉ đọc được chữ, hệ thống còn hiểu bố cục, ngữ cảnh, cấu trúc, bảng biểu và cả hình ảnh trong tài liệu, giúp tái hiện lại thông tin một cách đầy đủ và logic.
DeepSeek-OCR được xây dựng trên hai thành phần cốt lõi. Thứ nhất là DeepEncoder, bộ phận đảm nhiệm việc xử lý và nén dữ liệu đầu vào. DeepEncoder duy trì mức kích hoạt thấp ngay cả khi làm việc với hình ảnh độ phân giải cao, đồng thời nén thông tin mạnh mẽ để tạo ra lượng token tối thiểu. Thứ hai là DeepSeek3B-MoE-A570M, mô hình Mixture-of-Experts với 570 triệu tham số, đảm nhận nhiệm vụ tái tạo lại văn bản gốc từ dữ liệu đã được nén. Kiến trúc MoE giúp chia nhỏ mô hình thành nhiều “chuyên gia” chuyên trách từng phần dữ liệu, nhờ đó tối ưu hiệu suất mà không cần kích hoạt toàn bộ hệ thống.

DeepSeek-OCR được huấn luyện trên tập dữ liệu đồ sộ gồm hơn 30 triệu trang PDF bằng 100 ngôn ngữ khác nhau, thêm vào đó là 10 triệu mẫu OCR trong môi trường tự nhiên, 10 triệu biểu đồ, 5 triệu công thức hóa học và 1 triệu bài toán hình học. Nhờ nguồn dữ liệu phong phú này, mô hình không chỉ đọc được văn bản thông thường mà còn có thể phân tích chính xác các nội dung chuyên sâu như sơ đồ khoa học, bảng biểu hay phương trình phức tạp.
Trên bộ dữ liệu chuẩn OmniDocBench, DeepSeek-OCR vượt trội hơn các mô hình OCR hàng đầu như GOT-OCR 2.0 và MinerU 2.0. Trong khi GOT-OCR cần 256 token và MinerU tới 6.000 token cho mỗi trang, DeepSeek-OCR chỉ sử dụng khoảng 100 token mà vẫn đảm bảo độ chính xác cao.
Về tốc độ xử lý, mô hình có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày chỉ với một card đồ họa NVIDIA A100-40G. Con số này mở ra khả năng mở rộng quy mô huấn luyện mô hình ngôn ngữ lớn chưa từng có trước đây.
Điểm đột phá của DeepSeek-OCR nằm ở khả năng nén quang học. Mô hình không tạo hay chỉnh sửa hình ảnh, mà nén thông tin trực quan ngay trong quá trình xử lý, giúp việc nhận dạng nhanh và hiệu quả hơn. Đây chính là giải pháp cho bài toán ngữ cảnh dài mà các mô hình AI hiện nay gặp phải.
Với cơ chế này, một tài liệu dài hàng triệu token có thể được thu gọn còn một phần mười, giúp hệ thống AI “nhìn” được toàn bộ nội dung như cách não người tiếp nhận hình ảnh. Công nghệ nén quang học vì thế mở đường cho thế hệ mô hình ngôn ngữ tiếp theo có khả năng xử lý thông tin quy mô lớn một cách tự nhiên và tiết kiệm hơn.
Công nghệ DeepSeek-OCR hứa hẹn tạo ra bước ngoặt trong nhiều lĩnh vực. Nó có thể giúp phân tích tài liệu tự động trong ngành tài chính, khoa học hay pháp lý, hỗ trợ OCR theo luồng để truy cập dữ liệu nhanh hơn và thực hiện dịch thuật thời gian thực có tính đến ngữ cảnh hình ảnh.
DeepSeek-OCR không chỉ là một bản nâng cấp của công nghệ OCR truyền thống mà là một cuộc cách mạng trong cách máy móc nhận thức và xử lý dữ liệu. Sự ra đời của mô hình này tiếp tục khẳng định cam kết của DeepSeek trong việc tăng hiệu suất AI và giảm chi phí vận hành, mở ra kỷ nguyên mới cho trí tuệ nhân tạo có khả năng đọc hiểu thế giới như con người.