Lập trình tool đọc file scan pdf và đưa vào csdl text và csdl vector (có sử dụng AI)

Description

Dự án xây dựng nền tảng Web App cho phép:
Upload file PDF văn bản nhà nước.
Tự động OCR → tạo PDF 2 lớp (giữ ảnh gốc + text).
Gán metadata từ 12 trường (theo file Excel mẫu).
Lưu trữ vào kho dữ liệu số hoá + xuất Excel.
Lập chỉ mục văn bản bằng vector embedding để tìm kiếm theo ngữ nghĩa.
Triển khai dạng on-premise, bảo mật nội bộ.
Hệ thống phải chạy ổn định liên tục số hoá 50.000 trang văn bản /ngày, có khả năng mở rộng, giao diện trực quan
Category: IT/ Technical/IT - Software
Job length:
Skills Required: OCR Tesseract

Similar Jobs on freelancerViet

Web Developer

Wed Developer, thời gian hoàn thành 3 tháng View more