Lập trình tool đọc file scan pdf và đưa vào csdl text và csdl vector (có sử dụng AI)

Yêu cầu công việc

Dự án xây dựng nền tảng Web App cho phép:
Upload file PDF văn bản nhà nước.
Tự động OCR → tạo PDF 2 lớp (giữ ảnh gốc + text).
Gán metadata từ 12 trường (theo file Excel mẫu).
Lưu trữ vào kho dữ liệu số hoá + xuất Excel.
Lập chỉ mục văn bản bằng vector embedding để tìm kiếm theo ngữ nghĩa.
Triển khai dạng on-premise, bảo mật nội bộ.
Hệ thống phải chạy ổn định liên tục số hoá 50.000 trang văn bản /ngày, có khả năng mở rộng, giao diện trực quan
Lĩnh vực: IT/ Công Nghệ/CNTT - Phần Mềm
Thời gian công việc:
Kỹ năng cần có: OCR Tesseract

Công việc tương tự

Web Developer

Wed Developer, thời gian hoàn thành 3 tháng Xem thêm