Trung tâm R&D Samsung SDS Việt Nam ra mắt giải pháp OCR dựa trên AI trên CMC Cloud (C.OPE2N, http://copen.vn/)
Giải pháp OCR dựa trên AI là gì?
Nhận dạng ký tự quang học (OCR) là phần mềm cho phép chuyển đổi hình ảnh của văn bản (văn bản in hoặc văn bản viết tay được chụp bằng máy quét hoặc bằng thiết bị di động) thành tài liệu để chỉnh sửa. Đặc biệt, OCR có khả năng số hóa nhiều tài liệu phi cấu trúc như hóa đơn, hộ chiếu, danh thiếp, tài liệu. Kể từ khi ra đời, công nghệ OCR đã giúp nhiều doanh nghiệp đẩy nhanh quá trình chuyển đổi số, từ đó tối ưu hóa nguồn nhân lực để tiết kiệm chi phí vận hành.
Samsung SDS Việt Nam đã phát triển phần mềm OCR dựa trên AI đã được triển khai trên nền tảng CMC Cloud (C.OPE2N – http://copen.vn/). Các tính năng và chức năng chính của phần mềm sẽ được trình bày trong các phần sau.
Tính năng chính của giải pháp OCR dựa trên AI trên CMC Cloud
Giải pháp OCR dựa trên AI của SDSRV đang tập trung vào lĩnh vực tài chính, ngân hàng.
Nhận dạng văn bản viết tay: giải pháp OCR dựa trên AI cho phép nhận dạng cả văn bản in và viết tay với độ chính xác cao - lên tới 99% đối với ký tự in, 95% đối với ký tự số viết tay (cụ thể là ngày tháng, số điện thoại, số chứng minh nhân dân) và 85% cho chữ viết tay như họ tên, địa chỉ.
Trích xuất thông tin khóa (KIE): giải pháp OCR dựa trên AI hỗ trợ xác định ý nghĩa của từng dòng dữ liệu, từ đó dễ dàng trích xuất thông tin chính của tài liệu và tích hợp với hệ thống cơ sở dữ liệu hiện có của khách hàng.
Phân loại tài liệu: giải pháp OCR dựa trên AI hỗ trợ phân loại nhiều loại tài liệu với độ chính xác cao. Ví dụ: tính năng này hỗ trợ ngân hàng hoặc công ty bảo hiểm tự động xây dựng hệ thống phân loại bất kỳ loại dữ liệu phi cấu trúc nào.
Chức năng của giải pháp OCR trên CMC Cloud
Chức năng 1: Trích xuất thông tin từ các bài báo tổng hợp (Basic OCR)
Từ một hình ảnh, giải pháp OCR hỗ trợ trích xuất toàn bộ thông tin văn bản ra file txt. Người dùng không cần phải gõ lại thủ công nội dung thông tin từ file ảnh mà sử dụng kết quả trả về sau khi trích xuất để sao chép hoặc chỉnh sửa.
Chức năng 2: Trích xuất thông tin từ chứng minh nhân dân
Từ ảnh màu chứng minh thư nhân dân Việt Nam, thông tin trích xuất được có thể lưu dưới dạng file csv. Đặc biệt, chức năng này còn hỗ trợ mọi loại CMND như thẻ giấy, thẻ chip điện tử.
Thông tin chính bao gồm: Số CMND, Họ tên, Ngày sinh, Quê quán, Địa chỉ, Giới tính, Quốc tịch, Ngày hết hạn, Nơi cấp.
Chức năng 3: Trích xuất thông tin từ giấy phép lái xe
Từ ảnh màu của giấy phép lái xe Việt Nam, thông tin được trích xuất có thể được lưu dưới dạng tệp csv.
Các trường thông tin gồm: Số CMND, Họ tên, Ngày sinh, Địa chỉ, Quốc tịch, Cấp bậc, Ngày hết hạn, Phạm vi ngày
Chức năng 4: Trích xuất thông tin hóa đơn
Từ hình ảnh hóa đơn VAT Việt Nam một trang được quét, thông tin được trích xuất có thể được lưu dưới dạng tệp csv.
Các trường thông tin bao gồm: Số mẫu, Serial, Số hóa đơn, Ngày phát hành, Tên công ty người bán, Mã số thuế của người bán, Địa chỉ của người bán, Số điện thoại của người bán, Tên công ty người mua, Địa chỉ của người mua, Mã số thuế của người mua, Thuế suất VAT, Tổng số tiền, Tổng số tiền bằng chữ.
Chức năng 5: Trích xuất văn bản trong mẫu
Nếu người dùng có một biểu mẫu và muốn trích xuất thông tin văn bản ở một số khu vực nhất định, chức năng này cho phép người dùng:
- Xác định mẫu bằng cách chọn vùng hình ảnh và văn bản tiêu chuẩn để trích xuất. Các mẫu đã xác định có thể được lưu và sử dụng sau.
- Xác định các điểm neo để khớp hình ảnh đầu vào với mẫu.
- Trích xuất thông tin từ hình ảnh theo mẫu xác định.
Ví dụ 1: Tạo mẫu
Ví dụ 2: Trích xuất thông tin
Hãy thử xem
Chỉ sau khi đăng ký tài khoản đơn giản, bạn có thể trải nghiệm dùng thử miễn phí giải pháp OCR bằng cách truy cập vào link sau: https://copen.vn/chi-tiet-san-pham/ocr-api
SDSRV - SAMSUNG SDS R&D CENTER IN VIETNAM
- Official Blog: https://sdsrv.ai/
- Facebook Channel: https://www.facebook.com/SDSRV.official
- Contact: Karrman Kim, Head of SDSRV (Tae Hyun, Kim, karrman@samsung.com)