Chuyển file PDF sang Word tiếng Việt không lỗi
Chia sẻ bởi Văn Kim Ngọc |
Ngày 14/10/2018 |
33
Chia sẻ tài liệu: Chuyển file PDF sang Word tiếng Việt không lỗi thuộc Tư liệu tham khảo
Nội dung tài liệu:
www.violet.vn/vankimngoc sưu tầm
Chuyển file PDF sang Word tiếng Việt
Ngày gửi bài: 30/01/2009 Số lượt đọc: 368
Với văn bản tiếng Anh, việc chuyển đổi từ file PDF sang Word không hề khó và có rất nhiều phần mềm ứng dụng đổi cho trường hợp này. Tuy nhiên, chúng ta thường gặp khó khăn khi chuyển các file PDF tiếng Việt sang Word khi tất cả font chữ đều bị biến dạng và việc ngồi sửa lại thậm chí còn lâu hơn cả việc bạn gõ lại toàn bộ tài liệu đó. Sẽ rất mất thời gian nếu như file PDF đó là một tài liệu hàng trăm trang. Bài viết này xin giới thiệu một cách để giải quyết khó khăn trên khi phối hợp 3 phần mềm IrfanView 4.1, PDF Converter XP và VnDocr 4.0 mà rất tiết kiệm thời gian với cả tập tài liệu hàng trăm trang.
Trước khi thực hiện được việc chuyển file PDF sang Word mà font tiếng Việt không bị lỗi, chúng ta hãy thực hiện tảimiễn phí bộ 3 phần mềm trên trên trong một gói dữ liệu nén tại http://www.mediafire.com/file/fyfv4mowydw/nhandang.rar.Tiếp đó chúng ta thực hiện cài đặt cả 3 phần mềm trên máy tính (cách cài đơn giản như các ứng dụng khác là kích đúp chuột vào file cài đặt vừa tải về) và chuẩn bị việc chuyển đổi.
Các bước thực hiện việc chuyển đổi cơ bản như sau:
Chuyển file PDF sang dạng ảnh với 2 màu (trắng, đen) với độ phân giải càng cao thì kết quả nhận dạng càng tốt. Sẽ có 2 trường hợp xảy ra như sau:
+ Có sẵn file ảnh 2 màu (đen, trắng) từ việc scan tài liệu: Trường hợp này chỉ cần dùng tới 1 phần mềm VnDocc 4.0 là có thể chuyển sang Word ngay.
+ Có sẵn file PDF (tiếng Việt) và bộ 3 phần mềm vừa tải về và cài đặt sẵn trong máy tính. Trường hợp này chúng ta thực hiện các bước như sau:
* Bước 1: Dùng phần mềm PDF Converter XP để chuyển file PDF thành file ảnh.
* Bước 2: Dùng phần mềm IrfanView 4.1 chuyển file ảnh (ở bước 1) về định dạng ảnh 2 màu (đen, trắng)
* Bước 3: Sử dụng phần mềm VnDoc 4.0 để chuyển ảnh đen trắng thành văn bản.
* Bước 4: Copy văn bản đã được định dạng từ phần mềm VnDoc 4.0 sang Word.
Khi đã có sẵn bộ 3 phần mềm trên cài đặt trên máy tính, thì việc thực hiện chuyển đổi văn bản từ file PDF sang Word rất đơn giản qua 4 bước trên, cụ thể chúng ta cùng thực hiện như sau:
Bước 1. Chuyển file pdf thành file ảnh bởi phần mềm PDF converter XP:
Mở chương trình PDF converter XP (biểu tượng chương trình sau khi cài đặt là ), giao diện chương trình hiện ra như sau:
Chuyển qua tab Pdf > Image; Chọn nút Add files…, nhập file pdf sẽ chuyển.. Sau khi đã chọn file PDP cần chuyển, nhấp chuột vào nút Convert now! mở ra hộp thoại mới yêu cầu xác định nơi lưu file ảnh xuất ra và chọn độ phân giải của ảnh. Tốt nhất, chúng ta nên chọn độ phân giải ảnh là 300 dpi để việc nhận dạng ký tự được chính xác hơn.
Bước 2. Chuyển định dạng ảnh về đen trắng bằng phần mềm vnDocr 4.0 :
Việc chuyển thành ảnh đen trắng nhằm để cho chương trình vnDocr 4.0 có thể làm việc được. Sau khi cài đặt, chương trình có biểu tượng như sau:
Kích đúp vào biểu tượng trên để khởi động chương trình IrfanView 4.1, giao diện chương trình mở ra như sau:
chọn File> Batch conversion/rename. Một hộp thoại xuất hiện.
Trong phần Look in bạn chọn đường dẫn tới nơi đã lưu ảnh ở phần trên. Chọn tất cả hình cần rồi chọn Add.
Chọn Use advanced options > Advanced > Change colordepth > 2color (black/while) (1BPP) > OK.
Chọn file lưu trong mục Output directory for result files > Start Batch để chương trình bắt đầu làm việc.
3. Sử dụng phần mềm VnDocr 4.0 để nhận dạng văn bản:
Mở phần mềm VnDocr 4.0, chọn Đọc ảnh, chọn các ảnh đã lưu ở bước trước, bấm Open. Chọn nút Nhận dạng trên menu, trong bước này, ta cần xác định chính xác vùng chọn là văn bản, ảnh haybảng biểu, bằng cách bấm chuột phải vào vùng đó và chọn định dạng phù hợp (chương trình thường nhầm lẫn giữa định dạng ảnh và bảng).
Sau khi đã chỉnh định dạng các vùng, nhấp chuột vào nút Nhận dạng để chương trình làm việc.
4. Copy qua Word văn bản đã nhận dạng:
Trong bộ phần mềm chúng ta
Chuyển file PDF sang Word tiếng Việt
Ngày gửi bài: 30/01/2009 Số lượt đọc: 368
Với văn bản tiếng Anh, việc chuyển đổi từ file PDF sang Word không hề khó và có rất nhiều phần mềm ứng dụng đổi cho trường hợp này. Tuy nhiên, chúng ta thường gặp khó khăn khi chuyển các file PDF tiếng Việt sang Word khi tất cả font chữ đều bị biến dạng và việc ngồi sửa lại thậm chí còn lâu hơn cả việc bạn gõ lại toàn bộ tài liệu đó. Sẽ rất mất thời gian nếu như file PDF đó là một tài liệu hàng trăm trang. Bài viết này xin giới thiệu một cách để giải quyết khó khăn trên khi phối hợp 3 phần mềm IrfanView 4.1, PDF Converter XP và VnDocr 4.0 mà rất tiết kiệm thời gian với cả tập tài liệu hàng trăm trang.
Trước khi thực hiện được việc chuyển file PDF sang Word mà font tiếng Việt không bị lỗi, chúng ta hãy thực hiện tảimiễn phí bộ 3 phần mềm trên trên trong một gói dữ liệu nén tại http://www.mediafire.com/file/fyfv4mowydw/nhandang.rar.Tiếp đó chúng ta thực hiện cài đặt cả 3 phần mềm trên máy tính (cách cài đơn giản như các ứng dụng khác là kích đúp chuột vào file cài đặt vừa tải về) và chuẩn bị việc chuyển đổi.
Các bước thực hiện việc chuyển đổi cơ bản như sau:
Chuyển file PDF sang dạng ảnh với 2 màu (trắng, đen) với độ phân giải càng cao thì kết quả nhận dạng càng tốt. Sẽ có 2 trường hợp xảy ra như sau:
+ Có sẵn file ảnh 2 màu (đen, trắng) từ việc scan tài liệu: Trường hợp này chỉ cần dùng tới 1 phần mềm VnDocc 4.0 là có thể chuyển sang Word ngay.
+ Có sẵn file PDF (tiếng Việt) và bộ 3 phần mềm vừa tải về và cài đặt sẵn trong máy tính. Trường hợp này chúng ta thực hiện các bước như sau:
* Bước 1: Dùng phần mềm PDF Converter XP để chuyển file PDF thành file ảnh.
* Bước 2: Dùng phần mềm IrfanView 4.1 chuyển file ảnh (ở bước 1) về định dạng ảnh 2 màu (đen, trắng)
* Bước 3: Sử dụng phần mềm VnDoc 4.0 để chuyển ảnh đen trắng thành văn bản.
* Bước 4: Copy văn bản đã được định dạng từ phần mềm VnDoc 4.0 sang Word.
Khi đã có sẵn bộ 3 phần mềm trên cài đặt trên máy tính, thì việc thực hiện chuyển đổi văn bản từ file PDF sang Word rất đơn giản qua 4 bước trên, cụ thể chúng ta cùng thực hiện như sau:
Bước 1. Chuyển file pdf thành file ảnh bởi phần mềm PDF converter XP:
Mở chương trình PDF converter XP (biểu tượng chương trình sau khi cài đặt là ), giao diện chương trình hiện ra như sau:
Chuyển qua tab Pdf > Image; Chọn nút Add files…, nhập file pdf sẽ chuyển.. Sau khi đã chọn file PDP cần chuyển, nhấp chuột vào nút Convert now! mở ra hộp thoại mới yêu cầu xác định nơi lưu file ảnh xuất ra và chọn độ phân giải của ảnh. Tốt nhất, chúng ta nên chọn độ phân giải ảnh là 300 dpi để việc nhận dạng ký tự được chính xác hơn.
Bước 2. Chuyển định dạng ảnh về đen trắng bằng phần mềm vnDocr 4.0 :
Việc chuyển thành ảnh đen trắng nhằm để cho chương trình vnDocr 4.0 có thể làm việc được. Sau khi cài đặt, chương trình có biểu tượng như sau:
Kích đúp vào biểu tượng trên để khởi động chương trình IrfanView 4.1, giao diện chương trình mở ra như sau:
chọn File> Batch conversion/rename. Một hộp thoại xuất hiện.
Trong phần Look in bạn chọn đường dẫn tới nơi đã lưu ảnh ở phần trên. Chọn tất cả hình cần rồi chọn Add.
Chọn Use advanced options > Advanced > Change colordepth > 2color (black/while) (1BPP) > OK.
Chọn file lưu trong mục Output directory for result files > Start Batch để chương trình bắt đầu làm việc.
3. Sử dụng phần mềm VnDocr 4.0 để nhận dạng văn bản:
Mở phần mềm VnDocr 4.0, chọn Đọc ảnh, chọn các ảnh đã lưu ở bước trước, bấm Open. Chọn nút Nhận dạng trên menu, trong bước này, ta cần xác định chính xác vùng chọn là văn bản, ảnh haybảng biểu, bằng cách bấm chuột phải vào vùng đó và chọn định dạng phù hợp (chương trình thường nhầm lẫn giữa định dạng ảnh và bảng).
Sau khi đã chỉnh định dạng các vùng, nhấp chuột vào nút Nhận dạng để chương trình làm việc.
4. Copy qua Word văn bản đã nhận dạng:
Trong bộ phần mềm chúng ta
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...
Người chia sẻ: Văn Kim Ngọc
Dung lượng: 849,50KB|
Lượt tài: 0
Loại file: doc
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)