สารสกัดจากไฟล์ PDF และรูปภาพ


มีเอกสาร PDF ที่คุณต้องการดึงข้อมูลทั้งหมดออกจาก? ไฟล์ภาพของเอกสารที่สแกนที่คุณต้องการแปลงเป็นข้อความที่แก้ไขได้มีอะไรบ้าง? นี่เป็นปัญหาทั่วไปที่ฉันได้พบในที่ทำงานเมื่อทำงานกับไฟล์

ในบทความนี้ฉันจะพูดถึงวิธีต่างๆที่คุณสามารถทำได้เกี่ยวกับการพยายามแยกข้อความออกจากไฟล์ PDF หรือจากภาพ ผลการสกัดของคุณจะแตกต่างกันไปขึ้นอยู่กับชนิดและคุณภาพของข้อความใน PDF หรือภาพ นอกจากนี้ผลลัพธ์ของคุณจะแตกต่างกันไปขึ้นอยู่กับเครื่องมือที่คุณใช้ด้วยดังนั้นคุณจึงควรทดลองใช้ตัวเลือกด้านล่างนี้ให้มากที่สุดเท่าที่จะเป็นไปได้เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

ดึงข้อมูลจากรูปภาพหรือ PDF

วิธีที่ง่ายที่สุดและรวดเร็วที่สุดในการเริ่มต้นคือการลองใช้บริการสกัดข้อความ PDF แบบออนไลน์ เหล่านี้เป็นปกติฟรีและสามารถให้สิ่งที่คุณต้องการโดยไม่ต้องติดตั้งอะไรในคอมพิวเตอร์ของคุณ นี่คือสองอย่างที่ฉันใช้กับผลดีมาก:

ExtractPDF

0

1 เป็นเครื่องมือฟรีที่จะคว้าภาพข้อความและแบบอักษรออกจากไฟล์ PDF ข้อ จำกัด เพียงอย่างเดียวคือขนาดสูงสุดสำหรับไฟล์ PDF คือ 10 MB นั่นเป็นบิตขนาดเล็ก; ดังนั้นถ้าคุณมีไฟล์ที่ใหญ่กว่าลองใช้วิธีอื่น ๆ ด้านล่าง เลือกไฟล์แล้วคลิกปุ่ม ส่งไฟล์ผลลัพธ์จะเร็วมากและคุณควรเห็นตัวอย่างของข้อความเมื่อคลิกที่แท็บ Text

download text

นอกจากนี้ยังเป็นสิ่งที่ดี เพิ่มประโยชน์ที่สารสกัดจากภาพออกจากไฟล์ PDF เกินไปในกรณีที่คุณต้องการเหล่านั้น! โดยรวมเครื่องมือออนไลน์ทำงานได้ดี แต่ฉันได้ใช้งานเอกสาร PDF สองชุดที่ให้ผลลัพธ์ที่น่าสนใจ ข้อความถูกสกัดได้ดี แต่ด้วยเหตุผลบางอย่างมันจะมีการแบ่งบรรทัดหลังจากแต่ละคำ! ไม่ใช่ปัญหาใหญ่สำหรับไฟล์ PDF แบบสั้น แต่เป็นปัญหาสำหรับไฟล์ที่มีข้อความเป็นจำนวนมาก ลองใช้เครื่องมือถัดไป

Online OCR

Online OCR มักใช้งานเอกสารที่ไม่สามารถแปลงได้อย่างถูกต้องด้วย ExtractPDF ดังนั้นจึงขอแนะนำให้ลองใช้บริการทั้งสองเพื่อดูว่าบริการใดให้ผลลัพธ์ที่ดียิ่งขึ้น OCR ออนไลน์ยังมีคุณลักษณะบางอย่างที่สามารถพิสูจน์ว่ามีประโยชน์สำหรับทุกคนที่มีไฟล์ PDF ขนาดใหญ่ที่ต้องการแปลงข้อความในหน้าเว็บเพียงไม่กี่หน้าแทนที่จะเป็นเอกสารทั้งหมด

สิ่งแรกที่คุณต้องทำคือไป ไปข้างหน้าและสร้างบัญชีฟรี เป็นบิตที่น่ารำคาญ แต่ถ้าคุณไม่ได้สร้างบัญชีฟรีจะเป็นเพียงบางส่วนแปลง PDF ของคุณมากกว่าเอกสารทั้งหมด นอกจากนี้คุณสามารถอัปโหลดเอกสารขนาด 5 เมกะไบต์ได้เพียงอัปโหลดไฟล์ไม่เกิน 100 เมกะไบต์ต่อไฟล์ด้วยบัญชีเท่านั้น

online ocr

ก่อน เลือกภาษาจากนั้นเลือกประเภทรูปแบบเอาต์พุตที่คุณต้องการสำหรับไฟล์ที่แปลง คุณมีตัวเลือกสองตัวเลือกและคุณสามารถเลือกได้มากกว่าหนึ่งแบบถ้าต้องการ ใต้ เอกสารหลายรายการคุณสามารถเลือก หมายเลขหน้าเว็บจากนั้นเลือกเฉพาะหน้าเว็บที่คุณต้องการแปลง จากนั้นคุณจะเลือกไฟล์และคลิก แปลง!

online ocr docs

หลังจากแปลงแล้วคุณจะถูกนำไปที่ส่วน "เอกสาร" (หากคุณลงชื่อเข้าใช้) ซึ่งคุณสามารถดูจำนวนหน้าที่ว่างที่คุณเหลือได้ และลิงก์เพื่อดาวน์โหลดไฟล์ที่แปลงแล้วของคุณ ดูเหมือนว่าคุณมีเพียง 25 หน้าฟรีทุกวันดังนั้นหากคุณต้องการมากกว่านั้นคุณจะต้องรอสักครู่หรือซื้อหน้าเพิ่มเติม

OCR ออนไลน์ได้งานที่ยอดเยี่ยมในการแปลง ไฟล์ PDF ของฉันเนื่องจากสามารถรักษารูปแบบที่แท้จริงของข้อความได้ ในการทดสอบของฉันฉันเอา doc Word ที่ใช้กระสุนขนาดตัวอักษรที่แตกต่างกัน ฯลฯ และแปลงเป็นไฟล์ PDF จากนั้นฉันใช้ Online OCR เพื่อแปลงกลับเป็นรูปแบบ Word และประมาณ 95% เหมือนกับต้นฉบับ

นอกจากนี้หากคุณต้องการแปลงรูปภาพเป็นข้อความ OCR Online ก็สามารถทำได้ง่ายๆเพียงแค่ดึงข้อมูลจากไฟล์ PDF เท่านั้น

ฟรี Online OCR

ตั้งแต่มีการพูดคุยเกี่ยวกับภาพกับข้อความ OCR ให้ฉันพูดถึงเว็บไซต์อื่นที่ดีซึ่งทำงานได้ดีกับภาพ OCR ออนไลน์ฟรี ดีมากและถูกต้องเมื่อดึงข้อมูลจากภาพทดสอบของฉัน ฉันถ่ายรูปจาก iPhone ของฉันจากหนังสือหนังสือแผ่นพับ ฯลฯ และฉันรู้สึกประหลาดใจที่ความสามารถในการแปลงข้อความเป็นอย่างไร

free online ocr

เลือกไฟล์ของคุณแล้วคลิกปุ่มอัปโหลด บนหน้าจอถัดไปมีสองตัวเลือกและภาพตัวอย่างของภาพ คุณสามารถครอบตัดได้หากคุณไม่ต้องการ OCR ทั้งหมด จากนั้นคลิกปุ่ม OCR และข้อความที่แปลงแล้วจะปรากฏใต้ตัวอย่างภาพ นอกจากนี้ยังมีข้อ จำกัด ใด ๆ ซึ่งเป็นสิ่งที่ดีจริงๆ

นอกเหนือจากบริการออนไลน์แล้วยังมีตัวแปลงไฟล์ PDF แบบฟรีแวร์สองแบบที่ฉันต้องการพูดถึงในกรณีที่คุณต้องการซอฟต์แวร์ที่ทำงานอยู่ในเครื่องคอมพิวเตอร์ของคุณเพื่อดำเนินการ Conversion เมื่อใช้บริการออนไลน์คุณจะต้องมีการเชื่อมต่ออินเทอร์เน็ตอยู่เสมอและอาจเป็นไปได้สำหรับทุกคน อย่างไรก็ตามผมสังเกตเห็นว่าคุณภาพของ Conversion จากโปรแกรมฟรีแวร์นั้นแย่กว่าเว็บไซต์อื่น ๆ อย่างมาก

A-PDF Text Extractor

A-PDF Text Extractor เป็นฟรีแวร์ที่ไม่ได้งานที่ค่อนข้างดีของการแยกข้อความจากไฟล์ PDF เมื่อคุณดาวน์โหลดและติดตั้งแล้วให้คลิกปุ่มเปิดเพื่อเลือกไฟล์ PDF ของคุณ จากนั้นคลิก Extract text เพื่อเริ่มต้นกระบวนการ

apdf extractor

เดี๋ยวนี้จะขอให้คุณเก็บตำแหน่งไฟล์ข้อความเอาไว้ . นอกจากนี้คุณยังสามารถคลิกที่ปุ่ม ตัวเลือกซึ่งจะช่วยให้คุณสามารถเลือกเฉพาะบางหน้าเพื่อแยกและประเภทการแยกได้ ตัวเลือกที่สองเป็นที่น่าสนใจเนื่องจากสารสกัดจากข้อความในรูปแบบที่แตกต่างกันและคุ้มค่าที่จะลองทั้งสามเพื่อดูว่าตัวใดให้ผลลัพธ์ที่ดีที่สุด

Pilot PDF2Text

PDF2Text Pilot ไม่ได้งานแยกจากข้อความ ไม่มีตัวเลือกใด ๆ คุณเพียงแค่เพิ่มไฟล์หรือโฟลเดอร์แปลงและหวังให้ดีที่สุด ทำงานได้ดีกับไฟล์ PDF บางไฟล์ แต่ส่วนใหญ่มีปัญหามากมาย

pdf2text

เพียงคลิกเพิ่มไฟล์แล้วคลิก >แปลงเมื่อการแปลงเสร็จสมบูรณ์แล้วให้คลิกที่เบราส์เพื่อเปิดไฟล์ ไมล์สะสมของคุณจะแตกต่างกันไปโดยใช้โปรแกรมนี้ดังนั้นอย่าคาดหวังมากนัก

นอกจากนี้คุณควรตั้งข้อสังเกตไว้ว่าถ้าคุณอยู่ในสภาพแวดล้อมแบบองค์กรหรือใช้ Adobe Acrobat ในการทำงานคุณจะได้ผลลัพธ์ที่ดีกว่ามาก Acrobat ไม่ชัด แต่มีตัวเลือกในการแปลงไฟล์ PDF เป็น Word, Excel และ HTML นอกจากนี้ยังคงรักษาโครงสร้างของเอกสารต้นฉบับและแปลงข้อความที่ซับซ้อนได้ดีที่สุด

จะพิมพ์ทำไม ? เมื่อถ่ายภาพเป็นข้อความได้ 😍

กระทู้ที่เกี่ยวข้อง:


13.11.2014