در این مطلب، ویدئو نحوه استخراج متن از PDF اسکن شده با استفاده از NoelOCR – Python با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:05:23
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:11,600 –> 00:00:16,000
خوب بچه ها حال شما چطور است، امیدوارم
به کانال یوتیوب خوش آمدید،
2
00:00:16,000 –> 00:00:21,600
در این آموزش ما
یاد می گیریم که چگونه PDF اسکن شده را
3
00:00:21,600 –> 00:00:30,000
به متن در پایتون تبدیل کنیم یا چگونه
متن را از PDF اسکن شده استخراج کنیم. بسیار خوب، در این
4
00:00:30,000 –> 00:00:36,000
آموزش از
ابزاری به نام NoelOCR استفاده می کنیم که
5
00:00:36,000 –> 00:00:44,400
در سیستم عامل مبتنی بر لینوکس پشتیبانی می
شود. بسیار خوب، پس اینجا من راست
6
00:00:44,400 –> 00:00:49,840
کلیک می کنم و ترمینال را باز می کنم. من
از Kali Linux استفاده میکنم، بنابراین میخواهم
7
00:00:49,840 –> 00:00:52,720
ابزار okay pip3 را
8
00:00:56,000 –> 00:01:07,360
نصب کنم NoelOCR را نصب کنم، بسیار خوب، میتوانید ببینید که
نیاز برآورده شده است. بنابراین پس از آن
9
00:01:08,080 –> 00:01:12,400
اجازه دهید PDF اسکن شده را به شما نشان دهم
که می خواهم متن را از آن استخراج کنم.
10
00:01:12,400 –> 00:01:20,400
پس اجازه دهید دوبار کلیک کنم و kondo.pdf را باز
کنم
11
00:01:20,400 –> 00:01:28,800
.
بنابراین من می خواهم این متن را
12
00:01:28,800 –> 00:01:36,320
از این pdf استخراج کنم زیرا می بینید که
یک PDF اسکن شده است. بنابراین اجازه دهید آن را به حداقل برسانم،
13
00:01:36,960 –> 00:01:45,040
پس چگونه از ابزار استفاده کنیم خوب است.
اجازه دهید کاری شبیه به این python3 انجام دهم، سپس
14
00:01:46,720 –> 00:01:54,320
NoleOCR را به صورت nm وارد کنم،
بنابراین کتابخانه را وارد میکنیم، سپس
15
00:01:54,320 –> 00:01:58,720
از ماژولی به نام
processPDF برای استخراج متن
16
00:01:59,440 –> 00:02:06,240
از PDF اسکن شده استفاده میکنیم.
بنابراین nm dot processPDF
17
00:02:07,280 –> 00:02:21,840
براکت سپس نام پیدیاف اسکنشده که
kondo.pdf است، پس
18
00:02:22,560 –> 00:02:31,600
تمام میشود پس از اینکه بتوانم
متن این سند اسکن شده را ببینم یا چاپ کنم.
19
00:02:32,160 –> 00:02:36,880
بنابراین وقتی اینجا چاپ میکنم،
میتوانید ببینید که اینها
20
00:02:36,880 –> 00:02:44,720
متنهای PDF اسکنشده هستند.
من می توانم برخی از سؤالات را در اینجا به شما نشان دهم، مانند
21
00:02:48