در این مطلب، ویدئو مقدمه ای بر OCR (OCR در آموزش پایتون 01.01) با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:12:07
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:03,570 –> 00:00:09,780
[موسیقی]
2
00:00:11,599 –> 00:00:13,360
سلام و خوش آمدید به این سری جدید
3
00:00:13,360 –> 00:00:15,440
که مدت هاست به پایان رسیده است، من حدود سه ماه است که
4
00:00:15,440 –> 00:00:16,800
قول آن را
5
00:00:16,800 –> 00:00:18,560
می دهم و بالاخره دارم
6
00:00:18,560 –> 00:00:20,240
آن را انجام می دهم زیرا سری
7
00:00:20,240 –> 00:00:22,080
طبقه بندی متن و مدل سازی موضوعات من در حال پایان
8
00:00:22,080 –> 00:00:22,640
9
00:00:22,640 –> 00:00:24,720
دادن به این مجموعه است.
10
00:00:24,720 –> 00:00:27,199
تمرکز بر روی یک مشکل بسیار رایج
11
00:00:27,199 –> 00:00:28,960
نه تنها در علوم انسانی دیجیتال، بلکه
12
00:00:28,960 –> 00:00:30,800
در همه رشتهها
13
00:00:30,800 –> 00:00:33,440
، یعنی نحوه کار با ocr یا
14
00:00:33,440 –> 00:00:35,760
تشخیص کاراکتر نوری و تبدیل
15
00:00:35,760 –> 00:00:36,079
16
00:00:36,079 –> 00:00:39,280
تصویری که متن درون آن به متن خام وجود دارد،
17
00:00:39,280 –> 00:00:40,000
18
00:00:40,000 –> 00:00:42,960
این یک گام اساسی در بسیاری از موارد
19
00:00:42,960 –> 00:00:44,079
مختلف است. وظایف
20
00:00:44,079 –> 00:00:46,879
چون به عنوان انسان گرا ممکن است به یک
21
00:00:46,879 –> 00:00:48,000
تصویر
22
00:00:48,000 –> 00:00:51,280
نگاه کنیم، متن را در آن ببینیم و آن را به عنوان متن بخوانیم،
23
00:00:51,280 –> 00:00:53,520
این کاری است که ما انجام می دهیم، اما کامپیوتر
24
00:00:53,520 –> 00:00:54,480
آن را به عنوان متن نمی بیند،
25
00:00:54,480 –> 00:00:58,239
ما باید آن تصویر
26
00:00:58,239 –> 00:01:00,640
را به آرایه های عددی
27
00:01:00,640 –> 00:01:01,359
تبدیل کنیم.
28
00:01:01,359 –> 00:01:04,239
توسط یک سیستم ocr تجزیه می شود تا سپس
29
00:01:04,239 –> 00:01:05,199
آن تصویر را به متن خام تبدیل
30
00:01:05,199 –> 00:01:08,080
کند، چرا این مهم است زیرا ocr
31
00:01:08,080 –> 00:01:09,040
به
32
00:01:09,040 –> 00:01:11,760
تصاویری که هنوز قابل جستجو نیستند اجازه می دهد تا
33
00:01:11,760 –> 00:01:12,640
34
00:01:12,640 –> 00:01:15,280
اکثر اوقات انسان گرایان دیجیتالی قابل جستجو شوند.
35
00:01:15,280 –> 00:01:17,040
از نرمافزارهای آماده
36
00:01:17,040 –> 00:01:19,920
مانند adobe برای اجرای واقعی ocr استفاده نمیکنم،
37
00:01:19,920 –> 00:01:21,920
اما اگر شما مانند من هستید و با زبانهایی کار میکنید
38
00:01:21,920 –> 00:01:24,080
که انگلیسی نیستند یا متنهایی
39
00:01:24,080 –> 00:01:26,159
که
40
00:01:26,159 –> 00:01:28,240
قالب بندی ضعیفی دارند یا ممکن است اشتباهاتی
41
00:01:28,240 –> 00:01:29,600
داشته باشند یا ممکن است تایپ شده باشند. در
42
00:01:29,600 –> 00:01:31,040
اوایل دهه 1930
43
00:01:31,040 –> 00:01:32,880
شما با مشکلاتی مواجه خواهید شد و این
44
00:01:32,880 –> 00:01:35,200
به این دلیل است که adobe
45
00:01:35,200 –> 00:01:37,280
ocr تقریباً به خوبی سایر
46
00:01:37,280 –> 00:01:38,640
نرم افزارهای رایگانی نیست که در آنجا وجود دارد،
47
00:01:38,640 –> 00:01:41,280
به ویژه آنچه که ما
48
00:01:41,280 –> 00:01:42,640
در این سری از آن استفاده خواهیم کرد
49
00:01:42,640 –> 00:01:44,000
چند کتابخانه مختلف است. من فقط در یک ثانیه می خواهم ادامه دهم،
50
00:01:44,000 –> 00:01:45,119
51
00:01:45,119 –> 00:01:47,119
اما هدف کلی این
52
00:01:47,119 –> 00:01:48,960
مجموعه این است که به شما یاد دهد چگونه از
53
00:01:48,960 –> 00:01:52,079
پایتون برای ocr هر سندی به هر
54
00:01:52,079 –> 00:01:52,799
زبانی استفاده کنید،
55
00:01:52,799 –> 00:01:54,159
اکنون مهم است که توجه داشته باشید که این
56
00:01:54,159 –> 00:01:55,600
برای اسناد دست نویس کار نمی
57
00:01:55,600 –> 00:01:56,399
58
00:01:56,399 –> 00:01:57,840
کند. مشکل متفاوتی
59
00:01:57,840 –> 00:01:59,439
خواهد بود که در آینده به آن می پردازم
60
00:01:59,439 –> 00:02:00,960
زیرا مدل های یادگیری ماشینی
61
00:02:00,960 –> 00:02:03,439
که برای حل مشکلات دست خط
62
00:02:03,439 –> 00:02:04,799
63
00:02:04,799 –> 00:02:06,719
استفاده می کنیم با مدل های یادگیری ماشینی که حداقل برای حل مسائل تایپ شده استفاده می کنیم متفاوت است.
64
00:02:06,719 –> 00:02:09,919
در حال حاضر در سال 2021،
65
00:02:09,919 –> 00:02:13,440
بنابراین یک گردش کار نسبتاً رایج برای
66
00:02:13,440 –> 00:02:15,680
حل یک مشکل ocr در پایتون وجود دارد،
67
00:02:15,680 –> 00:02:17,280
اکنون این گردش کار
68
00:02:17,280 –> 00:02:20,160
بسته به
69
00:02:20,160 –> 00:02:21,599
نوع سندی که با آن کار میکنید
70
00:02:21,599 –> 00:02:22,160
71
00:02:22,160 –> 00:02:24,480
و کیفیت آن سند، کمی تنظیم میشود.
72
00:02:24,480 –> 00:02:26,319
در بیشتر موارد یک گردش کار
73
00:02:26,319 –> 00:02:28,879
سیستمی است که در آن شما اساساً
74
00:02:28,879 –> 00:02:31,599
یک سند را از طریق یک خط لوله عبور
75
00:02:31,599 –> 00:02:33,120
می دهید به آن فکر کنید که به این فکر کنید که یک
76
00:02:33,120 –> 00:02:35,680
لوله پایین می آید یک گردش کار همیشه
77
00:02:35,680 –> 00:02:37,760
در اینجا ترتیبی خواهد بود در این مورد،
78
00:02:37,760 –> 00:02:39,840
بنابراین این گردش کار شما یک تصویر را باز می
79
00:02:39,840 –> 00:02:41,840
کنید و انجام می دهید. که در پایتون از
80
00:02:41,840 –> 00:02:42,959
کتابخانه ای به نام pill
81
00:02:42,959 –> 00:02:45,120
که مخفف pillow است استفاده می کنید، اکنون
82
00:02:45,120 –> 00:02:47,040
نحوه کار با بالش
83
00:02:47,040 –> 00:02:48,480
تا حد زیادی به نسخه شما بستگی دارد
84
00:02:48,480 –> 00:02:50,080
و من در ویدیوی بعدی
85
00:02:50,080 –> 00:02:51,599
وقتی در مورد هر یک از این موارد صحبت می کنم به آن خواهم پرداخت.
86
00:02:51,599 –> 00:02:53,440
کتابخانه ها و نحوه نصب آنها،
87
00:02:53,440 –> 00:02:54,959
زیرا ممکن است کمی مشکل باشند،
88
00:02:54,959 –> 00:02:56,800
گاهی اوقات اجازه ندهید که شما را بترساند،
89
00:02:56,800 –> 00:02:57,840
من به شما نشان خواهم داد که
90
00:02:57,840 –> 00:02:59,840
91
00:02:59,840 –> 00:03:00,400
چگونه می توانید
92
00:03:00,400 –> 00:03:03,040
بر آنها غلبه کنید، مانند قرار دادن tesseract
93
00:03:03,040 –> 00:03:04,400
در خود. مسیر
94
00:03:04,400 –> 00:03:05,920
تمام این مشکلات در
95
00:03:05,920 –> 00:03:07,519
ویدیوی بعدی بررسی خواهد شد همین حالا
96
00:03:07,519 –> 00:03:09,760
به صورت مفهومی به مشکل فکر کنید به
97
00:03:09,760 –> 00:03:11,440
یاد داشته باشید همیشه خوب است که به
98
00:03:11,440 –> 00:03:13,120
یک مشکل برنامه نویسی
99
00:03:13,120 –> 00:03:15,040
به عنوان یک مفهوم فکر کنید ابتدا به صورت مفهومی به آن فکر کنید
100
00:03:15,040 –> 00:03:16,959
و چگونه آن را حل کنید
101
00:03:16,959 –> 00:03:18,800
و سپس شروع به پیاده سازی آن
102
00:03:18,800 –> 00:03:21,200
راه حل های کوچک کنید. کمی با آن مقابله کنید،
103
00:03:21,200 –> 00:03:24,000
بنابراین هنگامی که یک تصویر در پایتون باز کردید،
104
00:03:24,000 –> 00:03:26,000
سپس opencv می آید
105
00:03:26,000 –> 00:03:28,640
opencv به شما این امکان را می دهد که یک تصویر را دستکاری
106
00:03:28,640 –> 00:03:29,120
کنید
107
00:03:29,120 –> 00:03:31,200
زمانی که می خواهید چیزی را بسازید
108
00:03:31,200 –> 00:03:33,040
که قرار نیست از تصویر استاندارد
109
00:03:33,040 –> 00:03:34,319
خارج از قفسه ای
110
00:03:34,319 –> 00:03:36,000
که می خواهید استفاده کنید. برای تبدیل آن، می خواهید آن
111
00:03:36,000 –> 00:03:37,760
را دستکاری کنید، می خواهید بخش هایی
112
00:03:37,760 –> 00:03:39,519
از آن را استخراج کنید و بسیاری از
113
00:03:39,519 –> 00:03:41,200
موارد، کارهایی مانند دوتایی کردن آن و
114
00:03:41,200 –> 00:03:42,400
تبدیل آن به
115
00:03:42,400 –> 00:03:44,400
سیاه و سفید انجام می دهید، ممکن است مقیاس خاکستری را انجام دهید
116
00:03:44,400 –> 00:03:46,000
. همه اینها
117
00:03:46,000 –> 00:03:47,680
در طول این سری و اینکه چرا
118
00:03:47,680 –> 00:03:49,760
کارهای خاصی را روی تصاویر خاصی انجام می دهید
119
00:03:49,760 –> 00:03:51,440
اساساً این به سیستم کامپیوتری اجازه می دهد
120
00:03:51,440 –> 00:03:53,360
تا مدلی را انجام دهد.
121
00:03:53,360 –> 00:03:55,840
122
00:03:55,840 –> 00:03:56,959
123
00:03:56,959 –> 00:03:59,760
h دقیق تر است،
124
00:03:59,760 –> 00:04:00,400
زیرا با
125
00:04:00,400 –> 00:04:02,480
داده های کمتر کار می کند، با رنگ کار نمی کند
126
00:04:02,480 –> 00:04:04,000
، با یک تصویر سیاه و سفید باینری کار می کند،
127
00:04:04,000 –> 00:04:05,360
ما در چند ویدیو به
128
00:04:05,360 –> 00:04:06,159
همه این موارد خواهیم پرداخت،
129
00:04:06,159 –> 00:04:08,080
در واقع زیرا
130
00:04:08,080 –> 00:04:09,360
احتمالاً یکی از
131
00:04:09,360 –> 00:04:11,519
سخت ترین بخش های این کل است. فرآیند در حال
132
00:04:11,519 –> 00:04:13,599
دستکاری تصویر به درستی است،
133
00:04:13,599 –> 00:04:15,760
در نهایت هنگامی که تصویر با
134
00:04:15,760 –> 00:04:17,120
فرمت صحیح برای مدل یادگیری ماشین دستکاری شد،
135
00:04:17,120 –> 00:04:18,000
136
00:04:18,000 –> 00:04:19,358
آن را به مدل یادگیری ماشینی منتقل می کنید،
137
00:04:19,358 –> 00:04:22,079
اکنون tesseract کمی
138
00:04:22,079 –> 00:04:23,440
مشکل است، چند پارامتر مختلف وجود دارد که
139
00:04:23,440 –> 00:04:25,440
می توانید به آن منتقل کنید و این پارامترها
140
00:04:25,440 –> 00:04:26,960
عبارتند از
141
00:04:26,960 –> 00:04:29,120
منجر به خروجی شگفتانگیز
142
00:04:29,120 –> 00:04:30,960
ocr یا خروجی بسیار بد
143
00:04:30,960 –> 00:04:33,040
ocr میشود و من میخواهم پارامترها را پوشش دهم
144
00:04:33,040 –> 00:04:34,479
145
00:04:34,479 –> 00:04:36,400
و حدود 14 یا بیشتر وجود دارد و چه زمانی میتوان
146
00:04:36,400 –> 00:04:38,560
از برخی از آنها نسبت به سایر موارد استفاده کرد
147
00:04:38,560 –> 00:04:40,160
، فکر میکنم حدود صد
148
00:04:40,160 –> 00:04:42,160
زبان وجود دارد. نمایش داده شده توسط tesseract
149
00:04:42,160 –> 00:04:43,840
هم در قفسه و هم با
150
00:04:43,840 –> 00:04:45,759
چیزهای سفارشی که میتوانید دانلود کنید،
151
00:04:45,759 –> 00:04:48,479
مانند پروژههای لاتین ocr اوایل لاتین مدرن،
152
00:04:48,479 –> 00:04:49,120
153
00:04:49,120 –> 00:04:50,560
من همه آنها را در این نسخه پوشش خواهم داد.
154
00:04:50,560 –> 00:04:52,400
ایده به طوری که بتوانید
155
00:04:52,400 –> 00:04:54,960
متنی واقعاً با هر خط تایپ متفاوتی بنویسید
156
00:04:54,960 –> 00:04:55,520
157
00:04:55,520 –> 00:04:56,960
، بسیاری از اسکریپتها که
158
00:04:56,960 –> 00:04:59,280
از زمان اختراع ماشین چاپ نشان داده شدهاند
159
00:04:59,280 –> 00:05:00,720
، حتی
160
00:05:00,720 –> 00:05:03,759
یک ocr یونانی مدرن اولیه وجود دارد، بنابراین
161
00:05:03,759 –> 00:05:05,280
این چیزی است که ما در این مجموعه ویدیویی به آن خواهیم پرداخت.
162
00:05:05,280 –> 00:05:07,440
نحوه برخورد شما
163
00:05:07,440 –> 00:05:08,479
با مشکل کمی
164
00:05:08,479 –> 00:05:11,280
متفاوت است نه فقط به زبان
165
00:05:11,280 –> 00:05:12,960
بلکه به وضعیت سندتان نیز فکر کنید
166
00:05:12,960 –> 00:05:14,560
در مورد انواع مختلف یک
167
00:05:14,560 –> 00:05:15,520
سند نوع
168
00:05:15,520 –> 00:05:17,600
ما جداول داریم، شاخص هایی
169
00:05:17,600 –> 00:05:18,800
داریم،
170
00:05:18,800 –> 00:05:21,360
ساختار جدید و منظم داریم. با یک
171
00:05:21,360 –> 00:05:22,320
172
00:05:22,320 –> 00:05:23,680
متن متنی با پاورقی هایی داریم که شما پاورقی نمی خواهید،
173
00:05:23,680 –> 00:05:25,039
من به نوعی
174
00:05:25,039 –> 00:05:26,479
به چگونگی حل بسیاری از این
175
00:05:26,479 –> 00:05:28,320
مشکلات رایج بزرگتر در
176
00:05:28,320 –> 00:05:30,000
علوم انسانی دیجیتال می پردازم و زمانی که ممکن است بخواهید
177
00:05:30,000 –> 00:05:31,680
راه حل های خاصی را پیاده سازی کنید.
178
00:05:31,680 –> 00:05:33,520
موارد دیگر این یک سری طولانی خواهد
179
00:05:33,520 –> 00:05:35,520
بود اما مهم است زیرا
180
00:05:35,520 –> 00:05:38,240
ocr یک مشکل پیچیده است که برای حل آن به
181
00:05:38,240 –> 00:05:39,919
دانش گسترده ای از
182
00:05:39,919 –> 00:05:40,720
کتابخانه
183
00:05:40,720 –> 00:05:42,560
های مختلف و روش های مختلف زیادی نیاز دارد،
184
00:05:42,560 –> 00:05:44,639
اما زمانی که
185
00:05:44,639 –> 00:05:46,560
اگر زمان خود را به آن اختصاص دهید، یک دستور از آنها خواهید
186
00:05:46,560 –> 00:05:48,320
داشت که در عرض یک ماه یا بیشتر
187
00:05:48,320 –> 00:05:50,800
از این ویدیوها می توانید
188
00:05:50,800 –> 00:05:53,199
طیف گسترده ای از مشکلات ocr را
189
00:05:53,199 –> 00:05:56,479
نسبتاً آسان حل کنید، بنابراین یک گردش کار معمولی به این
190
00:05:56,479 –> 00:05:57,600
شکل خواهد بود
191
00:05:57,600 –> 00:06:00,000
در اینجا ما یک تصویر داریم. از آن چه
192
00:06:00,000 –> 00:06:01,120
جدولی
193
00:06:01,120 –> 00:06:03,919
از جنگ جهانی دوم است، ما آن را به عنوان یک جدول می شناسیم،
194
00:06:03,919 –> 00:06:05,680
اما برای سیستم کامپیوتری
195
00:06:05,680 –> 00:06:07,919
این فقط یک تصویر است، در اینجا متنی وجود
196
00:06:07,919 –> 00:06:09,600
ندارد، مجموعه ای از پیکسل ها با
197
00:06:09,600 –> 00:06:11,199
درجات مختلف سفید و خاکستری است
198
00:06:11,199 –> 00:06:12,880
که ما سطح یا خاکستری می نامیم.
199
00:06:12,880 –> 00:06: