در این مطلب، ویدئو نحوه استخراج متن از تصاویر خود تنها در 3 خط کد | آموزش پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:20:45
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,000 –> 00:00:01,500
سلام بچه ها به یک ویدیوی دیگر
2
00:00:01,500 –> 00:00:03,300
در ویدیوی امروز بازگردید، من قصد دارم در مورد
3
00:00:03,300 –> 00:00:06,180
نحوه گرفتن یک تصویر و اینکه
4
00:00:06,180 –> 00:00:07,560
آیا متنی در آن تصویر وجود دارد و
5
00:00:07,560 –> 00:00:10,349
آن را به متن واقعی تبدیل می کنم که می
6
00:00:10,349 –> 00:00:12,389
توانید آن را پردازش کنید، چه
7
00:00:12,389 –> 00:00:14,490
برنامه ای باشد یا بخواهید. برای اینکه فقط به دلایل شخصی خود از آن استفاده
8
00:00:14,490 –> 00:00:16,350
کنید و بهترین
9
00:00:16,350 –> 00:00:18,270
قسمت این است که می توانید این کار را
10
00:00:18,270 –> 00:00:20,970
در سه خط کد انجام دهید اکنون من
11
00:00:20,970 –> 00:00:22,740
کمی تزئین کردم، اگرچه فقط
12
00:00:22,740 –> 00:00:24,810
شما از سه خط کد استفاده می کنید، تعداد زیادی کد وجود دارد.
13
00:00:24,810 –> 00:00:26,490
کد اضافی که
14
00:00:26,490 –> 00:00:28,199
پشت این کار قرار دارد کاری که من انجام دادم این است که من
15
00:00:28,199 –> 00:00:30,269
فقط برنامه را در بالای
16
00:00:30,269 –> 00:00:31,859
چند برنامه دیگر نوشتم تا برای شما بسیار ساده باشد.
17
00:00:31,859 –> 00:00:34,050
18
00:00:34,050 –> 00:00:36,960
19
00:00:36,960 –> 00:00:38,640
همچنین کمی کمک کرد،
20
00:00:38,640 –> 00:00:40,320
اما در پایان روز شما فقط
21
00:00:40,320 –> 00:00:41,760
برنامه ای دریافت خواهید کرد که به
22
00:00:41,760 –> 00:00:43,590
شما امکان می دهد چند چیز را در
23
00:00:43,590 –> 00:00:46,860
سه خط اجرا کنید، یکی که می توانید هر URL را
24
00:00:46,860 –> 00:00:49,320
بگیرید یا می توانید یک مسیر دایرکتوری مسیر واقعی را انتخاب کنید.
25
00:00:49,320 –> 00:00:52,260
بر روی کامپیوتر شما و شما می توانید ورودی
26
00:00:52,260 –> 00:00:54,300
آن را در آنجا قرار می دهد و در واقع
27
00:00:54,300 –> 00:00:56,940
متن را برای شما ارسال می کند، اما ممکن است
28
00:00:56,940 –> 00:00:58,379
از خود بپرسید یک دقیقه صبر کنید،
29
00:00:58,379 –> 00:01:00,149
برنامه های زیادی وجود دارند که این کار را انجام می دهند، چرا
30
00:01:00,149 –> 00:01:02,250
وقتی
31
00:01:02,250 –> 00:01:03,629
می توانم این کار را خیلی سریع با دستگاه خود انجام دهم، به زحمت می افتم عکس بگیرم. تلفن،
32
00:01:03,629 –> 00:01:05,459
اما وقتی به بسیاری از چیزهایی
33
00:01:05,459 –> 00:01:06,750
که در پایتون ساخته شده اند فکر می کنید، آنها بر اساس مقیاس ساخته شده اند
34
00:01:06,750 –> 00:01:08,729
و کاری که
35
00:01:08,729 –> 00:01:10,080
شما می خواهید انجام دهید این است که بتوانید
36
00:01:10,080 –> 00:01:12,119
آن فناوری یا
37
00:01:12,119 –> 00:01:14,460
برنامه ای را که اکنون می سازید مقیاس بندی کنید. ممکن
38
00:01:14,460 –> 00:01:16,200
است برای شما مشکلی نداشته باشد که یک
39
00:01:16,200 –> 00:01:19,500
یا دو یا سه برنامه را بردارید و سعی کنید
40
00:01:19,500 –> 00:01:21,299
بدانید متن یک تصویر
41
00:01:21,299 –> 00:01:24,689
را استخراج کنید.
42
00:01:24,689 –> 00:01:27,720
43
00:01:27,720 –> 00:01:30,150
تابعی که من
44
00:01:30,150 –> 00:01:32,159
دوباره برای شما نوشتم فقط سه خط
45
00:01:32,159 –> 00:01:33,570
کد به شما امکان می دهد
46
00:01:33,570 –> 00:01:35,790
47
00:01:35,790 –> 00:01:38,520
با سه خط کد تعداد عکس های خود را بردارید و
48
00:01:38,520 –> 00:01:40,920
متن را از هر تصویر استخراج کنید و آن
49
00:01:40,920 –> 00:01:43,229
را در یک صفحه گسترده اکسل قرار دهید.
50
00:01:43,229 –> 00:01:45,149
اکنون تنها چیزی که باید در من نگه داشت
51
00:01:45,149 –> 00:01:47,130
اما اگر چه tesseract ابزار واقعاً
52
00:01:47,130 –> 00:01:49,140
خوبی است، شما
53
00:01:49,140 –> 00:01:51,000
سازمانهای بزرگ دیگری مانند گوگل و
54
00:01:51,000 –> 00:01:52,829
فیسبوک و آمازون دارید که در واقع
55
00:01:52,829 –> 00:01:55,680
api خود را دارند و
56
00:01:55,680 –> 00:01:57,360
تحقیقات بسیار بیشتری در این زمینه انجام شده
57
00:01:57,360 –> 00:02:00,780
است.
58
00:02:00,780 –> 00:02:03,030
59
00:02:03,030 –> 00:02:05,250
داده های آموزشی را طوری آموزش دهید که بیشتر در مورد
60
00:02:05,250 –> 00:02:06,719
هر چیزی که آنها به دنبال آن هستند اعمال شود، بنابراین
61
00:02:06,719 –> 00:02:08,399
دقت آنها بسیار بهتر از آنچه امروز می
62
00:02:08,399 –> 00:02:10,199
خواهیم به آن برسیم و شما همیشه می توانید از api استفاده کنید
63
00:02:10,199 –> 00:02:12,090
و برخی از آنها دارای سطوح رایگان هستند
64
00:02:12,090 –> 00:02:13,470
اما تعداد زیادی از آنها. شما
65
00:02:13,470 –> 00:02:15,510
باید هزینه کنید، اما اگر فقط می خواهید
66
00:02:15,510 –> 00:02:17,310
با تشخیص تصویر
67
00:02:17,310 –> 00:02:19,260
شروع کنید و با
68
00:02:19,260 –> 00:02:21,810
اصول متن شروع کنید، این یک راه عالی برای انجام این کار است، بنابراین
69
00:02:21,810 –> 00:02:23,280
به طور خلاصه اجازه دهید توضیح دهم که چگونه این
70
00:02:23,280 –> 00:02:25,410
کار می کند، بنابراین شما عکس بگیرید،
71
00:02:25,410 –> 00:02:28,440
برنامه ای به نام open CV کاری که open CV
72
00:02:28,440 –> 00:02:29,940
قرار است انجام دهد این است که می رود و
73
00:02:29,940 –> 00:02:31,470
به تصویر نگاه می کند و می بیند که آیا متنی وجود دارد
74
00:02:31,470 –> 00:02:33,750
که بتواند شناسایی کند و اگر
75
00:02:33,750 –> 00:02:35,310
متنی در اطراف آن وجود دارد، آنچه را که ما می خواهیم ترسیم می کند.
76
00:02:35,310 –> 00:02:36,660
یک جعبه مرزی را در اطراف آن صدا کنید تا
77
00:02:36,660 –> 00:02:39,330
اساساً در اطراف آن متن بچرخیم
78
00:02:39,330 –> 00:02:41,850
سپس متن را به شبکه عصبی منتقل می کنیم
79
00:02:41,850 –> 00:02:43,230
و شبکه عصبی از
80
00:02:43,230 –> 00:02:45,090
فناوری فوق العاده ای مانند تشخیص لبه
81
00:02:45,090 –> 00:02:47,700
به جلو و عقب و یک
82
00:02:47,700 –> 00:02:49,440
سری چیزهای دیگر استفاده می کند و می گوید
83
00:02:49,440 –> 00:02:51,270
بسیار خوب، هر یک از این شخصیت ها می گویند
84
00:02:51,270 –> 00:02:53,430
من کلمه SATs را دارم، باید بگویم خیلی
85
00:02:53,430 –> 00:02:55,740
خوب، اولی یک S است، دومی
86
00:02:55,740 –> 00:02:57,870
یک A است، سومی یک T است و
87
00:02:57,870 –> 00:02:59,459
گاهی اوقات اشتباه می کند، اما
88
00:02:59,459 –> 00:03:01,560
اینجا جایی است که باید داشته باشید. یک دسته کامل
89
00:03:01,560 –> 00:03:03,270
از مهندسان به طور مداوم این مدل را آموزش می دهند،
90
00:03:03,270 –> 00:03:05,190
اما برای هدف امروز ما
91
00:03:05,190 –> 00:03:06,810
دقت بسیار خوبی را
92
00:03:06,810 –> 00:03:08,820
به دست خواهیم آورد و خواهید دید که اکنون
93
00:03:08,820 –> 00:03:10,470
موارد استفاده بسیار جالبی برای این کار وجود دارد، من
94
00:03:10,470 –> 00:03:12,840
در واقع مقالاتی را خواندم که در آن افراد
95
00:03:12,840 –> 00:03:14,640
توانستند برای دستگیری مجرمان فقط با
96
00:03:14,640 –> 00:03:15,959
نگاه کردن به تصاویری که در فیس بوک پست می کنند
97
00:03:15,959 –> 00:03:17,700
و آنچه در پس زمینه اتفاق می افتد،
98
00:03:17,700 –> 00:03:19,200
می توانید
99
00:03:19,200 –> 00:03:21,510
نام رستوران یا شهر یا آدرس
100
00:03:21,510 –> 00:03:23,580
یا تقاطعی را پیدا کنید که این امکان را به شما می دهد.
101
00:03:23,580 –> 00:03:25,739
مقامات برای مشخص کردن مکان دقیق آنها
102
00:03:25,739 –> 00:03:28,500
حتی می توانید
103
00:03:28,500 –> 00:03:30,600
داده های متنی بزرگ مانند روزنامه ها و مقالاتی که
104
00:03:30,600 –> 00:03:32,970
به طور بالقوه PDF یا تصویر هستند را بگیرید و می
105
00:03:32,970 –> 00:03:34,560
توانید آنها را به متن تبدیل کنید تا بتوانید آنها را
106
00:03:34,560 –> 00:03:36,390
نیز پردازش کنید اکنون این ویدیو فقط
107
00:03:36,390 –> 00:03:38,220
به منظور خراش دادن سطح
108
00:03:38,220 –> 00:03:40,739
این فناوری است. می تواند کاری را که ما امروز استفاده می کنیم انجام دهد
109
00:03:40,739 –> 00:03:42,810
، مدل خارج از جعبه ای است که با
110
00:03:42,810 –> 00:03:44,610
آن آموزش داده شده است، اما دقت
111
00:03:44,610 –> 00:03:46,620
آن بسیار خوب است و شما خواهید دید
112
00:03:46,620 –> 00:03:48,720
که چرا خیلی خوب است، بنابراین
113
00:03:48,720 –> 00:03:53,120
من به کامپیوترم می روم. بچه ها من آماده هستم که عالی کار کنم،
114
00:03:53,120 –> 00:03:55,470
بنابراین ما دو
115
00:03:55,470 –> 00:03:58,200
فایل در اینجا داریم که یکی از آنها پاپ
116
00:03:58,200 –> 00:04:00,030
دات پای نامیده می شود که کد اصلی است
117
00:04:00,030 –> 00:04:01,110
و این همان جایی است که
118
00:04:01,110 –> 00:04:02,910
شما سه خط خود را اجرا می کنید و صادقانه بگویم که
119
00:04:02,910 –> 00:04:04,950
هر کسی می تواند انجامش بده این خیلی
120
00:04:04,950 –> 00:04:05,790
ساده است
121
00:04:05,790 –> 00:04:08,400
من سعی کردم آنقدر برای
122
00:04:08,400 –> 00:04:10,620
همه آسان کنم که تقریباً همه بتوانند این کار را اجرا
123
00:04:10,620 –> 00:04:13,080
کنند و سپس من به زیر کاپوت می روم
124
00:04:13,080 –> 00:04:14,700
و این کدی را که نوشتم به شما نشان می دهم که
125
00:04:14,700 –> 00:04:16,649
به نوعی در پشت می نشیند.
126
00:04:16,649 –> 00:04:18,238
اما شما واقعاً نیازی به دانستن آن ندارید
127
00:04:18,238 –> 00:04:20,608
این چه کاری انجام می دهد اما من آن را برای کسانی
128
00:04:20,608 –> 00:04:22,019
که به هر حال می خواهند آن را ببینند توضیح می دهم و
129
00:04:22,019 –> 00:04:24,510
حتی کدهای بیشتری در اینجا تعبیه شده است که
130
00:04:24,510 –> 00:04:26,550
به شبکه عصبی تحت
131
00:04:26,550 –> 00:04:28,650
این چیزی به نام tesseract پیوند می دهد، اما اجازه دهید ادامه دهیم،
132
00:04:28,650 –> 00:04:30,599
اجازه دهید کدهای
133
00:04:30,599 –> 00:04:32,909
اینجا را به شما معرفی کنم. خیلی ساده است، بنابراین من
134
00:04:32,909 –> 00:04:35,400
این تابع را به نام word به techstop
135
00:04:35,400 –> 00:04:38,039
pi ایجاد کردم، اکنون به روشی که طرحواره راه اندازی شده است، من
136
00:04:38,039 –> 00:04:40,080
فقط این پوشه به نام word to
137
00:04:40,080 –> 00:04:41,669
tax را دارم و این را در github پست کرده ام، بنابراین
138
00:04:41,669 –> 00:04:42,990
می توانید پیوند زیر را بررسی کنید،
139
00:04:42,990 –> 00:04:45,750
اما اساسا من برنامه نقطه pi را دارم
140
00:04:45,750 –> 00:04:47,520
که قرار است فایل اصلی
141
00:04:47,520 –> 00:04:49,889
142
00:04:49,889 –> 00:04:51,870
143
00:04:51,870 –> 00:04:54,000
144
00:04:54,000 –> 00:04:55,080
من باشد. من می خواهم این
145
00:04:55,080 –> 00:04:57,659
سه تصویر را با شما به صورت زنده آزمایش کنم و
146
00:04:57,659 –> 00:04:59,400
سپس به برخی از URL ها نیز نگاه می کنیم و می توانیم وارد کنیم
147
00:04:59,400 –> 00:05:01,289
و شاید کاری که من انجام خواهم داد این باشد
148
00:05:01,289 –> 00:05:02,699
که در واقع یک جفت را وارد کنم.
149
00:05:02,699 –> 00:05:05,250
تصاویر بیشتری در این فایل وجود
150
00:05:05,250 –> 00:05:07,199
دارد که وقتی
151
00:05:07,199 –> 00:05:08,729
از منظر نگاه به آن به آن نگاه می کنیم، می توانیم با آنها بازی کنیم
152
00:05:08,729 –> 00:05:11,550
کل دایرکتوری، بنابراین در این فایل من
153
00:05:11,550 –> 00:05:13,889
اساساً دو تابع را برای شما تنظیم کرده ام،
154
00:05:13,889 –> 00:05:16,770
یک تابع این است که اگر می خواهید ادامه دهید
155
00:05:16,770 –> 00:05:19,110
و یک تصویر را ترجمه کنید و در
156
00:05:19,110 –> 00:05:21,289
آن یک تصویر می توانید یا در URL وارد
157
00:05:21,289 –> 00:05:25,770
کنید یا می توانید مسیری را وارد کنید
158
00:05:25,770 –> 00:05:28,139
تصویر روی رایانه شما در جایی است،
159
00:05:28,139 –> 00:05:28,469
160
00:05:28,469 –> 00:05:29,849
بنابراین اجازه دهید ابتدا به شما نشان دهم که چگونه کار می کند،
161
00:05:29,849 –> 00:05:32,639
بنابراین ما از کلمه به وارد کردن متن می رویم
162
00:05:32,639 –> 00:05:36,539
و اولین تابع فقط
163
00:05:36,539 –> 00:05:40,979
تصویر IMG به متن نامیده می شود و من فقط
164
00:05:40,979 –> 00:05:42,659
می خواهم مطمئن شوم. من فقط این را کنار می گذارم
165
00:05:42,659 –> 00:05:44,490
و به T یا چیزی شبیه به آن سلام
166
00:05:44,490 –> 00:05:46,590
می کنم تا خط شماره یک باشد،
167
00:05:46,590 –> 00:05:48,479
به یاد داشته باشید که ما دو خط دیگر برای رفتن داریم و
168
00:05:48,479 –> 00:05:49,979
سپس طلایی می شویم، بعداً
169
00:05:49,979 –> 00:05:52,229
می خواهیم متن را بگوییم و اینجا چیزی که من می
170
00:05:52,229 –> 00:05:53,729
گویم این است که ما باید متن
171
00:05:53,729 –> 00:05:56,120
را در یک متغیر خروجی بگیریم و من آن
172
00:05:56,120 –> 00:06:00,810
متن را بنابراین I به T فراخوانی می کنم بنابراین به این
173
00:06:00,810 –> 00:06:03,539
متغیر در اینجا ارجاع می دهم و به این صورت که گفتم
174
00:06:03,539 –> 00:06:05,840
شما یا می خواهید در یک تصویر ارسال کنید.
175
00:06:05,840 –> 00:06:08,129
دایرکتوری یا می خواهید از
176
00:06:08,129 –> 00:06:10,110
مسیری عبور کنید، پس بیایید جلو برویم و برخی از
177
00:06:10,110 –> 00:06:12,900
تصاویر خودمان را امتحان کنیم، بنابراین من فقط می خواهم o
178
00:06:12,900 –> 00:06:15,629
جلوتر و به تصویر شماره یک و
179
00:06:15,629 –> 00:06:20,719
سپس آخرین خط چاپ نگاه کنید.
180
00:06:21,229 –> 00:06:24,570
با تشکر، این تنها کاری است که باید
181
00:06:24,570 –> 00:06:26,340
انجام دهید هر زمان که می خواهید
182
00:06:26,340 –> 00:06:28,710
تصویری را که در رایانه شما است پردازش کنید، فقط
183
00:06:28,710 –> 00:06:30,870
باید این سه خط کد
184
00:06:30,870 –> 00:06:32,310
را به روز کنید، پس بیایید ببینیم وقتی این را اجرا میکنیم، چه
185
00:06:32,310 –> 00:06:35,009
اتفاقی میافتد و میگوید اوه باشه، پس اجازه دهید ادامه دهم
186
00:06:35,009 –> 00:06:36,539
و تصویر شماره یک را
187
00:06:36,539 –> 00:06:38,880
باز کنم، بنابراین من روی
188
00:06:38,880 –> 00:06:41,789
فهرست راهنمای اینجا میکشم یک تصویر شماره
189
00:06:41,789 –> 00:06:45,150
یک، اوه خوب، بنابراین یکی این کار را بسیار
190
00:06:45,150 –> 00:06:47,850
خوب انجام داد. بنابراین اکنون ما
191
00:06:47,850 –> 00:06:49,199
این یکی را امتحان می کنیم و اکنون این یک
192
00:06:49,199 –> 00:06:51,660
سناریوی خوب خواهد بود، خواهیم دید که قفسه آزمایشی
193
00:06:51,660 –> 00:06:52,979
همیشه صد در صد نیست زیرا
194
00:06:52,979 –> 00:06:55,080
این راه حل خارج از جعبه است، بنابراین
195
00:06:55,080 –> 00:06:57,180
بخشی از این را تشخیص می دهد اما
196
00:06:57,180 –> 00:06:58,560
شاید همه اینها نباشد، اما بیایید ببینیم چه
197
00:06:58,560 –> 00:07:01,110
چیزی را تشخیص می دهد، بنابراین اگر من فقط وارد
198
00:07:01,110 –> 00:07:04,250
اینجا شوم و مثال تصویر شماره دو را بگویم،
199
00:07:04,250 –> 00:07:06,360
بنابراین در واقع طراح را تشخیص می دهد
200
00:07:06,360 –> 00:07:09,030
و به دلایلی می خواهم به
201
00:07:09,030 –> 00:07:11,009
شما بگویم که چرا به دلایلی واقعاً این کار را نمی کند.
202
00:07:11,009 –> 00:07:13,620
کارخانه کت و شلوار را بشناسید و
203
00:07:13,620 –> 00:07:15,210
این احتمالاً به خاطر این بوده است ببینید الگوریتم
204
00:07:15,210 –> 00:07:16,800
به طور کلی چگونه کار می کند، بنابراین آنچه را که گفتم به یاد داشته باشید
205
00:07:16,800 –> 00:07:19,139
اولین کاری که انجام می دهد این است که
206
00:07:19,139 –> 00:07:21,720
ادامه می دهد و این تصویر را باز می کند، سپس
207
00:07:21,720 –> 00:07:23,460
متن را جستجو می کند، در این
208
00:07:23,460 –> 00:07:24,960
مورد طراح است و خشک می شود یک
209
00:07:24,960 –> 00:07:28,139
کادر محدود در اطراف آن ترسیم می کند و چه چیزی ممکن است
210
00:07:28,139 –> 00:07:31,020
در شرایط خاصی اتفاق بیفتد، آیا این
211
00:07:31,020 –> 00:07:33,990
کادر محدود کننده در اینجا ممکن است با این
212
00:07:33,990 –> 00:07:36,539
در اینجا تضاد داشته باشد، بنابراین ببینید که چگونه از
213
00:07:36,539 –> 00:07:39,810
آنجا جدا می شود و بنابراین وقتی این جعبه مرزی
214
00:07:39,810 –> 00:07:41,550
ترسیم شد، در واقع همان
215
00:07:41,550 –> 00:07:43,139
طراحی در آنجا خواهد بود و چون
216
00:07:43,139 –> 00:07:44,849
واقعاً اینطور نیست یک کلمه یا یک حرف
217
00:07:44,849 –> 00:07:46,919
واقعا آن را تشخیص نمی دهد و من مطمئن هستم
218
00:07:46,919 –> 00:07:49,199
که احتمالاً بیشتر زاویه دارد و
219
00:07:49,199 –> 00:07:51,000
نکته دیگر این است که
220
00:07:51,000 –> 00:07:53,070
گویی کلمه suit در اینجا بسیار شبیه
221
00:07:53,070 –> 00:07:55,020
به این و نحوه
222
00:07:55,020 –> 00:07:56,460
شبکه های عصبی است. کار می کند این است که وارد
223
00:07:56,460 –> 00:07:58,259
می شود و سعی می کند
224
00:07:58,259 –> 00:08:00,630
لبه ها را در اینجا تشخیص دهد و همانطور که لبه ها را تشخیص می دهد
225
00:08:00,630 –> 00:08:02,580
دائماً از خود می پرسد که آیا
226
00:08:02,580 –> 00:08:04,289
فکر می کند واقعاً حرفی دارد یا
227
00:08:04,289 –> 00:08:06,630
نه و در این مورد ممکن است
228
00:08:06,630 –> 00:08:09,060
انجام آن سخت باشد. پس شاید به همین دلیل است که من من
229
00:08:09,060 –> 00:08:10,409
آن را انتخاب نکردم، این فقط نظریه من است
230
00:08:10,409 –> 00:08:12,720
که 100٪ نیست، اما از تحقیقاتی که من
231
00:08:12,720 –> 00:08:14,340
به صورت آنلاین انجام دادم، به نظر می رسد که به
232
00:08:14,340 –> 00:08:16,530
احتمال زیاد دلیل احتمالی این است، بنابراین قفسه های آزمایشی
233
00:08:16,530 –> 00:08:18,240
واقعاً با تصاویری
234
00:08:18,240 –> 00:08:19,740
که شبیه چیزی هستند که در یک عکس پیدا می کنید، بسیار خوب کار می کنند.
235
00:08:19,740 –> 00:08:22,110
روزنامه یا در یک مقاله احتمالاً
236
00:08:22,110 –> 00:08:25,289
فقط به دلیل وضوح آن است، بنابراین یکی
237
00:08:25,289 –> 00:08:26,880
از کارهایی که tesseract انجام می دهد این است که
238
00:08:26,880 –> 00:08:29,310
در واقع متن را به تصویر یا
239
00:08:29,310 –> 00:08:30,180
نوع تصویر را به متن تبدیل
240
00:08:30,180 –> 00:08:32,010
می کند، زمانی که تصاویر شما در
241
00:08:32,010 –> 00:08:34,650
مقیاس خاکستری هستند و به این دلیل که
242
00:08:34,650 –> 00:08:36,690
از رنگ های زیادی استفاده نمی شود. زمانی که نورون ها در حال شلیک هستند،
243
00:08:36,690 –> 00:08:38,219
244
00:08:38,219 –> 00:08:39,839
تشخیص حروف و لبه ها برای آن احتمالا کمی آسان تر است،
245
00:08:39,839 –> 00:08:42,929
بنابراین در این مورد، ادامه دادن و نگاه کردن به آن
246
00:08:42,929 –> 00:08:45,210
کمی آسان تر است، اما
247
00:08:45,210 –> 00:08:46,890
اجازه دهید ادامه دهیم و این را اجرا کنیم، بنابراین
248
00:08:46,890 –> 00:08:49,170
این کار نسبتا طولانی است. متن بیایید بگوییم
249
00:08:49,170 –> 00:08:51,810
شما می دانید که ما به دنبال چیستی
250
00:08:51,810 –> 00:08:53,490
بینایی کامپیوتری خواهیم بود که با
251
00:08:53,490 –> 00:08:54,900
درک ما از انسان شروع می شود و با لیوینگ استون 2008 به پایان می رسد،
252
00:08:54,900 –> 00:08:57,720
اما به هر حال من این را مطرح
253
00:08:57,720 –> 00:08:59,250
می کنم، پس بیایید ادامه دهیم و این را
254
00:08:59,250 –> 00:09:01,200
در اینجا بیاوریم. نسخه چاپی را زده
255
00:09:01,200 –> 00:09:02,339
تا پردازش آن کمی زمان
256
00:09:02,339 –> 00:09:04,950
ببرد، اما نه خیلی طولانی، اما اگر اکنون آن را
257
00:09:04,950 –> 00:09:06,360
به اینجا برگردانم، اجازه دهید
258
00:09:06,360 –> 00:09:08,610
این تصویر را تا حد زیادی کوچک کنم، احساس می کنم
259
00:09:08,610 –> 00:09:10,589
که کار بسیار خوبی انجام شده است. اما اجازه
260
00:09:10,589 –> 00:09:12,960
دهید این تصویر را در اینجا برگردانم تا به
261
00:09:12,960 –> 00:09:14,700
یک ساندویچ نگاه کنیم که می گوید شما به عنوان انسان
262
00:09:14,700 –> 00:09:16,320
ساختار سه بعدی را درک می کنیم
263
00:09:16,320 –> 00:09:18,600
و غیره و با Palmer
264
00:09:18,600 –> 00:09:20,610
1999 Livingstone 2008
265
00:09:20,610 –> 00:09:21,720
به پایان می رسد بنابراین در واقع تقریباً
266
00:09:21,720 –> 00:09:24,960
همه چیز را 100٪ در اینجا ثبت کرده است بنابراین بد نیست به هیچ وجه
267
00:09:24,960 –> 00:09:26,700
بد نیست، بنابراین اگر می خواهید به
268
00:09:26,700 –> 00:09:28,830
این مقالات یا مقالات نگاه کنید و می
269
00:09:28,830 –> 00:09:30,270
خواهید آنها را تبدیل کنید، این یک
270
00:09:30,270 –> 00:09:30,930
ابزار عالی برای استفاده
271
00:09:30,930 –> 00:09:33,930
به خصوص با tesseract 4.0 است که
272
00:09:33,930 –> 00:09:35,490
در شبکه شما از نسخه قبلی استفاده می کند
273
00:09:35,490 –> 00:09:37,410
که واقعاً استفاده نمی کرد. آن را و من معتقدم
274
00:09:37,410 –> 00:09:38,970
در حال حاضر آنها در تست مدیر 5 هستند، بنابراین
275
00:09:38,970 –> 00:09:40,980
حتی بهتر است، بنابراین اکنون کاری که
276
00:09:40,980 –> 00:09:42,020
ما میخواهیم انجام دهیم این است که به برخی از تصاویر نگاه میکنیم،
277
00:09:42,020 –> 00:09:45,120
متأسفم برخی از URL ها، بنابراین من به طور تصادفی
278
00:09:45,120 –> 00:09:48,180
این URL ها را انتخاب کردم و در واقع باید آنها را بیاورم.
279
00:09:48,180 –> 00:09:49,170
بالا چون اصلا یادم نمیاد
280
00:09:49,170 –> 00:09:51,240
چی هستن پس بیایید به جلو برویم و
281
00:09:51,240 –> 00:09:53,370
ابتدا این را مطرح کنیم تا تصویری که میخواهیم آن را
282
00:09:53,370 –> 00:09:55,470
به 7 نکته طراحی در مورد
283
00:09:55,470 –> 00:09:57,180
نحوه انتخاب اصلاح و بهبود تصاویر لغزنده خود تبدیل
284
00:09:57,180 –> 00:09:59,220
کنیم، این چیزهای کشویی کوچک
285
00:09:59,220 –> 00:10:00,779
را در کنار خود دارد، بنابراین بیایید جلوتر برویم و
286
00:10:00,779 –> 00:10:03,690
این را چاپ کنیم و ببینید چه کاری انجام می دهد بنابراین
287
00:10:03,690 –> 00:10:06,029
بد نیست بیشتر آن را دریافت کردم، اگر نه همه آن.
288
00:10:06,029 –> 00:10:07,470
289
00:10:07,470 –> 00:10:09,270
290
00:10:09,270 –> 00:10:11,160
291
00:10:11,160 –> 00:10:12,810
292
00:10:12,810 –> 00:10:14,580
از تصاویر موجود در حال حاضر،
293
00:10:14,580 –> 00:10:17,279
چیز دیگری که در کد ایجاد کردم
294
00:10:17,279 –> 00:10:19,470
، مرورگر را فریب دادم، بنابراین
295
00:10:19,470 –> 00:10:20,850
اساسا چیزی به نام تنظیمکننده درخواست وجود دارد،
296
00:10:20,850 –> 00:10:22,950
بنابراین هر زمان که قرار است
297
00:10:22,950 –> 00:10:25,170
سیگنالی به سرور ارسال شود
298
00:10:25,170 –> 00:10:27,360
تا اطلاعات آن وبسایت را دریافت کند. اگر
299
00:10:27,360 –> 00:10:30,209
مانند یک مرورگر جعلی وارد
300
00:10:30,209 –> 00:10:32,220
نکنم، فکر میکنم این یک ربات است که
301
00:10:32,220 –> 00:10:33,900
در آنجا وارد میشود و بنابراین
302
00:10:33,900 –> 00:10:36,089
آنچه را که آنها میگویند مانند 403 یا 4 یا 7 اریک
303
00:10:36,089 –> 00:10:36,499
میلیمتر به من میدهد
304
00:10:36,499 –> 00:10:38,299
که کدام یک بوده است، بنابراین من لطف کردم. آن را
305
00:10:38,299 –> 00:10:39,799
پن