در این مطلب، ویدئو بینایی کامپیوتر – تصاویر یکپارچه (بوتکمپ هوش مصنوعی در پایتون) با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:01,829 –> 00:00:04,500
در سخنرانی قبلی ما یک
2
00:00:04,500 –> 00:00:07,470
مثال عینی از نحوه محاسبه
3
00:00:07,470 –> 00:00:10,709
مقدار دلتا برای یک ویژگی سخت را دیدیم
4
00:00:10,709 –> 00:00:13,590
و هر چه مقدار آن به یک نزدیکتر باشد،
5
00:00:13,590 –> 00:00:16,379
احتمال بیشتری وجود دارد که یک ویژگی سخت پیدا کنیم، اما
6
00:00:16,379 –> 00:00:19,050
باید مقادیر زیادی از مقادیر را جمع کنیم
7
00:00:19,050 –> 00:00:22,200
زیرا یک ویژگی سخت معمولاً حاوی
8
00:00:22,200 –> 00:00:25,140
تعداد زیادی پیکسل است، بنابراین نه فقط هشت
9
00:00:25,140 –> 00:00:28,020
پیکسل، بلکه برای مثال هزاران
10
00:00:28,020 –> 00:00:30,750
پیکسل، بنابراین ما باید مقادیر زیادی
11
00:00:30,750 –> 00:00:33,600
از مقادیر را جمع کنیم و به همین دلیل است که ما باید در
12
00:00:33,600 –> 00:00:36,660
مورد تصاویر انتگرال صحبت کنیم، پس
13
00:00:36,660 –> 00:00:38,610
مشکل این است که ما داریم برای محاسبه
14
00:00:38,610 –> 00:00:41,340
میانگین یک منطقه معین چندین بار
15
00:00:41,340 –> 00:00:44,310
و محاسبه میانگین
16
00:00:44,310 –> 00:00:45,720
پیچیدگی زمان اجرا دارد،
17
00:00:45,720 –> 00:00:48,390
اگرچه N مجذور آن یک
18
00:00:48,390 –> 00:00:51,000
الگوریتم زمان اجرا درجه دوم است، بنابراین ما میتوانیم از
19
00:00:51,000 –> 00:00:54,180
رویکرد تصویر یکپارچه برای دستیابی یا
20
00:00:54,180 –> 00:00:57,000
انجام یک پیچیدگی زمان اجرای ثابت استفاده کنیم.
21
00:00:57,000 –> 00:00:59,460
سوال این است که چرا
22
00:00:59,460 –> 00:01:02,190
این همه عملیات وجود دارد زیرا ما
23
00:01:02,190 –> 00:01:04,739
باید از ویژگی های سخت با همه
24
00:01:04,739 –> 00:01:07,740
اندازه ها و مکان های ممکن استفاده کنیم، بنابراین ما
25
00:01:07,740 –> 00:01:10,560
در مورد ویژگی لبه و
26
00:01:10,560 –> 00:01:12,990
خط صحبت کرده ایم. ویژگی اما البته ما باید
27
00:01:12,990 –> 00:01:15,479
از تغییرات زیادی در این
28
00:01:15,479 –> 00:01:17,939
ویژگیها استفاده کنیم، بنابراین اندازه این هستهها
29
00:01:17,939 –> 00:01:20,670
ممکن است متفاوت باشد، به عنوان مثال این یک
30
00:01:20,670 –> 00:01:23,009
ویژگی خطی است، این همان ویژگی خط است،
31
00:01:23,009 –> 00:01:26,130
اما با اندازههای مختلف، این
32
00:01:26,130 –> 00:01:28,170
ویژگی خط یکسان است اما با ویژگیهای متفاوت. اندازه و
33
00:01:28,170 –> 00:01:31,020
غیره، به همین دلیل است که
34
00:01:31,020 –> 00:01:33,959
تعداد زیادی عملیات وجود خواهد داشت، زیرا ما
35
00:01:33,959 –> 00:01:36,630
فقط جونز موافقت کرده بودیم که هسته های زیادی را سرگرم
36
00:01:36,630 –> 00:01:39,539
می کند، بنابراین تعداد ویژگی ها می
37
00:01:39,539 –> 00:01:43,590
تواند به 200 هزار برسد، خوب و هر
38
00:01:43,590 –> 00:01:45,479
بار که باید از یک درجه دوم استفاده کنیم.
39
00:01:45,479 –> 00:01:47,700
الگوریتم همانطور که در
40
00:01:47,700 –> 00:01:50,249
سخنرانی قبلی دیدیم، به همین دلیل است که ما
41
00:01:50,249 –> 00:01:53,759
باید رویکرد بهینه تری پیدا کنیم و
42
00:01:53,759 –> 00:01:56,310
به همین دلیل است که رویکرد تصویر انتگرال ایجاد
43
00:01:56,310 –> 00:01:58,289
شد بنابراین به جای استفاده از
44
00:01:58,289 –> 00:02:01,289
تصویر اصلی، این
45
00:02:01,289 –> 00:02:04,439
تصویر را به تصویر انتگرال تبدیل می کنیم و یک
46
00:02:04,439 –> 00:02:07,739
پیکسل داده شده در تصویر انتگرال
47
00:02:07,739 –> 00:02:10,789
مجموع تمام پیکسل های سمت چپ و
48
00:02:10,789 –> 00:02:14,970
بالا است، بنابراین 1.2 برابر است با
49
00:02:14,970 –> 00:02:20,640
0.1 به علاوه 0.1 به علاوه 0.2 به اضافه 0.3 به علاوه 0.1
50
00:02:20,640 –> 00:02:24,510
به علاوه 0.4 خوب اجازه دهید مثال دیگری را
51
00:02:24,510 –> 00:02:27,990
برای مثال در نظر بگیریم. مجموع
52
00:02:27,990 –> 00:02:31,110
تمام پیکسل های تصویر اصلی در
53
00:02:31,110 –> 00:02:35,490
سمت چپ و بالا پس 5.3 برابر است با
54
00:02:35,490 –> 00:02:38,490
مجموع همه این مقادیر و چرا
55
00:02:38,490 –> 00:02:41,220
استفاده از تصویر انتگرال خوب است زیرا
56
00:02:41,220 –> 00:02:43,860
اگر بخواهیم مجموع این
57
00:02:43,860 –> 00:02:46,500
مقادیر را محاسبه کنیم ممکن است یک سوال ارسال کنید که خوب است
58
00:02:46,500 –> 00:02:49,560
چرا ما دنبال جمع این مقادیر هستیم
59
00:02:49,560 –> 00:02:52,470
زیرا هنگام محاسبه شباهت
60
00:02:52,470 –> 00:02:55,290
به کل ویژگی باید
61
00:02:55,290 –> 00:02:58,410
شدت پیکسل را برای یک منطقه معین جمع کنیم
62
00:02:58,410 –> 00:03:01,200
بنابراین میانگین شدت پیکسل
63
00:03:01,200 –> 00:03:04,350
برای منطقه تاریک منهای میانگین
64
00:03:04,350 –> 00:03:06,750
شدت پیکسل برای ناحیه روشن
65
00:03:06,750 –> 00:03:09,600
، به همین دلیل است که هنگام برخورد با
66
00:03:09,600 –> 00:03:12,510
ویژگیهای سخت و الگوریتم وی