در این مطلب، ویدئو 73 – تقسیم بندی تصویر با استفاده از U-Net – Part1 (U-net چیست؟) با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:18:12
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,829 –> 00:00:02,939
سلام بچه ها شما در حال تماشای
2
00:00:02,939 –> 00:00:04,680
آموزش پایتون در کانال یوتیوب من Python
3
00:00:04,680 –> 00:00:06,990
for microscopist هستید در
4
00:00:06,990 –> 00:00:09,420
آموزش قبلی در مورد طبقه بندی سلول های مالاریا
5
00:00:09,420 –> 00:00:11,580
با استفاده از
6
00:00:11,580 –> 00:00:13,940
شبکه های عصبی کانولوشن صحبت کردم و این یک
7
00:00:13,940 –> 00:00:16,740
مشکل طبقه بندی بود که در آن می توانید
8
00:00:16,740 –> 00:00:20,970
تصاویر خود را به یکی از چندین کلاس طبقه بندی کنید.
9
00:00:20,970 –> 00:00:23,939
به عنوان مثال،
10
00:00:23,939 –> 00:00:26,189
این فقط یک سلول مالاریا پارازیتیزه
11
00:00:26,189 –> 00:00:28,830
شده یا یک سلول مالاریا سالم بود،
12
00:00:28,830 –> 00:00:31,260
بنابراین یک مشکل طبقه بندی کلاسیک کلاسیک بود،
13
00:00:31,260 –> 00:00:34,500
اکنون در این آموزش می
14
00:00:34,500 –> 00:00:36,719
خواهم در مورد مشکل تقسیم بندی با استفاده از
15
00:00:36,719 –> 00:00:39,059
یادگیری عمیق صحبت کنم، بنابراین این
16
00:00:39,059 –> 00:00:41,670
قطعه بندی تصویر با استفاده از معماری
17
00:00:41,670 –> 00:00:44,010
به نام واحد است. و این آموزش
18
00:00:44,010 –> 00:00:46,500
اساساً توضیح می دهد که واحد چیست
19
00:00:46,500 –> 00:00:49,230
و مجموعه ای از این آموزش ها اساساً
20
00:00:49,230 –> 00:00:52,410
شامل این است که چگونه می توانیم
21
00:00:52,410 –> 00:00:55,020
واحدی را که می دانید شروع کنیم و سپس آن را در پایتون کدنویسی کنیم
22
00:00:55,020 –> 00:00:57,989
و سپس آن را در یک
23
00:00:57,989 –> 00:01:01,829
مثال واقعی به کار ببریم، بنابراین همانطور که قبلاً ذکر کردم
24
00:01:01,829 –> 00:01:03,480
یک واحد خاص است. نوع معماری برای
25
00:01:03,480 –> 00:01:05,280
اهداف تقسیم بندی تصویر و وقتی می
26
00:01:05,280 –> 00:01:07,200
گویم معماری به معنای
27
00:01:07,200 –> 00:01:10,500
ترتیب است از ابزارهای یادگیری عمیقی
28
00:01:10,500 –> 00:01:11,960
که ما با آنها آشنا هستیم
29
00:01:11,960 –> 00:01:15,270
مانند لایه کانولوشنال و حداکثر
30
00:01:15,270 –> 00:01:17,310
ادغام میدانید این ابزارها
31
00:01:17,310 –> 00:01:19,890
را طوری مرتب کنید که
32
00:01:19,890 –> 00:01:22,799
نتیجه آن تقسیمبندی تصویر
33
00:01:22,799 –> 00:01:24,450
باشد. قصد ندارم در مورد اینکه لایه کانولوشن چیست صحبت کنم
34
00:01:24,450 –> 00:01:26,130
. و همه اینها
35
00:01:26,130 –> 00:01:28,259
را که قبلاً در یکی از ویدیوهای قبلی انجام داده ام
36
00:01:28,259 –> 00:01:29,790
و البته می توانید در
37
00:01:29,790 –> 00:01:32,100
گوگل جستجو کنید یا باید بگویم در
38
00:01:32,100 –> 00:01:33,990
یوتیوب جستجو کنید که در آن می توانید
39
00:01:33,990 –> 00:01:35,549
ویدیوهای عالی در مورد این موضوع را پیدا کنید بنابراین من فقط
40
00:01:35,549 –> 00:01:37,950
اصطلاحات خاصی را ذکر می کنم و لطفاً جستجو کنید.
41
00:01:37,950 –> 00:01:41,549
به راحتی به اینها وارد شوید، بنابراین
42
00:01:41,549 –> 00:01:44,520
فقط یک یادآوری سریع خوب است، بنابراین در اینجا
43
00:01:44,520 –> 00:01:47,689
شما آرایش خاصی از
44
00:01:47,689 –> 00:01:50,040
لایههای مختلف کانولوشن و لایههای حداکثر
45
00:01:50,040 –> 00:01:52,500
ادغام را برای دستیابی به وظایف خاصی
46
00:01:52,500 –> 00:01:54,990
میبینید، در این مورد، فکر
47
00:01:54,990 –> 00:01:57,570
نمیکنم نام خاصی داشته باشد، اما انواع مختلفی دارد.
48
00:01:57,570 –> 00:02:00,149
معماری هایی که مردم آنها را کنار هم
49
00:02:00,149 –> 00:02:02,520
می گذارند شما این ها را به ترتیب خاصی می شناسید
50
00:02:02,520 –> 00:02:05,670
و
51
00:02:05,670 –> 00:02:08,520
اکنون با نگاهی به این مثال کمی معروف شده اند همانطور که می
52
00:02:08,520 –> 00:02:11,068
بینید اولین لایه در اینجا فقط یک
53
00:02:11,068 –> 00:02:13,740
ورودی است لایه ut به آن لایه ورودی می گویند
54
00:02:13,740 –> 00:02:15,990
و می بینید که عمق این یا
55
00:02:15,990 –> 00:02:17,370
تعداد ابعاد در این
56
00:02:17,370 –> 00:02:19,710
جهت سه است که معمولاً به این معنی است که یک
57
00:02:19,710 –> 00:02:21,750
تصویر رنگی است بنابراین
58
00:02:21,750 –> 00:02:25,080
کانال های RGB دارید بنابراین باید به این مثال برگردید و
59
00:02:25,080 –> 00:02:28,320
باید به 24 پیکسل برگردید. در X تا 24
60
00:02:28,320 –> 00:02:31,710
پیکسل در Y، بنابراین این یک تصویر 2 24 در 2 24 در
61
00:02:31,710 –> 00:02:35,160
3 است، بنابراین این لایه ورودی من
62
00:02:35,160 –> 00:02:37,200
است، این چیزی است که
63
00:02:37,200 –> 00:02:39,510
در این مثال به شبکه عصبی کانولوشن من می رود و
64
00:02:39,510 –> 00:02:42,030
لایه بعدی که در واقع ابعاد
65
00:02:42,030 –> 00:02:44,760
آن از 3 به 96 تغییر کرده است، زیرا
66
00:02:44,760 –> 00:02:47,250
ظاهراً 96 فیلتر در اینجا وجود
67
00:02:47,250 –> 00:02:50,010
دارد که فیلترهای دیجیتالی روی این تصویر اعمال می شوند،
68
00:02:50,010 –> 00:02:54,210
بنابراین اکنون ما 96 کپی داریم یا باید بگویم
69
00:02:54,210 –> 00:02:56,730
نود و شش کپی 96
70
00:02:56,730 –> 00:03:00,960
پاسخ کانولوشنال از این تصویر ورودی و
71
00:03:00,960 –> 00:03:04,710
این لایه بعدی را تشکیل می دهد خوب است و دوباره یک
72
00:03:04,710 –> 00:03:06,620
کانولوشن چیزی نیست جز یک
73
00:03:06,620 –> 00:03:08,640
ضرب ماتریس و ابعاد ممکن
74
00:03:08,640 –> 00:03:10,920
است از 224 به بعد دیگری
75
00:03:10,920 –> 00:03:13,890
در اینجا تغییر کند، بسته به اینکه چه
76
00:03:13,890 –> 00:03:16,200
مقدار بالشتک به تصویر اضافه می کنید و به همین
77
00:03:16,200 –> 00:03:19,620
ترتیب ok و حداکثر ادغام دوباره در اینجا
78
00:03:19,620 –> 00:03:24,060
اعمال می شود. به عنوان مثال ماتریس 5×5 و شما
79
00:03:24,060 –> 00:03:26,880
در واقع آن را در امتداد تصویر یا در امتداد
80
00:03:26,880 –> 00:03:29,070
این ماتریس اجرا می کنید و اکنون می
81
00:03:29,070 –> 00:03:31,830
توانید این ماتریس 5×5 را یک پله جابجا کنید
82
00:03:31,830 –> 00:03:33,780
که در این صورت به آن می گویند گام برابر
83
00:03:33,780 –> 00:03:35,790
با یک است یا می توانید آن را دو سه
84
00:03:35,790 –> 00:03:38,100
چهار پنج به سمت راست حرکت دهید تا گام می تواند هر
85
00:03:38,100 –> 00:03:41,010
عددی باشد و همچنین
86
00:03:41,010 –> 00:03:43,800
ابعاد این لایه خروجی را مشخص می
87
00:03:43,800 –> 00:03:47,520
کند، تصویر خروجی در اینجا بسیار خوب است، بنابراین دوباره
88
00:03:47,520 –> 00:03:48,810
ابعاد در اینجا به
89
00:03:48,810 –> 00:03:50,580
طور مداوم افزایش می یابد و سپس
90
00:03:50,580 –> 00:03:52,440
در آنجا کاهش می یابد و در نهایت در اینجا
91
00:03:52,440 –> 00:03:55,290
شما لایه های متراکم و خروجی
92
00:03:55,290 –> 00:03:57,780
را در آنجا خواهید داشت. این یک نمای کلی
93
00:03:57,780 –> 00:04:01,740
از لایه های کانولوشن است که در
94
00:04:01,740 –> 00:04:03,390
این مورد می دانید یا باید بگویم شبکه عصبی ما
95
00:04:03,390 –> 00:04:07,140
اکنون یک تصویر شلوغ بسیار گیج کننده است
96
00:04:07,140 –> 00:04:09,060
و دلیلی وجود دارد که
97
00:04:09,060 –> 00:04:12,000
من این را کنار هم قرار داده ام زیرا می توانید
98
00:04:12,000 –> 00:04:13,920
برخی از معماری های معروف را مشاهده کنید
99
00:04:13,920 –> 00:04:16,200
که خارج شده اند. در آنجا احتمالاً
100
00:04:16,200 –> 00:04:19,560
قبل از اینکه lenok به نوعی معروف شود، نام Alex net و vgg را شنیده اید
101
00:04:19,560 –> 00:04:23,700
و سپس Google آن را کمی
102
00:04:23,700 –> 00:04:25,910
پیچیده تر به آن قرض داده است، همانطور که می توانید
103
00:04:25,910 –> 00:04:27,240
شروع به کار را
104
00:04:27,240 –> 00:04:29,430
با من باید ببینید. d می گوییم Inception B
105
00:04:29,430 –> 00:04:32,819
و این ها موارد اخیر هستند که من معتقدم
106
00:04:32,819 –> 00:04:35,340
هر دو توسط گوگل هستند اما همانطور که می بینید
107
00:04:35,340 –> 00:04:37,110
معماری های مختلفی وجود دارد و ما
108
00:04:37,110 –> 00:04:39,210
می توانیم معماری خودمان را کنار هم بگذاریم
109
00:04:39,210 –> 00:04:41,699
زیرا هیچ معماری واحدی
110
00:04:41,699 –> 00:04:43,319
برای همه انواع مشکلات
111
00:04:43,319 –> 00:04:45,539
بسته به نوع آن عالی نیست. مشکلی که ما
112
00:04:45,539 –> 00:04:47,009
روی آن کار می کنیم، در واقع می توانیم
113
00:04:47,009 –> 00:04:51,240
شبکه عصبی خودمان را جمع آوری کنیم، می دانید
114
00:04:51,240 –> 00:04:53,310
معماری خودمان، ما می توانیم خودمان را طراحی کنیم،
115
00:04:53,310 –> 00:04:55,800
اکنون سؤال این است که چگونه خودمان را طراحی کنیم
116
00:04:55,800 –> 00:04:57,660
، البته افرادی هستند که
117
00:04:57,660 –> 00:05:00,180
دکترا می گیرند و روی این نوع
118
00:05:00,180 –> 00:05:03,060
موضوعات کار می کنند. بسیار خوب، پس اگر فقط می خواهید از
119
00:05:03,060 –> 00:05:05,880
این به عنوان ابزاری برای بخش بندی تصاویر خود استفاده کنید،
120
00:05:05,880 –> 00:05:08,520
فکر می کنم هنوز هم می توانیم
121
00:05:08,520 –> 00:05:11,130
این کار را انجام دهیم که نیازی نیست معمار
122
00:05:11,130 –> 00:05:13,830
شبکه های عصبی باشیم، بسیار خوب،
123
00:05:13,830 –> 00:05:17,430
بنابراین اکنون من این vgg را انتخاب می کنم زیرا
124
00:05:17,430 –> 00:05:20,400
این یک ابزار نسبتاً معروف است. بسیاری از
125
00:05:20,400 –> 00:05:22,590
مردم از vgg استفاده می کنند، اگر به
126
00:05:22,590 –> 00:05:24,479
تعداد افرادی که از لینوکس استفاده می کنند نگاه کنید، تعداد مقالات
127
00:05:24,479 –> 00:05:27,090
موجود در این vgg احتمالاً
128
00:05:27,090 –> 00:05:29,819
همان هایی است که بیشترین تعداد
129
00:05:29,819 –> 00:05:32,099
مقاله را دارد، در واقع من نمودار حبابی را دیدم
130
00:05:32,099 –> 00:05:34,349
که در آن منعکس می شود. cts که اکنون
131
00:05:34,349 –> 00:05:37,979
دوباره 19 را می بینیم فقط یک مثال سریع خوب است، بنابراین
132
00:05:37,979 –> 00:05:40,409
ابتدا شما لایه های کانولوشنال خود را دارید
133
00:05:40,409 –> 00:05:42,900
و سپس لایه max pool و سپس
134
00:05:42,900 –> 00:05:44,490
یک دو لایه
135
00:05:44,490 –> 00:05:46,919
دیگر کانولوشنال max pool دوباره convolutional max pool
136
00:05:46,919 –> 00:05:49,440
و غیره و در نهایت لایه های متراکم
137
00:05:49,440 –> 00:05:52,889
در اینجا و لایه خروجی در آنجا خوب است
138
00:05:52,889 –> 00:05:54,630
و لایه متراکم متراکم نامیده می شود
139
00:05:54,630 –> 00:05:56,759
زیرا اینجا همان جایی است که شما
140
00:05:56,759 –> 00:05:58,319
دوباره دارید در آموزش قبلی توضیح دادم
141
00:05:58,319 –> 00:06:00,180
اما جایی که شما یک
142
00:06:00,180 –> 00:06:02,940
دسته کامل از نورون ها دارید که به یکدیگر متصل هستند
143
00:06:02,940 –> 00:06:06,630
خوب است، بنابراین برای کدگذاری این منظور من
144
00:06:06,630 –> 00:06:07,889
واقعاً می توانید من معتقدم یک کتابخانه وجود دارد
145
00:06:07,889 –> 00:06:09,900
که میتوانید آن را برای vzg 19 فراخوانی کنید،
146
00:06:09,900 –> 00:06:12,569
اما اگر میخواهید آن را مانند
147
00:06:12,569 –> 00:06:13,919
خط به خط کدنویسی کنید، باید کاملاً
148
00:06:13,919 –> 00:06:16,800
ساده باشد، بنابراین شما با
149
00:06:16,800 –> 00:06:19,590
تعریف لایه کانولوشنال ok 1 شروع کنید،
150
00:06:19,590 –> 00:06:22,710
سپس خوب میدانید که چیست.
151
00:06:22,710 –> 00:06:24,240
پارامترهای این لایه کانولوشن
152
00:06:24,240 –> 00:06:27,240
و سپس – و سپس
153
00:06:27,240 –> 00:06:29,969
لایه max pool را دقیقاً در اینجا تعریف می کنیم و سپس
154
00:06:29,969 –> 00:06:31,919
لایه حداکثر به عنوان ورودی به
155
00:06:31,919 –> 00:06:34,560
لایه کانولوشنال بعدی می رود و به همین ترتیب ok به عنوان
156
00:06:34,560 –> 00:06:38,490
بعد از کانولوشن 5 می توانید ببینید که اکنون
157
00:06:38,490 –> 00:06:41,150
ما وارد این لایه متراکم می
158
00:06:41,150 –> 00:06:43,760
شویم و اینجا جایی است که لایه متراکم دوباره تعریف می
159
00:06:43,760 –> 00:06:45,590
شود راه های مختلفی برای نوشتن
160
00:06:45,590 –> 00:06:47,690
این کد وجود دارد اما من فقط یک کد نمونه را به شما نشان می
161
00:06:47,690 –> 00:06:49,790
دهم که به معنای واقعی کلمه از
162
00:06:49,790 –> 00:06:54,650
یک نتیجه جستجوی گوگل کپی کردم. خوب، پس این
163
00:06:54,650 –> 00:06:57,380
VCG 19 است، نکته ای که در اینجا سعی می کنم
164
00:06:57,380 –> 00:06:59,630
به آن اشاره کنم این است که معماری های مختلفی وجود دارد.
165
00:06:59,630 –> 00:07:02,510
166
00:07:02,510 –> 00:07:04,280
167
00:07:04,280 –> 00:07:06,320
168
00:07:06,320 –> 00:07:08,300
169
00:07:08,300 –> 00:07:10,190
این را باید تغییر دهید تا
170
00:07:10,190 –> 00:07:12,500
مطمئن شوید
171
00:07:12,500 –> 00:07:15,080
که بهترین شبکه را برای مشکلی که
172
00:07:15,080 –> 00:07:17,990
میخواهید حل کنید را کنار هم قرار میدهید، اکنون
173
00:07:17,990 –> 00:07:20,030
174
00:07:20,030 –> 00:07:22,220
175
00:07:22,220 –> 00:07:24,200
معماری واحد برای تقسیمبندی معنایی طراحی شده است.
176
00:07:24,200 –> 00:07:26,660
177
00:07:26,660 –> 00:07:29,300
وقتی واحد را جستجو می کنید، دوباره به آن نگاه می کنید که بخش بندی معنایی چیست،
178
00:07:29,300 –> 00:07:30,710
احتمالاً
179
00:07:30,710 –> 00:07:32,450
با این اصطلاح تقسیم بندی معنایی مواجه می شوید
180
00:07:32,450 –> 00:07:34,780
تا یک مقدمه سریع به شما ارائه
181
00:07:34,780 –> 00:07:37,370
دهیم، فرض کنید یک i داریم. ماژیک مانند این و
182
00:07:37,370 –> 00:07:40,520
اگر در این مثال یک جعبه مرزی در اطراف هر
183
00:07:40,520 –> 00:07:43,100
فرد
184
00:07:43,100 –> 00:07:44,810
دارید،
185
00:07:44,810 –> 00:07:46,520
اگر در یک تصویر یک دسته سلول داشته باشید، اگر
186
00:07:46,520 –> 00:07:48,740
در اطراف هر سلول یا یک
187
00:07:48,740 –> 00:07:50,900
ذره به ذرات نگاه کنید، این معمولاً تشخیص شی است.
188
00:07:50,900 –> 00:07:54,620
حالا اگر
189
00:07:54,620 –> 00:07:56,390
پیکسل های
190
00:07:56,390 –> 00:07:58,940
مربوط به انسان را در این تصویر نقاشی کنید، تشخیص اشیاء خوب است،
191
00:07:58,940 –> 00:08:01,430
پس این تقسیم بندی معنایی است که در آن
192
00:08:01,430 –> 00:08:04,520
هر پیکسل یا یک انسان یا
193
00:08:04,520 –> 00:08:07,070
یک پس زمینه را نشان می دهد یا باید بگویم یک غیرانسانی
194
00:08:07,070 –> 00:08:11,030
خوب است، بنابراین یک شخص یا یک فرد خوب است.
195
00:08:11,030 –> 00:08:13,760
یا پسزمینه، بنابراین در اینجا هر پیکسل بهخوبی
196
00:08:13,760 –> 00:08:16,310
رنگآمیزی میشود، بنابراین این قطعهبندی معنایی است
197
00:08:16,310 –> 00:08:18,320
و واحد طراحی شده است تا
198
00:08:18,320 –> 00:08:20,240
دقیقاً این کار را اکنون انجام دهد
199
00:08:20,240 –> 00:08:22,730
تا زمانی که ما واقعاً این کار را اکنون انجام دادیم،
200
00:08:22,730 –> 00:08:26,300
اگر بتوانید هر فرد را
201
00:08:26,300 –> 00:08:29,450
مانند یک شخص جدا کنید 1% 2 3 4 5 سپس به این
202
00:08:29,450 –> 00:08:31,340
قطعهبندی فوری میگویند و این
203
00:08:31,340 –> 00:08:34,909
گسترشی از تقسیمبندی معنایی است،
204
00:08:34,909 –> 00:08:38,000
بنابراین باز هم این وظیفهای است که ما
205
00:08:38,000 –> 00:08:42,260
سعی میکنیم با واحد به آن برسیم، پس چگونه
206
00:08:42,260 –> 00:08:44,330
دوباره به نظر میرسد
207
00:08:44,330 –> 00:08:46,940
در مورد این گیج کننده
208
00:08:46,940 –> 00:08:48,620
نگران نباشید یا اگر