در این مطلب، ویدئو یادگیری عمیق از ابتدا با استفاده از پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:01,030 –> 00:00:12,990
[موسیقی] بسیار
2
00:00:12,990 –> 00:00:20,230
خوب، همه، میکروفون را اینجا می گذارم، تشکر
3
00:00:20,230 –> 00:00:23,949
lugar intro. من فکر می کنم ما یک
4
00:00:23,949 –> 00:00:27,669
میکروفون خوب هستیم، نام من Seth است و من اینجا
5
00:00:27,669 –> 00:00:29,769
نماینده اینتل اینتل هستم که حامی آن است،
6
00:00:29,769 –> 00:00:31,329
اما من برای شرکتی به نام Metis کار
7
00:00:31,329 –> 00:00:33,309
می کنم. شرکت آموزش علوم داده
8
00:00:33,309 –> 00:00:36,489
و ما برنامههای همهوقت 12 هفتهای
9
00:00:36,489 –> 00:00:37,899
را انجام میدهیم، شاید شنیده باشید که به
10
00:00:37,899 –> 00:00:39,340
آنها کمپهای بوت میگویند، تنها کمپ معتبر ماست،
11
00:00:39,340 –> 00:00:42,070
بنابراین ما
12
00:00:42,070 –> 00:00:43,539
تمایل داریم آن را بالاتر از آن قرار دهیم، اما این یک
13
00:00:43,539 –> 00:00:45,339
برنامه تماموقت است که افراد میتوانند وارد آن
14
00:00:45,339 –> 00:00:47,859
شوند. علم داده را بیاموزید و بعد از
15
00:00:47,859 –> 00:00:51,070
آن برای مشاغل علم داده اقدام کنید و ما همچنین
16
00:00:51,070 –> 00:00:52,929
آموزش شرکتی را انجام می دهیم که در آنجا می
17
00:00:52,929 –> 00:00:55,329
رویم و جلساتی از این قبیل انجام می دهیم و همچنین اصولاً
18
00:00:55,329 –> 00:00:56,829
علم داده را به کارمندان شرکت آموزش می
19
00:00:56,829 –> 00:01:00,399
دهیم تا
20
00:01:00,399 –> 00:01:02,589
تبلیغات متیس به پایان برسد.
21
00:01:02,589 –> 00:01:05,200
در مورد نحوه کار شبکه های عصبی و
22
00:01:05,200 –> 00:01:06,610
نحوه ساختن آنها از ابتدا با استفاده از
23
00:01:06,610 –> 00:01:09,220
پایتون باشید، بنابراین من می دانم که ما در تمام این
24
00:01:09,220 –> 00:01:11,140
ملاقات ها داریم طیف گسترده ای از
25
00:01:11,140 –> 00:01:14,350
تخصص در اتاق وجود دارد، سؤال بسیار سریع،
26
00:01:14,350 –> 00:01:14,770
27
00:01:14,770 –> 00:01:17,170
بنابراین نشان می دهد که در اینجا به چه کسی
28
00:01:17,170 –> 00:01:18,700
قول می دهم شما را مجبور به انجام این کار نمی کند، اما چه کسی
29
00:01:18,700 –> 00:01:21,520
در اینجا فکر می کند که یادگیری ماشینی را به
30
00:01:21,520 –> 00:01:23,110
اندازه کافی خوب درک می کند که اگر به شما بگویم که
31
00:01:23,110 –> 00:01:25,210
به اینجا بیایید و یک توضیح سریع 30
32
00:01:25,210 –> 00:01:27,070
ثانیه ای درباره چیستی
33
00:01:27,070 –> 00:01:30,210
یادگیری ماشین ارائه دهید، می توانید این کار را انجام دهید،
34
00:01:30,610 –> 00:01:32,980
فقط یک سوم بسیار خوب است.
35
00:01:32,980 –> 00:01:35,560
چطور در مورد شبکه عصبی
36
00:01:35,560 –> 00:01:37,090
که فکر میکند میتواند توضیحی
37
00:01:37,090 –> 00:01:40,750
درباره شبکه عصبی بدهد، جالب است، من
38
00:01:40,750 –> 00:01:42,100
فکر میکنم شاید افراد بیشتری
39
00:01:42,100 –> 00:01:43,450
دست خود را روی شبکههای عصبی
40
00:01:43,450 –> 00:01:44,950
یادگیری ماشین بالا ببرند، زیرا حدس میزنم این یک
41
00:01:44,950 –> 00:01:46,630
چیز خاصتر است، بنابراین شاید راحتتر باشد
42
00:01:46,630 –> 00:01:51,040
در مورد یادگیری عمیق توضیح دهید که
43
00:01:51,040 –> 00:01:52,360
احتمالاً همان دستهایی است که برای شبکههای عصبی که
44
00:01:52,360 –> 00:01:55,300
میتوانند یادگیری عمیق را در مورد همان افراد توضیح دهند بسیار
45
00:01:55,300 –> 00:01:57,400
خوب است، من
46
00:01:57,400 –> 00:02:00,670
به سطحی فکر میکنم که برای این بحث مناسب است،
47
00:02:00,670 –> 00:02:04,000
بنابراین ما وارد آن میشویم و
48
00:02:04,000 –> 00:02:06,940
در مورد آن صحبت میکنیم. چگونه از ابتدا شبکه های عصبی بسازیم،
49
00:02:06,940 –> 00:02:09,539
پس اول از همه چرا این بحث اگر
50
00:02:09,539 –> 00:02:13,330
یادگیری ماشین را شروع کرده اید
51
00:02:13,330 –> 00:02:14,920
یا شروع به یادگیری در مورد این زمینه هیجان انگیز
52
00:02:14,920 –> 00:02:16,680
شبکه های عصبی و یادگیری عمیق
53
00:02:16,680 –> 00:02:19,090
کرده اید، احتمالاً معلم خصوصی را دیده اید.
54
00:02:19,090 –> 00:02:21,130
کتابهایی از کتابخانههایی مانند tensorflow و caris که
55
00:02:21,130 –> 00:02:23,140
به شما یاد میدهند چگونه بدانید 1520
56
00:02:23,140 –> 00:02:26,200
خط کد را از یک آموزشی که
57
00:02:26,200 –> 00:02:27,850
در یک دسته داده برای شما میخواند کپی و جایگذاری کنید،
58
00:02:27,850 –> 00:02:29,320
آن را از طریق یک مدل تغذیه میکند،
59
00:02:29,320 –> 00:02:31,720
اتفاقی جادویی رخ میدهد و ناگهان شما
60
00:02:31,720 –> 00:02:33,459
دارید یک طبقهبندیکننده تصویر یا
61
00:02:33,459 –> 00:02:34,330
ناگهان چیزی دارید که میتواند
62
00:02:34,330 –> 00:02:36,790
زبانها را ترجمه کند و این واقعاً
63
00:02:36,790 –> 00:02:39,250
شگفتانگیز است و این گواهی بر
64
00:02:39,250 –> 00:02:41,140
قدرت جامعه متنباز و
65
00:02:41,140 –> 00:02:43,000
همه چیزهای دیگر است، اما اگر به آنچه در زیر سرپوش میگذرد علاقهمند هستید،
66
00:02:43,000 –> 00:02:45,280
67
00:02:45,280 –> 00:02:46,690
میتوانید کمی ناامید کننده است و می توانید
68
00:02:46,690 –> 00:02:48,430
با آرزوی اینکه
69
00:02:48,430 –> 00:02:50,110
کمی مدل ذهنی بهتری برای آنچه که
70
00:02:50,110 –> 00:02:52,239
واقعاً با آنها در حال رخ دادن است داشته باشید و بنابراین
71
00:02:52,239 –> 00:02:54,160
این صحبت تلاش هایی برای پر کردن این
72
00:02:54,160 –> 00:02:57,400
شکاف است و اساساً من شروع به
73
00:02:57,400 –> 00:02:59,290
کشف این چیزها کردم. سعی کردم
74
00:02:59,290 –> 00:03:02,110
این چیزها را یاد بگیرم و در نهایت
75
00:03:02,110 –> 00:03:03,370
چیزی را که می خواهم امشب به شما نشان دهم بنویسم
76
00:03:03,370 –> 00:03:06,280
تا مشخص شود که شبکه های عصبی چگونه
77
00:03:06,280 –> 00:03:09,970
کار می کنند، بنابراین
78
00:03:09,970 –> 00:03:11,950
نکته دیگر این است که ما در حال انجام یک
79
00:03:11,950 –> 00:03:13,360
اسکرال کوچک هستیم.
80
00:03:13,360 –> 00:03:15,610
در اینجا برنامهنویسی زنده زیادی در اینجا وجود خواهد داشت، من میتوانم
81
00:03:15,610 –> 00:03:17,560
روی کد بزرگنمایی کنم، تمام تلاشم را میکنم تا مطمئن شوم
82
00:03:17,560 –> 00:03:19,209
همه میتوانند آن را بخوانند، اما اگر
83
00:03:19,209 –> 00:03:20,380
نزدیک پشت نشسته باشید، ممکن است برای
84
00:03:20,380 –> 00:03:22,269
دیدن شما مشکل داشته باشید. ممکن است بخواهید سعی کنید
85
00:03:22,269 –> 00:03:25,120
این کد را
86
00:03:25,120 –> 00:03:27,930
به سمت جلو بکشید، اتفاقاً همه چیز در github است، پیوند این
87
00:03:27,930 –> 00:03:32,769
است که در اسلاید اول قرار دارد و بنابراین بله،
88
00:03:32,769 –> 00:03:35,080
اگر بخواهید اگر بخواهید بررسی کنید، همه چیز در دسترس خواهد بود.
89
00:03:35,080 –> 00:03:36,190
90
00:03:36,190 –> 00:03:36,900
91
00:03:36,900 –> 00:03:39,760
خوب است بیایید شیرجه بزنیم، برای شروع آیا می
92
00:03:39,760 –> 00:03:44,190
خواهیم tensorflow را وارد کنیم، حالا فراموشش کنید
93
00:03:44,190 –> 00:03:46,170
خوب است که در مورد چه چیزی صحبت خواهیم کرد، بنابراین
94
00:03:46,170 –> 00:03:49,230
این یک نسخه از یک سخنرانی 90 دقیقه ای است
95
00:03:49,230 –> 00:03:51,030
که چند هفته پیش به آن گفتم OTS ببینید.
96
00:03:51,030 –> 00:03:52,710
نحوه ساختن یک
97
00:03:52,710 –> 00:03:54,300
شبکه عصبی اساسی از ابتدا و سپس نحوه
98
00:03:54,300 –> 00:03:56,640
انجام کارهای یادگیری عمیق را بررسی کردم، بنابراین
99
00:03:56,640 –> 00:03:58,590
فکر می کنم امشب حدود یک ساعت زمان داریم، بنابراین
100
00:03:58,590 –> 00:03:59,940
من تمام موضوعات شبکه عصبی را
101
00:03:59,940 –> 00:04:01,290
بررسی خواهم کرد که چگونه یک شبکه عصبی اولیه را بسازیم.
102
00:04:01,290 –> 00:04:03,180
خراش دهید و سپس
103
00:04:03,180 –> 00:04:04,740
حداقل از ابتدای مطالب یادگیری عمیق عبور
104
00:04:04,740 –> 00:04:05,750
کنید،
105
00:04:05,750 –> 00:04:08,430
بنابراین ابتدا فقط در مورد خوب صحبت می کنیم ما
106
00:04:08,430 –> 00:04:11,100
میخواستیم یک شبکه عصبی پایه یک
107
00:04:11,100 –> 00:04:14,730
لایه پنهان از ابتدا انجام دهیم. چگونه میتوانید
108
00:04:14,730 –> 00:04:17,130
آن را گام به گام انجام دهید
109
00:04:17,130 –> 00:04:18,988
که در داخل یک شبکه عصبی میگذرد
110
00:04:18,988 –> 00:04:22,200
و چرا چیزی که در حال وقوع است
111
00:04:22,200 –> 00:04:23,550
چرا به نظر میرسد کار میکند چیست؟
112
00:04:23,550 –> 00:04:25,770
در آنجا، بنابراین ما
113
00:04:25,770 –> 00:04:29,720
امشب آن را با جزئیات بررسی
114
00:04:29,870 –> 00:04:32,750
خواهیم کرد، سپس در مورد
115
00:04:32,750 –> 00:04:35,450
چگونگی انتقال گام به گام با تفکری
116
00:04:35,450 –> 00:04:37,010
که ما در قسمت اول به این موضوع رسیده ایم صحبت خواهیم کرد که
117
00:04:37,010 –> 00:04:38,450
چگونه می توانید
118
00:04:38,450 –> 00:04:40,370
به ساخت شبکههای عصبی عمیق تبدیل شوید
119
00:04:40,370 –> 00:04:42,170
و
120
00:04:42,170 –> 00:04:43,640
وقتی این کار را درست انجام دادید باید طرز فکر خود را در مورد شبکههای عصبی تغییر
121
00:04:43,640 –> 00:04:46,220
دهید و ما نشان خواهیم داد که
122
00:04:46,220 –> 00:04:49,490
میتوانیم EM این مجموعه داده را به
123
00:04:49,490 –> 00:04:50,720
خوبی یاد بگیریم.
124
00:04:50,720 –> 00:04:51,920
طبقهبندی تصویر فقط با این
125
00:04:51,920 –> 00:04:55,510
رویکرد گام به گام
126
00:04:55,650 –> 00:04:59,100
خوب است، بنابراین اگر شروع به یادگیری در مورد
127
00:04:59,100 –> 00:05:01,410
شبکههای عصبی کردهاید، احتمالاً
128
00:05:01,410 –> 00:05:04,890
نمودارهایی مانند این را دیدهاید، دستهای از
129
00:05:04,890 –> 00:05:06,870
دایرهها و فلشها را که
130
00:05:06,870 –> 00:05:09,360
دایرهها را به هم متصل میکنند و شاید حتی برخی از منحنیها را که
131
00:05:09,360 –> 00:05:12,300
شبیه آن هستند، ببینید. اما خوب همین است
132
00:05:12,300 –> 00:05:15,180
خوب در این نمودار چه اتفاقی میافتد،
133
00:05:15,180 –> 00:05:17,760
بنابراین این دقیقاً همان چیزی است
134
00:05:17,760 –> 00:05:19,290
که ما میخواهیم کدگذاری کنیم،
135
00:05:19,290 –> 00:05:21,000
یک شبکه عصبی که سه
136
00:05:21,000 –> 00:05:23,070
ورودی دارد، یک لایه پنهان با چهار
137
00:05:23,070 –> 00:05:26,010
ورودی و یک پیشبینی دارد که در حال تلاش هستیم.
138
00:05:26,010 –> 00:05:28,320
بنابراین، ما
139
00:05:28,320 –> 00:05:31,640
واقعاً این بسیار دقیق را درست می کنیم،
140
00:05:32,550 –> 00:05:35,550
بله، این همان کاری است که ما می خواهیم انجام دهیم،
141
00:05:35,550 –> 00:05:35,789
142
00:05:35,789 –> 00:05:40,970
بنابراین بیایید بگوییم که ما چنین داده هایی داریم
143
00:05:40,970 –> 00:05:44,880
فقط به تعدادی از سلول ها باج می دهیم و
144
00:05:44,880 –> 00:05:48,440
فرض کنید داده های ما به این شکل
145
00:05:48,440 –> 00:05:52,050
می رسند. دارای سه ویژگی x1 x2 و x3
146
00:05:52,050 –> 00:05:54,810
فقط یک و صفر ویژگیهایی است که بهطور تصادفی تولید شدهاند
147
00:05:54,810 –> 00:05:57,240
و ما بهطور زنده دریافت کردهایم که بهطور
148
00:05:57,240 –> 00:06:00,360
تصادفی 1 و 0 نیز تولید میشود، بنابراین
149
00:06:00,360 –> 00:06:03,210
یک رابطه ریاضی پیچیده
150
00:06:03,210 –> 00:06:05,909
بین این
151
00:06:05,909 –> 00:06:07,409
ویژگیها در این خروجی وجود دارد، به عبارت دیگر
152
00:06:07,409 –> 00:06:09,720
متأسفیم که گاهی اوقات رندر ریاضی وجود دارد.
153
00:06:09,720 –> 00:06:10,800
اینجا خراب می شود، بنابراین شما باید این سلول ها را اجرا کنید،
154
00:06:10,800 –> 00:06:12,139
بنابراین من این کار را انجام خواهم داد، در سراسر
155
00:06:12,139 –> 00:06:15,169
یک تابع ریاضی n وجود دارد
156
00:06:15,169 –> 00:06:19,500
که x1 x2 و x3 را می گیرد و
157
00:06:19,500 –> 00:06:22,440
مقدار مناسب Y را برمی گرداند، که تابعی وجود دارد که در آنجا
158
00:06:22,440 –> 00:06:25,080
وجود دارد. بنابراین چگونه
159
00:06:25,080 –> 00:06:26,009
میتوانیم بفهمیم که آن
160
00:06:26,009 –> 00:06:30,270
تابع چیست، اول از همه، ما نمیتوانیم
161
00:06:30,270 –> 00:06:32,930
این کار را فقط با رگرسیون لجستیک انجام دهیم
162
00:06:32,930 –> 00:06:36,960
، هیچ پارامتری مانند B یا بتا
163
00:06:36,960 –> 00:06:40,469
w1 w2 و w3 وجود ندارد تا بتوانیم یک
164
00:06:40,469 –> 00:06:42,120
تابع شبیه به آن ایجاد کنیم. و
165
00:06:42,120 –> 00:06:47,490
از آن بخواهید مقادیر خاصی از X را به یک
166
00:06:47,490 –> 00:06:50,699
مقدار مشخص به 0 و غیره ترسیم کند، شما نمی توانید این کار را
167
00:06:50,699 –> 00:06:52,680
با رگرسیون لجستیک ساده انجام دهید، چرا
168
00:06:52,680 –> 00:06:55,800
خوب نمی توانید این کار را انجام دهید اگر
169
00:06:55,800 –> 00:06:57,750
چیزی در مورد شبکه های عصبی بخوانید و
170
00:06:57,750 –> 00:07:01,409
چرا از آنها عصبی استفاده می شود. شبکهها برای
171
00:07:01,409 –> 00:07:03,180
حل مسائلی وجود دارند که فضا به
172
00:07:03,180 –> 00:07:05,789
طور خطی قابل تفکیک نیست، منظورم این است
173
00:07:05,789 –> 00:07:07,590
که میتوانند کارهای بسیار پیچیدهتری
174
00:07:07,590 –> 00:07:09,780
از آن انجام دهند، اما فقط برای سادهترین
175
00:07:09,780 –> 00:07:11,280
مثال که شما واقعاً
176
00:07:11,280 –> 00:07:12,900
برای حل کردن به چیزی مانند یک شبکه عصبی نیاز دارید،
177
00:07:12,900 –> 00:07:14,400
تصور کنید در حال تلاش برای ساختن یک
178
00:07:14,400 –> 00:07:17,400
طبقهبندی هستید. که
179
00:07:17,400 –> 00:07:18,840
نقاط آبی روشن را از نقاط آبی تیره طبقه بندی می کند
180
00:07:18,840 –> 00:07:21,449
و شما فقط دو ویژگی x1 و x2
181
00:07:21,449 –> 00:07:26,909
داشتید و نمی توانید آن را به صورت خطی جدا
182
00:07:26,909 –> 00:07:29,190
کنید، نمی توانید در هیچ نقطه ای از
183
00:07:29,190 –> 00:07:31,050
این مربع خطی بکشید تا آبی تیره نقطه
184
00:07:31,050 –> 00:07:32,310
a در یک طرف خط و
185
00:07:32,310 –> 00:07:33,569
نقاط آبی روشن در طرف دیگر هستند،
186
00:07:33,569 –> 00:07:38,190
شما می دانید که نمی توان انجام داد، بنابراین چه کاری را می توانیم
187
00:07:38,190 –> 00:07:41,430
به خوبی انجام دهیم، می توانیم کاری مانند
188
00:07:41,430 –> 00:07:43,440
مهندسی ویژگی انجام دهیم، می توانیم
189
00:07:43,440 –> 00:07:45,849
به این نمودار برگردیم و بگوییم اوه
190
00:07:45,849 –> 00:07:51,219
باشه، خوب است، خوب است اگر x2 کمتر
191
00:07:51,219 –> 00:07:53,919
از 0.5 و x1 کمتر از 0.5 باشد،
192
00:07:53,919 –> 00:07:56,349
این آبی روشن است و ما میتوانیم ادامه دهیم
193
00:07:56,349 –> 00:07:58,389
و به صورت دستی برخی از ویژگیها را ایجاد کنیم و
194
00:07:58,389 –> 00:08:01,029
سعی کنیم مشکل را از این طریق حل کنیم و
195
00:08:01,029 –> 00:08:02,770
اساساً این همان کاری است که محققان
196
00:08:02,770 –> 00:08:04,869
بینایی کامپیوتر و بسیاری از حوزهها
197
00:08:04,869 –> 00:08:06,639
قبل از عمق انجام میدادند. یاد بگیرید و در
198
00:08:06,639 –> 00:08:10,839
چند سال گذشته به وجود آمد و مشکل این است که چه کسی واقعاً
199
00:08:10,839 –> 00:08:12,219
دوست دارد این کار را انجام دهد، چه کسی دوست دارد مهندسی ویژگی انجام دهد،
200
00:08:12,219 –> 00:08:13,719
چه کسی دوست دارد وارد شود و
201
00:08:13,719 –> 00:08:15,759
به صورت دستی تلاش کند تا بفهمد این
202
00:08:15,759 –> 00:08:18,009
ویژگی های میانی چیست که
203
00:08:18,009 –> 00:08:19,689
در نهایت می تواند به ما در پیش بینی ما کمک کند
204
00:08:19,689 –> 00:08:23,499
که خوب نیست. خیلی خوب می شود
205
00:08:23,499 –> 00:08:24,909
اگر بتوانیم شبکه های عصبی
206
00:08:24,909 –> 00:08:26,169
اساساً این مهندسی ویژگی را
207
00:08:26,169 –> 00:08:28,269
برای ما انجام دهند، بنابراین ما سعی می
208
00:08:28,269 –> 00:08:32,620
کنیم همه چیز را درست انجام دهیم تا در واقع
209
00:08:32,620 –> 00:08:33,669
یک شبکه عصبی بسازیم و ما می خواهیم برای
210
00:08:33,669 –> 00:08:35,490
انجام یک پیشبینی با استفاده از این شبکه عصبی،
211
00:08:35,490 –> 00:08:38,229
بنابراین اینجا جایی است که ما قرار است
212
00:08:38,229 –> 00:08:40,078
به ریاضیات و نحوه کار کردن
213
00:08:40,078 –> 00:08:43,899
همه چیز بپردازیم، به سرعت آن
214
00:08:43,899 –> 00:08:47,589
را مرور میکنم.
215
00:08:47,589 –> 00:08:50,560
تمام معادلات را ببینید و
216
00:08:50,560 –> 00:08:52,240
ببینید دقیقاً چه اتفاقی میافتد، اما
217
00:08:52,240 –> 00:08:55,120
من مراحل جداگانه
218
00:08:55,120 –> 00:08:56,470
را کمی سریع طی میکنم تا بتوانیم
219
00:08:56,470 –> 00:08:59,019
به مطالب یادگیری عمیق برسیم، اما در سطح بالایی
220
00:08:59,019 –> 00:09:00,339
آنچه باید در نظر داشته باشید این است
221
00:09:00,339 –> 00:09:02,500
که چه اتفاقی میافتد. آیا ورودی دریافت می کنیم یا
222
00:09:02,500 –> 00:09:04,180
آن را از یک شبکه عصبی عبور می
223
00:09:04,180 –> 00:09:05,319
دهیم و در نهایت به یک پیش بینی می
224
00:09:05,319 –> 00:09:06,639
رسیم که به عددی
225
00:09:06,639 –> 00:09:08,800
بین 0 و 1 می رسیم و
226
00:09:08,800 –> 00:09:09,970
آن پیش بینی را در یک مرحله انجام می دهیم به صورت گام به گام
227
00:09:09,970 –> 00:09:12,399
و در طول مسیری که به
228
00:09:12,399 –> 00:09:14,139
نتیجه می رسیم، این کمیت های میانی به دست
229
00:09:14,139 –> 00:09:15,579
می آیند که من آن
230
00:09:15,579 –> 00:09:18,910
ها را B C می نامم و سپس P
231
00:09:18,910 –> 00:09:21,189
پیش بینی نهایی خواهد بود،
232
00:09:21,189 –> 00:09:23,800
پس بیایید به این موضوع بپردازیم. مرحله اول
233
00:09:23,800 –> 00:09:26,170
اکنون این معادلات به هم ریخته است، بنابراین
234
00:09:26,170 –> 00:09:28,689
مرحله اول می خواهیم ویژگی های اصلی خود را برداریم
235
00:09:28,689 –> 00:09:30,819
و ما میخواهیم این
236
00:09:30,819 –> 00:09:33,610
ویژگیهای میانی یا پنهان را ایجاد کنیم که
237
00:09:33,610 –> 00:09:35,980
ترکیبی خطی از ویژگیهای اصلی ما
238
00:09:35,980 –> 00:09:38,589
هستند، بنابراین ترکیبی از
239
00:09:38,589 –> 00:09:39,759
ویژگیهای اصلی ما این ویژگیهای میانی را ایجاد میکند،
240
00:09:39,759 –> 00:09:41,680
بنابراین به عبارت دیگر
241
00:09:41,680 –> 00:09:43,480
برای هر یک از ویژگیهای میانی، فرض کنیم
242
00:09:43,480 –> 00:09:44,110
یکی به
243
00:09:44,110 –> 00:09:46,149
نام یکی وجود دارد که میخواهیم آن را یک ترکیب خطی کنیم.
244
00:09:46,149 –> 00:09:47,860
از ویژگی های اصلی ما، بنابراین
245
00:09:47,860 –> 00:09:50,500
فقط X 1 برابر وزن به اضافه X 2
246
00:09:50,500 –> 00:09:52,149
برابر وزن به اضافه X 3 برابر
247
00:09:52,149 –> 00:09:54,140
وزن
248
00:09:54,140 –> 00:09:56,240
و به طور مشابه برای همه ویژگی های متوسط دیگر ما، بل
249
00:09:56,240 –> 00:09:59,140
250
00:09:59,519 –> 00:10:01,860
، من قصد ندارم در این شبکه عصبی سوگیری انجام دهم، مع
251
00:10:01,860 –> 00:10:03,389
وم است که ما انجام نمی دهیم یکی را
252
00:10:03,389 –> 00:10:05,429
نمی خوریم اما بله سوال بسیار خوبی است که ما می خواهیم
253
00:10:05,429 –> 00:10:08,389
از یک سوگیری در a در یک شبکه عصبی واقعی استفاده کنیم، یک
254
00:10:08,389 –> 00:10:11,269
روش مختصر برای بیان این ایده از
255
00:10:11,269 –> 00:10:13,139
ویژگی های میانی که
256
00:10:13,139 –> 00:10:14,819
ترکیبات خطی ویژگی اصلی ما هستند این
257
00:10:14,819 –> 00:10:17,100
است که آن ویژگی های اصلی را به عنوان
258
00:10:17,100 –> 00:10:20,339
یک بردار نشان دهیم و سپس وزن ها را
259
00:10:20,339 –> 00:10:22,889
به عنوان یک ماتریس نشان می دهد و سپس تبدیل
260
00:10:22,889 –> 00:10:24,389
ویژگی های اصلی ما به
261
00:10:24,389 –> 00:10:25,889
ویژگی های میانی را به عنوان ضرب ماتریس
262
00:10:25,889 –> 00:10:30,209
نشان می دهد، بنابراین فکر می کنم این یک
263
00:10:30,209 –> 00:10:31,889
واردات است نقطه مورچه ضربهای ماتریس زیادی در
264
00:10:31,889 –> 00:10:33,449
265
00:10:33,449 –> 00:10:35,249
شبکههای عصبی در مسیر رو به جلو
266
00:10:35,249 –> 00:10:36,660
در حال انجام است، بنابراین ما پیشبینی خود را انجام میدهیم و
267
00:10:36,660 –> 00:10:38,279
زمانی که میخواهیم به عقب برگردیم در پس انتشار انجام میدهیم و به
268
00:10:38,279 –> 00:10:39,869
خوبی وارد چیزی میشویم
269
00:10:39,869 –> 00:10:42,240
که وجود ندارد. نوعی از
270
00:10:42,240 –> 00:10:44,790
تئوری جبر خطی در اینجا
271
00:10:44,790 –> 00:10:46,800
ضرب های ماتریس فقط روشی مختصر برای
272
00:10:46,800 –> 00:10:49,470
بیان این موضوع است که ویژگی هایی که
273
00:10:49,470 –> 00:10:51,360
در لایه بعدی شبکه عصبی بهتر بودند
274
00:10:51,360 –> 00:10:53,220
ترکیب
275
00:10:53,220 –> 00:10:54,779
خطی ویژگی های لایه قبلی
276
00:10:54,779 –> 00:10:57,059
شبکه عصبی هستند.
277
00:10:57,059 –> 00:10:59,610
روشی برای تبدیل یک
278
00:10:59,610 –> 00:11:01,559
لایه به لایه دیگر، اما فقط به این دلیل
279
00:11:01,559 –> 00:11:02,910
که کلمه ماتریس را می شنوید به این معنی نیست که
280
00:11:02,910 –> 00:11:07,339
نوعی جبر خطی در اینجا وجود دارد،
281
00:11:08,089 –> 00:11:11,149
بنابراین با کدگذاری آن فقط
282
00:11:11,149 –> 00:11:15,550
داده های اصلی ما را به عنوان یک بردار در آنجا تعریف
283
00:11:15,550 –> 00:11:18,620
کنید و ماتریس وزن کمی را پیدا کنید. به طور تصادفی
284
00:11:18,620 –> 00:11:20,779
مقداردهی اولیه شده است، یک علم کامل
285
00:11:20,779 –> 00:11:22,249
در مورد چگونگی مقداردهی اولیه این چیزها وجود دارد، اما
286
00:11:22,249 –> 00:11:24,189
در حال حاضر فقط به صورت تصادفی آن را مقداردهی اولیه کنید و
287
00:11:24,189 –> 00:11:26,420
ما فقط یک حاصل ضرب نقطه ای از این
288
00:11:26,420 –> 00:11:28,100
ضرب ماتریس و ویژگی های میانی خود را به
289
00:11:28,100 –> 00:11:29,449
نوعی
290
00:11:29,449 –> 00:11:33,079
غیرعادی کنید و اجازه دهید به جایی که
291
00:11:33,079 –> 00:11:35,709
هستیم برویم، بنابراین از ویژگی های اصلی خود
292
00:11:35,709 –> 00:11:38,720
به ابتدای لایه پنهان خود رفتیم،
293
00:11:38,720 –> 00:11:42,160
خوب حالا می خواهیم چه کار
294
00:11:42,160 –> 00:11:45,110
کنیم، می خواهیم اینها را از طریق یک
295
00:11:45,110 –> 00:11:48,499
تابع فعال سازی تغذیه کنیم که در آن توابع فعال سازی وجود
296
00:11:48,499 –> 00:11:50,990
دارد. برخی از شما این یک بررسی است، اما
297
00:11:50,990 –> 00:11:55,699
معلوم می شود که در هر اواخر
298
00:11:55,699 –> 00:11:57,350
شبکه های عصبی این سری از
299
00:11:57,350 –> 00:11:59,870
تبدیل های ریاضی هستند که روی داده ها انجام می دهید،
300
00:11:59,870 –> 00:12:02,449
معلوم می شود که می خواهید
301
00:12:02,449 –> 00:12:04,850
تبدیل های خطی و غیرخطی داده ها را
302
00:12:04,850 –> 00:12:07,370
هنگام انجام یک شبکه عصبی جایگزین کنید و دلیل آن
303
00:12:07,370 –> 00:12:09,499
در واقع دلیل اصلی این است
304
00:12:09,499 –> 00:12:11,240
که اگر شما فقط
305
00:12:11,240 –> 00:12:14,110
تبدیل خطی را انجام دهید
306
00:12:14,110 –> 00:12:17,269
تبدیل خطی را انجام دهید، برش خطی ترکیب
307
00:12:17,269 –> 00:12:19,399
خطی یک ترکیب خطی فقط یک ترکیب خطی است،
308
00:12:19,399 –> 00:12:21,800
به عبارت دیگر
309
00:12:21,800 –> 00:12:25,699
اگر 3x به اضافه 8 بگیرید و در 4x بگیرید، شما را به
310
00:12:25,699 –> 00:12:28,009
برق وصل کنید. عبارت یا X بعلاوه 7
311
00:12:28,009 –> 00:12:30,620
وقتی تمام این ریاضیات را انجام میدادید،
312
00:12:30,620 –> 00:12:32,120
فقط با یک عبارت جدید مواجه میشوید
313
00:12:32,120 –> 00:12:35,120
که تبر به اضافه B بود، بنابراین اگر فقط یک
314
00:12:35,120 –> 00:12:37,189
سری لی را انجام دهید. تبدیل های نزدیک
315
00:12:37,189 –> 00:12:38,959
به کل شبکه عصبی خود
316
00:12:38,959 –> 00:12:40,970
را با یک تبدیل خطی بزرگ مواجه خواهید کرد
317
00:12:40,970 –> 00:12:42,110
و نمی تواند
318
00:12:42,110 –> 00:12:44,569
روابط غیرخطی را یاد بگیرد، به همین دلیل است
319
00:12:44,569 –> 00:12:46,309
که باید این
320
00:12:46,309 –> 00:12:47,839
توابع غیرخطی را در وسط نقشه عصبی اضافه
321
00:12:47,839 –> 00:12:51,709
کنید تا به راحتی درک
322
00:12:51,709 –> 00:12:53,749
تابع غیرخطی این است که این
323
00:12:53,749 –> 00:12:56,779
تابع سیگموئید در اینجا یک عدد X می گیرد و
324
00:12:56,779 –> 00:12:58,999
آن را به 1 روی 1 به اضافه e به منفی
325
00:12:58,999 –> 00:13:02,329
X ترسیم می کند اعداد کوچک را به 0 نقشه می دهد
326
00:13:02,329 –> 00:13:09,379
اعداد بزرگ را به یکی نشان می دهد 0 تا 0.5 را نشان می دهد تا بتوانیم
327
00:13:09,379 –> 00:13:11,209
آن ویژگی های میانی را که می دانیم تغذیه
328
00:13:11,209 –> 00:13:13,160
کنیم. محاسبه شده، میتوانیم هر
329
00:13:13,160 –> 00:13:14,509
یک از آنها را از طریق تابع سیگموید تغذیه
330
00:13:14,509 –> 00:13:16,129
کنیم و هر کدام از آنها به
331
00:13:16,129 –> 00:13:19,809
مقدار B ختم میشود
332
00:13:22,720 –> 00:13:25,140
که
333
00:13:27,840 –> 00:13:32,810
بله، بله
334
00:13:36,660 –> 00:13:40,800
، خیالتان راحت خنک شود، بله، بله، همه اینها در
335
00:13:40,800 –> 00:13:44,149
github است، اینطور نیست،
336
00:13:44,149 –> 00:13:46,709
پس چه کسی اینجا از مشتری استفاده میکند. نوتبوکها
337
00:13:46,709 –> 00:13:49,440
واقعاً بهسرعت عالی هستند که در اینجا از
338
00:13:49,440 –> 00:13:51,860
ظهور برای ارائه از نوتبوکهای مشتری استفاده میکند،
339
00:13:51,860 –> 00:13:56,399
کسی که از طلوع شما شنیده باشد، فقط دو نفر
340
00:13:56,399 –> 00:14:01,910
از شما شنیدهاند، خوب، فکر میکنم این ارزش آن را دارد که
341
00:14:05,670 –> 00:14:09,930
زنده بمانید، یک چارچوب است
342
00:14:11,820 –> 00:14:11,860
آه
343
00:14:11,860 –> 00:14:15,019
[موسیقی]
344
00:14:15,460 –> 00:14:17,690
بدون اینترنت، اوه من نیستم واقعاً
345
00:14:17,690 –> 00:14:19,220
به اینترنت متصل
346
00:14:19,220 –> 00:14:20,150
هستم که بعداً من را در
347
00:14:20,150 –> 00:14:22,840
مورد Wi-Fi به هم می
348
00:14:23,350 –> 00:14:32,670
ریزد. اوه بعدی زیبا، رمز عبور
349
00:14:32,670 –> 00:14:35,760
کپی شده است
350
00:14:38,250 –> 00:14:40,310
شما
351
00:14:41,959 –> 00:14:45,360
عالی است، خوب
352
00:14:45,360 –> 00:14:47,069
این چیز ارزشش را دارد،
353
00:14:47,069 –> 00:14:53,220
قول می دهم و اتصال به آنجا وصل شد،
354
00:14:53,220 –> 00:14:54,120
خیلی خوب پیش می رویم،
355
00:14:54,120 –> 00:14:57,870
پس افزایش می یابد یک پسوند نوت بوک مشتری
356
00:14:57,870 –> 00:14:58,860
شما من
357
00:14:58,860 –> 00:15:00,930
که در اینجا برخی از پسوندهای نوت بوک مشتری را نصب کرده ام،
358
00:15:00,930 –> 00:15:02,579
نوت بوک های مشتری خود را
359
00:15:02,579 –> 00:15:04,589
اگر نصب نکرده اید، توصیه می کنم
360
00:15:04,589 –> 00:15:06,569
آنهایی را بررسی کنید که باعث می
361
00:15:06,569 –> 00:15:08,490
شوند نوت بوک مشتری شما قادر به انجام
362
00:15:08,490 –> 00:15:10,649
انواع چیزهای جالب باشد، یک
363
00:15:10,649 –> 00:15:13,309
پسوند نوت بوک مشتری است. که به شما امکان می دهد
364
00:15:13,309 –> 00:15:15,540
ارائه هایی مانند آنچه من
365
00:15:15,540 –> 00:15:17,639
از یک نوت بوک مشتری استفاده می کنم ایجاد کنید، بنابراین من در
366
00:15:17,639 –> 00:15:19,920
حال حاضر به معنای واقعی کلمه یک نوت بوک مشتری را
367
00:15:19,920 –> 00:15:22,050
در مرورگر خود اجرا می کنم، اما من از این
368
00:15:22,050 –> 00:15:24,930
پسوند جاوا اسکریپت استفاده می کنم که به من امکان می دهد همه
369
00:15:24,930 –> 00:15:28,709
این موارد ارائه را با آن انجام دهم تا از آن استفاده کنیم.
370
00:15:28,709 –> 00:15:30,540
این در متیس برای تدریس همیشه
371
00:15:30,540 –> 00:15:31,800
372
00:15:31,800 –> 00:15:33,389
373
00:15:33,389 –> 00:15:35,999
374
00:15:35,999 –> 00:15:37,470
375
00:15:37,470 –> 00:15:39,389
در اینجا معلمی است که در اینجا چیزهایی را آموزش می دهد
376
00:15:39,389 –> 00:15:42,959
خوب لوکا، شما باید از این
377
00:15:42,959 –> 00:15:45,809
برای آموزش درست به چیزهای شبکه عصبی استفاده
378
00:15:45,809 –> 00:15:49,500
کنید، بنابراین ما ورودی را
379
00:15:49,500 –> 00:15:53,000
از طریق این تابع سیگموید به لایه خود وارد
380
00:15:53,120 –> 00:15:56,360
کردیم و اکنون می خواهیم این
381
00:15:56,360 –> 00:15:59,180
نگاه ها را ببینیم، اجازه دهید من بروم اکنون می خواهیم
382
00:15:59,180 –> 00:16:01,580
نتیجه این را بگیریم و آن را از طریق آن تغذیه کنیم
383
00:16:01,580 –> 00:16:04,279
یا چندین ترکیب خطی
384
00:16:04,279 –> 00:16:06,140
از این ویژگی ها
385
00:16:06,140 –> 00:16:08,210
را بگیریم و از آنها برای ایجاد آنچه در نهایت به
386
00:16:08,210 –> 00:16:10,220
پیش بینی ما تبدیل می شود استفاده کنیم تا بتوانیم
387
00:16:10,220 –> 00:16:11,810
یک تبدیل خطی دیگر را ضرب ماتریس دیگری انجام
388
00:16:11,810 –> 00:16:14,360
دهیم تا برای
389
00:16:14,360 –> 00:16:16,760
ایجاد این کمیت، ببینید که ترکیبی خطی
390
00:16:16,760 –> 00:16:19,820
از کمیتهای 4b است که ما
391
00:16:19,820 –> 00:16:22,220
محاسبه کردیم و وزنهایی
392
00:16:22,220 –> 00:16:26,450
که به دست میآیند، W نامیده میشود، بنابراین a B a B C و P
393
00:16:26,450 –> 00:16:28,220
یا مقدار در V و W دو
394
00:16:28,220 –> 00:16:31,820
ماتریس وزن ضعیف هستند. خیلی خوب است،
395
00:16:31,820 –> 00:16:34,310
بنابراین اساساً میتوانیم نکته را
396
00:16:34,310 –> 00:16:36,050
اینجا بنویسیم این است که در نهایت میخواهیم یک ترکیب خطی انجام دهیم،
397
00:16:36,050 –> 00:16:38,029
اما میتوانیم آن را
398
00:16:38,029 –> 00:16:40,060
به راحتی به عنوان ضرب ماتریس
399
00:16:40,060 –> 00:16:43,240
بنویسیم، بنابراین ماتریس وزن خود را در اینجا مقداردهی اولیه میکنیم
400
00:16:43,240 –> 00:16:47,450
و t هنگامی که محصول نقطهای را انجام میدهیم که به
401
00:16:47,450 –> 00:16:49,970
ما میدهد یک نوع پیشبینی نهایی غیرعادی است که
402
00:16:49,970 –> 00:16:53,980
این عدد منفی 1.0 است،
403
00:16:53,980 –> 00:16:56,600
پس این جایی است که ما
404
00:16:56,600 –> 00:16:59,000
تقریباً یک ساعت آن مرحله را طی کردهایم تا
405
00:16:59,000 –> 00:17:05,059
پیشبینی نهایی خود را طی کنیم و برای نتیجه نهایی خود
406
00:17:05,059 –> 00:17:06,530
فقط میخواهیم تغذیه کنیم. از طریق
407
00:17:06,530 –> 00:17:08,929
تابع sigmoid دوباره، بنابراین اجازه دهید تا آن را
408
00:17:08,929 –> 00:17:10,550
کد گذاری کنیم، اجازه دهید این را از طریق
409
00:17:10,550 –> 00:17:13,010
تابع sigmoid تغذیه کنیم و در نهایت به یک
410
00:17:13,010 –> 00:17:14,660
پیشبینی نهایی برای این شبکه عصبی میرسیم، بنابراین
411
00:17:14,660 –> 00:17:16,000
ما مرحله به مرحله را طی کردهایم
412
00:17:16,000 –> 00:17:18,679
و ورودیای را که به این شبکه عصبی دادهایم دادهایم.
413
00:17:18,679 –> 00:17:20,059
و وزنهایی که به آن
414
00:17:20,059 –> 00:17:27,230
دادیم پیشبینی 0.27 داریم خیلی خوب
415
00:17:27,230 –> 00:17:30,830
اینجا هستیم و حالا بیایید دوباره ضرر را محاسبه کنیم.
416
00:17:30,830 –> 00:17:35,030
من از یک تابع ضرر در اینجا استفاده میکنم.
417
00:17:35,030 –> 00:17:37,400
418
00:17:37,400 –> 00:17:39,620
419
00:17:39,620 –> 00:17:40,790
این چیزی است که به آنها می گوید که در
420
00:17:40,790 –> 00:17:42,080
نهایت همه آنها خالص هستند، چه
421
00:17:42,080 –> 00:17:45,020
خوب باشد یا نه خیلی خوب، من در اینجا از یک
422
00:17:45,020 –> 00:17:46,610
تابع ضرر استفاده می کنم که واقعاً به راحتی می توان
423
00:17:46,610 –> 00:17:48,740
با میانگین مربعات خطای ریاضی مقابله
424
00:17:48,740 –> 00:17:51,440
کرد، بنابراین شما را به همان اندازه جریمه می کند.
425
00:17:51,440 –> 00:17:54,080
چه مقدار زیاد یا پایین را از دست بدهید و یک
426
00:17:54,080 –> 00:17:55,760
مشتق آسان خوب دارد زیرا ما به آن می
427
00:17:55,760 –> 00:17:56,870
رویم که مهم است این را
428
00:17:56,870 –> 00:18:01,450
پیدا کنیم و من فقط آن را کد می کنم
429
00:18:01,460 –> 00:18:05,870
تا ضرری که با 0.27 از دست داده ایم باشد زیرا
430
00:18:05,870 –> 00:18:08,710
431
00:18:09,060 –> 00:18:11,790
خوب است. اکنون پیشبینی خود را
432
00:18:11,790 –> 00:18:14,250
محاسبه کردهایم و ضرر را محاسبه کردهایم،
433
00:18:14,250 –> 00:18:16,800
بنابراین اکنون اینجاست که جادوی واقعی از کجا
434
00:18:16,800 –> 00:18:20,220
شروع میشود که این شبکه عصبی عالی
435
00:18:20,220 –> 00:18:21,840
چیزی است که میتواند ورودی بگیرد و
436
00:18:21,840 –> 00:18:23,880
پیشبینی کند.
437
00:18:23,880 –> 00:18:26,940
میخواهید
438
00:18:26,940 –> 00:18:28,560
این کار را انجام دهید این است که چگونه میتوان این چیز را
439
00:18:28,560 –> 00:18:30,420
واقعاً یاد گرفت که ما یک پیشبینی انجام
440
00:18:30,420 –> 00:18:33,990
دادهایم و ضرر خود را محاسبه کردهایم، به یاد داشته باشید که هر مرحله
441
00:18:33,990 –> 00:18:35,460
در شبکه عصبی ما فقط یک
442
00:18:35,460 –> 00:18:37,650
تابع ریاضی بود که
443
00:18:37,650 –> 00:18:39,720
به برخی از ورودی اعمال میشد و منجر به
444
00:18:39,720 –> 00:18:42,080
خروجی میشد،
445
00:18:43,600 –> 00:18:46,420
بنابراین اگر بنویسیم چه چیزی ما از نظر
446
00:18:46,420 –> 00:18:48,040
توابع ریاضی میتوانیم
447
00:18:48,040 –> 00:18:51,670
آن را بنویسیم به این صورت که یک ورودی گرفتیم و یک
448
00:18:51,670 –> 00:18:54,160
ماتریس وزن B به این نتیجه رسید و
449
00:18:54,160 –> 00:18:56,050
آن را از طریق یک تابع
450
00:18:56,050 –> 00:18:57,460
دیگر به تابع دیگری همراه با
451
00:18:57,460 –> 00:18:59,890
ماتریس وزنی دیگر و غیره وارد کردیم تا زمانی که به
452
00:18:59,890 –> 00:19:01,060
Lo خود رسیدیم. ss
453
00:19:01,060 –> 00:19:03,120
L
454
00:19:04,250 –> 00:19:06,310
شما
455
00:19:07,740 –> 00:19:12,799
و ما می توانیم بنویسیم که به عنوان این
456
00:19:14,740 –> 00:19:18,280
تابع بزرگ ریه که ورودی ما X
457
00:19:18,280 –> 00:19:21,610
وزن ما NW است و
458
00:19:21,610 –> 00:19:26,890
مقداری L را نتیجه می دهد بسیار خوب است، بنابراین چه کاری می خواهیم
459
00:19:26,890 –> 00:19:28,900
انجام دهیم تا این شبکه عصبی یاد بگیرد یا
460
00:19:28,900 –> 00:19:32,100
این سری معادلات به نظر برسد. خوب یاد بگیریم
461
00:19:32,100 –> 00:19:34,750
که چه کاری میخواهیم انجام دهیم، این
462
00:19:34,750 –> 00:19:38,170
است که این کار را انجام دهیم، میخواهیم تک تک
463
00:19:38,170 –> 00:19:41,380
وزنها را در ماتریسهای وزن V و W بگیریم
464
00:19:41,380 –> 00:19:44,110
و آنها را با توجه به این معادلات بهروزرسانی کنیم،
465
00:19:44,110 –> 00:19:47,170
اگر یک وزن فردی به
466
00:19:47,170 –> 00:19:48,880
خوبی در مورد چرایی این معادلات صحبت کنم.
467
00:19:48,880 –> 00:19:52,380
در اسلاید بعدی احساس کنید،
468
00:19:53,770 –> 00:19:56,170
پس چرا آن
469
00:19:56,170 –> 00:19:57,940
معادلات برای کسانی از شما که
470
00:19:57,940 –> 00:19:59,380
با شیب نزول آشنا هستند، منطقی هستند، اینها
471
00:19:59,380 –> 00:20:00,910
اساساً معادلات شیب نزول هستند،
472
00:20:00,910 –> 00:20:02,860
اما بیایید برای یک ثانیه
473
00:20:02,860 –> 00:20:04,929
از اصول اول به اینها فکر کنیم، بنابراین
474
00:20:04,929 –> 00:20:07,240
اگر وزن فردی افزایش آن
475
00:20:07,240 –> 00:20:11,679
باعث شود از دست دادن ما برای بالا رفتن بد است،
476
00:20:11,679 –> 00:20:15,580
یعنی ما می خواهیم آن وزن پایین بیاید و
477
00:20:15,580 –> 00:20:16,809
معلوم می شود که این همان کاری است که این معادله
478
00:20:16,809 –> 00:20:19,870
انجام می دهد مشتق جزئی از دست دادن
479
00:20:19,870 –> 00:20:21,550
با توجه به وزن مثبت خواهد بود.
480
00:20:21,550 –> 00:20:23,890
عدد، بنابراین ما
481
00:20:23,890 –> 00:20:26,020
یک عدد مثبت را کم می کنیم تا ارزش آن
482
00:20:26,020 –> 00:20:29,770
وزن کاهش یابد، حالا خوب است،
483
00:20:29,770 –> 00:20:31,809
اگر افزایش یکی از وزن های ما در
484
00:20:31,809 –> 00:20:35,170
شبکه ما باعث کاهش وزن ما شود
485
00:20:35,170 –> 00:20:36,520
، عالی است در واقع ما فقط می خواهیم
486
00:20:36,520 –> 00:20:39,520
به افزایش وزن ادامه دهیم. بنابراین
487
00:20:39,520 –> 00:20:41,110
این معادله کاری را انجام می دهد که
488
00:20:41,110 –> 00:20:43,809
مشتق جزئی از دست دادن با توجه
489
00:20:43,809 –> 00:20:46,000
به وزن یک عدد منفی خواهد بود و
490
00:20:46,000 –> 00:20:47,950
ما یک عدد منفی را کم می کنیم
491
00:20:47,950 –> 00:20:52,390
بنابراین این وزن در واقع افزایش می یابد بنابراین
492
00:20:52,390 –> 00:20:53,920
این همان چیزی است که می خواهیم محاسبه کنیم که می
493
00:20:53,920 –> 00:20:55,840
خواهیم محاسبه کنیم. این مقدار در اینجا
494
00:20:55,840 –> 00:20:57,940
مشتق جزئی از دست دادن با
495
00:20:57,940 –> 00:20:59,440
توجه به تمام وزنهای
496
00:20:59,440 –> 00:21:01,470
شبکه
497
00:21:03,280 –> 00:21:06,610
کاملاً درست است و ما واقعاً چگونه این کار را به
498
00:21:06,610 –> 00:21:09,840
خوبی انجام میدهیم، میدانیم که ضرر فقط
499
00:21:09,840 –> 00:21:13,240
همین مقدار است،
500
00:21:13,240 –> 00:21:16,210
اگر این یک نتیجه بزرگ از اعمال همه باشد، از نظر ریاضی خوب است.
501
00:21:16,210 –> 00:21:17,890
این توابع برای وزن و
502
00:21:17,890 –> 00:21:20,160
ورودی ما
503
00:21:21,820 –> 00:21:25,570
و جادوی شبکه های عصبی در
504
00:21:25,570 –> 00:21:28,120
روش ریاضی که باعث می شود آنها
505
00:21:28,120 –> 00:21:31,330
واقعاً کار کنند این است که ما می توانیم محاسبه کنیم که
506
00:21:31,330 –> 00:21:34,150
چقدر باید افزایش دهیم یا
507
00:21:34,150 –> 00:21:37,090
508
00:21:37,090 –> 00:21:40,300
با محاسبه تمام این
509
00:21:40,300 –> 00:21:42,640
مشتقات جزئی منفرد که به یاد داشته باشید، هر وزن فردی را در شبکه عصبی کاهش دهید که به یاد داشته باشید
510
00:21:42,640 –> 00:21:45,250
فقط نتایج آن توابع ساده ای هستند
511
00:21:45,250 –> 00:21:46,780
که در طول گذر رو به جلو اعمال کردیم
512
00:21:46,780 –> 00:21:49,840
و سپس قانون زنجیره به ما می گوید که اگر
513
00:21:49,840 –> 00:21:52,060
آنها را به روش صحیح در یکدیگر ضرب کنیم،
514
00:21:52,060 –> 00:21:54,910
از دست دادن ما در واقع از دست دادن ما را
515
00:21:54,910 –> 00:21:57,340
افزایش یا کاهش می دهد
516
00:21:57,340 –> 00:21:59,350
وزن های ما در جهت درست به روز می شوند، به
517
00:21:59,350 –> 00:22:00,910
طوری که کاهش در واقع
518
00:22:00,910 –> 00:22:04,360
کاهش می یابد و این نوعی جادوی است
519
00:22:04,360 –> 00:22:08,050
که چرا شبکه های عصبی کار می کنند، بنابراین کاری که ما می
520
00:22:08,050 –> 00:22:09,370
خواهیم انجام دهیم این است که اکنون از آن عبور کرده و
521
00:22:09,370 –> 00:22:12,150
محاسبه کنیم. همه این مشتقات جزئی
522
00:22:12,150 –> 00:22:14,500
دوباره ریاضیات
523
00:22:14,500 –> 00:22:17,340
و چیزهای گام به گام زیادی خواهد بود،
524
00:22:17,340 –> 00:22:19,720
اما خواهید دید که وقتی همه اینها را محاسبه می کنیم،
525
00:22:19,720 –> 00:22:21,760
وقتی آنها را با هم ضرب می کنیم و
526
00:22:21,760 –> 00:22:24,610
سپس زمانی که به طور مکرر به روز می کنیم
527
00:22:24,610 –> 00:22:27,040
اوزان بر اساس این محاسبات
528
00:22:27,040 –> 00:22:30,460
که شبکه عصبی به نظر می رسد یاد می گیرد، بنابراین
529
00:22:30,460 –> 00:22:31,840
اجازه دهید نحوه کار این
530
00:22:31,840 –> 00:22:33,580
مشتقات جزئی را بررسی کنیم و خواهید دید که
531
00:22:33,580 –> 00:22:35,410
برخی از آنها کمی آشفته می شوند اما
532
00:22:35,410 –> 00:22:37,510
بسیار زیاد آنها در نهایت بسیار ساده هستند،
533
00:22:37,510 –> 00:22:39,910
بنابراین ابتدا ضرر مشتق جزئی
534
00:22:39,910 –> 00:22:43,240
با توجه به پیشبینی خوب
535
00:22:43,240 –> 00:22:46,920
به یاد داشته باشید که پیشبینی فقط
536
00:22:46,920 –> 00:22:49,540
ضرر به عنوان تابعی از یک پیشبینی بود،
537
00:22:49,540 –> 00:22:51,730
فقط این معادله در اینجا بود، بنابراین
538
00:22:51,730 –> 00:22:53,470
مشتق جزئی آن نسبت به P
539
00:22:53,470 –> 00:22:57,960
دقیقاً به همان اندازه است. معلوم می شود که Y منهای P منفی است،
540
00:22:58,309 –> 00:23:03,259
بنابراین کدگذاری تا بالا بسیار آسان است، کدگذاری
541
00:23:03,259 –> 00:23:05,960
به بالا فقط این است که اولین کمیت ما است
542
00:23:05,960 –> 00:23:09,259
و مرحله اول انتشار برگشتی
543
00:23:09,259 –> 00:23:11,590
انجام می شود،
544
00:23:12,830 –> 00:23:14,480
بنابراین این جایی است که ما ضرر خود را برداشته
545
00:23:14,480 –> 00:23:17,860
ایم و
546
00:23:18,170 –> 00:23:22,100
تا اینجا سؤالات را به عقب می رویم. این به نوعی
547
00:23:22,100 –> 00:23:23,330
این ایده چیزی است که ما قرار است
548
00:23:23,330 –> 00:23:28,240
از آن عبور کنیم، بسیار خوب است،
549
00:23:29,270 –> 00:23:33,320
بنابراین مورد بعدی خلوت پارک
550
00:23:33,320 –> 00:23:35,270
این کمیت C است که ورودی
551
00:23:35,270 –> 00:23:37,550
تابع سیگموئید نهایی به عنوان a
552
00:23:37,550 –> 00:23:39,830
مربوط به P است. و اما به یاد داشته باشید که از آنجایی که
553
00:23:39,830 –> 00:23:41,990
این فقط یک تابع سیگموید است، تابع سیگموئید
554
00:23:41,990 –> 00:23:43,490
این ویژگی واقعاً خوب را دارد
555
00:23:43,490 –> 00:23:47,510
که اگر این تابع سیگموید باشد،
556
00:23:47,510 –> 00:23:49,280
مشتق آن نسبت به X
557
00:23:49,280 –> 00:23:50,960
، فقط تابع سیگموئید
558
00:23:50,960 –> 00:23:54,260
برابر با 1 متر است. تابع سیگموئید همانطور
559
00:23:54,260 –> 00:23:55,700
که مشخص است، کارها را
560
00:23:55,700 –> 00:24:03,380
برای ما خوب و آسان می کند، بنابراین اگر C
561
00:24:03,380 –> 00:24:04,970
به این شکل به P تبدیل می شود،
562
00:24:04,970 –> 00:24:06,890
مشتق جزئی در اینجا فقط سیگموئید C
563
00:24:06,890 –> 00:24:10,060
ضربدر 1 منهای سیگما C است
564
00:24:10,060 –> 00:24:17,970
و کدگذاری در آن بالا آسان است. اشکالی
565
00:24:19,690 –> 00:24:23,320
ندارد اجازه دهید ادامه دهیم اینجا جایی که
566
00:24:23,320 –> 00:24:25,629
کمی پیچیده تر می شود اجازه دهید به
567
00:24:25,629 –> 00:24:28,720
عقب برگردم و اینجا جایی است که در
568
00:24:28,720 –> 00:24:30,639
واقع یک قضیه جبر خطی جالب وجود دارد
569
00:24:30,639 –> 00:24:32,860
که به طور کلی نشان می دهد که من مجبور نیستم به
570
00:24:32,860 –> 00:24:35,519
صورت دستی نشان دهم که چرا این به طور کلی کار می کند
571
00:24:35,519 –> 00:24:39,100
اما اینجا جایی است که به
572
00:24:39,100 –> 00:24:41,110
طرز شگفت آوری پیچیده به نظر می رسد، اما
573
00:24:41,110 –> 00:24:43,720
در نهایت ساده می شود، بنابراین ما می
574
00:24:43,720 –> 00:24:48,460
خواهیم اساساً محاسبه کنیم که تغییر هر یک
575
00:24:48,460 –> 00:24:50,769
از آن وزن ها چقدر
576
00:24:50,769 –> 00:24:52,990
روی آن کمیت تأثیر می گذارد
577
00:24:52,990 –> 00:24:55,509
و به یاد داشته باشید که هر یک از این وزن ها
578
00:24:55,509 –> 00:24:59,159
که si فقط یک خط هستند. ترکیبی از
579
00:24:59,159 –> 00:25:02,230
این وزن ها با ورودی یا
580
00:25:02,230 –> 00:25:06,159
خروجی لایه مخفی B ما کاملاً درست است،
581
00:25:06,159 –> 00:25:09,990
بنابراین در نتیجه انجام این کار به خوبی
582
00:25:09,990 –> 00:25:15,299
به یاد داشته باشید که
583
00:25:15,929 –> 00:25:17,669
مشتق جزئی C نسبت به
584
00:25:17,669 –> 00:25:20,340
W ما واقعاً به شما پاسخ می دهیم. st به این معناست که هر یک
585
00:25:20,340 –> 00:25:23,369
از این وزنهای مجزا چقدر روی
586
00:25:23,369 –> 00:25:25,320
مقدار C تأثیر میگذارد که روی چیزی
587
00:25:25,320 –> 00:25:28,320
که در لایه بعدی قرار میدهیم تأثیر میگذارد و معلوم
588
00:25:28,320 –> 00:25:32,240
میشود که هر یک از آنها واقعاً ساده هستند،
589
00:25:32,540 –> 00:25:36,800
بله، از آنجایی که C فقط یک
590
00:25:36,800 –> 00:25:38,570
ترکیب خطی از وزنها است. با B
591
00:25:38,570 –> 00:25:41,410
پس
592
00:25:42,720 –> 00:25:44,669
مشتق این دریا نسبت
593
00:25:44,669 –> 00:25:48,150
به وزن اول فقط یک است زیرا
594
00:25:48,150 –> 00:25:53,100
مشتق جزئی از آن
595
00:25:53,100 –> 00:25:54,690
وزن اول در هیچ یک از این شرایط نیست
596
00:25:54,690 –> 00:25:56,549
و مشتق جزئی C
597
00:25:56,549 –> 00:25:58,950
نسبت به B2 فقط جزئی است.
598
00:25:58,950 –> 00:26:00,240
مشتق C نسبت به
599
00:26:00,240 –> 00:26:04,370
وزن دوم فقط V 2 و غیره است،
600
00:26:05,280 –> 00:26:11,690
بنابراین این نوع پاسخ نهایی
601
00:26:12,520 –> 00:26:15,670
است، مشتق جزئی C با
602
00:26:15,670 –> 00:26:19,950
توجه به W فقط b1 b2 b3 و b4 است
603
00:26:19,950 –> 00:26:25,200
که معلوم می شود فقط
604
00:26:25,200 –> 00:26:27,640
V خروجی را جابجا می کند. لایه مخفی ما
605
00:26:27,640 –> 00:26:30,040
جابهجا شد زیرا به یاد داشته باشید
606
00:26:30,040 –> 00:26:33,750
که قبل از اینکه به صورت یک ردیف نشان
607
00:26:35,270 –> 00:26:37,429
میدادیم، کدگذاری این به همین سادگی است
608
00:26:37,429 –> 00:26:42,650
که هر راه چقدر
609
00:26:42,650 –> 00:26:45,770
بر خروجی آن لایه از شبکه تأثیر میگذارد
610
00:26:45,770 –> 00:26:48,380
و سپس یک اطلاعیه نیز مبنی بر اینکه
611
00:26:48,380 –> 00:26:50,960
همان ابعاد W W است بنابراین به طور کلی
612
00:26:50,960 –> 00:26:52,850
وقتی چهار بعد را به یک بعد تبدیل
613
00:26:52,850 –> 00:26:55,700
می کنید به یک ماتریس 4 در 1 یا سطرهای
614
00:26:55,700 –> 00:26:58,910
یک ستون نیاز دارید W یک ماتریس 4 در 1 است بنابراین
615
00:26:58,910 –> 00:27:00,320
این همان ابعاد W است که همان
616
00:27:00,320 –> 00:27:05,179
چیزی است که ما می خواهیم و اکنون اگر ما اکنون اساساً
617
00:27:05,179 –> 00:27:08,870
میتوانیم به صراحت محاسبه کنیم که هر یک
618
00:27:08,870 –> 00:27:11,900
از وزنها چقدر بر ضرر تأثیر میگذارد با
619
00:27:11,900 –> 00:27:13,760
ضرب آن سه
620
00:27:13,760 –> 00:27:15,290
مشتق جزئی که آن را با هم محاسبه میکنیم،
621
00:27:15,290 –> 00:27:20,800
بنابراین اساساً این عدد در اینجا منفی
622
00:27:20,800 –> 00:27:23,840
1.14 به این معنی است که اگر اول
623
00:27:23,840 –> 00:27:27,800
آن وزن W زیر 1 1 را به 1 واحد افزایش دهیم سپس آن را افزایش دهیم. این
624
00:27:27,800 –> 00:27:32,420
ضرر ما را 0.1 1/4 واحد
625
00:27:32,420 –> 00:27:35,690
و غیره کاهش می دهد و همین مورد
626
00:27:35,690 –> 00:27:38,210
برای بقیه اعداد در اینجا صادق است، بنابراین ما
627
00:27:38,210 –> 00:27:40,550
واقعاً می توانیم به صراحت محاسبه کنیم که چقدر
628
00:27:40,550 –> 00:27:43,730
می خواهیم وزن های خود را با سرعت بسیار عالی به روز کنیم
629
00:27:43,730 –> 00:27:47,240
تا حالا که شما ایده اصلی
630
00:27:47,240 –> 00:27:50,900
من از طریق بقیه این نوع
631
00:27:50,900 –> 00:27:52,370
محاسبات مشتق جزئی مشابه هستند،
632
00:27:52,370 –> 00:27:54,470
بنابراین من آنها را کمی سریعتر مرور می
633
00:27:54,470 –> 00:27:58,220
کنم و به جایی که به روز
634
00:27:58,220 –> 00:28:00,550
می کنیم می رسم، اساساً همان کار را برای V انجام می
635
00:28:00,550 –> 00:28:03,830
دهد، بنابراین ما فقط این قسمت را محاسبه کردیم. من
636
00:28:03,830 –> 00:28:05,270
C را با توجه به W مشتق کردم و
637
00:28:05,270 –> 00:28:08,090
متوجه شدم که این فقط B است، بنابراین
638
00:28:08,090 –> 00:28:10,370
کمی سوال پیچیده است، اما
639
00:28:10,370 –> 00:28:13,460
خواهیم دید که آیا کسی می تواند این را بدست آورد که مشتق جزئی چیست.
640
00:28:13,460 –> 00:28:14,900
641
00:28:14,900 –> 00:28:16,130
642
00:28:16,130 –> 00:28:18,110
از C فقط با توجه به D
643
00:28:18,110 –> 00:28:22,030
به جای W، بنابراین
644
00:28:22,030 –> 00:28:25,610
اگر مشتق جزئی آن با
645
00:28:25,610 –> 00:28:29,950
توجه به B به جای W مشخص
646
00:28:32,890 –> 00:28:35,320
شود که فقط W است جابجا شده است، بنابراین شما به
647
00:28:35,320 –> 00:28:37,690
نوعی سوئیچ را در W قرار می دهید و
648
00:28:37,690 –> 00:28:40,840
جرم تبدیل می شود تمرین کنید همه
649
00:28:40,840 –> 00:28:43,300
فقط روز را در محل کار کار میکردند، مثل این است که در ESC،
650
00:28:43,300 –> 00:28:45,130
مردم در مورد تکالیف رئیس
651
00:28:45,130 –> 00:28:46,630
مانند فریاد زدن پاسخها مثل یک نفر بودند، اما
652
00:28:46,630 –> 00:28:48,100
خرابی در روز کار مؤثر نیست،
653
00:28:48,100 –> 00:28:49,720
مثل ساعت هفت است که شما آماده هستید به خانه بروید،
654
00:28:49,720 –> 00:28:51,150
655
00:28:51,150 –> 00:28:54,310
من میروم به چیزهای جالب برسیم تا معلوم
656
00:28:54,310 –> 00:28:57,700
شود که فقط W transpose است، بنابراین کدگذاری جالبی است
657
00:28:57,700 –> 00:28:58,120
658
00:28:58,120 –> 00:29:02,560
که در نهایت آسان می شود و بنابراین
659
00:29:02,560 –> 00:29:06,300
ما همچنان به عقب برمی
660
00:29:07,470 –> 00:29:09,480
گردیم، در مرحله بعد می خواهیم این کمیت را محاسبه کنیم
661
00:29:09,480 –> 00:29:11,970
که تبدیل به a و W
662
00:29:11,970 –> 00:29:14,759
فقط سیگموئید است. تابع بنابراین این
663
00:29:14,759 –> 00:29:17,909
کوتاه نویسی یا بیشتر است چون ما قبلاً می دانیم
664
00:29:17,909 –> 00:29:19,230
که چگونه مشتق تابع سیگموید را
665
00:29:19,230 –> 00:29:21,409
انجام دهیم که کار آسانی
666
00:29:21,409 –> 00:29:24,539
است، فقط سیگموید یک ضربدر 1 منهای
667
00:29:24,539 –> 00:29:27,450
سیگموید a است و می توانیم آن را به راحتی کدنویسی کنیم
668
00:29:27,450 –> 00:29:29,840
669
00:29:31,080 –> 00:29:34,019
و اکنون به آن می رسیم و سپس
670
00:29:34,019 –> 00:29:37,320
یک مرحله دیگر به آنجا برمی گردیم.
671
00:29:37,320 –> 00:29:38,759
برای درگیرترین مشتقات جزئی
672
00:29:38,759 –> 00:29:40,440
که قطعاً
673
00:29:40,440 –> 00:29:43,950
این مورد را گام به گام بررسی نمیکنم،
674
00:29:43,950 –> 00:29:45,330
دوباره یک قضیه جبر خطی وجود دارد که
675
00:29:45,330 –> 00:29:46,710
میتواند این موضوع را بسیار سادهتر کند، اما من به
676
00:29:46,710 –> 00:29:49,399
نوعی آن را گام به گام در اینجا مرور میکنم.
677
00:29:49,399 –> 00:29:52,110
به همان ترتیبی که مشتق جزئی
678
00:29:52,110 –> 00:29:54,749
C با توجه به عرض
679
00:29:54,749 –> 00:29:56,549
وزنهای W فقط B است
680
00:29:56,549 –> 00:29:59,789
، مشتق جزئی
681
00:29:59,789 –> 00:30:02,399
a ورودی لایه پنهان را با توجه
682
00:30:02,399 –> 00:30:06,059
به ماتریس وزن اول B
683
00:30:06,059 –> 00:30:08,669
به جای X تبدیل میکند.
684
00:30:08,669 –> 00:30:13,590
دادههای اصلی ما جابهجا میشوند، بنابراین
685
00:30:13,590 –> 00:30:16,019
دقیقاً به همین دلیل است که فقط
686
00:30:16,019 –> 00:30:17,509
از طریق معادلات عبور میکند و
687
00:30:17,509 –> 00:30:21,509
اساساً من به ایده
688
00:30:21,509 –> 00:30:23,129
اصلی میرسم، ایده اصلی این است که به یاد داشته باشید که ما در حال محاسبه
689
00:30:23,129 –> 00:30:24,600
این هستیم، ما در حال محاسبه مقداری وجود دارد.
690
00:30:24,600 –> 00:30:28,980
a و مقداری به عنوان
691
00:30:28,980 –> 00:30:31,109
تابعی از هر یک از این دوازده
692
00:30:31,109 –> 00:30:34,980
وزن منفرد تغییر می کند، بنابراین هر یک
693
00:30:34,980 –> 00:30:38,090
از آن وزن ها چقدر بر روی مقدار تأثیر می گذارد،
694
00:30:38,090 –> 00:30:41,509
معلوم می شود که می توانید نشان دهید که آن
695
00:30:41,509 –> 00:30:44,279
ماتریس داده وزن مشتقات جزئی
696
00:30:44,279 –> 00:30:46,440
که من به شما نشان دادم نوبت می شود.
697
00:30:46,440 –> 00:30:51,179
اساساً این با منطقی مشابه با
698
00:30:51,179 –> 00:30:52,350
آنچه که قبل از اینکه مشخص
699
00:30:52,350 –> 00:30:57,029
شود فقط x1 x2 x3 x1 x2 x3 x1 x2 x3
700
00:30:57,029 –> 00:31:00,389
و غیره است، این است که در آن دادههای اصلی ما x1 x2 x3 نشان میدهد
701
00:31:00,389 –> 00:31:02,720
702
00:31:05,210 –> 00:31:07,700
و دوباره این ایده است که هر یک از
703
00:31:07,700 –> 00:31:09,260
آن وزنها فقط در
704
00:31:09,260 –> 00:31:12,169
بخشهای خاصی از معادله دخالت دارد که در
705
00:31:12,169 –> 00:31:13,789
نهایت آن وزنها را در
706
00:31:13,789 –> 00:31:17,299
لایه بعدی تبدیل میکند، بنابراین بچرخانید تا بتوانید
707
00:31:17,299 –> 00:31:18,620
بر حسب ضرب ماتریس که
708
00:31:18,620 –> 00:31:19,789
نتیجه میشود، فقط میتوانید آن را به همین شکل بنویسید و
709
00:31:19,789 –> 00:31:29,419
آن را کد کنید، بنابراین ما ادامه دادیم.
710
00:31:29,419 –> 00:31:31,990
تمام راه برگشت
711
00:31:33,220 –> 00:31:35,710
و در نهایت ما میتوانیم
712
00:31:35,710 –> 00:31:39,400
بهطور مستقیم محاسبه کنیم که ضرر
713
00:31:39,400 –> 00:31:42,190
هر یک از روشهای جداگانه چقدر تحت تأثیر قرار میگیرد،
714
00:31:42,190 –> 00:31:44,260
فقط با ضرب همه آن
715
00:31:44,260 –> 00:31:46,150
مشتقها در یکدیگر و معلوم میشود که
716
00:31:46,150 –> 00:31:48,270
این جواب است. بنابراین اگر
717
00:31:48,270 –> 00:31:51,600
این وزن اول را در ماتریس
718
00:31:51,600 –> 00:31:53,799
افزایش دهید، افت را با نقطه دو کاهش می دهید صفر دو
719
00:31:53,799 –> 00:31:58,200
و غیره و غیره
720
00:32:00,060 –> 00:32:03,780
شکل V است که همان چیزی است که ما می
721
00:32:03,780 –> 00:32:06,990
خواهیم دوباره کار می کند، باید عمل کند و
722
00:32:06,990 –> 00:32:08,580
در واقع تست می کند و می بیند که آیا در کار می کند یا خیر
723
00:32:08,580 –> 00:32:10,350
. یک ثانیه به دلیل قانون زنجیره ای
724
00:32:10,350 –> 00:32:12,750
از حساب دیفرانسیل و انتگرال که تنها نوع
725
00:32:12,750 –> 00:32:15,420
نظریه ریاضی است که به ما می گوید چرا این
726
00:32:15,420 –> 00:32:19,140
باید کار کند، بنابراین اکنون ما می توانیم
727
00:32:19,140 –> 00:32:20,250
وزن ها را مطابق با این معادلات به روز
728
00:32:20,250 –> 00:32:22,890
کنیم، فقط با منطقی که
729
00:32:22,890 –> 00:32:25,890
قبل از اینکه وزن های W را به روز کنیم. ما
730
00:32:25,890 –> 00:32:28,710
فقط مقدار DL DW را که محاسبه کردهایم کم میکنیم
731
00:32:28,710 –> 00:32:31,130
و برای V همان کاری را انجام
732
00:32:31,130 –> 00:32:36,140
میدهیم که تمام است،
733
00:32:36,920 –> 00:32:40,640
اجازه دهید همه اینها را با هم بچینیم، بنابراین
734
00:32:40,640 –> 00:32:42,230
735
00:32:42,230 –> 00:32:43,790
اگر نمیدانید چگونه یک شبکه عصبی ساده را از ابتدا انجام میدهید.
736
00:32:43,790 –> 00:32:47,630
این چیزی است که شما می دانید
737
00:32:47,630 –> 00:32:50,540
20 تا 25 خط این است فقط این را بپیچید
738
00:32:50,540 –> 00:32:52,070
هیچ چیز جدیدی نیست این فقط در اطراف
739
00:32:52,070 –> 00:32:55,280
کاری است که ما انجام دادیم ما چهار
740
00:32:55,280 –> 00:32:57,320
چیز داریم که ورودی می گیرند و
741
00:32:57,320 –> 00:33:00,470
پیش بینی می کنند ما ضرر را محاسبه می کنیم همه
742
00:33:00,470 –> 00:33:01,850
این مراحل را انجام می دهیم برای بدست آوردن th پس انتشار
743
00:33:01,850 –> 00:33:04,100
درست است و سپس وزنهای خود را بهروزرسانی میکنیم و وزنهای
744
00:33:04,100 –> 00:33:06,620
نهایی ما وجود دارد و
745
00:33:06,620 –> 00:33:12,500
سپس وزنها را هم اکنون
746
00:33:12,500 –> 00:33:14,420
برمیگردانیم، بیایید به برخی نتایج نگاه کنیم، بنابراین اول از
747
00:33:14,420 –> 00:33:19,880
همه میخواهم این شبکه عصبی را برای 500 دوره آموزش دهم
748
00:33:19,880 –> 00:33:22,430
749
00:33:22,430 –> 00:33:24,560
، همیشه اصطلاحات زیادی وجود دارد.
750
00:33:24,560 –> 00:33:25,820
با شبکه عصبی به اطراف پرتاب شده است، بنابراین
751
00:33:25,820 –> 00:33:30,260
یک دوره یک دوره است که تمام
752
00:33:30,260 –> 00:33:32,390
نقاط داده در مجموعه آموزشی شما را
753
00:33:32,390 –> 00:33:34,760
یک بار از طریق شبکه عصبی تغذیه می کند، بنابراین من چه کار کردم در
754
00:33:34,760 –> 00:33:36,710
یک دوره این است که به طور تصادفی یک
755
00:33:36,710 –> 00:33:37,880
نقطه داده برای شما از طریق شبکه عصبی به
756
00:33:37,880 –> 00:33:39,650
طور تصادفی انتخاب می کنم نقطه داده
757
00:33:39,650 –> 00:33:41,090
آن را از طریق شبکه عصبی تغذیه می کند و این کار را انجام
758
00:33:41,090 –> 00:33:42,920
دهید با هر هشت نقطه داده، هشت نقطه داده را دریافت کردم که
759
00:33:42,920 –> 00:33:44,900
هر هشت نقطه را
760
00:33:44,900 –> 00:33:47,450
به عنوان یک دوره شکست داد، بنابراین من این کار را برای 500 دوره انجام می دهم
761
00:33:47,450 –> 00:33:51,470
و این برای اینجا به ما می
762
00:33:51,470 –> 00:33:55,310
گوید که برای نورون های پنهان انجام دهیم، پس در واقع چه کاری انجام دهیم.
763
00:33:55,310 –> 00:33:57,320
خوب اتفاق می افتد معلوم می شود
764
00:33:57,320 –> 00:34:00,020
که یاد می گیرد به نظر می رسد که
765
00:34:00,020 –> 00:34:02,960
رابطه بین این ورودی های x و
766
00:34:02,960 –> 00:34:05,960
y را یاد می گیرد، اجازه دهید در واقع بررسی کنیم که آیا
767
00:34:05,960 –> 00:34:07,580
ما واقعیات خود را در آنجا آورده ایم و این همان چیزی است که
768
00:34:07,580 –> 00:34:09,620
شبکه عصبی آماده می شود نشان دادن
769
00:34:09,620 –> 00:34:15,168
مقدار y برای ورودی x1 است که میدانید،
770
00:34:15,168 –> 00:34:18,800
خواهید دید که آیا واقعاً خوب
771
00:34:18,800 –> 00:34:21,350
کار میکند، روی این مثال اسباببازی کار میکند که خوب است،
772
00:34:21,350 –> 00:34:24,168
بیایید بررسی کنیم که آیا میتواند روی m-miss کار کند
773
00:34:24,168 –> 00:34:25,909
که اینجا میداند M این مجموعه داده
774
00:34:25,909 –> 00:34:29,719
چیست؟ تقریباً نیمی از اتاق را خنک کنید، بنابراین M
775
00:34:29,719 –> 00:34:31,929
این مجموعه داده یک مجموعه داده معروف از
776
00:34:31,929 –> 00:34:35,570
70000 رقم دست نویس است که
777
00:34:35,570 –> 00:34:39,860
هفت هزار رقم هر هفت
778
00:34:39,860 –> 00:34:42,500
هزار صفر است.
779
00:34:42,500 –> 00:34:44,600
780
00:34:44,600 –> 00:34:47,840
781
00:34:47,840 –> 00:34:52,070
بهم ریخته اند و وظایف و
782
00:34:52,070 –> 00:34:54,440
هر کدام 28 در 28 سیاه و سفید هستند
783
00:34:54,440 –> 00:35:00,620
و شما هفت دارید بنابراین هر تصویر 28
784
00:35:00,620 –> 00:35:04,430
برابر 28 ویژگی است، بنابراین در واقع 784
785
00:35:04,430 –> 00:35:06,740
ویژگی است که هر کدام دارای ارزشی از
786
00:35:06,740 –> 00:35:09,410
0 تا 1 هستند هر ویژگی دارای مقداری از 0
787
00:35:09,410 –> 00:35:12,440
به 1 که این پیکسل چقدر تاریک است
788
00:35:12,440 –> 00:35:16,460
که اگر در آن ترسیم شود 1 است و اگر
789
00:35:16,460 –> 00:35:20,300
کاملاً با نور باشد 0 است، بنابراین
790
00:35:20,300 –> 00:35:23,270
بیایید سعی کنیم واقعاً این مشکل را یاد بگیریم
791
00:35:23,270 –> 00:35:25,100
و من به جزئیات
792
00:35:25,100 –> 00:35:26,420
نحوه انجام آن می پردازم. این کار را در ثانیه انجام دهید، اجازه
793
00:35:26,420 –> 00:35:29,330
دهید داده ها را از کتابخانه یادگیری SK
794
00:35:29,330 –> 00:35:31,430
I’m دریافت کنیم میخواهم یک تقسیمبندی تست قطار را در اینجا
795
00:35:31,430 –> 00:35:34,100
انجام دهم تا مطمئن شوم 90 درصد از دادههایم را بیش از حد
796
00:35:34,100 –> 00:35:35,810
برازش نمیدهم، در مجموعه آموزشی قرار میدهم،
797
00:35:35,810 –> 00:35:40,090
10 درصد در مجموعه آزمایشی کاملاً تصادفی است
798
00:35:41,369 –> 00:35:46,589
و این بسیار خوب است، بله، همه اینها را تمرین کنید،
799
00:35:46,589 –> 00:35:48,839
بیایید این را بررسی کنیم. بنابراین من اینجا چه کار
800
00:35:48,839 –> 00:35:51,630
میکنم، دارم تمرین میکنم، همه چیزهایی را که دارم
801
00:35:51,630 –> 00:35:54,839
این چیز را برای یک دوره آموزش میدهم مصرف
802
00:35:54,839 –> 00:35:57,839
میکنم، بنابراین قبل از هر چیز دقیقاً از
803
00:35:57,839 –> 00:35:59,640
همان معماری شبکه عصبی استفاده میکنم که به آن
804
00:35:59,640 –> 00:36:00,720
رسیدم و من آن را معماری شبکه عصبی می نامم
805
00:36:00,720 –> 00:36:02,009
زیرا باز هم فقط یک
806
00:36:02,009 –> 00:36:03,329
سری معادلات است که ما حتی نمی دانیم که
807
00:36:03,329 –> 00:36:05,190
آیا این یک شبکه عصبی است یا می تواند
808
00:36:05,190 –> 00:36:07,950
مانند یک شبکه عصبی یاد بگیرد، بنابراین یک سری
809
00:36:07,950 –> 00:36:11,069
معادلات است، دقیقا همان معادلات است با این
810
00:36:11,069 –> 00:36:14,430
تفاوت که الان من 784 ورودی دارم. به جای
811
00:36:14,430 –> 00:36:17,849
سه و کمی دور و برم بازی کردم
812
00:36:17,849 –> 00:36:21,329
و از پنجاه نورون پنهان استفاده می کنم، بنابراین
813
00:36:21,329 –> 00:36:24,119
به جای چهار، پنجاه نورون دارم و برای
814
00:36:24,119 –> 00:36:26,400
هر پیش بینی در واقع ده
815
00:36:26,400 –> 00:36:28,769
پیش بینی برای هر تصویر انجام می دهم
816
00:36:28,769 –> 00:36:30,240
، احتمال این را پیش بینی می کنم که آن
817
00:36:30,240 –> 00:36:32,819
تصویر یک احتمال 0 را نشان دهد.
818
00:36:32,819 –> 00:36:35,819
احتمال دو و غیره 1 است و پس
819
00:36:35,819 –> 00:36:39,839
من 78 دارم 4 50 و 10 به جای 3 4
820
00:36:39,839 –> 00:36:42,380
و 1 اما این معادلات یکسان است و
821
00:36:42,380 –> 00:36:45,619
بعد از آموزش فقط برای یک دوره،
822
00:36:45,619 –> 00:36:49,440
این چیز می تواند با دقت 93 درصد پیش بینی کند که
823
00:36:49,440 –> 00:36:53,400
آیا یک تصویر 0 1 2 3 4
824
00:36:53,400 –> 00:36:56,309
5 یا غیره است یا خیر، بنابراین بسیار زیبا است. نتیجه چشمگیر است
825
00:36:56,309 –> 00:36:59,999
و فقط نشان می دهد که شما می دانید
826
00:36:59,999 –> 00:37:02,789
با ترفندهای یادگیری عمیق و با
827
00:37:02,789 –> 00:37:05,460
استفاده از جدیدترین تکنیک ها در
828
00:37:05,460 –> 00:37:07,680
جریان تانسور می توانید امتحان را پیدا کنید می
829
00:37:07,680 –> 00:37:10,739
توانید کدهای خارج از قفسه را پیدا کنید که فقط می
830
00:37:10,739 –> 00:37:12,930
توانید خودتان آن را اجرا کنید که می تواند بالاتر از 99٪ باشد.
831
00:37:12,930 –> 00:37:16,109
دقت درست است، بنابراین شما می توانید خیلی بهتر
832
00:37:16,109 –> 00:37:19,890
از این کار کنید، اما فقط معادلات را
833
00:37:19,890 –> 00:37:21,900
از ابتدا کدنویسی کنید و برای یک دوره آموزش دهید
834
00:37:21,900 –> 00:37:24,029
و درک
835
00:37:24,029 –> 00:37:25,950
کاملی از اصول شبکه عصبی داشته باشید که
836
00:37:25,950 –> 00:37:28,650
می توانید به دقت 93 درصد دست پیدا کنید،
837
00:37:28,650 –> 00:37:30,480
بنابراین اگر می خواهید با انجام شبکه های عصبی در
838
00:37:30,480 –> 00:37:35,489
صنعت و تلاش برای حل برخی از
839
00:37:35,489 –> 00:37:36,839
مشکلات پیشرفته، باید به سراغ
840
00:37:36,839 –> 00:37:38,789
یادگیری جدیدترین تکنیک ها بروید، اما این نیز
841
00:37:38,789 –> 00:37:40,019
بسیار مهم است، من فکر می کنم در مورد
842
00:37:40,019 –> 00:37:41,359
درک دقیق اصول اولیه،
843
00:37:41,359 –> 00:37:43,529
زیرا دوباره اصول اولیه
844
00:37:43,529 –> 00:37:46,759
شما را به شما می رساند. شما 95% از راه را کاملاً خوب می دانید،
845
00:37:46,759 –> 00:37:50,609
بنابراین این فقط یک تصویر است
846
00:37:50,609 –> 00:37:53,430
از اینکه شبکه های عصبی این
847
00:37:53,430 –> 00:37:55,140
چیزهای ترسناک بزرگ نیستند، بلکه فقط
848
00:37:55,140 –> 00:37:57,690
یک سری معادلات هستند و
849
00:37:57,690 –> 00:37:59,910
اساساً به دلیل قانون زنجیره ای
850
00:37:59,910 –> 00:38:03,080
از حساب دیفرانسیل و انتگرال کار می کنند. همچنین در مورد
851
00:38:03,080 –> 00:38:05,190
852
00:38:05,190 –> 00:38:08,430
معماریهای پیچیده عصبی پیچیده کانولوشنال دیوانه، همه ضربهای
853
00:38:08,430 –> 00:38:10,050
ماتریس و هر آنچه
854
00:38:10,050 –> 00:38:12,540
در طول انتشار پساز انجام میشود، صرفاً
855
00:38:12,540 –> 00:38:14,940
برای این است که بهروزرسانیهای انتظار به روش صحیح ردیف شوند، به
856
00:38:14,940 –> 00:38:16,980
طوری که در هر تکرار،
857
00:38:16,980 –> 00:38:18,930
هر وزن در شبکه عصبی
858
00:38:18,930 –> 00:38:21,960
مطابق به روز رسانی شود. به این معادله
859
00:38:21,960 –> 00:38:23,300
به طور مناسب کم یا زیاد می شود
860
00:38:23,300 –> 00:38:24,900
به طوری که در
861
00:38:24,900 –> 00:38:27,330
تکرار بعدی کاهش مقدار کمی کمتر است و
862
00:38:27,330 –> 00:38:29,520
به روز رسانی وزن با استفاده از
863
00:38:29,520 –> 00:38:33,240
حساب دیفرانسیل و انتگرال محاسبه
864
00:38:33,240 –> 00:38:34,440
865
00:38:34,440 –> 00:38:37,140
می شود.
866
00:38:37,140 –> 00:38:42,470
اصول ساده شبکه عصبی، بله،
867
00:38:43,170 –> 00:38:45,230
شما
868
00:38:53,450 –> 00:38:58,320
میلیون ها ترفند وجود دارد که می
869
00:38:58,320 –> 00:38:59,670
توانید به آنها نگاه کنید، می توانید از
870
00:38:59,670 –> 00:39:01,170
توابع فعال سازی مختلف از توابع از دست دادن مختلف
871
00:39:01,170 –> 00:39:04,620
استفاده کنید. آیا این واقعا
872
00:39:04,620 –> 00:39:06,390
یک رویکرد احمقانه بود، زیرا
873
00:39:06,390 –> 00:39:09,390
من حتی از یک حداکثر نرمال استفاده نکردم،
874
00:39:09,390 –> 00:39:11,670
در واقع آن را نرمال سازی نکردم، بنابراین وقتی این پیش بینی ه