در این مطلب، ویدئو طبقه بندی در یادگیری ماشینی | آموزش یادگیری ماشین | آموزش پایتون | Simplile Learn با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 1:03:45
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:07,440 –> 00:00:08,320
به
2
00:00:08,320 –> 00:00:10,960
طبقه بندی در یادگیری ماشین خوش آمدید
3
00:00:10,960 –> 00:00:12,559
نام من ریچارد کیرشنر با
4
00:00:12,559 –> 00:00:13,599
تیم یادگیری ساده است
5
00:00:13,599 –> 00:00:16,800
که www.simplylearn.com
6
00:00:16,800 –> 00:00:20,320
گواهینامه دریافت کنید طبقه بندی پیشرو
7
00:00:20,320 –> 00:00:22,480
احتمالاً یکی از پرکاربردترین
8
00:00:22,480 –> 00:00:24,560
ابزارها در یادگیری ماشین در دنیای امروز است
9
00:00:24,560 –> 00:00:25,039
10
00:00:25,039 –> 00:00:26,960
و همچنین یکی از نسخه های ساده تر است.
11
00:00:26,960 –> 00:00:28,800
برای شروع به درک نحوه عملکرد بسیاری از
12
00:00:28,800 –> 00:00:30,240
یادگیری ماشینی،
13
00:00:30,240 –> 00:00:32,320
ما با نگاهی
14
00:00:32,320 –> 00:00:33,280
15
00:00:33,280 –> 00:00:35,680
به طبقه بندی دقیقاً چیست،
16
00:00:35,680 –> 00:00:38,000
اصطلاحات مهم در مورد طبقه بندی را شروع
17
00:00:38,000 –> 00:00:39,280
می کنیم، به برخی از
18
00:00:39,280 –> 00:00:41,600
برنامه های کاربردی دنیای واقعی
19
00:00:41,600 –> 00:00:44,320
الگوریتم های طبقه بندی محبوب مورد علاقه من نگاه می کنیم و
20
00:00:44,320 –> 00:00:46,160
موارد زیادی وجود دارد. در اینجا، بنابراین ما
21
00:00:46,160 –> 00:00:48,160
فقط به طور خلاصه به انواع
22
00:00:48,160 –> 00:00:49,600
آنها اشاره می کنیم تا بتوانید ببینید که
23
00:00:49,600 –> 00:00:50,800
طعم های مختلف چگونه کار می کنند
24
00:00:50,800 –> 00:00:53,039
و ما چند دمو عملی در
25
00:00:53,039 –> 00:00:55,760
پایتون خواهیم داشت که در سراسر طبقه بندی آموزشی تعبیه شده است.
26
00:00:55,760 –> 00:00:58,559
27
00:00:58,559 –> 00:01:00,320
28
00:01:00,320 –> 00:01:02,000
الگوریتمهای یادگیری ماشین برای یادگیری
29
00:01:02,000 –> 00:01:04,799
نحوه اختصاص برچسب کلاس به
30
00:01:04,799 –> 00:01:05,438
دادههای داده شده،
31
00:01:05,438 –> 00:01:07,799
میتوانید در این نمودار مشاهده کنید که
32
00:01:07,799 –> 00:01:09,520
طبقهبندی نشدهایم دادههای ویرایش
33
00:01:09,520 –> 00:01:11,119
شده از طریق الگوریتمهای طبقهبندی میگذرد
34
00:01:11,119 –> 00:01:13,520
و سپس دادههای طبقهبندیشده
35
00:01:13,520 –> 00:01:14,080
36
00:01:14,080 –> 00:01:15,920
را دریافت میکنید، دیدن آنها بهعنوان داده
37
00:01:15,920 –> 00:01:17,280
دشوار است و واقعاً جایی است که
38
00:01:17,280 –> 00:01:19,759
39
00:01:19,759 –> 00:01:20,400
وقتی شروع به
40
00:01:20,400 –> 00:01:22,080
اجرای این الگوریتمهای یادگیری ماشینی
41
00:01:22,080 –> 00:01:23,840
و طبقهبندی میکنید
42
00:01:23,840 –> 00:01:25,920
و الگوریتمهای طبقهبندی به نوعی شروع میکنید و در کجا به پایان میرسید. یک
43
00:01:25,920 –> 00:01:27,360
جعبه سیاه کوچک
44
00:01:27,360 –> 00:01:29,360
از بسیاری جهات و ما بررسی خواهیم کرد
45
00:01:29,360 –> 00:01:30,720
که وقتی شروع به تعویض و خارج کردن مدلهای مختلف میکنیم، میتوانید ببینید در مورد چه چیزی صحبت میکنم
46
00:01:30,720 –> 00:01:32,079
47
00:01:32,079 –> 00:01:33,040
48
00:01:33,040 –> 00:01:35,040
، مثلاً به ما وظیفه
49
00:01:35,040 –> 00:01:38,000
طبقهبندی یک دسته میوه و
50
00:01:38,000 –> 00:01:39,600
سبزیجات بر اساس دسته بندی آنها،
51
00:01:39,600 –> 00:01:40,320
52
00:01:40,320 –> 00:01:42,479
یعنی میوه ها باید با هم گروه بندی شوند
53
00:01:42,479 –> 00:01:43,759
و سبزیجات باید با هم گروه بندی شوند
54
00:01:43,759 –> 00:01:44,320
55
00:01:44,320 –> 00:01:46,000
، بنابراین مجموعه داده ای داریم که آن را می نامیم
56
00:01:46,000 –> 00:01:48,320
، دسته به خوشه هایی تقسیم می شود
57
00:01:48,320 –> 00:01:50,079
که یکی از میوه ها تشکیل شده است
58
00:01:50,079 –> 00:01:51,360
در حالی که دیگری
59
00:01:51,360 –> 00:01:53,920
دارای سبزیجات شما در واقع می توانید به
60
00:01:53,920 –> 00:01:55,920
این به عنوان هر نوع داده نگاه کنید
61
00:01:55,920 –> 00:01:58,560
وقتی در مورد سرطان سینه صحبت می کنیم آیا می توانیم
62
00:01:58,560 –> 00:01:59,759
تصاویری را مرتب کنیم
63
00:01:59,759 –> 00:02:02,399
تا ببینیم چه چیز بدخیم است چه چیزی خوش خیم است
64
00:02:02,399 –> 00:02:04,719
بسیار محبوب است. y
65
00:02:04,719 –> 00:02:07,840
مجموعه داده های عنبیه
66
00:02:07,840 –> 00:02:09,598
مطمئناً در حیات وحش می توانید
67
00:02:09,598 –> 00:02:10,959
حیوانات مختلف را طبقه بندی کنید و ردیابی کنید که
68
00:02:10,959 –> 00:02:11,959
آنها به کجا می روند
69
00:02:11,959 –> 00:02:14,640
70
00:02:14,640 –> 00:02:17,200
71
00:02:17,200 –> 00:02:18,720
72
00:02:18,720 –> 00:02:20,239
73
00:02:20,239 –> 00:02:21,920
. قرار است تاریخ را بشکنیم
74
00:02:21,920 –> 00:02:23,040
تا بتوانیم از آن
75
00:02:23,040 –> 00:02:26,160
به نحوی استفاده کنیم که مفید باشد، بنابراین در اینجا
76
00:02:26,160 –> 00:02:27,520
میوهها و سبزیجات
77
00:02:27,520 –> 00:02:29,280
به خوشههایی دستهبندی میشوند و هر
78
00:02:29,280 –> 00:02:30,560
خوشه یک
79
00:02:30,560 –> 00:02:32,879
ویژگی خاص دارد، یعنی
80
00:02:32,879 –> 00:02:34,239
میوه یا سبزی
81
00:02:34,239 –> 00:02:35,680
و میبینید که ما داریم. انبوهی از میوهها
82
00:02:35,680 –> 00:02:37,440
و سبزیجات را به الگوریتم وارد میکنیم
83
00:02:37,440 –> 00:02:39,280
و الگوریتم
84
00:02:39,280 –> 00:02:40,400
آنها را از هم جدا میکند و شما میوهها و
85
00:02:40,400 –> 00:02:41,440
سبزیجات دارید،
86
00:02:41,440 –> 00:02:43,840
بنابراین چند اصطلاح مهم قبل از اینکه
87
00:02:43,840 –> 00:02:45,760
بخواهیم بفهمیم چگونه آنها را دستهبندی میکند و
88
00:02:45,760 –> 00:02:46,959
همه اینها به چه معناست،
89
00:02:46,959 –> 00:02:49,519
ما به اصطلاحات شما نگاه میکنیم.
90
00:02:49,519 –> 00:02:50,080
یک
91
00:02:50,080 –> 00:02:52,400
طبقه بندی که الگوریتمی است
92
00:02:52,400 –> 00:02:55,120
که برای نگاشت داده های ورودی به یک دسته خاص
93
00:02:55,120 –> 00:02:57,840
94
00:02:57,840 –> 00:02:59,920
95
00:02:59,920 –> 00:03:00,239
96
00:03:00,239 –> 00:03:03,280
استفاده می شود. en برای ویژگی آموزشی،
97
00:03:03,280 –> 00:03:04,159
این یک
98
00:03:04,159 –> 00:03:06,400
ویژگی قابل اندازهگیری فردی از
99
00:03:06,400 –> 00:03:07,840
پدیدههای مشاهدهشده است
100
00:03:07,840 –> 00:03:10,400
و ویژگیهایی را که بر اساس آنها
101
00:03:10,400 –> 00:03:12,319
نقاط داده یک مجموعه داده طبقهبندی میشوند
102
00:03:12,319 –> 00:03:13,360
103
00:03:13,360 –> 00:03:15,280
، طبقهبندیکننده و مدل طبقهبندی
104
00:03:15,280 –> 00:03:16,400
با
105
00:03:16,400 –> 00:03:18,879
هم میآیند، بارها که طبقهبندیکننده بخشی از
106
00:03:18,879 –> 00:03:20,640
مدل طبقهبندی است.
107
00:03:20,640 –> 00:03:22,159
و سپس انتخاب میکنید که از کدام دستهبندی استفاده میکنید،
108
00:03:22,159 –> 00:03:23,760
پس از انتخاب مدلی که استفاده میکنید،
109
00:03:23,760 –> 00:03:24,239
110
00:03:24,239 –> 00:03:26,560
ویژگیها هستند آنچه در برچسبها
111
00:03:26,560 –> 00:03:27,599
میآید،
112
00:03:27,599 –> 00:03:29,280
بنابراین مدل طبقهبندیکننده شما دقیقاً در
113
00:03:29,280 –> 00:03:31,120
وسط آن قرار دارد، آن جعبه سیاه کوچکی است که
114
00:03:31,120 –> 00:03:32,879
ما فقط در مورد خوشهها صحبت میکردیم.
115
00:03:32,879 –> 00:03:35,280
آنها گروهی از نقاط داده هستند
116
00:03:35,280 –> 00:03:36,319
که دارای برخی
117
00:03:36,319 –> 00:03:38,799
ویژگی های مشترک هستند.
118
00:03:38,799 –> 00:03:40,959
119
00:03:40,959 –> 00:03:41,840
120
00:03:41,840 –> 00:03:43,920
121
00:03:43,920 –> 00:03:45,120
122
00:03:45,120 –> 00:03:48,239
123
00:03:48,239 –> 00:03:50,319
124
00:03:50,319 –> 00:03:52,799
125
00:03:52,799 –> 00:03:56,159
طبقه بندی کلاس طبقه
126
00:03:56,159 –> 00:03:58,000
بندی با بیش از دو
127
00:03:58,000 –> 00:03:58,560
کلاس
128
00:03:58,560 –> 00:04:00,799
در اینجا به هر نمونه اختصاص داده شده است به یک و
129
00:04:00,799 –> 00:04:01,840
تنها یک
130
00:04:01,840 –> 00:04:04,879
برچسب، وقتی به این گروه از اصطلاحات نگاه می کنیم،
131
00:04:04,879 –> 00:04:07,760
چند نکته مهم که باید به آنها
132
00:04:07,760 –> 00:04:09,040
توجه
133
00:04:09,040 –> 00:04:12,080
134
00:04:12,080 –> 00:04:14,159
کنیم وقتی داده ها را با هم خوشه می کنیم، از خوشه های برتر توجه می کنیم، لزوماً نباید
135
00:04:14,159 –> 00:04:15,439
136
00:04:15,439 –> 00:04:17,759
هدف نهایی داشته باشیم، فقط می خواهیم بدانیم چه
137
00:04:17,759 –> 00:04:19,440
ویژگی هایی با هم خوشه می شوند.
138
00:04:19,440 –> 00:04:22,160
سپس این ویژگیها با نتیجهای که ما میخواهیم نگاشت میشوند،
139
00:04:22,160 –> 00:04:23,360
140
00:04:23,360 –> 00:04:25,120
در بسیاری از موارد، مرحله اول ممکن است
141
00:04:25,120 –> 00:04:26,479
حتی به نتیجه اهمیتی نداشته باشد
142
00:04:26,479 –> 00:04:28,560
فقط به اینکه چه دادههایی با دادههای دیگر متصل میشوند
143
00:04:28,560 –> 00:04:31,120
و الگوریتمهای خوشهبندی زیادی
144
00:04:31,120 –> 00:04:33,280
وجود دارد که فقط
145
00:04:33,280 –> 00:04:34,560
146
00:04:34,560 –> 00:04:36,880
طبقهبندی باینری بخش خوشهبندی را انجام میدهند. یک
147
00:04:36,880 –> 00:04:38,479
شرط طبقه بندی با دو
148
00:04:38,479 –> 00:04:40,160
نتیجه درست
149
00:04:40,160 –> 00:04:43,919
یا نادرست که ما در حال صحبت کردن آن هستیم معمولاً این است
150
00:04:43,919 –> 00:04:46,880
که یا گربه است یا گربه نیست،
151
00:04:46,880 –> 00:04:47,840
یا سگ است
152
00:04:47,840 –> 00:04:49,919
یا سگ نیست، این
153
00:04:49,919 –> 00:04:50,880
چیزی است که ما در مورد طبقه بندی باینری صحبت می کنیم
154
00:04:50,880 –> 00:04:52,000
155
00:04:52,000 –> 00:04:55,040
و سپس آن به طبقهبندی چند برچسبی میرود به
156
00:04:55,040 –> 00:04:57,600
برچسب فکر کنید، زیرا میتوانید
157
00:04:57,600 –> 00:04:58,160
158
00:04:58,160 –> 00:05:00,080
یک شی قهوهای داشته باشید، میتوانید شیای داشته باشید
159
00:05:00,080 –> 00:05:01,919
که به عنوان سگ برچسبگذاری شده است،
160
00:05:01,919 –> 00:05:04,400
بنابراین دارای تعدادی آزمایشگاه مختلف است.
161
00:05:04,400 –> 00:05:06,639
مواردی که بسیار متفاوت از طبقه
162
00:05:06,639 –> 00:05:09,919
بندی چند کلاسه است که در آن هر کدام یک باینری هستند،
163
00:05:09,919 –> 00:05:12,240
شما می توانید گربه باشید یا سگ که
164
00:05:12,240 –> 00:05:13,360
نمی توانید هم گربه باشید
165
00:05:13,360 –> 00:05:16,400
و هم سگ، برنامه های کاربردی دنیای واقعی،
166
00:05:16,400 –> 00:05:18,960
بنابراین برای درک این موضوع البته
167
00:05:18,960 –> 00:05:20,880
چالش همیشه وجود دارد. در جزئیات این است که
168
00:05:20,880 –> 00:05:22,720
بفهمیم چگونه این را در دنیای واقعی اعمال می کنیم،
169
00:05:22,720 –> 00:05:23,360
170
00:05:23,360 –> 00:05:25,039
بنابراین در برنامه های کاربردی دنیای واقعی،
171
00:05:25,039 –> 00:05:27,280
ما همیشه از این طبقه بندی کننده هرزنامه ایمیل استفاده می کنیم،
172
00:05:27,280 –> 00:05:28,240
173
00:05:28,240 –> 00:05:31,199
بنابراین صندوق ورودی ایمیل شما که وارد
174
00:05:31,199 –> 00:05:33,039
آن می شود، از فیلتر ایمیل عبور می کند که ما
175
00:05:33,039 –> 00:05:34,639
معمولاً آن را انجام نمی دهیم. در پسزمینه ببینید
176
00:05:34,639 –> 00:05:36,560
، این ایمیل معتبر است
177
00:05:36,560 –> 00:05:37,919
یا هرزنامه است و
178
00:05:37,919 –> 00:05:39,600
اگر فکر میکند این همان چیزی
179
00:05:39,600 –> 00:05:40,240
است
180
00:05:40,240 –> 00:05:42,720
که طبقهبندی کننده صدای الکس است، Google voice هر یک
181
00:05:42,720 –> 00:05:44,240
از طبقهبندیکنندههای صوتی را
182
00:05:44,240 –> 00:05:45,919
که به دنبال آن هستند، امتیاز میدهد و آن را در فیلتر اسپم قرار میدهد.
183
00:05:45,919 –> 00:05:47,520
برای گروه بندی کلمات با هم و سپس آنها
184
00:05:47,520 –> 00:05:48,800
سعی می کنند آن گروه را پیدا کنند،
185
00:05:48,800 –> 00:05:52,080
بنابراین کلمات یک کلاس طبقه بندی کننده را راه اندازی می کنند، بنابراین
186
00:05:52,080 –> 00:05:52,720
ممکن
187
00:05:52,720 –> 00:05:54,639
است طبقه بندی کننده برنامه وظایف شما را باز
188
00:05:54,639 –> 00:05:55,840
کند
189
00:05:55,840 –> 00:05:58,400
یا برنامه متنی شما را باز کند تا بتوانید
190
00:05:58,400 –> 00:05:59,680
شروع به ارسال یک متن
191
00:05:59,680 –> 00:06:02,720
احساساتی کنید. تجزیه و تحلیل ذهنی واقعاً
192
00:06:02,720 –> 00:06:03,520
بزرگ است
193
00:06:03,520 –> 00:06:05,440
هنگامی که ما محصولات را دنبال می کنیم و
194
00:06:05,440 –> 00:06:06,639
بازاریابی را
195
00:06:06,639 –> 00:06:08,479
دنبال می کنیم و سعی می کنیم بفهمیم که آیا
196
00:06:08,479 –> 00:06:11,440
چیزی مورد پسند یا ناپسند است یا خیر
197
00:06:11,440 –> 00:06:12,720
که مانند یکی از بزرگترین
198
00:06:12,720 –> 00:06:14,560
نیروهای محرک در سلول های امروزی است
199
00:06:14,560 –> 00:06:16,639
و تقریباً باید این
200
00:06:16,639 –> 00:06:18,400
فیلترهای مختلف را در اختیار داشته باشید.
201
00:06:18,400 –> 00:06:19,919
اگر یک تجارت بزرگ از
202
00:06:19,919 –> 00:06:22,319
هر نوع کشف کلاهبرداری را اداره
203
00:06:22,319 –> 00:06:24,639
می کنید، می توانید به بانک ها فکر کنید
204
00:06:24,639 –> 00:06:26,319
که چیزهای مختلفی در صورتحساب بانک شما
205
00:06:26,319 –> 00:06:27,520
پیدا می کنند و متوجه می شوند که
206
00:06:27,520 –> 00:06:28,479
چیزی در آنجا اتفاق می افتد،
207
00:06:28,479 –> 00:06:30,319
آنها الگوریتم هایی برای ردیابی
208
00:06:30,319 –> 00:06:32,080
گزارش ها در رایانه هایی دارند که شروع به یافتن
209
00:06:32,080 –> 00:06:33,759
گزارش های عجیب و غریب می کنند. کامپیوترها ممکن است
210
00:06:33,759 –> 00:06:34,560
یک هکر پیدا کنند،
211
00:06:34,560 –> 00:06:36,800
من به گربه و سگ اشاره کردم، بنابراین در اینجا
212
00:06:36,800 –> 00:06:38,400
طبقه بندی تصاویر
213
00:06:38,400 –> 00:06:41,120
ما است، ما همسایه ای داریم که یک وب کم در فضای باز اجرا می کند
214
00:06:41,120 –> 00:06:41,840
215
00:06:41,840 –> 00:06:43,440
و ما دوست داریم
216
00:06:43,440 –> 00:06:45,199
زمانی که حیوانات وحشی
217
00:06:45,199 –> 00:06:45,919
منطقه ما
218
00:06:45,919 –> 00:06:47,680
مانند روباه بیرون هستند، طبقه بندی کنیم. یک
219
00:06:47,680 –> 00:06:48,960
شیر کوهی دارید که در این منطقه زندگی می کند، بنابراین
220
00:06:48,960 –> 00:06:50,319
خوب است بدانید که او چه زمانی اینجا است،
221
00:06:50,319 –> 00:06:53,520
پیش بینی دست خط و طبقه بندی b c
222
00:06:53,520 –> 00:06:55,360
d و سپس طبقه بندی کلمات برای ادامه دادن به
223
00:06:55,360 –> 00:06:57,280
آن، بیایید جلو برویم و
224
00:06:57,280 –> 00:06:58,639
آستینهایمان را بالا بزنیم و قبل از اینکه به الگوریتمها نگاه کنیم، به
225
00:06:58,639 –> 00:07:01,440
برخی از الگوریتمهای طبقهبندی محبوب
226
00:07:01,440 –> 00:07:03,440
نگاهی بیندازیم، اجازه دهید به
227
00:07:03,440 –> 00:07:04,720
عقب برگردیم و به تعاریف خود نگاهی بیندازیم،
228
00:07:04,720 –> 00:07:06,000
229
00:07:06,000 –> 00:07:08,599
ما یک طبقهبندی و یک
230
00:07:08,599 –> 00:07:10,000
231
00:07:10,000 –> 00:07:12,479
مدل طبقهبندی داریم، بنابراین ما با نگاه کردن به
232
00:07:12,479 –> 00:07:14,319
طبقهبندیکننده، الگوریتمی که برای نگاشت
233
00:07:14,319 –> 00:07:16,240
دادههای ورودی به یک دسته خاص استفاده میشود،
234
00:07:16,240 –> 00:07:19,199
یکی از آن الگوریتمها یک
235
00:07:19,199 –> 00:07:20,080
236
00:07:20,080 –> 00:07:22,560
رگرسیون لجستیک است. رگرسیون لجستیک یک
237
00:07:22,560 –> 00:07:24,479
الگوریتم طبقهبندی است که برای
238
00:07:24,479 –> 00:07:26,160
مدلسازی احتمال یک کلاس یا
239
00:07:26,160 –> 00:07:26,639
رویداد
240
00:07:26,639 –> 00:07:29,599
خاص مانند شکست یا شکست استفاده میشود. برد باخت
241
00:07:29,599 –> 00:07:30,400
و
242
00:07:30,400 –> 00:07:32,000
غیره خروجی خود را با استفاده از
243
00:07:32,000 –> 00:07:33,440
تابع لجستیک یا
244
00:07:33,440 –> 00:07:34,880
تابع سیگموئید برای برگرداندن
245
00:07:34,880 –> 00:07:36,960
مقدار احتمالی که
246
00:07:36,960 –> 00:07:39,599
میتوان آن را به دو یا چند کلاس گسسته نگاشت کرد، ارائه میکند.
247
00:07:39,599 –> 00:07:40,560
248
00:07:40,560 –> 00:07:42,800
249
00:07:42,800 –> 00:07:43,759
250
00:07:43,759 –> 00:07:46,000
251
00:07:46,000 –> 00:07:47,199
252
00:07:47,199 –> 00:07:50,319
و 1. یک تابع سیگموئید استاندارد یا
253
00:07:50,319 –> 00:07:52,080
تابع لجستیک با
254
00:07:52,080 –> 00:07:52,639
فرمول
255
00:07:52,639 –> 00:07:55,759
f x برابر با 1 بر 1 به علاوه e به منهای
256
00:07:55,759 –> 00:07:58,319
x که در آن x th است نشان داده می شود. معادله e خط
257
00:07:58,319 –> 00:07:58,879
و
258
00:07:58,879 –> 00:08:01,440
e نمایی است فقط با
259
00:08:01,440 –> 00:08:02,800
نگاهی گذرا به این
260
00:08:02,800 –> 00:08:06,400
می توانید فکر کنید که این یک نقطه
261
00:08:06,400 –> 00:08:07,680
عدم قطعیت است
262
00:08:07,680 –> 00:08:09,680
و بنابراین هرچه به وسط خط نزدیک و نزدیکتر می
263
00:08:09,680 –> 00:08:10,960
264
00:08:10,960 –> 00:08:14,400
شویم یا فعال می شود یا نه و ما می خواهیم
265
00:08:14,400 –> 00:08:15,520
برای ایجاد آن فقط به
266
00:08:15,520 –> 00:08:18,479
سمت بالا شلیک کنید، بنابراین تعداد زیادی
267
00:08:18,479 –> 00:08:20,080
از فعالسازیها از این نوع
268
00:08:20,080 –> 00:08:20,800
منحنیهای زیبا را
269
00:08:20,800 –> 00:08:22,639
مشاهده خواهید کرد، جایی که به یک نزدیک میشود و
270
00:08:22,639 –> 00:08:24,080
به صفر نزدیک میشود
271
00:08:24,080 –> 00:08:26,080
و بر اساس آن فقط یک
272
00:08:26,080 –> 00:08:27,199
منطقه کوچک خطا وجود دارد
273
00:08:27,199 –> 00:08:28,560
و بنابراین میتوانید ببینید در
274
00:08:28,560 –> 00:08:30,639
تابع لجستیک سیگموید یک روی یک
275
00:08:30,639 –> 00:08:31,680
به علاوه e منهای
276
00:08:31,680 –> 00:08:33,919
x به منهای x میتوانید آن را فریمهایی ببینید
277
00:08:33,919 –> 00:08:34,799
که
278
00:08:34,799 –> 00:08:37,120
منحنی s خوب اوه، ما همچنین میتوانیم از
279
00:08:37,120 –> 00:08:38,799
یک تغییر مماس استفاده کنیم، مدلهای مختلف دیگری
280
00:08:38,799 –> 00:08:39,919
281
00:08:39,919 –> 00:08:42,320
در اینجا تا آنجایی که الگوریتم واقعی وجود دارد، وجود دارد.
282
00:08:42,320 –> 00:08:43,039
283
00:08:43,039 –> 00:08:45,360
این متداول ترین مورد استفاده است، بیایید
284
00:08:45,360 –> 00:08:47,120
جلو برویم و آستین ها
285
00:08:47,120 –> 00:08:48,080
را بالا بزنیم و به
286
00:08:48,080 –> 00:08:50,080
نسخه ی نمایشی نگاهی بیندازیم که از
287
00:08:50,080 –> 00:08:51,600
رگرسیون لجستیک استفاده می کند، بنابراین ما
288
00:08:51,600 –> 00:08:52,240
289
00:08:52,240 –> 00:08:54,640
فرمول فعال سازی و مدل را خواهیم داشت زیرا
290
00:08:54,640 –> 00:08:56,240
شما باید داشته باشید برای داشتن هر دو
291
00:08:56,240 –> 00:08:58,959
اکنون
292
00:08:58,959 –> 00:08:59,920
293
00:08:59,920 –> 00:09:02,560
294
00:09:02,560 –> 00:09:03,440
295
00:09:03,440 –> 00:09:06,480
وارد نوت بوک مشتری
296
00:09:06,480 –> 00:09:08,560
297
00:09:08,560 –> 00:09:10,160
خود
298
00:09:10,160 –> 00:09:11,760
299
00:09:11,760 –> 00:09:14,640
خواهیم شد.
300
00:09:14,640 –> 00:09:15,040
301
00:09:15,040 –> 00:09:16,720
اگر میخواهید چند رشته و پردازش چندگانه انجام دهید، با
302
00:09:16,720 –> 00:09:19,040
303
00:09:19,040 –> 00:09:21,440
یک مشکل با پایتون مواجه میشوید و سپس
304
00:09:21,440 –> 00:09:22,640
من به
305
00:09:22,640 –> 00:09:24,800
pycharm میروم، واقعاً به شناسهای که میخواهید بستگی دارد،
306
00:09:24,800 –> 00:09:27,440
فقط مطمئن شوید که
307
00:09:27,440 –> 00:09:30,800
numpy و ماژولهای sklearn را در آن نصب کردهاید. پایتون شما
308
00:09:30,800 –> 00:09:31,519
309
00:09:31,519 –> 00:09:33,360
در هر محیطی که در آن کار می کنید،
310
00:09:33,360 –> 00:09:35,040
به طوری که برای این نسخه آزمایشی به آن دسترسی خواهید داشت،
311
00:09:35,040 –> 00:09:36,080
312
00:09:36,080 –> 00:09:38,000
اکنون تیم پشتی
313
00:09:38,000 –> 00:09:39,920
کد من را برای من آماده کرده است که من شروع به
314
00:09:39,920 –> 00:09:41,760
آوردن یک بخش در یک زمان می کنم تا بتوانیم برویم.
315
00:09:41,760 –> 00:09:43,600
از طریق آن قبل از انجام این
316
00:09:43,600 –> 00:09:45,360
کار، همیشه خوب است که واقعاً ببینید
317
00:09:45,360 –> 00:09:47,600
این اطلاعات از کجا میآیند و با چه
318
00:09:47,600 –> 00:09:49,040
چیزی کار میکنیم،
319
00:09:49,040 –> 00:09:50,399
بنابراین بخش اول این است که
320
00:09:50,399 –> 00:09:52,560
بستههای خود را
321
00:09:52,560 –> 00:09:54,160
که باید آنها را در پایتون خود نصب کنید، وارد میکنیم
322
00:09:54,160 –> 00:09:56,560
و این کار y باشد numpy خود
323
00:09:56,560 –> 00:09:59,120
را معمولاً از numpy به عنوان np استفاده می کنیم و سپس از
324
00:09:59,120 –> 00:10:00,240
325
00:10:00,240 –> 00:10:01,760
مدل یادگیری sklearn از یک
326
00:10:01,760 –> 00:10:03,279
رگرسیون لجستیک
327
00:10:03,279 –> 00:10:05,200
و از معیارهای یادگیری sk ماتریس سردرگمی
328
00:10:05,200 –> 00:10:06,959
گزارش طبقه بندی را وارد می
329
00:10:06,959 –> 00:10:08,480
کنیم
330
00:10:08,480 –> 00:10:11,959
و اگر جلو برویم و s را باز کنیم
331
00:10:11,959 –> 00:10:14,720
scikit-learn.org و زیر api آنها
332
00:10:14,720 –> 00:10:17,440
بروید، می توانید تمام ویژگی ها
333
00:10:17,440 –> 00:10:18,720
و مدل های مختلف آنها را ببینید
334
00:10:18,720 –> 00:10:20,720
و ما به دنبال رگرسیون لجستیک مدل خطی هستیم که
335
00:10:20,720 –> 00:10:22,079
336
00:10:22,079 –> 00:10:24,480
یکی از رایج ترین طبقه بندی کننده های موجود
337
00:10:24,480 –> 00:10:26,399
است و اگر جلو برویم و وارد
338
00:10:26,399 –> 00:10:27,680
آن شویم و کمی عمیق تر حفاری
339
00:10:27,680 –> 00:10:29,120
کنید، در اینجا خواهید دید که
340
00:10:29,120 –> 00:10:31,600
تنظیمات متفاوتی دارند، حتی در اینجا می گوید،
341
00:10:31,600 –> 00:10:32,000
342
00:10:32,000 –> 00:10:34,880
توجه داشته باشید که تنظیم به طور پیش فرض اعمال می شود،
343
00:10:34,880 –> 00:10:36,880
بنابراین به طور پیش فرض این فرمول
344
00:10:36,880 –> 00:10:37,839
فعال سازی
345
00:10:37,839 –> 00:10:40,000
است که در حال حاضر استفاده نمی شود،
346
00:10:40,000 –> 00:10:41,600
ممکن است به آن برگردیم. این نگاهی
347
00:10:41,600 –> 00:10:42,959
به برخی از مدلهای دیگر همیشه
348
00:10:42,959 –> 00:10:44,240
خوب است که ببینید با چه چیزی کار میکنید،
349
00:10:44,240 –> 00:10:45,920
اما بیایید به جلو برویم و به اینجا
350
00:10:45,920 –> 00:10:47,440
برگردیم و ما واردات خود را داریم، ما آنها را ادامه میدهیم
351
00:10:47,440 –> 00:10:48,959
و آنها را اجرا میکنیم،
352
00:10:48,959 –> 00:10:50,800
بنابراین اینها اکنون در دسترس ما هستند همانطور که ما
353
00:10:50,800 –> 00:10:52,560
می رویم از طریق اسکریپت نوت بوک مشتری ما
354
00:10:52,560 –> 00:10:54,880
و آنها یک
355
00:10:54,880 –> 00:10:57,519
قطعه کوچک از داده را برای ما جمع آوری کردند
356
00:10:57,519 –> 00:11:00,079
357
00:11:00,079 –> 00:11:01,760
358
00:11:01,760 –> 00:11:03,279
359
00:11:03,279 –> 00:11:04,560
. در واقع
360
00:11:04,560 –> 00:11:06,800
به دنبال آن می گردیم و وقتی این را اجرا می کنیم می
361
00:11:06,800 –> 00:11:09,519
بینید که x ما صفر است یک
362
00:11:09,519 –> 00:11:12,160
دو تا نه ما آن را تغییر شکل دادیم
363
00:11:12,160 –> 00:11:13,680
دلیل این امر فقط به دنبال یک
364
00:11:13,680 –> 00:11:14,480
ردیف داده است
365
00:11:14,480 –> 00:11:16,320
معمولاً ما چندین ویژگی
366
00:11:16,320 –> 00:11:18,000
داریم فقط یک ویژگی داریم که
367
00:11:18,000 –> 00:11:19,519
اتفاقاً صفر تا نه است
368
00:11:19,519 –> 00:11:22,000
و سپس ما ده پاسخ خود
369
00:11:22,000 –> 00:11:22,880
را در اینجا داریم
370
00:11:22,880 –> 00:11:25,120
اوه صفر یک صفر صفر یک یک یک یک،
371
00:11:25,120 –> 00:11:26,320
372
00:11:26,320 –> 00:11:27,839
بسته به
373
00:11:27,839 –> 00:11:29,760
چیزی که با آن کار
374
00:11:29,760 –> 00:11:31,600
میکنید میتوانید دادههای مختلفی را وارد کنید. به جای داشتن این
375
00:11:31,600 –> 00:11:33,279
تنها به عنوان یک واحد، در واقع می توانید
376
00:11:33,279 –> 00:11:35,680
چندین ویژگی را در اینجا داشته باشید، اما
377
00:11:35,680 –> 00:11:37,600
ما فقط یک ویژگی را برای
378
00:11:37,600 –> 00:11:39,760
این نسخه ی نمایشی خاص داریم و اینجا واقعاً
379
00:11:39,760 –> 00:11:40,959
جایی است که همه جادو
380
00:11:40,959 –> 00:11:43,200
درست در اینجا اتفاق می افتد و من به شما گفتم که
381
00:11:43,200 –> 00:11:45,760
مانند یک جعبه سیاه است که pa دنبال کردن rt که
382
00:11:45,760 –> 00:11:48,000
به نوعی سخت است و بنابراین اگر
383
00:11:48,000 –> 00:11:49,760
درست اینجا را نگاه کنید، ما مدل خود را
384
00:11:49,760 –> 00:11:51,680
داریم، ما در مورد مدل همانجا صحبت
385
00:11:51,680 –> 00:11:53,920
کردیم و سپس آن را برای
386
00:11:53,920 –> 00:11:56,079
کتابخانه خطی تنظیم کردیم همانطور که قبلاً به شما نشان دادم
387
00:11:56,079 –> 00:11:57,920
که در واقع پیش فرض است، بنابراین اینطور نیست.
388
00:11:57,920 –> 00:11:58,880
389
00:11:58,880 –> 00:12:00,800
حالت تصادفی مهم برابر با صفر این چیزها است
390
00:12:00,800 –> 00:12:02,560
که شما زیاد نگران آن نباشید
391
00:12:02,560 –> 00:12:05,760
و سپس با Sicit یاد می گیرید
392
00:12:05,760 –> 00:12:07,200
که مدل مناسب را می بینید.
393
00:12:07,200 –> 00:12:10,560
این برای scikit بسیار رایج است.
394
00:12:10,560 –> 00:12:12,160
395
00:12:12,160 –> 00:12:13,360
396
00:12:13,360 –> 00:12:14,880
خواهید دید که این بسیار
397
00:12:14,880 –> 00:12:16,480
متداول است که شما باید داده های خود را متناسب کنید
398
00:12:16,480 –> 00:12:17,680
و این بدان معناست که ما فقط
399
00:12:17,680 –> 00:12:20,000
داده ها را می گیریم و x خود را
400
00:12:20,000 –> 00:12:22,320
دقیقاً در اینجا جا می دهیم که ویژگی های ما است که
401
00:12:22,320 –> 00:12:23,279
x ما است
402
00:12:23,279 –> 00:12:25,839
و اینجا y اینها برچسب هایی هستند که ما هستیم
403
00:12:25,839 –> 00:12:26,639
به دنبال
404
00:12:26,639 –> 00:12:28,720
این بودیم که قبل از اینکه به دنبال آن باشیم، آیا تقلب
405
00:12:28,720 –> 00:12:30,480
است، آیا
406
00:12:30,480 –> 00:12:33,120
گربه نیست، چنین چیزی نیست و این به
407
00:12:33,120 –> 00:12:35,680
دنبال صفر یک است، ما میخواهیم یک
408
00:12:35,680 –> 00:12:38,160
باینری در این مورد تنظیم کنیم و ادامه میدهیم
409
00:12:38,160 –> 00:12:39,440
و این را اجرا میکنیم.
410
00:12:39,440 –> 00:12:41,040
شما می توانید در اینجا ببینید که فقط به ما می گوید
411
00:12:41,040 –> 00:12:43,040
که ما آن را با چه چیزی به عنوان د خود بارگذاری کرده ایم خطاها
412
00:12:43,040 –> 00:12:43,519
و اینکه
413
00:12:43,519 –> 00:12:46,000
این مدل اکنون ایجاد شده است و
414
00:12:46,000 –> 00:12:48,079
ما اکنون داده های خود را با آن تطبیق داده ایم
415
00:12:48,079 –> 00:12:49,839
و سپس قسمت سرگرم کننده ای است که شما
416
00:12:49,839 –> 00:12:52,639
واقعاً سخت کار می کنید تا داده های خود را تمیز کنید تا
417
00:12:52,639 –> 00:12:54,800
آن را بپزید و بپزید.
418
00:12:54,800 –> 00:12:55,839
نمی دانم چرا آنها وجود دارند. با
419
00:12:55,839 –> 00:12:58,160
شرایط آشپزی تا جایی که چگونه این
420
00:12:58,160 –> 00:12:59,440
داده ها را قالب بندی
421
00:12:59,440 –> 00:13:00,720
می کنیم پیش بروید، سپس
422
00:13:00,720 –> 00:13:02,480
مدل خود را انتخاب می کنید، حل کننده خود را انتخاب می کنید
423
00:13:02,480 –> 00:13:04,160
و باید آن را آزمایش کنید تا ببینید کدام
424
00:13:04,160 –> 00:13:05,600
یک بهترین است
425
00:13:05,600 –> 00:13:07,519
و بنابراین ما می خواهیم ادامه دهیم و
426
00:13:07,519 –> 00:13:09,360
مدل را ارزیابی کنید و این کار را انجام دهید، زمانی
427
00:13:09,360 –> 00:13:09,760
که
428
00:13:09,760 –> 00:13:11,120
فهمیدید کدام یک
429
00:13:11,120 –> 00:13:12,639
برای شما بهتر عمل می کند، می خواهید آن را ارزیابی کنید
430
00:13:12,639 –> 00:13:14,480
تا بتوانید آن را با آخرین مدل خود مقایسه کنید
431
00:13:14,480 –> 00:13:16,000
و می توانید آن را برای ایجاد مدل جدید به روز کنید.
432
00:13:16,000 –> 00:13:18,399
یا شاید
433
00:13:18,399 –> 00:13:20,560
حل کننده را به چیز دیگری تغییر دهید که من به آن اشاره کردم
434
00:13:20,560 –> 00:13:22,240
که یکی از مماس های رایج دیگری
435
00:13:22,240 –> 00:13:24,240
است که معمولاً با
436
00:13:24,240 –> 00:13:26,240
زبان به دلایلی استفاده می شود تانژانت
437
00:13:26,240 –> 00:13:27,600
حتی اگر به نظر من تقریباً
438
00:13:27,600 –> 00:13:28,720
مشابه
439
00:13:28,720 –> 00:13:30,800
چیزی است که با
440
00:13:30,800 –> 00:13:32,560
تابع sigmoid استفاده می کنیم. به دلایلی
441
00:13:32,560 –> 00:13:34,320
با l بهتر فعال می شود زبان،
442
00:13:34,320 –> 00:13:35,440
اگرچه تغییر بسیار کوچکی
443
00:13:35,440 –> 00:13:38,560
در ریاضیات واقعی پشت آن است، ما
444
00:13:38,560 –> 00:13:39,839
قبلاً به
445
00:13:39,839 –> 00:13:41,440
داده ها نگاه کردیم، اما دوباره به آن نگاه می کنیم،
446
00:13:41,440 –> 00:13:43,040
فقط می توانید ببینید که ما
447
00:13:43,040 –> 00:13:43,519
به
448
00:13:43,519 –> 00:13:46,320
ردیف های 01 ردیف خود نگاه می کنیم، آن فقط یک
449
00:13:46,320 –> 00:13:47,040
موجودیت دارد.
450
00:13:47,040 –> 00:13:48,480
و ما خروجی خود را داریم که با
451
00:13:48,480 –> 00:13:50,560
این سطرها مطابقت دارد و اینها باید مطابقت
452
00:13:50,560 –> 00:13:52,480
داشته باشند، اگر چیزی با شکل دیگری قرار دهید با خطا مواجه خواهید شد
453
00:13:52,480 –> 00:13:54,399
، بنابراین اگر
454
00:13:54,399 –> 00:13:55,519
455
00:13:55,519 –> 00:13:58,079
ده ردیف داده و نه پاسخ داشته باشید،
456
00:13:58,079 –> 00:13:59,760
به شما خطا می دهد زیرا شما
457
00:13:59,760 –> 00:14:01,440
باید 10 پاسخ برای آن داشته باشید
458
00:14:01,440 –> 00:14:02,959
، در بسیاری از مواقع شما این را هم
459
00:14:02,959 –> 00:14:04,800
زمانی که در حال انجام مدلهای بزرگتر هستید جدا میکنید،
460
00:14:04,800 –> 00:14:06,000
اما برای این کار، ما فقط میخواهیم
461
00:14:06,000 –> 00:14:07,760
نگاهی گذرا به آن بیندازیم که اولین چیزی که
462
00:14:07,760 –> 00:14:09,279
میخواهیم شروع به بررسی کنیم،
463
00:14:09,279 –> 00:14:10,160
رهگیری است.
464
00:14:10,160 –> 00:14:12,240
یکی از ویژگی های داخل
465
00:14:12,240 –> 00:14:13,360
مدل رگرسیون خطی
466
00:14:13,360 –> 00:14:15,440
ما، آن را اجرا می کنیم و آن را چاپ می
467
00:14:15,440 –> 00:14:16,880
کنیم، در اینجا خواهید دید که ما یک وقفه
468
00:14:16,880 –> 00:14:18,279
منفی
469
00:14:18,279 –> 00:14:21,040
1.516 داریم و اگر می خواهیم به
470
00:14:21,040 –> 00:14:23,680
رهگیری نگاه کنیم، باید به ضرایب خود نیز نگاه کنیم.
471
00:14:23,680 –> 00:14:24,800
472
00:14:24,800 –> 00:14:26,480
و اگر آن را اجرا کنید، خواهید دید که
473
00:14:26,480 –> 00:14:28,079
ما یک دریافت می کنیم
474
00:14:28,079 –> 00:14:31,199
ضریب ما 0.7035 است، شما
475
00:14:31,199 –> 00:14:32,959
فقط می توانید این را به عنوان هندسه اقلیدسی خود
476
00:14:32,959 –> 00:14:34,160
برای
477
00:14:34,160 –> 00:14:36,160
مدل بسیار ابتدایی مانند این در نظر بگیرید که در آن
478
00:14:36,160 –> 00:14:37,920
y را در نقطه ای قطع می کند و
479
00:14:37,920 –> 00:14:39,839
ما یک ضریب ضرب
480
00:14:39,839 –> 00:14:41,680
در آن در انتهای عقب کمی پیچیده تر داریم،
481
00:14:41,680 –> 00:14:43,199
اما این ضریب
482
00:14:43,199 –> 00:14:45,920
است. این مدل ساده که یکی
483
00:14:45,920 –> 00:14:46,880
از ویژگیهای موجود در آن است،
484
00:14:46,880 –> 00:14:49,680
ادامه میدهیم و y را دوباره چاپ میکنیم،
485
00:14:49,680 –> 00:14:50,959
زیرا میخواهم آنها را
486
00:14:50,959 –> 00:14:53,040
با پیشبینی y روی هم قرار دهم
487
00:14:53,040 –> 00:14:55,760
و بنابراین این مقادیر y بودند که ما وارد کردیم
488
00:14:55,760 –> 00:14:56,639
و این همان y است.
489
00:14:56,639 –> 00:14:58,880
پیشبینی کنید که ما بیرون
490
00:14:58,880 –> 00:15:00,560
آمدهایم و میتوانید ببینید اوم، بله، اینجا
491
00:15:00,560 –> 00:15:02,880
میرویم، همان سفید واقعی است و
492
00:15:02,880 –> 00:15:04,800
چیزی که پیشبینی به دست میآید،
493
00:15:04,800 –> 00:15:08,160
اکنون به خاطر داشته باشید که ما از
494
00:15:08,160 –> 00:15:11,440
دادههای کامل واقعی به عنوان بخشی از آموزش خود استفاده کردهایم
495
00:15:11,440 –> 00:15:12,560
496
00:15:12,560 –> 00:15:14,639
، یعنی اگر واقعاً دارید انجام میدهید یک
497
00:15:14,639 –> 00:15:17,040
درپوش بزرگ را همانجا مدل کنید زیرا
498
00:15:17,040 –> 00:15:18,880
واقعا نمی توانید ببینید چقدر خوب بوده است مگر
499
00:15:18,880 –> 00:15:20,399
اینکه مقداری از داده ها را جدا کنید
500
00:15:20,399 –> 00:15:22,720
تا آن را آزمایش کنید.
501
00:15:22,720 –> 00:15:24,720
502
00:15:24,720 –> 00:15:26,639
503
00:15:26,639 –> 00:15:27,839
می توانید ببینید اینجا
504
00:15:27,839 –> 00:15:29,600
th وجود دارد نقطه درست اینجاست که
505
00:15:29,600 –> 00:15:32,160
در آن اشتباه است و این نقطه درست در اینجا
506
00:15:32,160 –> 00:15:33,839
جایی که اشتباه دارد
507
00:15:33,839 –> 00:15:35,680
و منطقی است زیرا
508
00:15:35,680 –> 00:15:37,360
ورودی ما 0 1
509
00:15:37,360 –> 00:15:39,600
0 تا 9 است و باید آن را در
510
00:15:39,600 –> 00:15:41,759
جایی بشکند و اینجاست که شکست
511
00:15:41,759 –> 00:15:43,279
بنابراین میگوید این نیمی از دادهها
512
00:15:43,279 –> 00:15:44,800
0 خواهد بود زیرا اگر بدون الگوریتم به آن نگاه میکردم
513
00:15:44,800 –> 00:15:46,560
اینطور به نظر میرسید
514
00:15:46,560 –> 00:15:48,639
و این داده
515
00:15:48,639 –> 00:15:49,839
احتمالاً 1 خواهد بود.
516
00:15:49,839 –> 00:15:52,000
و من فراموش نکردم به این اشاره کنم.
517
00:15:52,000 –> 00:15:53,839
بیرون، پس بیایید به اینجا برگردیم، من فقط به
518
00:15:53,839 –> 00:15:54,800
519
00:15:54,800 –> 00:15:57,440
این پنجره نگاه کردم، ما کارهای زیادی انجام دادیم،
520
00:15:57,440 –> 00:15:59,199
بیایید به عقب برگردیم و فقط نگاهی به این بیندازیم
521
00:15:59,199 –> 00:15:59,680
که
522
00:15:59,680 –> 00:16:01,600
کاری که در اینجا انجام شد این است که ما یک پیش بینی انجام دادیم،
523
00:16:01,600 –> 00:16:03,519
بنابراین اینجا جایی است که
524
00:16:03,519 –> 00:16:04,560
پیش بینی ما می آید
525
00:16:04,560 –> 00:16:07,360
مدل ما است.پیشبینی است، بنابراین ما یک مدل
526
00:16:07,360 –> 00:16:08,079
متناسب
527
00:16:08,079 –> 00:16:10,079
داشتیم، مدلی را ایجاد کردیم که آن را برنامهریزی کردیم تا
528
00:16:10,079 –> 00:16:11,920
پاسخ درست را به ما بدهد.
529
00:16:11,920 –> 00:16:14,079
530
00:16:14,079 –> 00:16:15,440
531
00:16:15,440 –> 00:16:16,480
532
00:16:16,480 –> 00:16:18,880
533
00:16:18,880 –> 00:16:21,199
پیشبینی y ما که بسیار شبیه است، اما
534
00:16:21,199 –> 00:16:23,040
این موضوع بیشتر با مشکل ارتباط دارد اعداد توانایی،
535
00:16:23,040 –> 00:16:23,920
536
00:16:23,920 –> 00:16:26,160
بنابراین اگر در پایین به یاد داشته باشید، ما
537
00:16:26,160 –> 00:16:28,160
تنظیماتی را داشتیم که در آن
538
00:16:28,160 –> 00:16:29,440
تابع سیگموید را بررسی
539
00:16:29,440 –> 00:16:32,720
میکنیم که این همان چیزی است که برمیگرداند و
540
00:16:32,720 –> 00:16:36,399
پیشبینی y 0 یا 1 را برمیگرداند.
541
00:16:36,399 –> 00:16:39,519
و سپس ماتریس سردرگمی
542
00:16:39,519 –> 00:16:40,480
خود را خواهیم داشت. در آن زمان
543
00:16:40,480 –> 00:16:42,720
و ما گزارش خود را داریم که
544
00:16:42,720 –> 00:16:44,639
اساساً y ما را با پیشبینی y مقایسه میکند
545
00:16:44,639 –> 00:16:46,079
که همین الان انجام
546
00:16:46,079 –> 00:16:47,680
دادیم، یک نوع داده ساده خوب است، بنابراین
547
00:16:47,680 –> 00:16:49,120
واقعاً آسان است که ببینیم چه کاری انجام میدهیم،
548
00:16:49,120 –> 00:16:49,920
به همین دلیل
549
00:16:49,920 –> 00:16:51,680
از دادههای سادهای استفاده میکنیم که میتوان دریافت کرد. واقعاً
550
00:16:51,680 –> 00:16:53,040
پیچیده است وقتی
551
00:16:53,040 –> 00:16:55,360
شما ویژگیهای مختلف و چیزهایی دارید
552
00:16:55,360 –> 00:16:57,040
که به صورت
553
00:16:57,040 –> 00:16:59,360
تقسیمبندی انجام میشوند، بنابراین در اینجا
554
00:16:59,360 –> 00:17:00,959
ما پیشبینیهای واقعی و ما را چاپ کردهایم، بنابراین
555
00:17:00,959 –> 00:17:02,720
این دادههای واقعی است، این همان چیزی است که
556
00:17:02,720 –> 00:17:04,319
پیشبینی اجرا شد
557
00:17:04,319 –> 00:17:05,760
و سپس ما. ادامه می دهیم و آیا
558
00:17:05,760 –> 00:17:08,319
ماتریس سردرگمی را
559
00:17:08,319 –> 00:17:10,720
که قبلاً در مورد آن صحبت می کردیم چاپ می کنیم
560
00:17:10,720 –> 00:17:12,720
که اگر داده های زیادی دارید که باید
561
00:17:12,720 –> 00:17:14,880
به آنها نگاه کنید عالی است اما می توانید دقیقاً
562
00:17:14,880 –> 00:17:17,520
اینجا ببینید که یک ماتریس سردرگمی می گوید
563
00:17:17,520 –> 00:17:18,880
اگر از سردرگمی یادتان می آید
564
00:17:18,880 –> 00:17:21,359
ماتریس ما دو
565
00:17:21,359 –> 00:17:24,480
این دو هسته است ct one two
566
00:17:24,480 –> 00:17:26,559
و اوه، مدتی است که
567
00:17:26,559 –> 00:17:28,480
به یک ماتریس سردرگمی نگاه کردم
568
00:17:28,480 –> 00:17:30,240
، آن دو وجود دارد و سپس ما این
569
00:17:30,240 –> 00:17:31,679
یکی را داریم که شش ما است
570
00:17:31,679 –> 00:17:34,000
، جایی که شش از آن می آید و سپس
571
00:17:34,000 –> 00:17:35,200
این یکی را داریم
572
00:17:35,200 –> 00:17:38,320
که یکی نادرست
573
00:17:38,320 –> 00:17:40,320
است، این دو است. بنابراین ما این یکی را
574
00:17:40,320 –> 00:17:42,760
در اینجا داریم و این یکی را در اینجا داریم که به
575
00:17:42,760 –> 00:17:44,080
اشتباه طبقه بندی شده است،
576
00:17:44,080 –> 00:17:46,160
این واقعاً بستگی به داده هایی دارد که با چه داده هایی
577
00:17:46,160 –> 00:17:47,919
کار می کنید و اینکه چه
578
00:17:47,919 –> 00:17:50,160
چیزی مهم است، ممکن است به این مدل نگاه کنید
579
00:17:50,160 –> 00:17:50,960
580
00:17:50,960 –> 00:17:53,280
و اگر این مدل این ماتریس سردرگمی ظاهر شود
581
00:17:53,280 –> 00:17:54,160
582
00:17:54,160 –> 00:17:58,400
و می گوید که شما
583
00:17:58,400 –> 00:18:02,480
حتی یک نفر را به اشتباه به عنوان سرطان غیر بدخیم طبقه بندی کردید
584
00:18:02,480 –> 00:18:05,200
که مدل بدی است، من نمی
585
00:18:05,200 –> 00:18:06,880
خواهم آن طبقه بندی شود، من می خواهم این
586
00:18:06,880 –> 00:18:07,600
عدد
587
00:18:07,600 –> 00:18:09,600
صفر باشد.
588
00:18:09,600 –> 00:18:11,280
589
00:18:11,280 –> 00:18:13,679
همانطور که میدانستم در
590
00:18:13,679 –> 00:18:15,200
مورد عامل مهمی که
591
00:18:15,200 –> 00:18:16,720
سرطان ندارم درست گفتهام، بنابراین میتوانید ببینید که این
592
00:18:16,720 –> 00:18:18,480
ماتریس سردرگمی واقعاً شما را در
593
00:18:18,480 –> 00:18:19,440
جهت درستی قرار میدهد
594
00:18:19,440 –> 00:18:21,120
که چه چیزی را باید در مدل خود تغییر دهید
595
00:18:21,120 –> 00:18:22,880
چگونه باید آن را تنظیم کنید
596
00:18:22,880 –> 00:18:24,559
و سپس البته گزارشی هست
597
00:18:24,559 –> 00:18:26,480
گزارشها همیشه خوب هستند،
598
00:18:26,480 –> 00:18:27,919
اگر متوجه شدید که ما قبلاً گزارشی تولید کردهایم، میرویم و گزارش
599
00:18:27,919 –> 00:18:29,440
را چاپ میکنیم
600
00:18:29,440 –> 00:18:31,200
و میتوانید به یاد داشته باشید که این یک
601
00:18:31,200 –> 00:18:33,360
گزارش است، یک گزارش طبقهبندی است
602
00:18:33,360 –> 00:18:35,360
با کاما y چرا پیشبینی کنید، بنابراین ما فقط
603
00:18:35,360 –> 00:18:36,960
دو مقدار خود را
604
00:18:36,960 –> 00:18:39,360
اساساً قرار میدهیم ما اینجا را به صورت بصری با مقدار
605
00:18:39,360 –> 00:18:40,240
واقعی
606
00:18:40,240 –> 00:18:42,320
و پیشبینیشدهمان انجام دادیم و ادامه میدهیم
607
00:18:42,320 –> 00:18:44,240
و گزارش را اجرا میکنیم
608
00:18:44,240 –> 00:18:46,480
و میبینید که دقت
609
00:18:46,480 –> 00:18:49,360
فراخوانی امتیاز f1 شما پشتیبانی شما
610
00:18:49,360 –> 00:18:52,320
به یک میانگین کلان دقت و میانگین وزنی ترجمه شده است،
611
00:18:52,320 –> 00:18:53,520
612
00:18:53,520 –> 00:18:56,559
بنابراین همه موارد را دارد. بسیاری از اوقات
613
00:18:56,559 –> 00:18:59,679
هنگام کار با مشتریان
614
00:18:59,679 –> 00:19:02,480
یا سهامداران شرکت
615
00:19:02,480 –> 00:19:04,400
، اینجا واقعاً جایی است که شروع میکنید،
616
00:19:04,400 –> 00:19:06,000
زیرا دادههای زیادی دارد و آنها
617
00:19:06,000 –> 00:19:07,600
فقط میتوانند به آن خیره شوند و سعی کنند
618
00:19:07,600 –> 00:19:08,480
آن را کشف کنند
619
00:19:08,480 –> 00:19:10,080
و سپس شما شروع به وارد کردن کنید. مانند
620
00:19:10,080 –> 00:19:12,080
ماتریس سردرگمی، من تقریباً این کار
621
00:19:12,080 –> 00:19:14,640
را برعکس با آنچه نشان میدهند انجام میدهم،
622
00:19:14,640 –> 00:19:16,240
هرگز به سهامداران شما
623
00:19:16,240 –> 00:19:17,760
ضریب رهگیری را نشان نمیدهم
624
00:19:17,760 –> 00:19:19,440
که برای تیم داخلی شما
625
00:19:19,440 –> 00:19:21,280
فقط روی زبان ماشین کار میکند
626
00:19:21,280 –> 00:19:23,760
اما سردرگمی ماتریس و
627
00:19:23,760 –> 00:19:25,520
گزارش بسیار مهم هستند.
628
00:19:25,520 –> 00:19:27,039
629
00:19:27,039 –> 00:19:28,400
630
00:19:28,400 –> 00:19:30,960
631
00:19:30,960 –> 00:19:32,400
632
00:19:32,400 –> 00:19:34,960
633
00:19:34,960 –> 00:19:37,440
634
00:19:37,440 –> 00:19:39,280
دقت در اینجا یک
635
00:19:39,280 –> 00:19:41,520
امتیاز f1 0.80
636
00:19:41,520 –> 00:19:43,039
است، بنابراین میدانید که این یک
637
00:19:43,039 –> 00:19:45,120
مدل بسیار دقیق است، البته این
638
00:19:45,120 –> 00:19:45,600
بسیار
639
00:19:45,600 –> 00:19:47,679
مسخره است زیرا مدل بسیار سادهای است
640
00:19:47,679 –> 00:19:48,799
و فقط
641
00:19:48,799 –> 00:19:52,320
مدل را بین یکها و صفرها تقسیم میکند، به طوری که
642
00:19:52,320 –> 00:19:52,799
643
00:19:52,799 –> 00:19:55,760
نسخه نمایشی ما از um در لجستیک بود. رگرسیون در
644
00:19:55,760 –> 00:19:56,240
آنجا
645
00:19:56,240 –> 00:19:58,480
بیایید برویم و نگاهی به k نزدیکترین
646
00:19:58,480 –> 00:19:59,360
همسایه
647
00:19:59,360 –> 00:20:02,960
بیندازیم، این یکی دیگر از الگوریتمهای بسیار پرکاربرد
648
00:20:02,960 –> 00:20:04,159
و مهم
649
00:20:04,159 –> 00:20:06,480
برای درک k نزدیکترین
650
00:20:06,480 –> 00:20:08,240
همسایه است، یک الگوریتم ساده است که
651
00:20:08,240 –> 00:20:10,080
همه موارد موجود را ذخیره میکند و
652
00:20:10,080 –> 00:20:11,679
موارد جدید را
653
00:20:11,679 –> 00:20:14,240
بر اساس اندازهگیری شباهت K
654
00:20:14,240 –> 00:20:15,200
نزدیکترین طبقهبندی میکند. در
655
00:20:15,200 –> 00:20:17,120
656
00:20:17,120 –> 00:20:19,120
657
00:20:19,120 –> 00:20:21,360
صورتی که سه نقطه داده
658
00:20:21,360 –> 00:20:22,159
از کلاس a
659
00:20:22,159 –> 00:20:24,480
و دو نقطه داده از کلاس b نزدیک
660
00:20:24,480 –> 00:20:26,159
به d جدید وجود داشته باشد، همسایه کلاس نقطه داده جدید را با پیدا کردن نزدیکترین همسایگان خود پیدا می کند. نقطه ata سپس k n
661
00:20:26,159 –> 00:20:29,440
نقطه داده جدید را به عنوان کلاس a طبقه بندی می کند
662
00:20:29,440 –> 00:20:31,679
، k در k نزدیکترین همسایه
663
00:20:31,679 –> 00:20:33,200
تعداد نزدیکترین همسایه هایی است که
664
00:20:33,200 –> 00:20:35,520
ما به دنبال سال خود هستیم، یعنی اگر
665
00:20:35,520 –> 00:20:37,600
بگوییم k برابر با 3 است، به این معنی است که ما به
666
00:20:37,600 –> 00:20:39,919
دنبال نزدیکترین سه همسایه
667
00:20:39,919 –> 00:20:42,400
طبقه بندی نشده هستیم. نقطه داده معمولاً
668
00:20:42,400 –> 00:20:44,320
مقدار k را بین 3 تا 10
669
00:20:44,320 –> 00:20:46,799
می گیریم زیرا منجر به نتیجه بهتر می شود، مقدار کمتر
670
00:20:46,799 –> 00:20:48,000
k به این معنی است
671
00:20:48,000 –> 00:20:50,640
که نویز تأثیر بیشتری
672
00:20:50,640 –> 00:20:51,520
بر نتیجه خواهد داشت
673
00:20:51,520 –> 00:20:53,919
و مقدار بزرگتر k آن را از نظر
674
00:20:53,919 –> 00:20:55,200
محاسباتی
675
00:20:55,200 –> 00:20:57,120
گران می کند، بنابراین دانشمندان داده
676
00:20:57,120 –> 00:20:58,720
ترجیح می دهند. محدوده k بین
677
00:20:58,720 –> 00:21:01,520
3 تا 10. وقتی در مورد نویز صحبت می کنیم،
678
00:21:01,520 –> 00:21:03,440
به یاد داشته باشید که داده هایی که فقط به آنها نگاه کردیم
679
00:21:03,440 –> 00:21:05,360
صفر و یک صفر
680
00:21:05,360 –> 00:21:07,520
صفر بود، برخی مقادیر آن را قطع کردند و
681
00:21:07,520 –> 00:21:09,280
گفتند همه چیز به سمت راست است یک
682
00:21:09,280 –> 00:21:11,039
همه چیز به چپ یک است. صفر
683
00:21:11,039 –> 00:21:13,200
اما من تعدادی یک و صفر در آنجا مخلوط کرده
684
00:21:13,200 –> 00:21:15,120
بودم که به آن نویز می گویند، این چیزی است
685
00:21:15,120 –> 00:21:16,480
که آنها در مورد آن صحبت می کنند،
686
00:21:16,480 –> 00:21:17,200
چیزهایی وجود
687
00:21:17,200 –> 00:21:18,159
دارد که دقیقاً در وسط
688
00:21:18,159 –> 00:21:19,840
طبقه بندی قرار دارند که طبقه بندی را بسیار سخت
689
00:21:19,840 –> 00:21:21,039
می کند،
690
00:21:21,039 –> 00:21:23,039
بنابراین فرض کنید ما در حال تلاش برای پیدا کردن
691
00:21:23,039 –> 00:21:24,559
کلاس برای یک نقطه جدید
692
00:21:24,559 –> 00:21:27,440
که با رنگ قرمز نشان داده شده است و میتوانید
693
00:21:27,440 –> 00:21:29,200
ببینید که دقیقاً بین گربه
694
00:21:29,200 –> 00:21:32,000
درست بین سگها است، اجازه دهید k برابر با 3 باشد، بنابراین
695
00:21:32,000 –> 00:21:33,120
ما با نگاه کردن به
696
00:21:33,120 –> 00:21:36,159
این نقطه، 3n را برای نقطه داده قرمز
697
00:21:36,159 –> 00:21:38,480
پیدا میکنیم. نمودار در سمت راست می
698
00:21:38,480 –> 00:21:40,400
بینیم که نقطه قرمز رنگ متعلق به
699
00:21:40,400 –> 00:21:40,960
700
00:21:40,960 –> 00:21:43,360
سگ های کلاس است زیرا دو رای برای سگ کلاس
701
00:21:43,360 –> 00:21:44,080
و یک رای
702
00:21:44,080 –> 00:21:46,960
برای گربه کلاس دارد و اگر
703
00:21:46,960 –> 00:21:47,600
سوال را
704
00:21:47,600 –> 00:21:49,760
خوب بپرسید فاصله را اندازه می گیرید
705
00:21:49,760 –> 00:21:51,039
که فاصله چقدر است.
706
00:21:51,039 –> 00:21:53,760
ممکن است یکی از ویژگیهایی باشد
707
00:21:53,760 –> 00:21:56,080
که گوشها نوک تیز یا فلاپی هستند،
708
00:21:56,080 –> 00:21:57,679
این است که
709
00:21:57,679 –> 00:22:00,159
گوشها چقدر شلخته هستند،
710
00:22:00,159 –> 00:22:02,480
یکی دیگر ممکن است سبیل در
711
00:22:02,480 –> 00:22:04,080
مقابل بینی باشد
712
00:22:04,080 –> 00:22:06,960
و سپس آن اندازهگیریها را انجام دهید و
713
00:22:06,960 –> 00:22:07,679
از آن استفاده کنید.
714
00:22:07,679 –> 00:22:10,080
یکی از رایج ترین چیزها در اندازه گیری k
715
00:22:10,080 –> 00:22:10,720
به معنی
716
00:22:10,720 –> 00:22:12,480
هندسه اقلیدسی است
717
00:22:12,480 –> 00:22:14,320
که می توانید فاصله بین
718
00:22:14,320 –> 00:22:15,200
آن
719
00:22:15,200 –> 00:22:16,559
نقاط را بفهمید، الگوریتم های مختلفی
720
00:22:16,559 –> 00:22:18,080
برای آن وجود دارد، اما می توانید در مورد آن فکر
721
00:22:18,080 –> 00:22:19,919
کنید که باید یک نوع داده جامد داشته باشید.
722
00:22:19,919 –> 00:22:20,960
a را اندازه گیری کنیم
723
00:22:20,960 –> 00:22:22,880
و بنابراین می توانیم نتیجه بگیریم که نقطه داده جدید
724
00:22:22,880 –> 00:22:24,480
متعلق به
725
00:22:24,480 –> 00:22:26,960
سگ کلاس است، بنابراین بیایید جلو برویم و ببینیم این
726
00:22:26,960 –> 00:22:28,799
در کد چگونه به نظر می رسد و یک
727
00:22:28,799 –> 00:22:31,200
نسخه نمایشی روی k نزدیکترین همسایه در اینجا
728
00:22:31,200 –> 00:22:32,799
انجام دهیم و بلافاصله به قسمت خود باز خواهیم گشت.
729
00:22:32,799 –> 00:22:36,159
نوت بوک jupiter و یک
730
00:22:36,159 –> 00:22:38,640
صفحه اسکریپت برنامه نویسی پایتون جدید باز کنید البته
731
00:22:38,640 –> 00:22:40,320
وقتی وارد اینجا شدیم می خواهیم به
732
00:22:40,320 –> 00:22:40,880
733
00:22:40,880 –> 00:22:43,840
کیت سایت نگاه کنیم یاد بگیریم که من فقط یک جستجوی سریع
734
00:22:43,840 –> 00:22:44,720
برای
735
00:22:44,720 –> 00:22:47,520
طبقه بندی کننده همسایگان sk انجام دادم که
736
00:22:47,520 –> 00:22:49,640
در واقع نسخه قدیمی
737
00:22:49,640 –> 00:22:52,080
0.01 است. 023 همان چیزی است که ما میخواهیم و در
738
00:22:52,080 –> 00:22:54,720
اینجا خواهید دید که همه پیشفرضهای آنها
739
00:22:54,720 –> 00:22:56,799
در همسایهها برابر است با پنج در پیشفرضهایی که
740
00:22:56,799 –> 00:22:58,400
در مورد آن صحبت میکردیم که بین سه
741
00:22:58,400 –> 00:22:59,280
تا
742
00:22:59,280 –> 00:23:00,720
ده روشهای مختلفی برای وزن کردن آن
743
00:23:00,720 –> 00:23:03,200
وجود دارد، الگوریتمی بر اساس آن وجود دارد که من
744
00:23:03,200 –> 00:23:05,440
به یافتن هندسه اقلیدسی اشاره کردم.
745
00:23:05,440 –> 00:23:07,360
فاصله وجود دارد الگوریتم های دیگری برای
746
00:23:07,360 –> 00:23:08,799
فهمیدن اینکه این فاصله چیست و
747
00:23:08,799 –> 00:23:10,159
چگونه می توان آنها را وزن
748
00:23:10,159 –> 00:23:12,080
کرد، پارامترهای زیادی وجود دارد که
749
00:23:12,080 –> 00:23:13,360
می توانید
750
00:23:13,360 –> 00:23:16,720
در اکثر موارد آنها
751
00:23:16,720 –> 00:23:18,400
752
00:23:18,400 –> 00:23:19,919
را تنظیم کنید. او پیشفرض میرود
753
00:23:19,919 –> 00:23:21,280
ما ممکن است با برخی از آنها بازی کنیم،
754
00:23:21,280 –> 00:23:23,520
ببینیم بچههای پشتی چه کردند
755
00:23:23,520 –> 00:23:25,039
و از اینجا میخواهیم numpy را وارد
756
00:23:25,039 –> 00:23:26,960
کنیم، اگر شما pandas را اجرا نکردهاید، از
757
00:23:26,960 –> 00:23:29,200
758
00:23:29,200 –> 00:23:31,200
پاندا استفاده میکنیم. فریمی که
759
00:23:31,200 –> 00:23:32,559
بالای فریم های داده Numpy قرار می
760
00:23:32,559 –> 00:23:34,640
گیرد آیا می دانید که numpy
761
00:23:34,640 –> 00:23:35,679
آرایه اعداد
762
00:23:35,679 –> 00:23:38,400
ما است.
763
00:23:38,400 –> 00:23:40,000
764
00:23:40,000 –> 00:23:41,919
765
00:23:41,919 –> 00:23:43,600
766
00:23:43,600 –> 00:23:44,799
شما
767
00:23:44,799 –> 00:23:47,039
یک صفحه نمایش خوب دارید و این همان چیزی است که
768
00:23:47,039 –> 00:23:48,320
دریابرد در اینجا
769
00:23:48,320 –> 00:23:50,240
در تنظیماتی است که در بالای
770
00:23:50,240 –> 00:23:51,360
کتابخانه matplot
771
00:23:51,360 –> 00:23:53,039
772
00:23:53,039 –> 00:23:54,720
773
00:23:54,720 –> 00:23:56,960
774
00:23:56,960 –> 00:23:58,320
قرار دارد.
775
00:23:58,320 –> 00:24:00,880
بنابراین از sklearn ما بارگذاری می کنیم، من
776
00:24:00,880 –> 00:24:01,520
777
00:24:01,520 –> 00:24:04,240
به سرطان سینه اشاره کردم که بسیار محبوب
778
00:24:04,240 –> 00:24:05,600
779
00:24:05,600 –> 00:24:07,440
است زیرا دارای 36 اندازه گیری است، بنابراین
780
00:24:07,440 –> 00:24:08,799
36 ویژگی وجود دارد
781
00:24:08,799 –> 00:24:11,840
و اگر متخصص نباشید،
782
00:24:11,840 –> 00:24:12,960
نمی دانید کدام یک از این ویژگی ها چیست.
783
00:24:12,960 –> 00:24:13,679
واقعاً یعنی
784
00:24:13,679 –> 00:24:15,600
شما می توانید مرتب کنید حدس می زنند اما
785
00:24:15,600 –> 00:24:17,200
اندازه گیری های خاص خود را هنگام گرفتن
786
00:24:17,200 –> 00:24:17,440
یک
787
00:24:17,440 –> 00:24:20,559
تصویر و البته ماتریس سردرگمی
788
00:24:20,559 –> 00:24:22,159
ما انجام می دهند تا ما بتوانیم نگاهی بیندازیم و ببینیم
789
00:24:22,159 –> 00:24:25,120
که داده ها چگونه به نظر می رسند و چقدر خوب عمل
790
00:24:25,120 –> 00:24:28,240
کرده ایم و سپس
791
00:24:28,240 –> 00:24:29,919
طبقه بندی کننده همسایگان kn خود را اینجا داریم.
792
00:24:29,919 –> 00:24:32,480
و سپس اشاره کردم که هر وقت
793
00:24:32,480 –> 00:24:33,440
794
00:24:33,440 –> 00:24:35,440
تمرین و آزمایش انجام می دهید، می خواهید
795
00:24:35,440 –> 00:24:36,480
داده ها را تقسیم
796
00:24:36,480 –> 00:24:38,559
کنید، نمی خواهید داده ها را آموزش دهید و
797
00:24:38,559 –> 00:24:40,240
سپس آنها را روی همان داده هایی آزمایش کنید
798
00:24:40,240 –> 00:24:42,000
که فقط به شما می گوید که
799
00:24:42,000 –> 00:24:43,760
مدل آموزشی شما چقدر خوب است. به شما بگویم که
800
00:24:43,760 –> 00:24:45,120
آیا واقعاً روی دادههای ناشناخته کار میکند یا نه
801
00:24:45,120 –> 00:24:47,440
و بنابراین این فقط آن را
802
00:24:47,440 –> 00:24:49,360
جدا میکند تا بتوانیم آن را آموزش دهیم و سپس
803
00:24:49,360 –> 00:24:51,200
میتوانیم به دادههایی که در آنجا نداریم نگاهی بیندازیم
804
00:24:51,200 –> 00:24:51,600
805
00:24:51,600 –> 00:24:53,520
و ببینیم چقدر خوب بوده است و ما ادامه خواهیم داد.
806
00:24:53,520 –> 00:24:54,880
و دادههای ما را بارگیری میکنیم
807
00:24:54,880 –> 00:24:58,240
، بنابراین تنظیمات ما در اینجا است که
808
00:24:58,240 –> 00:25:00,000
اوه، ما میرویم، بنابراین ما میرویم
809
00:25:00,000 –> 00:25:01,600
و تاریخ را بارگذاری
810
00:25:01,600 –> 00:25:04,799
میکنیم که مقدار x ماست و
811
00:25:04,799 –> 00:25:05,919
این از
812
00:25:05,919 –> 00:25:08,960
دادههای سرطان پستان ما میآید و آنها را ویژگی سرطان پستان مینامیم.
813
00:25:08,960 –> 00:25:10,799
نام ها
814
00:25:10,799 –> 00:25:13,520
بنابراین واقعی ما همه
815
00:25:13,520 –> 00:25:14,400
ویژگی های مختلف
816
00:25:14,400 –> 00:25:16,400
ما وجود دارد در اینجا در عرض یک ثانیه
817
00:25:16,400 –> 00:25:18,240
و سپس
818
00:25:18,240 –> 00:25:20,880
میانگین متراکم بودن مساحت خود را داریم، بنابراین حدس میزنم
819
00:25:20,880 –> 00:25:21,520
820
00:25:21,520 –> 00:25:23,200
که دادهها را میگیریم و فقط
821
00:25:23,200 –> 00:25:24,880
از چند
822
00:25:24,880 –> 00:25:27,279
ستون استفاده میکنیم، این فقط خواندن را آسانتر میکند
823
00:25:27,279 –> 00:25:28,320
824
00:25:28,320 –> 00:25:29,919
البته زمانی که شما در واقع ما این کار
825
00:25:29,919 –> 00:25:31,360
را انجام می دهیم و می خواهید از تمام ستون های خود استفاده کنید
826
00:25:31,360 –> 00:25:32,159
827
00:25:32,159 –> 00:25:34,559
و سپس ما y خود را داریم و این به
828
00:25:34,559 –> 00:25:35,679
سادگی
829
00:25:35,679 –> 00:25:38,880
یا بدخیم یا b9 است
830
00:25:38,880 –> 00:25:41,200
و سپس می خواهیم ادامه دهیم و
831
00:25:41,200 –> 00:25:42,080
خط اول را رها کنیم
832
00:25:42,080 –> 00:25:43,600
زیرا اینطور است وارد
833
00:25:43,600 –> 00:25:44,799
شدیم و ادامه خواهیم داد، بیایید
834
00:25:44,799 –> 00:25:46,320
کمی نزدیکتر به این موضوع نگاهی بیندازیم، بیایید
835
00:25:46,320 –> 00:25:47,919
برویم و این را سریع اجرا کنیم
836
00:25:47,919 –> 00:25:50,640
و فقط به این دلیل که دوست
837
00:25:50,640 –> 00:25:51,919
دارم قبل از اجرای آن، دادههایم را ببینم،
838
00:25:51,919 –> 00:25:53,360
میتوانیم به این نگاه کنیم و میتوانیم نگاه کنیم
839
00:25:53,360 –> 00:25:55,360
در ویژگیهای اصلی به یاد داشته باشید
840
00:25:55,360 –> 00:25:56,880
که فقط از دو ویژگی خارج از
841
00:25:56,880 –> 00:25:58,080
اینجا استفاده کنید تا دنبال کردن آن کمی آسانتر شود
842
00:25:58,080 –> 00:25:58,640
843
00:25:58,640 –> 00:26:00,720
و در اینجا دادههای واقعی است و میتوانید
844
00:26:00,720 –> 00:26:02,000
ببینید که
845
00:26:02,000 –> 00:26:04,720
این جریان عظیمی از دادهها است که در
846
00:26:04,720 –> 00:26:05,200
847
00:26:05,200 –> 00:26:06,640
اینجا وارد میشوند و فقط از آن عبور میکنند.
848
00:26:06,640 –> 00:26:08,320
چیزهای زیادی برای راهاندازی
849
00:26:08,320 –> 00:26:10,960
وجود دارد که فکر میکنم 50 مورد وجود دارد 0 اگر درست یادم باشد
850
00:26:10,960 –> 00:26:12,799
و شما بتوانید در اینجا تمام
851
00:26:12,799 –> 00:26:15,120
اندازه گیری های مختلف را مشاهده کنید، اما ما
852
00:26:15,120 –> 00:26:16,640
واقعاً نیازی به این نداریم که در اینجا
853
00:26:16,640 –> 00:26:18,080
854
00:26:18,080 –> 00:26:19,360
فقط به دو ستون
855
00:26:19,360 –> 00:26:21,440
و سپس ما نگاهی بیاندازیم. راه حل ما ادامه می دهیم
856
00:26:21,440 –> 00:26:22,640
و فقط
857
00:26:22,640 –> 00:26:25,200
y را در اینجا به سرعت چاپ می کنیم تا بتوانید ببینید
858
00:26:25,200 –> 00:26:26,400
y چگونه به نظر می رسد
859
00:26:26,400 –> 00:26:29,360
و به سادگی صفر صفر صفر است شما می
860
00:26:29,360 –> 00:26:29,760
دانید b
861
00:26:29,760 –> 00:26:32,799
نه صفر صفر صفر یک پس a یک به این معنی است
862
00:26:32,799 –> 00:26:35,360
که b نه به صفر است یعنی بدخیم است،
863
00:26:35,360 –> 00:26:37,360
این چیزی است که ما در آن
864
00:26:37,360 –> 00:26:38,559
برش به آن نگاه
865
00:26:38,559 –> 00:26:40,960
میکنیم، مرحله بعدی این است که پیش برویم و دادههایمان را تقسیم
866
00:26:40,960 –> 00:26:41,760
کنیم
867
00:26:41,760 –> 00:26:44,080
، قبلاً اشاره کردم که ما فقط
868
00:26:44,080 –> 00:26:45,600
جلو میرویم و به آنها اجازه میدهیم جنگل شکاف را
869
00:26:45,600 –> 00:26:46,559
870
00:26:46,559 –> 00:26:49,679
برای ما انجام دهند. x train x test y
871
00:26:49,679 –> 00:26:51,919
train y test و بنابراین ما ادامه می دهیم و
872
00:26:51,919 –> 00:26:53,039
آزمایش قطار تقسیم
873
00:26:53,039 –> 00:26:55,600
x y حالت تصادفی برابر با 1 است. این کار را
874
00:26:55,600 –> 00:26:56,720
برای ما خوب و آسان می کند
875
00:26:56,720 –> 00:26:58,720
ما می رویم و آن را اجرا می کنیم و بنابراین اکنون
876
00:26:58,720 –> 00:27:00,480
ما آموزش خود را داریم و وسیله قطار آزمایشی خود را داریم
877
00:27:00,480 –> 00:27:01,919
ما از آن برای
878
00:27:01,919 –> 00:27:03,600
آموزش مدل استفاده می کنیم و سپس
879
00:27:03,600 –> 00:27:05,600
از تست برای تست استفاده می کنیم تا ببینیم چقدر خوب است
880
00:27:05,600 –> 00:27:06,559
مدل ما انجام می دهد
881
00:27:06,559 –> 00:27:08,080
و سپس ما ادامه می دهیم و مدل خود را ایجاد می کنیم
882
00:27:08,080 –> 00:27:10,080
در اینجا مدل knn ما است
883
00:27:10,080 –> 00:27:12,960
طبقه بندی کننده k همسایه ها در همسایگان
884
00:27:12,960 –> 00:27:14,000
برابر با
885
00:27:14,000 –> 00:27:15,919
پنج است.
886
00:27:15,919 –> 00:27:17,360
887
00:27:17,360 –> 00:27:20,559
888
00:27:20,559 –> 00:27:21,279
889
00:27:21,279 –> 00:27:24,000
مساوی b مجذور
890
00:27:24,000 –> 00:27:24,960
به علاوه c مجذور بعلاوه c
891
00:27:24,960 –> 00:27:26,720
مجذور به علاوه d مربع است و سپس
892
00:27:26,720 –> 00:27:27,919
شما جذر همه چیزهایی
893
00:27:27,919 –> 00:27:29,279
که در اینجا در مورد آن صحبت می کنند را می گیرید، این فقط
894
00:27:29,279 –> 00:27:30,159
طول
895
00:27:30,159 –> 00:27:32,000
فرضیه یک مثلث است، اما
896
00:27:32,000 –> 00:27:33,679
در واقع می توانید آن چند بعد را
897
00:27:33,679 –> 00:27:35,120
درست مانند شما دو بعدی را با
898
00:27:35,120 –> 00:27:37,360
یک مثلث منظم انجام می دهید و در اینجا ما تناسب خود را داریم
899
00:27:37,360 –> 00:27:38,000
،
900
00:27:38,000 –> 00:27:39,600
این باید آشنا به نظر برسد،
901
00:27:39,600 –> 00:27:41,600
زیرا قبلاً در آخرین مثالمان این کار را انجام دادیم
902
00:27:41,600 –> 00:27:45,360
که برای s scikit
903
00:27:45,360 –> 00:27:47,279
و هر مورد دیگر بسیار استاندارد است، اگرچه گاهی اوقات
904
00:27:47,279 –> 00:27:49,039
الگوریتم های تناسب کمی بیشتر به نظر می رسند.
905
00:27:49,039 –> 00:27:50,720
پیچیده است زیرا آنها کارهای بیشتری
906
00:27:50,720 –> 00:27:51,840
را در آنجا انجام می دهند، به خصوص وقتی
907
00:27:51,840 –> 00:27:53,200
وارد شبکه های
908
00:27:53,200 –> 00:27:54,559
عصبی می شوید و سپس k همسایگان خود را دارید، این
909
00:27:54,559 –> 00:27:56,640
فقط به شما می گوید که ما یک k ne ایجاد کردیم.
910
00:27:56,640 –> 00:27:58,799
ighbors setup آنها به نوعی از ما می
911
00:27:58,799 –> 00:28:00,559
خواستند که y را مجدداً فرمت کنیم، اما برای این کار چندان مهمی
912
00:28:00,559 –> 00:28:02,320
913
00:28:02,320 –> 00:28:03,520
نیست و به شما نشان می دهد که
914
00:28:03,520 –> 00:28:06,080
ما از متریک اقلیدسی برای اندازه گیری خود استفاده می کنیم،
915
00:28:06,080 –> 00:28:07,279
916
00:28:07,279 –> 00:28:09,600
بنابراین اکنون یک مدل ایجاد کرده ایم.
917
00:28:09,600 –> 00:28:11,679
مدلی که داده ها را به آن برازش دادیم
918
00:28:11,679 –> 00:28:13,840
می گوییم هی اینجا داده های آموزشی ما است،
919
00:28:13,840 –> 00:28:15,279
بیایید جلو برویم و آن را پیش بینی کنیم، بنابراین ما
920
00:28:15,279 –> 00:28:17,039
می خواهیم پیش بینی y خود را برابر با
921
00:28:17,039 –> 00:28:20,880
آزمون k n پیش بینی y انجام دهیم، بنابراین این داده است ما
922
00:28:20,880 –> 00:28:23,039
نداریم این مدل این داده ها را ندیده است.
923
00:28:23,039 –> 00:28:24,480
بنابراین، قبل از اینکه به پیشبینی خود نگاه کنیم، یک مجموعه کاملاً جدید
924
00:28:24,480 –> 00:28:25,919
از دادهها را از آنجا ایجاد
925
00:28:25,919 –> 00:28:28,159
میکنیم،
926
00:28:28,159 –> 00:28:28,960
اجازه دهید
927
00:28:28,960 –> 00:28:31,039
این را پایین بیاورم و
928
00:28:31,039 –> 00:28:32,159
بعداً آن را در اینجا قرار
929
00:28:32,159 –> 00:28:35,039
دهم، اجازه دهید نگاهی به دادههای تست x خود بیندازیم.
930
00:28:35,039 –> 00:28:36,080
در مقابل
931
00:28:36,080 –> 00:28:38,880
تست y شبیه چه چیزی است و بنابراین
932
00:28:38,880 –> 00:28:39,360
933
00:28:39,360 –> 00:28:41,279
ما مساحت میانگین خود را داریم، آن
934
00:28:41,279 –> 00:28:42,960
را با میانگین فشردگی خود مقایسه
935
00:28:42,960 –> 00:28:44,720
می کنیم، ادامه می دهیم و آن را اجرا می
936
00:28:44,720 –> 00:28:47,120
کنیم و اگر فقط به این نگاه کنید می توانیم داده ها را اینجا ببینیم
937
00:28:47,120 –> 00:28:47,679
938
00:28:47,679 –> 00:28:50,320
اجازه دهید آن را در اینجا بگذارم، ما در اینجا
939
00:28:50,320 –> 00:28:51,440
940
00:28:51,440 –> 00:28:54,240
مقدار زیادی رنگ آبی داریم و او مقدار زیادی
941
00:28:54,240 –> 00:28:55,200
نارنجی داریم
942
00:28:55,200 –> 00:28:57,440
این نقطهها در وسط،
943
00:28:57,440 –> 00:28:59,360
مخصوصاً مثل این اینجا
944
00:28:59,360 –> 00:29:01,520
و اینها اینجا، اینها
945
00:29:01,520 –> 00:29:02,399
هستند که به ما
946
00:29:02,399 –> 00:29:04,720
منفیهای کاذب میدهند، بنابراین باید انتظار داشته باشیم
947
00:29:04,720 –> 00:29:06,159
این صدای شما باشد، اینجا جایی است که ما
948
00:29:06,159 –> 00:29:07,520
مطمئن نیستیم چیست
949
00:29:07,520 –> 00:29:10,240
و بعد b9 است که در این مورد به
950
00:29:10,240 –> 00:29:10,799
رنگ آبی
951
00:29:10,799 –> 00:29:13,919
و بدخیم به صورت یکی انجام می شود، بنابراین اگر
952
00:29:13,919 –> 00:29:14,399
به
953
00:29:14,399 –> 00:29:16,799
آن نگاه کنید، دو نکته بر اساس این ویژگی ها وجود
954
00:29:16,799 –> 00:29:17,679
دارد
955
00:29:17,679 –> 00:29:19,440
که
956
00:29:19,440 –> 00:29:21,200
صددرصد داشتن صددرصد در جایی که صد در
957
00:29:21,200 –> 00:29:22,480
صد اینجا پایین است
958
00:29:22,480 –> 00:29:24,720
یا اینجا بالاست واقعا سخت است.
959
00:29:24,720 –> 00:29:26,000
وقتی در
960
00:29:26,000 –> 00:29:27,840
مورد سرطان و مواردی از این قبیل صحبت می کنیم به دنبال چیزی می گردم که در آن
961
00:29:27,840 –> 00:29:29,360
شما واقعاً هیچ
962
00:29:29,360 –> 00:29:32,480
منفی کاذب نمی خواهید، شما همه چیزهای
963
00:29:32,480 –> 00:29:34,240
مثبت کاذب را می خواهید عالی است، می خواهید به
964
00:29:34,240 –> 00:29:36,240
آنجا بروید و
965
00:29:36,240 –> 00:29:38,240
راه اندازی دیگری داشته باشید آنجا که ممکن است
966
00:29:38,240 –> 00:29:39,919
دوباره کالبدشکافی یا چیزی شبیه
967
00:29:39,919 –> 00:29:40,559
به آن انجام
968
00:29:40,559 –> 00:29:43,279
شود که در اینجا بسیار خاص است،
969
00:29:43,279 –> 00:29:45,600
بنابراین حالا بیایید جلو برویم و
970
00:29:45,600 –> 00:29:48,640
پیشبینی خود را در اینجا دریافت کنیم و
971
00:29:48,640 –> 00:29:50,159
ما پیشبینی y خود را ایجاد
972
00:29:50,159 –> 00:29:52,080
خواهیم کرد. و اجرا کنید تا اکنون این
973
00:29:52,080 –> 00:29:53,440
wi لود شود آنچه که ما فکر می کنیم
974
00:29:53,440 –> 00:29:55,600
داده های ناشناخته قرار است باشد و
975
00:29:55,600 –> 00:29:57,600
می توانیم جلو برویم و آن را برداریم
976
00:29:57,600 –> 00:29:59,600
و برویم و آن را رسم کنیم زیرا همیشه
977
00:29:59,600 –> 00:30:01,279
داشتن چند عکس زیبا خوب است
978
00:30:01,279 –> 00:30:02,880
و وقتی آن را ترسیم می
979
00:30:02,880 –> 00:30:05,440
کنیم مساحت متوسط را در مقابل فشردگی متوسط انجام می دهیم.
980
00:30:05,440 –> 00:30:07,600
دوباره به این نقشه نگاه میکنید و میبینید
981
00:30:07,600 –> 00:30:08,480
982
00:30:08,480 –> 00:30:10,559
که تقسیمبندی واضحی در اینجا وجود دارد که
983
00:30:10,559 –> 00:30:12,720
میتوانیم به وضوح در مورد برخی از موارد
984
00:30:12,720 –> 00:30:15,279
بگوییم که پیشبینی ما اگر به این
985
00:30:15,279 –> 00:30:16,320
نقشه از اینجا
986
00:30:16,320 –> 00:30:18,399
و این نقشه در اینجا نگاه کنیم احتمالاً مقدار
987
00:30:18,399 –> 00:30:19,600
بسیار خوبی از آن به دست آوردهایم. خیلی خوب به نظر می رسد،
988
00:30:19,600 –> 00:30:20,960
مثل اینکه خیلی با هم مطابقت
989
00:30:20,960 –> 00:30:23,039
دارند، البته فقط
990
00:30:23,039 –> 00:30:24,799
به چشم می زنید، واقعاً شما نمی خواهید این
991
00:30:24,799 –> 00:30:25,520
چیزها
992
00:30:25,520 –> 00:30:27,840
را به مردم نشان دهید تا
993
00:30:27,840 –> 00:30:29,440
آنها بتوانند آن را ببینند، می توانید بگویید هی این
994
00:30:29,440 –> 00:30:30,559
چیزی است که به نظر می رسد،
995
00:30:30,559 –> 00:30:32,799
اما ما واقعاً ماتریس سردرگمی
996
00:30:32,799 –> 00:30:33,840
را میخواهیم و تست y را انجام میدهیم
997
00:30:33,840 –> 00:30:36,080
و پیشبینی y را میتوانیم ببینیم در
998
00:30:36,080 –> 00:30:37,679
ماتریس سردرگمی در اینجا
999
00:30:37,679 –> 00:30:39,760
بسیار خوب عمل کرده است و ما فقط به این موضوع
1000
00:30:39,760 –> 00:30:41,840
اشاره میکنیم که سریعاً
1001
00:30:41,840 –> 00:30:45,360
در اینجا 42 ما مثبت است
1002
00:30:45,360 –> 00:30:49,039
و 79 ما درست یادم هست
1003
00:30:49,039 –> 00:30:50,559
که باید بگردم با توجه به اینکه کدام یک از این داده ها
1004
00:30:50,559 –> 00:30:52,320
منفی کاذب است،
1005
00:30:52,320 –> 00:30:55,279
من معتقدم که 9 مورد ترسناک است، من
1006
00:30:55,279 –> 00:30:57,440
نمی خواهم یکی از آن نه
1007
00:30:57,440 –> 00:30:59,600
نفری باشم که به من گفته شد که سرطان ندارم و
1008
00:30:59,600 –> 00:31:00,080
سپس
1009
00:31:00,080 –> 00:31:02,559
ناگهان متوجه شدم که انجام می دهم بنابراین
1010
00:31:02,559 –> 00:31:04,000
باید راهی برای مرتب کردن
1011
00:31:04,000 –> 00:31:05,919
این موضوع پیدا کنید و روشهای مختلفی برای
1012
00:31:05,919 –> 00:31:08,000
انجام آن وجود دارد، اما میتوانید
1013
00:31:08,000 –> 00:31:09,440
1014
00:31:09,440 –> 00:31:11,360
هندسه واقعی اقلیدسی و اندازهگیریهای
1015
00:31:11,360 –> 00:31:12,799
فعالسازی را به هم بزنید
1016
00:31:12,799 –> 00:31:15,360
و شروع به تغییر آنها
1017
00:31:15,360 –> 00:31:16,000
و نحوه تعامل آنها کنید،
1018
00:31:16,000 –> 00:31:17,919
اما این بسیار پیشرفته است
1019
00:31:17,919 –> 00:31:19,760
، راههای دیگری نیز وجود دارد. برای طبقه بندی آنها
1020
00:31:19,760 –> 00:31:21,279
یا ایجاد یک کلاس کاملاً دیگر
1021
00:31:21,279 –> 00:31:22,320
در اینجا،
1022
00:31:22,320 –> 00:31:24,320
ما نمی دانیم که اینها فقط
1023
00:31:24,320 –> 00:31:26,080
چند راه حل هستند که ممکن است برای آن استفاده کنید،
1024
00:31:26,080 –> 00:31:28,080
اما برای بسیاری از چیزها این کار
1025
00:31:28,080 –> 00:31:29,120
عالی است،
1026
00:31:29,120 –> 00:31:30,880
می توانید اینجا را ببینید.
1027
00:31:30,880 –> 00:31:32,720
سعی می کنم چیزی را خوب بفروشم اگر این
1028
00:31:32,720 –> 00:31:33,600
به
1029
00:31:33,600 –> 00:31:36,720
زندگی وابسته نبود و اگر من
1030
00:31:36,720 –> 00:31:39,200
این آگهی را نمایش دهم 42 نفر از این افراد می
1031
00:31:39,200 –> 00:31:40,080
خواهند آن را بخرند
1032
00:31:40,080 –> 00:31:42,240
و اگر این تبلیغ دیگر را نشان
1033
00:31:42,240 –> 00:31:43,519
دهم اگر آن را نمایش
1034
00:31:43,519 –> 00:31:44,720
ندهم 79 نفر می روند جهت متفاوت
1035
00:31:44,720 –> 00:31:46,399
یا هر چه که باشد، شاید
1036
00:31:46,399 –> 00:31:47,679
شما در حال تلاش برای نشان دادن این هستید که آیا آنها
1037
00:31:47,679 –> 00:31:49,200
قصد خرید چیزی را دارند یا خیر اگر آن را
1038
00:31:49,200 –> 00:31:50,159
به وب سایت اضافه کنید،
1039
00:31:50,159 –> 00:31:51,600
در این صورت این واقعاً
1040
00:31:51,600 –> 00:31:53,519
اعداد خوبی است شما فقط تعداد
1041
00:31:53,519 –> 00:31:54,880
زیادی سلول به شرکت خود اضافه کرده اید
1042
00:31:54,880 –> 00:31:58,159
تا نزدیکترین همسایه ما بود،
1043
00:31:58,159 –> 00:31:59,440
بیایید جلو برویم و نگاهی به
1044
00:31:59,440 –> 00:32:00,080
1045
00:32:00,080 –> 00:32:02,880
ماشینهای بردار پشتیبان بیندازیم، بنابراین ماشینهای بردار پشتیبان
1046
00:32:02,880 –> 00:32:04,240
1047
00:32:04,240 –> 00:32:06,000
هدف اصلی الگوریتم ماشین بردار پشتیبان این است که یک ابر صفحه
1048
00:32:06,00