در این مطلب، ویدئو K الگوریتم نزدیکترین همسایه در پایتون | الگوریتم KNN چگونه کار می کند | آموزش علوم داده پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:21:35
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:02,370
سلام به ویدیوی بعدی خوش آمدید
2
00:00:02,370 –> 00:00:04,650
و در این ویدیو ما
3
00:00:04,650 –> 00:00:07,200
الگوریتم K نزدیکترین همسایه را در پایتون خواهیم دید
4
00:00:07,200 –> 00:00:09,719
یا نام کوتاه آن Qian است و در
5
00:00:09,719 –> 00:00:11,730
پایتون در ویدیوی قبلی مشاهده کردید
6
00:00:11,730 –> 00:00:15,480
که چگونه ما را داریم که چگونه من
7
00:00:15,480 –> 00:00:18,180
شما را راه انداختم. از طریق تئوری الگوریتم knn
8
00:00:18,180 –> 00:00:21,990
و همسایگان
9
00:00:21,990 –> 00:00:25,050
مورد نیاز شما را شناسایی کردیم و در نهایت
10
00:00:25,050 –> 00:00:28,560
نمونه ای از داده های
11
00:00:28,560 –> 00:00:31,019
سرطان داده های سرطان سینه را در برنامه نویسی r دیدیم، بنابراین
12
00:00:31,019 –> 00:00:33,420
امروز به شما نشان خواهم داد که چگونه می
13
00:00:33,420 –> 00:00:36,960
توانید الگوریتم knn را در پایتون پیاده سازی کنید.
14
00:00:36,960 –> 00:00:39,480
روی یک مجموعه داده متفاوت
15
00:00:39,480 –> 00:00:41,850
که یک مجموعه داده کاملاً آشنا برای شما است، بنابراین
16
00:00:41,850 –> 00:00:44,129
وقتی آن را در مثال مشاهده کردید،
17
00:00:44,129 –> 00:00:46,530
خواهید دید که از آنجایی که ما شروع به
18
00:00:46,530 –> 00:00:49,530
استفاده از این مجموعه داده یا شروع به استفاده از
19
00:00:49,530 –> 00:00:51,870
این الگوریتم در پایتون کردهایم، بنابراین
20
00:00:51,870 –> 00:00:54,000
آن را حفظ میکنم. بسیار ساده است، به طوری که
21
00:00:54,000 –> 00:00:56,730
منحنی یادگیری شما بسیار سریع است و
22
00:00:56,730 –> 00:00:59,489
باید بتوانید بیشتر این
23
00:00:59,489 –> 00:01:02,190
تمرین را انجام دهید و سپس آن را روی نمونه های دیگر پیاده سازی کنید،
24
00:01:02,190 –> 00:01:04,830
بنابراین بیایید جلو برویم و
25
00:01:04,830 –> 00:01:07,170
آن را در عمل ببینیم، پس بیایید ادامه دهیم
26
00:01:07,170 –> 00:01:10,590
و شروع به انجام یا وارد کردن
27
00:01:10,590 –> 00:01:13,260
کتابخانه ها برای خواندن پایان داده ها
28
00:01:13,260 –> 00:01:16,560
و وارد کردن K کتابخانه نزدیکترین همسایه کنید،
29
00:01:16,560 –> 00:01:21,330
بنابراین اول از همه پانداها را به عنوان
30
00:01:21,330 –> 00:01:28,610
PD و سپس از SK Learn dot همسایه ها
31
00:01:28,610 –> 00:01:34,890
K نزدیکترین طبقه بندی کننده را وارد کنید تا همانطور
32
00:01:34,890 –> 00:01:36,900
که در ویدیوی قبلی می دانید در ویدیوی تئوری
33
00:01:36,900 –> 00:01:40,229
که من توضیح دادم که شما دو
34
00:01:40,229 –> 00:01:43,740
نوع مختلف K نزدیک به خالص K دارید و یک
35
00:01:43,740 –> 00:01:46,430
الگوریتم یکی طبقه بندی کننده برای
36
00:01:46,430 –> 00:01:49,500
طبقه بندی مقادیر و یکی برای
37
00:01:49,500 –> 00:01:52,470
رگرسیون است، بنابراین طبقه بندی کننده چیزی است که
38
00:01:52,470 –> 00:01:55,170
ما قرار است استفاده کنیم و اگر من این را اجرا کنم
39
00:01:55,170 –> 00:01:57,600
این است. فعلاً به ما هشدار می دهد که
40
00:01:57,600 –> 00:02:00,719
ما آن را نادیده می گیریم، بنابراین مجموعه داده ای که من
41
00:02:00,719 –> 00:02:03,799
دارم IRS است که
42
00:02:03,799 –> 00:02:06,540
ساختار بسیار خوبی است و برای هدف یادگیری خوب است،
43
00:02:06,540 –> 00:02:11,430
زیرا
44
00:02:11,430 –> 00:02:13,319
ارزش هدف را دقیقاً می دانید
45
00:02:13,319 –> 00:02:15,900
که گل و سپس وجود دارد. مانند
46
00:02:15,900 –> 00:02:17,879
سه گل مختلف هستند و برای هر یک
47
00:02:17,879 –> 00:02:20,430
از گل ها مقادیر پارامتر را
48
00:02:20,430 –> 00:02:25,530
به صورت عددی دارید، بنابراین از آنجایی که من فایل عنبیه
49
00:02:25,530 –> 00:02:28,709
را در همان مکانی دارم که این
50
00:02:28,709 –> 00:02:31,379
فایل پایتون خاص است همانطور که می
51
00:02:31,379 –> 00:02:34,139
توانید مشاهده کنید. در پوشه پایتون یک
52
00:02:34,139 –> 00:02:36,629
خوشه بندی داریم و در آن می گوییم
53
00:02:36,629 –> 00:02:41,790
که PA KN و فایل پایتون IBM Viva را
54
00:02:41,790 –> 00:02:44,249
در همان محل من فایل CSV دارم
55
00:02:44,249 –> 00:02:47,639
و می توانید لینک این
56
00:02:47,639 –> 00:02:50,370
فایل CSV را در قسمت توضیحات پیدا کنید، بنابراین اگر من
57
00:02:50,370 –> 00:02:53,040
فقط ادامه دهید و این را در اینجا اجرا کنید، من
58
00:02:53,040 –> 00:02:55,230
فایل را
59
00:02:55,230 –> 00:02:58,260
وارد کردهام، بنابراین وقتی وارد کردم میتوانم به سرعت فایل را مشاهده کنم،
60
00:02:58,260 –> 00:03:01,319
بنابراین کلاه نقطه عنبیه به ما میگوید خوب اینها
61
00:03:01,319 –> 00:03:03,480
ستونهایی هستند که باید
62
00:03:03,480 –> 00:03:06,959
نشان دهیم یا از آنها استفاده کنیم، اما ستونی بدون نام است
63
00:03:06,959 –> 00:03:08,849
که اساساً شماره ردیف
64
00:03:08,849 –> 00:03:11,159
برای هر یک از این سطرها چیزی است که ما
65
00:03:11,159 –> 00:03:13,530
می توانیم نادیده بگیریم، بنابراین کاری که می خواهیم انجام
66
00:03:13,530 –> 00:03:17,099
دهیم ایجاد x و y آن
67
00:03:17,099 –> 00:03:20,699
متغیر مستقل مستقل است، بنابراین مقادیری که
68
00:03:20,699 –> 00:03:25,199
مستقل هستند اساساً مقادیر شما
69
00:03:25,199 –> 00:03:27,269
برای x هستند، به عنوان مثال همه این ستون ها،
70
00:03:27,269 –> 00:03:31,169
بنابراین اینها متغیرهایی را که به
71
00:03:31,169 –> 00:03:34,829
کمک آنها میخواستیم پیشبینی کنیم یا
72
00:03:34,829 –> 00:03:37,259
این
73
00:03:37,259 –> 00:03:39,090
که متغیر وابسته است را طبقهبندی میکنیم،
74
00:03:39,090 –> 00:03:41,250
این یک متغیر وابسته است زیرا
75
00:03:41,250 –> 00:03:44,849
به همه این مقادیر وابسته است بنابراین x
76
00:03:44,849 –> 00:03:49,889
برابر است با 2 بنابراین چه روشی باید
77
00:03:49,889 –> 00:03:54,599
باشد تا فقط این 4 ستون را به دست بیاورید، شما می
78
00:03:54,599 –> 00:03:57,090
توانید با مکث ویدیو به من بگویید تا این
79
00:03:57,090 –> 00:03:58,829
یکی از سوالات مصاحبه شما باشد و
80
00:03:58,829 –> 00:04:01,319
به یاد داشته باشید که من همچنان
81
00:04:01,319 –> 00:04:04,290
سوالات زیادی از مصاحبه را در اینجا با شما به اشتراک خواهم گذاشت، بنابراین به
82
00:04:04,290 –> 00:04:05,879
تماشای این فضا ادامه دهید و وقتی
83
00:04:05,879 –> 00:04:08,040
می آید، خواهید دید که یک سوال دیگر در
84
00:04:08,040 –> 00:04:09,900
مصاحبه آن چیزی است که من
85
00:04:09,900 –> 00:04:12,829
با شما به اشتراک خواهم گذاشت و بهترین راه برای
86
00:04:12,829 –> 00:04:15,750
پاسخ دادن و به خاطر سپردن پاسخ این است که
87
00:04:15,750 –> 00:04:18,149
یک بار که می پرسم، فقط ویدیو را در آنجا متوقف کنید
88
00:04:18,149 –> 00:04:21,060
و سپس به دنبال راهی بگردید. در یک
89
00:04:21,060 –> 00:04:23,669
تحقیق گوگل یا می دانید
90
00:04:23,669 –> 00:04:26,130
اگر کتابی دارید به کتابی نگاه کنید
91
00:04:26,130 –> 00:04:26,970
92
00:04:26,970 –> 00:04:28,950
که این سوال چیست زیرا
93
00:04:28,950 –> 00:04:31,410
وقتی تحقیق می کنید می دانید که می
94
00:04:31,410 –> 00:04:32,910
توانید آن را برای مدت طولانی
95
00:04:32,910 –> 00:04:35,760
تری به خاطر بسپارید و حتی بیشتر به خاطر بسپارید شما می دانید که
96
00:04:35,760 –> 00:04:38,100
فقط برای تقویت یادگیری خود مطمئن
97
00:04:38,100 –> 00:04:39,600
شوید که آن را می نویسید، بنابراین آن را در
98
00:04:39,600 –> 00:04:41,550
بخش نظرات بنویسید که پاسخ شما چیست
99
00:04:41,550 –> 00:04:44,850
و به این ترتیب پس از نوشتن آن می
100
00:04:44,850 –> 00:04:46,500
توانید آن را برای مدت طولانی تری به خاطر بسپارید
101
00:04:46,500 –> 00:04:48,330
زیرا همانطور که می گویند
102
00:04:48,330 –> 00:04:50,370
اگر یو هر چیزی را که یاد گرفته اید بنویسید
103
00:04:50,370 –> 00:04:52,800
تا مدت زیادی به خاطر بسپارید،
104
00:04:52,800 –> 00:04:55,710
پس جواب چه خواهد بود
105
00:04:55,710 –> 00:04:59,750
خوب جواب این است که من بازیابی کردم قفل و دو
106
00:04:59,750 –> 00:05:03,780
نقطه و سپس نام ستون ها
107
00:05:03,780 –> 00:05:08,070
با 1 2 5 y 1 2 5 است زیرا ستون
108
00:05:08,070 –> 00:05:11,640
از اینجا شروع کنید، پس این 0 است، این یک
109
00:05:11,640 –> 00:05:15,780
شاخص است، بنابراین ما آن را 0 1 2 3 4 5
110
00:05:15,780 –> 00:05:18,390
نمی شماریم، اما Y 5 به من پاسخ دهید که
111
00:05:18,390 –> 00:05:25,020
بنابراین، اگر من کلاه X نقطه ای را اجرا کنم، این کلاه X نقطه بزرگ است
112
00:05:25,020 –> 00:05:27,960
، چه چیزی دارم اساساً
113
00:05:27,960 –> 00:05:30,060
این کل است. مقادیر همراه با ایندکس
114
00:05:30,060 –> 00:05:33,840
کاملاً درست است و برای y دوباره چه خواهم نوشت،
115
00:05:33,840 –> 00:05:36,840
ستاره را خواندم، ویرگول دو نقطه را
116
00:05:36,840 –> 00:05:42,180
منهای 1 hmm Y منهای 1 را قفل کردم تا
117
00:05:42,180 –> 00:05:48,470
این مقدار را انتخاب کنم، اما چرا 5 من را نمی خواهد که
118
00:05:48,470 –> 00:05:54,810
پس اکنون این یاسوتورا است، اکنون آنچه می توانید
119
00:05:54,810 –> 00:05:57,630
انجام دهید این است که به سادگی این را صدا بزنید یا
120
00:05:57,630 –> 00:06:00,720
این الگوریتم را نمونه سازی کنید que classifiers همسایه ها
121
00:06:00,720 –> 00:06:03,150
اگر فقط ka9 را پایین بیاورم
122
00:06:03,150 –> 00:06:08,610
با K متاسفم K و K
123
00:06:08,610 –> 00:06:11,820
طبقه بندی کننده همسایه و تعداد
124
00:06:11,820 –> 00:06:14,220
همسایگان را مشخص کنید حالا اگر ویدیوی قبلی من را ندیده اید چگونه تعداد همسایگان را مشخص کنید.
125
00:06:14,220 –> 00:06:16,680
126
00:06:16,680 –> 00:06:18,600
من واقعاً توصیه
127
00:06:18,600 –> 00:06:20,430
می کنم آخرین ویدیوی من را که در
128
00:06:20,430 –> 00:06:24,960
مورد آن است را ببینید همسایهها یا فقط
129
00:06:24,960 –> 00:06:28,169
در کانال یوتیوب من جستجو کنید که
130
00:06:28,169 –> 00:06:30,930
ویدیوی KNN را برای تئوری میدانید، ممکن است اتفاق بیفتد که
131
00:06:30,930 –> 00:06:33,090
من هم در برخی موارد مدت زیادی بارگذاری کردهام،
132
00:06:33,090 –> 00:06:36,210
بنابراین تعداد همسایگان برابر است
133
00:06:36,210 –> 00:06:37,979
با تعداد رودخانهها در
134
00:06:37,979 –> 00:06:39,820
اصل و
135
00:06:39,820 –> 00:06:41,980
این یک مصاحبه است. سوال پس
136
00:06:41,980 –> 00:06:44,620
به خاطر داشته باشید که اگر بیشتر و بیشتر روی نیش کار می کنید باید همیشه آن را در
137
00:06:44,620 –> 00:06:47,560
ذهن خود داشته باشید
138
00:06:47,560 –> 00:06:48,850
139
00:06:48,850 –> 00:06:50,620
و اگر سوال سکه و نقدی در
140
00:06:50,620 –> 00:06:52,750
راه است باید این را بدانید تا
141
00:06:52,750 –> 00:06:54,490
قانون سرانگشتی مبتنی باشد با توجه به تعداد
142
00:06:54,490 –> 00:06:57,100
مشاهدهای که دارید، جذر این را میگیرید،
143
00:06:57,100 –> 00:06:59,500
بنابراین کاری که
144
00:06:59,500 –> 00:07:01,900
من انجام میدهم این است که escape را فشار دهید تا از
145
00:07:01,900 –> 00:07:05,320
حالت ویرایش خارج شوید، B را فشار دهید تا یک خط در زیر ایجاد شود
146
00:07:05,320 –> 00:07:10,080
و سپس اولین چیزی که شکل عنبیه را میبینم.
147
00:07:10,080 –> 00:07:14,350
بنابراین من 150 مشاهده دارم
148
00:07:14,350 –> 00:07:16,060
که جذر 150
149
00:07:16,060 –> 00:07:19,650
تقریباً در حدود 12 یا چیزی شبیه به آن است، اما
150
00:07:19,650 –> 00:07:22,750
بیایید ببینیم که آیا کاملاً مصاحبه کننده از
151
00:07:22,750 –> 00:07:25,510
شما می پرسد که چگونه این را در پایتون می بینید
152
00:07:25,510 –> 00:07:28,270
و پاسخ شما چیست، بنابراین
153
00:07:28,270 –> 00:07:30,040
من واقعاً منتظر پاسخ شما هستم.
154
00:07:30,040 –> 00:07:33,970
اما بنابراین شما می توانید ویدیو را مکث کنید یا من
155
00:07:33,970 –> 00:07:40,840
فقط numpy را به عنوان NP وارد می کنم و سپس NP dot
156
00:07:40,840 –> 00:07:46,860
s Q یا P اوه
157
00:07:46,860 –> 00:07:52,090
150 است یا می توانم آن شکل و
158
00:07:52,090 –> 00:07:54,400
سپس اولین متغیر را بگویم اما در حال حاضر
159
00:07:54,400 –> 00:07:57,100
چون 150 است 12 نقطه 2 4 به عنوان من آیا می توانید بدانید که
160
00:07:57,100 –> 00:08:00,940
فقط به 150 نگاه می کنید زیرا 12 x 12
161
00:08:00,940 –> 00:08:04,540
144 است و به همین دلیل می توانم ببینم که
162
00:08:04,540 –> 00:08:07,000
تقریباً نزدیک به 12 خواهد بود بنابراین
163
00:08:07,000 –> 00:08:09,190
تعدادی از همسایگان در اینجا قرار بود
164
00:08:09,190 –> 00:08:12,310
فقط برای شروع 12 را مشخص کنیم اما
165
00:08:12,310 –> 00:08:15,250
این معمولاً یک رقم است.
166
00:08:15,250 –> 00:08:18,820
ممکن است شما بدانید که به
167
00:08:18,820 –> 00:08:21,700
تعداد کمتری از همسایگان نیاز دارید و ما میتوانیم آن را با
168
00:08:21,700 –> 00:08:24,280
نگاه کردن به دادههایی که برای بخشهای مختلف در اختیار دارید، ببینیم،
169
00:08:24,280 –> 00:08:26,620
بنابراین شاید بهترین راه
170
00:08:26,620 –> 00:08:28,810
این باشد یا برای متغیرهای مختلف
171
00:08:28,810 –> 00:08:33,070
که در آن رنگها یا متأسفیم سه
172
00:08:33,070 –> 00:08:37,360
گونه مختلف در ستون بنابراین سه
173
00:08:37,360 –> 00:08:39,039
گونه مختلف اگر می دانید
174
00:08:39,039 –> 00:08:41,650
اساساً راه خوب این است که از آخر شروع کنید
175
00:08:41,650 –> 00:08:43,960
و همسایه مدرسه 3 اما
176
00:08:43,960 –> 00:08:45,310
ما با قانون سرانگشتی که 12 است پیش می رویم
177
00:08:45,310 –> 00:08:48,370
زیرا من معتقدم که 12
178
00:08:48,370 –> 00:08:52,290
دقت پیش بینی را افزایش می دهد
179
00:08:52,890 –> 00:08:57,300
بنابراین اکنون چه من می توانم انجام دهم، من می توانم X
180
00:08:57,300 –> 00:09:01,710
کاما Y را قرار دهید و الگوریتم طبقهبندیکننده هرگز کانیا
181
00:09:01,710 –> 00:09:03,720
را با پارامتر پیشفرض
182
00:09:03,720 –> 00:09:05,910
در مورد اندازه برگ به من نشان میدهد
183
00:09:05,910 –> 00:09:07,770
که عدد متریک تعداد چارلز
184
00:09:07,770 –> 00:09:09,480
تعداد همسایهها چقدر است و غیره
185
00:09:09,480 –> 00:09:14,670
خوب است، پس وقتی دیدیم که بعد چه
186
00:09:14,670 –> 00:09:15,690
کار میکنیم
187
00:09:15,690 –> 00:09:18,570
خوب است. ما پیشبینی میکنیم، بنابراین دو راه برای اعتبار وجود دارد،
188
00:09:18,570 –> 00:09:21,330
یکی این است که میتوانیم تمام مقادیر X را پیشبینی
189
00:09:21,330 –> 00:09:24,330
کنیم، بنابراین اگر بگویم کاری که
190
00:09:24,330 –> 00:09:27,450
انجام داده است این است که تمام مقادیر X را پیشبینی کرده است
191
00:09:27,450 –> 00:09:29,730
و سپس میتوانید آن را با
192
00:09:29,730 –> 00:09:34,800
مقادیر x واقعی مقایسه کنید.
193
00:09:34,800 –> 00:09:42,450
فقط بگویید X متاسفم Y بنابراین همه این
194
00:09:42,450 –> 00:09:44,400
مقادیر در حال حاضر به
195
00:09:44,400 –> 00:09:47,160
شکل یک سریال در می آید، بنابراین یک سوال مصاحبه
196
00:09:47,160 –> 00:09:50,279
که چگونه تشخیص داده ام که
197
00:09:50,279 –> 00:09:52,080
این یک سریال است، این به
198
00:09:52,080 –> 00:09:55,200
تجربه است، اما اگر نیاز دارید به مصاحبه کننده بگویید
199
00:09:55,200 –> 00:09:59,910
چگونه برای دانستن اینکه چگونه
200
00:09:59,910 –> 00:10:02,160
نوع ستون یا
201
00:10:02,160 –> 00:10:05,279
مجموعه داده را به خوبی بشناسیم به سادگی از نوع استفاده کنید، بنابراین
202
00:10:05,279 –> 00:10:09,390
نوع I این یک سری است، اما وقتی
203
00:10:09,390 –> 00:10:11,040
تجربه دارید، می توانید فقط به این نگاه کنید
204
00:10:11,040 –> 00:10:13,950
و فوراً به آن بگویید، اما چگونه شما
205
00:10:13,950 –> 00:10:18,150
می تواند یک سری را به یک آرایه تبدیل کند درست است
206
00:10:18,150 –> 00:10:20,970
به طوری که یک سوال مصاحبه است
207
00:10:20,970 –> 00:10:23,160
که باید با مکث این
208
00:10:23,160 –> 00:10:25,350
ویدیو به آن پاسخ دهید به یاد داشته باشید آن را جستجو کنید و بنویسید
209
00:10:25,350 –> 00:10:27,240
زیرا یادگیری شما را محکم می کند
210
00:10:27,240 –> 00:10:29,990
بنابراین پاسخ بسیار ساده مقادیر X است
211
00:10:29,990 –> 00:10:35,640
و در اینجا می توانید ببینید که ما
212
00:10:35,640 –> 00:10:38,640
یک آرایه مشابه داریم. اکنون
213
00:10:38,640 –> 00:10:42,420
سؤال بعدی این است که چگونه
214
00:10:42,420 –> 00:10:46,050
مقادیر Y و K را ترکیب کنیم و این ستون خاص را پیش بینی کنیم،
215
00:10:46,050 –> 00:10:49,800
بنابراین برای ترکیب آن فقط
216
00:10:49,800 –> 00:10:54,529
به منظور اسکن داده ها
217
00:10:54,650 –> 00:10:57,420
امتیاز بی سیم است، فقط یک شی جدید را پیش بینی کنید که
218
00: