در این مطلب، ویدئو مدل خوشه بندی K-Means با استفاده از پایتون | الگوریتم های علم داده | ادورکا | Data Science Rewind -2 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:39:30
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:08,000 –> 00:00:09,360
سلام بچه ها این راهول است که
2
00:00:09,360 –> 00:00:12,799
از مدولا به جلسه خوش آمدید
3
00:00:12,799 –> 00:00:15,360
امروز ما یک دستور کار داریم که
4
00:00:15,360 –> 00:00:16,160
در مورد
5
00:00:16,160 –> 00:00:20,080
k به معنای خوشه بندی صحبت کنیم اکنون k به معنای
6
00:00:20,080 –> 00:00:21,680
خوشه بندی است و در واقع خوشه بندی چیست،
7
00:00:21,680 –> 00:00:23,519
بنابراین بیایید سعی کنیم ابتدا جزئیات را درک کنیم،
8
00:00:23,519 –> 00:00:25,599
اما قبل از آن این
9
00:00:25,599 –> 00:00:27,359
آنچه قرار است بیاموزیم
10
00:00:27,359 –> 00:00:29,760
مقدمه ای بر تجزیه و تحلیل خوشه ای یادگیری ماشینی
11
00:00:29,760 –> 00:00:30,880
12
00:00:30,880 –> 00:00:33,680
نوع خوشه بندی مقدمه بر
13
00:00:33,680 –> 00:00:35,520
k-means خوشه بندی چگونه k به معنای
14
00:00:35,520 –> 00:00:36,559
کار خوشه بندی است
15
00:00:36,559 –> 00:00:38,960
و در نهایت یک مثال می زنم که در آن
16
00:00:38,960 –> 00:00:40,320
در مورد
17
00:00:40,320 –> 00:00:43,120
شرکت کارت اعتباری صحبت خواهیم کرد و یک مجموعه داده را
18
00:00:43,120 –> 00:00:43,520
انتخاب خواهیم کرد.
19
00:00:43,520 –> 00:00:47,200
و ما سعی خواهیم کرد آن مشکل را به درستی حل کنیم،
20
00:00:47,200 –> 00:00:49,280
بنابراین در حال حاضر آنچه که اول از همه
21
00:00:49,280 –> 00:00:52,079
یادگیری ماشینی است،
22
00:00:52,320 –> 00:00:53,760
بنابراین یادگیری ماشینی نوعی
23
00:00:53,760 –> 00:00:55,520
هوش مصنوعی است
24
00:00:55,520 –> 00:00:57,760
که کامپیوتر را با
25
00:00:57,760 –> 00:00:59,920
توانایی یادگیری بدون برنامهریزی صریح فراهم میکند،
26
00:00:59,920 –> 00:01:01,520
27
00:01:01,520 –> 00:01:05,199
اگر مثالی بزنم، فرض کنید میخواهم برای
28
00:01:05,199 –> 00:01:06,560
انجام پیشبینی
29
00:01:06,560 –> 00:01:09,680
قیمت خانه، بیایید بگوییم خوب هستم
30
00:01:09,680 –> 00:01:10,720
و میخواهم
31
00:01:10,720 –> 00:01:13,920
بدانم قیمت خانه من
32
00:01:13,920 –> 00:01:17,200
چقدر است، پس چگونه آن قیمت را قضاوت کنم،
33
00:01:17,200 –> 00:01:18,159
آن قیمت را قضاوت کنم
34
00:01:18,159 –> 00:01:21,280
ممکن است مساحت خانه من فاصله
35
00:01:21,280 –> 00:01:22,159
از شهر،
36
00:01:22,159 –> 00:01:25,280
تعداد اتاقهای خانه من شاید
37
00:01:25,280 –> 00:01:26,479
محل باشد،
38
00:01:26,479 –> 00:01:28,640
بنابراین اینها برخی از ویژگیهایی هستند
39
00:01:28,640 –> 00:01:29,520
40
00:01:29,520 –> 00:01:31,520
که میخواهم انجام دهم یا به آن ویژگیها کمک میکنم
41
00:01:31,520 –> 00:01:33,759
تا پیشبینی را انجام دهم،
42
00:01:33,759 –> 00:01:35,439
بنابراین در اینجا کاری که من انجام میدهم انجام میدهم. من در واقع
43
00:01:35,439 –> 00:01:37,280
متغیر پیوسته را پیشبینی میکنم
44
00:01:37,280 –> 00:01:40,000
که قیمت خانه مانند 20 لک
45
00:01:40,000 –> 00:01:41,600
30 لک 40 لک
46
00:01:41,600 –> 00:01:44,320
90 لایک است، این یک عدد پیوسته است، بنابراین
47
00:01:44,320 –> 00:01:46,320
وقتی میخواهم یک عدد پیوسته
48
00:01:46,320 –> 00:01:47,200
پیشبینی
49
00:01:47,200 –> 00:01:50,479
کنم که رگرسیون رگرسیونی است،
50
00:01:50,479 –> 00:01:51,439
یکی از انواع
51
00:01:51,439 –> 00:01:54,479
یادگیری ماشینی تحت نظارت است.
52
00:01:54,479 –> 00:01:55,360
چرا نظارت می شود
53
00:01:55,360 –> 00:01:59,600
زیرا ما این داده ها را به عنوان داده های برچسب دار داریم
54
00:01:59,600 –> 00:02:02,240
من قبلاً قیمت خانه
55
00:02:02,240 –> 00:02:03,600
خانه خود را می دانم اکنون بررسی
56
00:02:03,600 –> 00:02:05,920
می کنم که مدل من چه می گوید ، فرض کنید
57
00:02:05,920 –> 00:02:07,759
قیمت خانه من 25 لک است
58
00:02:07,759 –> 00:02:09,360
اما مدل من می گوید 10 لک پس از
59
00:02:09,360 –> 00:02:11,280
آن یک خطای بزرگی که به این معنی است که
60
00:02:11,280 –> 00:02:14,480
مدل من خروجی درستی را پیشبینی نمیکند
61
00:02:14,480 –> 00:02:16,480
، فرض کنید قیمت خانهام
62
00:02:16,480 –> 00:02:17,520
دوباره 25 لایک دارد و
63
00:02:17,520 –> 00:02:20,160
مدل من 24 لک 50 000 را پیشبینی میکند
64
00:02:20,160 –> 00:02:22,000
که بسیار نزدیک به
65
00:02:22,000 –> 00:02:24,000
قیمت واقعی خانه من است، یعنی مدل من
66
00:02:24,000 –> 00:02:26,959
پیش بینی بسیار بهتر و خوب و
67
00:02:26,959 –> 00:02:29,200
دادن دقت خوب به من،
68
00:02:29,200 –> 00:02:30,720
به طوری که یکی از سناریوهای
69
00:02:30,720 –> 00:02:32,560
یادگیری ماشینی است که یک یادگیری نظارت شده
70
00:02:32,560 –> 00:02:34,640
است که در آن من یک داده برچسب
71
00:02:34,640 –> 00:02:36,879
دارم و سپس می خواهم بدانم خوب این یک
72
00:02:36,879 –> 00:02:38,000
قیمت خانه است که
73
00:02:38,000 –> 00:02:40,160
یک متغیر پیوسته را پیش بینی می کند. آیا
74
00:02:40,160 –> 00:02:42,480
رگرسیون رگرسیون نظارت شده من
75
00:02:42,480 –> 00:02:44,560
است به این دلیل است که یکی از سرپرستان
76
00:02:44,560 –> 00:02:45,680
در حال یادگیری
77
00:02:45,680 –> 00:02:47,599
مثال دیگری از رگرسیون است مانند
78
00:02:47,599 –> 00:02:49,040
پیش بینی حقوق و دستمزد
79
00:02:49,040 –> 00:02:51,360
پیش بینی تعداد لایک های یوتیوب در ویدیوی من،
80
00:02:51,360 –> 00:02:52,319
81
00:02:52,319 –> 00:02:55,920
سپس می توانم بگویم پیش بینی شاید درآمد
82
00:02:55,920 –> 00:02:58,800
در بازه زمانی یا شاید درآمد
83
00:02:58,800 –> 00:02:59,599
84
00:02:59,599 –> 00:03:02,239
فروشگاه های من. برخی از مثالهایی
85
00:03:02,239 –> 00:03:03,840
که من رگرسیون را اعمال
86
00:03:03,840 –> 00:03:04,560
87
00:03:04,560 –> 00:03:07,360
میکنم که یک یادگیری ماشینی نظارتشده است، سپس یک یادگیری نظارتشده دیگر وجود دارد
88
00:03:07,360 –> 00:03:08,879
که به عنوان طبقهبندی شناخته میشود
89
00:03:08,879 –> 00:03:11,200
، میخواهم طبقهبندی کنم،
90
00:03:11,200 –> 00:03:13,519
بنابراین وقتی میخواهم یک متغیر گسسته را پیشبینی کنم
91
00:03:13,519 –> 00:03:14,480
92
00:03:14,480 –> 00:03:16,800
بله یا خیر، آیا شما جلسه را دوست دارید
93
00:03:16,800 –> 00:03:18,000
یا خیر. نه بله
94
00:03:18,000 –> 00:03:20,400
یا نه پس چه گزینه هایی داریم
95
00:03:20,400 –> 00:03:21,280
بله و نه
96
00:03:21,280 –> 00:03:24,400
دو گزینه به طوری که گسسته باشد
97
00:03:24,400 –> 00:03:26,879
بنابراین وقتی می خواهم پیش بینی را با گسسته انجام دهم
98
00:03:26,879 –> 00:03:27,680
99
00:03:27,680 –> 00:03:31,519
به عنوان خروجی طبقه بندی است
100
00:03:31,519 –> 00:03:33,519
که آیا کارمند من مرا ترک می کند یا نه
101
00:03:33,519 –> 00:03:34,640
بله یا
102
00:03:34,640 –> 00:03:36,959
خیر آیا بیمار من به بیماری مبتلا می شود یا
103
00:03:36,959 –> 00:03:38,640
نه بله یا
104
00:03:38,640 –> 00:03:40,640
خیر آیا مشتری من مرا ترک می کند یا نه
105
00:03:40,640 –> 00:03:41,760
بله یا خیر
106
00:03:41,760 –> 00:03:43,360
بنابراین اینها مانند الگوریتم طبقه بندی هستند
107
00:03:43,360 –> 00:03:45,840
این یک یادگیری نظارت شده
108
00:03:45,840 –> 00:03:48,000
است. زیرا این دوباره یک داده برچسبدار است،
109
00:03:48,000 –> 00:03:50,480
زیرا من مجموعهای از دادهها را دارم که
110
00:03:50,480 –> 00:03:51,519
شامل
111
00:03:51,519 –> 00:03:54,000
مشتریان قبلی است و میدانم که کدام
112
00:03:54,000 –> 00:03:55,920
مشتری کدام مشتری
113
00:03:55,920 –> 00:03:58,159
را تبدیل نکرده است، بنابراین من
114
00:03:58,159 –> 00:04:00,319
قبلاً مجموعه دادهها را بر این اساس دارم و
115
00:04:00,319 –> 00:04:02,400
از آن مجموعه داده برای آموزش استفاده خواهم کرد. مدل
116
00:04:02,400 –> 00:04:04,879
و سپس وقتی دادههای جدید را دریافت
117
00:04:04,879 –> 00:04:07,200
118
00:04:07,200 –> 00:04:10,480
119
00:04:10,480 –> 00:04:12,640
میکنم، واقعاً میتوانم با آن مدل پیشبینی کنم، بنابراین یادگیری نظارت شده چیزی نیست جز جایی که میتوانم دقت خود را بررسی کنم
120
00:04:12,640 –> 00:04:14,799
که آیا دقت درست است یا نه،
121
00:04:14,799 –> 00:04:16,798
آیا مدل من خوب کار میکند یا نه
122
00:04:16,798 –> 00:04:19,918
که تحت نظارت من است. یادگیری بنابراین در
123
00:04:19,918 –> 00:04:21,519
یادگیری نظارت شده ما دو
124
00:04:21,519 –> 00:04:23,840
سناریو داریم رگرسیون و طبقه بندی
125
00:04:23,840 –> 00:04:25,520
زمانی که می خواهم عدد پیوسته را پیش بینی کنم
126
00:04:25,520 –> 00:04:25,919
127
00:04:25,919 –> 00:04:27,840
که رگرسیون است وقتی می خواهم قبل انجام دهم.
128
00:04:27,840 –> 00:04:30,400
دیکشنری عدد گسسته بله یا خیر
129
00:04:30,400 –> 00:04:31,120
که
130
00:04:31,120 –> 00:04:34,720
بعد از آن یادگیری بدون نظارت طبقه بندی می
131
00:04:34,720 –> 00:04:35,520
شود
132
00:04:35,520 –> 00:04:36,880
و این همان چیزی است که ما
133
00:04:36,880 –> 00:04:38,560
در اینجا در مورد آن
134
00:04:38,560 –> 00:04:41,520
135
00:04:41,520 –> 00:04:42,720
136
00:04:42,720 –> 00:04:44,960
137
00:04:44,960 –> 00:04:46,880
صحبت خواهیم
138
00:04:46,880 –> 00:04:49,120
کرد. مشتریانی که بر اساس
139
00:04:49,120 –> 00:04:50,720
امتیاز هزینه و
140
00:04:50,720 –> 00:04:53,199
شاید درآمد دارم، فرض کنید مشتری
141
00:04:53,199 –> 00:04:53,759
با
142
00:04:53,759 –> 00:04:56,160
امتیاز خرج کردن پایین و درآمد کم دارم که
143
00:04:56,160 –> 00:04:57,600
یک خوشه
144
00:04:57,600 –> 00:05:00,800
امتیاز خرج زیاد است درآمد
145
00:05:00,800 –> 00:05:01,759
146
00:05:01,759 –> 00:05:04,320
بالا خوشه دوم خرج زیاد کم درآمد خوشه سوم
147
00:05:04,320 –> 00:05:05,919
و خرج کم خیلی با درآمد بالا
148
00:05:05,919 –> 00:05:08,000
خوشه چهارم بنابراین اینها مانند چهار
149
00:05:08,000 –> 00:05:10,720
خوشه از داده های من هستند که بسیار
150
00:05:10,720 –> 00:05:11,759
ممکن است
151
00:05:11,759 –> 00:05:13,440
برخی از نمونه ها مانند شرکت کارت اعتباری اگر شرکت کارت اعتباری را در
152
00:05:13,440 –> 00:05:15,759
شرکت کارت اعتباری می بینید
153
00:05:15,759 –> 00:05:17,360
ما
154
00:05:17,360 –> 00:05:19,600
مشتریان پلاتینی داریم مشتریان طلایی مشتریان نقره ای
155
00:05:19,600 –> 00:05:21,199
مشتریان برنزی چگونه
156
00:05:21,199 –> 00:05:22,560
تصمیم می گیرند بر اساس هزینه های خود تصمیم می گیرند
157
00:05:22,560 –> 00:05:23,440
158
00:05:23,440 –> 00:05:25,680
آنها بر اساس درآمد خود تصمیم می گیرند که
159
00:05:25,680 –> 00:05:26,479
مردم
160
00:05:26,479 –> 00:05:29,520
بیشتر از کارت اعتباری او بیشتر از کارت اعتباری خود استفاده می
161
00:05:29,520 –> 00:05:31,199
کنند شاید یک
162
00:05:31,199 –> 00:05:32,639
مشتری پلاتینیوم باشد، زیرا
163
00:05:32,639 –> 00:05:34,320
هزینهها بیشتر است،
164
00:05:34,320 –> 00:05:36,639
بنابراین خوشهبندی چگونه کار میکند، من میخواهم
165
00:05:36,639 –> 00:05:38,320
166
00:05:38,320 –> 00:05:40,800
167
00:05:40,800 –> 00:05:42,880
دانشآموزانم را دستهبندی
168
00:05:42,880 –> 00:05:44,400
169
00:05:44,400 –> 00:05:46,320
170
00:05:46,320 –> 00:05:47,280
171
00:05:47,280 –> 00:05:49,280
کنم. خوشه بندی بدون نظارت است چرا
172
00:05:49,280 –> 00:05:51,120
دلیلش این است که
173
00:05:51,120 –> 00:05:53,600
داده های بدون برچسب است من نمی دانم که فرض کنیم
174
00:05:53,600 –> 00:05:54,320
srinivas
175
00:05:54,320 –> 00:05:56,319
دانش آموز ممتاز من است یا دانش آموز ضعیف
176
00:05:56,319 –> 00:05:58,319
من نمی دانم اما با استفاده از مدل می توانم
177
00:05:58,319 –> 00:05:59,759
تصمیم بگیرم که او دانش آموز ممتاز است
178
00:05:59,759 –> 00:06:00,639
یا
179
00:06:00,639 –> 00:06:02,479
خیر. پاسخ هایی که او
180
00:06:02,479 –> 00:06:03,680
در کلاس می دهد
181
00:06:03,680 –> 00:06:05,919
مارکس در حال شرکت در امتحان یا شاید
182
00:06:05,919 –> 00:06:08,479
شرکت در فعالیت های مختلف است،
183
00:06:08,479 –> 00:06:10,080
بنابراین بر اساس آن تصمیم می
184
00:06:10,080 –> 00:06:11,840
گیرم خوب نیواس دانش آموز ممتازی است
185
00:06:11,840 –> 00:06:13,600
زیرا نمره خوبی می گیرد و
186
00:06:13,600 –> 00:06:14,880
غیره اما
187
00:06:14,880 –> 00:06:16,319
نمی توانم بررسی کنم که آیا درست است یا خیر.
188
00:06:16,319 –> 00:06:18,000
یا نه که این مبارزه
189
00:06:18,000 –> 00:06:19,520
بدون برچسب است و به همین دلیل است که به عنوان بدون نظارت شناخته می شود،
190
00:06:19,520 –> 00:06:20,560
191
00:06:20,560 –> 00:06:22,800
من چیزی برای اثبات آن ندارم که
192
00:06:22,800 –> 00:06:24,319
صرفاً بر اساس مجموعه داده ها است،
193
00:06:24,319 –> 00:06:27,120
بنابراین روشی بدون نظارت است.
194
00:06:27,120 –> 00:06:28,960
یادگیری ماشین موارد استفاده
195
00:06:28,960 –> 00:06:31,680
ماشین خودران گوگل ماشین
196
00:06:31,680 –> 00:06:32,319
197
00:06:32,319 –> 00:06:34,080
بدون راننده هوشمند گوگل ماشین بدون راننده هوشمند است که داده ها را از
198
00:06:34,080 –> 00:06:35,520
محیط از طریق حسگرها جمع آوری
199
00:06:35,520 –> 00:06:37,759
می کند مانند زمان افزایش سرعت
200
00:06:37,759 –> 00:06:39,759
و کاهش سرعت و زمان
201
00:06:39,759 –> 00:06:41,840
سبقت گرفتن و زمانی که به راست
202
00:06:41,840 –> 00:06:44,000
بپیچد. اتفاق میافتد
203
00:06:44,000 –> 00:06:46,720
گوگل چه کاری انجام میدهد این ماشین
204
00:06:46,720 –> 00:06:48,080
واقعاً چه
205
00:06:48,080 –> 00:06:50,560
میکند. تصاویر را میگیرد، فرض کنید ماشین
206
00:06:50,560 –> 00:06:52,639
در حال رانندگی است، تصاویری را میگیرد که
207
00:06:52,639 –> 00:06:53,199
208
00:06:53,199 –> 00:06:56,240
در جلوی آن ماشین است، سپس
209
00:06:56,240 –> 00:06:58,080
تصویر را میخواند، بنابراین بدیهی است که ماشین نمیتواند
210
00:06:58,080 –> 00:06:59,520
مستقیماً تصویری را بخواند، ما باید
211
00:06:59,520 –> 00:07:01,360
آن را تبدیل کنیم. به اعداد،
212
00:07:01,360 –> 00:07:03,199
بنابراین ماشین کاری که انجام می دهد
213
00:07:03,199 –> 00:07:04,720
، تصویر را
214
00:07:04,720 –> 00:07:05,680
215
00:07:05,680 –> 00:07:07,520
بر اساس پیکسل ها به عدد تبدیل می
216
00:07:07,520 –> 00:07:10,080
217
00:07:10,080 –> 00:07:11,840
218
00:07:11,840 –> 00:07:14,160
219
00:07:14,160 –> 00:07:16,080
220
00:07:16,080 –> 00:07:18,080
کند. اگر تصویری داشته باشم اگر آن را
221
00:07:18,080 –> 00:07:19,919
به ماتریس تبدیل کنم مجموعه ای از ماتریس ها ایجاد می کند
222
00:07:19,919 –> 00:07:21,039
223
00:07:21,039 –> 00:07:24,160
و سپس توسط یک ماشین خوانده می شود
224
00:07:24,160 –> 00:07:26,319
و متوجه می شود که آیا اگر چیزی
225
00:07:26,319 –> 00:07:28,319
جلوی ماشین وجود داشته باشد یا
226
00:07:28,319 –> 00:07:31,280
بر اساس آن متوقف شود یا
227
00:07:31,280 –> 00:07:32,479
ادامه پیدا کند
228
00:07:32,479 –> 00:07:34,560
که یکی از مثالهای این است، اما یک
229
00:07:34,560 –> 00:07:37,039
مثال پیشرفتهتر در
230
00:07:37,039 –> 00:07:39,360
آینده این است که همانطور که در مورد یادگیری نظارت شده بحث کردیم،
231
00:07:39,360 –> 00:07:41,039
بیایید این را بخوانیم بیشتر خواهیم
232
00:07:41,039 –> 00:07:42,160
داشت. ایده اما
233
00:07:42,160 –> 00:07:43,440
من قبلاً این ایده را ارائه دادم که
234
00:07:43,440 –> 00:07:45,520
یادگیری نظارتی درست چیست، بنابراین
235
00:07:45,520 –> 00:07:47,280
یادگیری نظارت شده هنگام
236
00:07:47,280 –> 00:07:49,440
آموزش مجموعه داده ها و برچسب های از پیش تعریف شده طبقه بندی کننده را تغذیه می کند
237
00:07:49,440 –> 00:07:52,479
همانطور که دقیقاً اشاره کردم که آیا
238
00:07:52,479 –> 00:07:54,479
ویجای یکی از شاگردان من در اینجا در
239
00:07:54,479 –> 00:07:56,960
کلاس است که آیا تبدیل می کند یا
240
00:07:56,960 –> 00:07:58,479
خیر. به کلاس مربی بپیوندید یا
241
00:07:58,479 –> 00:08:01,280
نه، به عنوان مثال، می خواهم پیش بینی کنم که
242
00:08:01,280 –> 00:08:03,599
بنابراین از مجموعه داده های قدیمی استفاده خواهم کرد
243
00:08:03,599 –> 00:08:05,520
، مثلاً سینماهای سینما و ویجی دارای
244
00:08:05,520 –> 00:08:06,400
ویژگی های
245
00:08:06,400 –> 00:08:09,680
یکسانی هستند، همان سن حقوق و تحصیلات مشابه،
246
00:08:09,680 –> 00:08:13,280
بنابراین سالمندان شاگرد من بودند،
247
00:08:13,280 –> 00:08:14,960
بنابراین شانس ویجی برای شاگرد من شدن
248
00:08:14,960 –> 00:08:16,400
بیشتر از
249
00:08:16,400 –> 00:08:17,759
این، از دادههای قدیمی استفاده میکنم که
250
00:08:17,759 –> 00:08:19,680
سه جهان یک مدل ایجاد میکنند
251
00:08:19,680 –> 00:08:21,680
و سپس با استفاده از آن مدل
252
00:08:21,680 –> 00:08:22,879
برای ویجت پیشبینی
253
00:08:22,879 –> 00:08:25,440
میکنم، به طوری که نمونه طبقهبندی من
254
00:08:25,440 –> 00:08:26,400
255
00:08:26,400 –> 00:08:28,240
آن را یاد خواهد گرفت. o
256
00:08:28,240 –> 00:08:30,720
257
00:08:30,720 –> 00:08:32,559
اگر میبینید اینجا کی و کجا باید
258
00:08:32,559 –> 00:08:34,559
خانه بخرم، دادههای خاص را در یک سطح خاص طبقهبندی کنید، بنابراین
259
00:08:34,559 –> 00:08:36,159
همانطور که به این مثال اشاره کردم، خانه
260
00:08:36,159 –> 00:08:38,080
دارای مساحت نرخ جرم و
261
00:08:38,080 –> 00:08:40,880
جنایت فاصله از دفتر مرکزی
262
00:08:40,880 –> 00:08:41,839
فوت مربع
263
00:08:41,839 –> 00:08:44,640
و محل است که میخواهم بر اساس آن
264
00:08:44,640 –> 00:08:46,080
پیشبینی کنم. قیمت خانه
265
00:08:46,080 –> 00:08:47,839
اگر میزان جرم و جنایت بیشتر باشد، بدیهی است که قیمت خانه من
266
00:08:47,839 –> 00:08:49,519
بسیار کمتر خواهد بود،
267
00:08:49,519 –> 00:08:51,360
بنابراین اینها برخی از ویژگی هایی است که
268
00:08:51,360 –> 00:08:53,600
به من کمک می کند تا قیمت خانه را پیش بینی کنم،
269
00:08:53,600 –> 00:08:56,399
بنابراین اینها مانند متغیرهای مستقل هستند
270
00:08:56,399 –> 00:08:58,320
و متغیر وابسته
271
00:08:58,320 –> 00:09:02,000
من قیمت خانه من چیست، ما بچه ها تحصیلات خود را انجام دادیم.
272
00:09:02,000 –> 00:09:03,600
و ما قبلاً مقداری ریاضی می دانیم
273
00:09:03,600 –> 00:09:04,160
که
274
00:09:04,160 –> 00:09:06,640
y برابر با m x به اضافه c است که
275
00:09:06,640 –> 00:09:08,240
معادله رگرسیون من است
276
00:09:08,240 –> 00:09:11,519
y همان چیزی است که متغیر وابسته من است
277
00:09:11,519 –> 00:09:12,880
که قیمت خانه
278
00:09:12,880 –> 00:09:16,560
برابر است با m x به علاوه c
279
00:09:16,560 –> 00:09:19,440
که در آن x متغیر مستقل من است m
280
00:09:19,440 –> 00:09:21,120
شیب من از یک خط
281
00:09:21,120 –> 00:09:23,600
و c است. اگر
282
00:09:23,600 –> 00:09:24,959
چندین x دارم،
283
00:09:24,959 –> 00:09:26,720
مثلاً قیمت خانه را میخواهم
284
00:09:26,720 –> 00:09:28,480
بر اساس تعداد اتاقهای مساحت خانهام پیشبینی کنم،
285
00:09:28,480 –> 00:09:30,800
فاصله آن با نرخ جرم و جنایت شهر است،
286
00:09:30,800 –> 00:09:32,959
بنابراین من چهار x دارم.
287
00:09:32,959 –> 00:09:34,160
معادله y برابر با
288
00:09:34,160 –> 00:09:36,800
m یک x یک به علاوه m 2 x 2 به علاوه m 3 x 3
289
00:09:36,800 –> 00:09:37,839
به علاوه m 4 x 4
290
00:09:37,839 –> 00:09:40,800
به علاوه c می شود که معادله رگرسیون من
291
00:09:40,800 –> 00:09:42,240
است که یادگیری بدون نظارت
292
00:09:42,240 –> 00:09:44,720
همانطور که بحث کردیم می خواهم
293
00:09:44,720 –> 00:09:45,839
مجموعه داده های خود را
294
00:09:45,839 –> 00:09:49,040
یک تصویر تصویری خوشه کنم ابتدا roots
295
00:09:49,040 –> 00:09:50,160
به سیستم وارد می شود
296
00:09:50,160 –> 00:09:52,640
، سیستم میوه های مختلف را
297
00:09:52,640 –> 00:09:53,680
با استفاده از ویژگی
298
00:09:53,680 –> 00:09:56,480
هایی مانند اندازه رنگ و دسته بندی آن شناسایی می کند و
299
00:09:56,480 –> 00:09:57,680
سپس
300
00:09:57,680 –> 00:10:00,240
وقتی میوه جدیدی نشان داده می شود، آنها را دسته بندی می کند، ویژگی های آن را تجزیه و تحلیل می
301
00:10:00,240 –> 00:10:02,160
کند و در دسته ای قرار می دهد
302
00:10:02,160 –> 00:10:03,600
که دارای ویژگی مشابه است
303
00:10:03,600 –> 00:10:05,839
همانطور که من درست ذکر کردم دانش آموزان من بر
304
00:10:05,839 –> 00:10:07,200
اساس آن تعداد نمرهها
305
00:10:07,200 –> 00:10:09,760
بر اساس تعداد پاسخهایی
306
00:10:09,760 –> 00:10:10,560
که در
307
00:10:10,560 –> 00:10:12,560
کلاس و رویدادهای مختلف دادهاند، من
308
00:10:12,560 –> 00:10:14,000
میخواهم مشتریام را خوشهبندی کنم،
309
00:10:14,000 –> 00:10:16,079
بنابراین در اینجا نیز همین اتفاق
310
00:10:16,079 –> 00:10:18,399
میافتد، بنابراین یادگیری بدون نظارت
311
00:10:18,399 –> 00:10:21,040
بر اساس ویژگی من خواهد بود
312
00:10:21,040 –> 00:10:22,160
دانشآموزان را
313
00:10:22,160 –> 00:10:24,480
خوشهبندی میکنم، مشتریان را خوشهبندی میکنم.
314
00:10:24,480 –> 00:10:25,440
315
00:10:25,440 –> 00:10:28,000
کدام کارمند به درستی کار می کند، بنابراین من
316
00:10:28,000 –> 00:10:29,200
می خواهم محصولاتم را خوشه بندی
317
00:10:29,200 –> 00:10:31,360
کنم، شاید کدام محصولات
318
00:10:31,360 –> 00:10:33,680
خوب عمل می کنند، بنابراین این روش بسیار
319
00:10:33,680 –> 00:10:36,399
مفیدی برای خوشه بندی داده ها است. o
320
00:10:36,399 –> 00:10:37,519
اینکه من
321
00:10:37,519 –> 00:10:40,800
بینش بیشتری از آن خواهم داشت
322
00:10:40,800 –> 00:10:42,800
و تصمیمات خوبی میگیرم، بیایید یک
323
00:10:42,800 –> 00:10:43,839
324
00:10:43,839 –> 00:10:47,040
مثال دیگر بزنیم، فرض کنیم یک دوره جدید
325
00:10:47,040 –> 00:10:49,760
علوم داده را با پایتون راهاندازی کردهام، بخش دوم
326
00:10:49,760 –> 00:10:51,680
، این آخرین دوره با تمام
327
00:10:51,680 –> 00:10:54,320
فناوریهای جدید و همه الگوریتمهای جدید
328
00:10:54,320 –> 00:10:56,240
است. من می خواهم این دوره را راه اندازی کنم و
329
00:10:56,240 –> 00:10:58,480
بودجه بازاریابی من بسیار کمتر است.
330
00:10:58,480 –> 00:11:01,200
من 10000 مشتری در اطراف
331
00:11:01,200 –> 00:11:01,680
332
00:11:01,680 –> 00:11:04,959
333
00:11:04,959 –> 00:11:07,120
334
00:11:07,120 –> 00:11:08,640
335
00:11:08,640 –> 00:11:09,760
336
00:11:09,760 –> 00:11:12,399
خود دارم. مشتریانی
337
00:11:12,399 –> 00:11:13,200
338
00:11:13,200 –> 00:11:15,920
از مثلا پزشکی دارم من مشتریانی از
339
00:11:15,920 –> 00:11:16,800
bcom
340
00:11:16,800 –> 00:11:20,079
از متخصصان مهندسی i.t و
341
00:11:20,079 –> 00:11:22,720
رشته های مختلف دیگر دارم، حالا اگر
342
00:11:22,720 –> 00:11:23,519
343
00:11:23,519 –> 00:11:26,640
1000 مشتری تصادفی بگیرم، این احتمال وجود دارد که
344
00:11:26,640 –> 00:11:27,760
345
00:11:27,760 –> 00:11:30,480
مشتریان پزشکی را به بازار عرضه کنم یا
346
00:11:30,480 –> 00:11:31,440
347
00:11:31,440 –> 00:11:33,760
شاید اکنون مشتری شوم، شانس آنها برای تبدیل صفر چقدر است.
348
00:11:33,760 –> 00:11:34,880
349
00:11:34,880 –> 00:11:36,320
آنها خط متفاوتی
350
00:11:36,320 –> 00:11:38,959
دارند و نمی دانند پایتون چیست،
351
00:11:38,959 –> 00:11:40,959
بنابراین من می خواهم مشتریانم را بر
352
00:11:40,959 –> 00:11:43,040
اساس سطح تحصیلات آنها
353
00:11:43,040 –> 00:11:45,279
بر اساس سن آنها دسته بندی کنم.
354
00:11:45,279 –> 00:11:46,880
مشتریان خود با سنین مختلف
355
00:11:46,880 –> 00:11:49,600
برخی از مشتریان از 20 تا 25 سال 25 تا
356
00:11:49,600 –> 00:11:50,399
30 و
357
00:11:50,399 –> 00:11:53,920
60 تا 65 سال هستند. اگر دوره خود را برای 60 تا
358
00:11:53,920 –> 00:11:56,079
65 سال سن مشتریانم هدف قرار دهم،
359
00:11:56,079 –> 00:11:56,959
شانس آنها کمتر است
360
00:11:56,959 –> 00:11:59,120
که دوره را خریداری کنند، اما اگر
361
00:11:59,120 –> 00:12:00,560
جوانان را هدف قرار دهم نسلی را
362
00:12:00,560 –> 00:12:02,160
که میخرند، زیرا
363
00:12:02,160 –> 00:12:03,920
میخواهند شغل خود را تغییر دهند، میخواهند فناوریهای جدید را یاد
364
00:12:03,920 –> 00:12:05,200
بگیرند و میتوانند
365
00:12:05,200 –> 00:12:08,240
از آن در شرکتهای جدید خود استفاده کنند، بنابراین در اینجا
366
00:12:08,240 –> 00:12:09,519
کاری که من انجام میدهم
367
00:12:09,519 –> 00:12:13,200
بر اساس ویژگیهایی است که سعی میکنم
368
00:12:13,200 –> 00:12:16,320
نوع خاصی از مشتری را به
369
00:12:16,320 –> 00:12:18,320
جایی برسانم. خرید
370
00:12:18,320 –> 00:12:19,600
دوره پایتون بیشتر است
371
00:12:19,600 –> 00:12:22,240
و پس از آن من آنها را بازاریابی خواهم کرد بنابراین بدیهی است که
372
00:12:22,240 –> 00:12:24,639
پایگاه مشتری را محدود می کنم و به
373
00:12:24,639 –> 00:12:28,480
پایگاه دقیق مشتری برخورد می کنم و سپس
374
00:12:28,480 –> 00:12:30,560
آنها را برای بازاریابی هدف قرار می دهم بنابراین در اینجا
375
00:12:30,560 –> 00:12:32,800
من در هزینه بازاریابی صرفه جویی می
376
00:12:32,800 –> 00:12:35,440
کنم زیرا بودجه من 4000 مشتری است که 10000 مشتری داشتم.
377
00:12:35,440 –> 00:12:35,839
378
00:12:35,839 –> 00:12:39,200
مشتریانی را جمع کردم تا
379
00:12:39,200 –> 00:12:42,399
پایگاه مشتری را محدود کنم و سپس
380
00:12:42,399 –> 00:12:45,600
دقیقاً به نقطه مشتری رسیدم که فکر
381
00:12:45,600 –> 00:12:46,000
382
00:12:46,000 –> 00:12:48,000
می کنم محصولی را خریداری خواهم کرد که شناسه
383
00:12:48,000 –> 00:12:50,160
حرفه ای و مهندسین
384
00:12:50,160 –> 00:12:51,920
از id ba است. مهندسی ckground یا id
385
00:12:51,920 –> 00:12:54,560
با سن 20 تا 25
386
00:12:54,560 –> 00:12:55,920
سالگی،
387
00:12:55,920 –> 00:12:58,240
بنابراین شانس افزایش می یابد، می توانم بگویم که
388
00:12:58,240 –> 00:12:59,279
یک کمپین بازاریابی خوب است
389
00:12:59,279 –> 00:13:02,800
زیرا من در واقع به
390
00:13:02,800 –> 00:13:04,639
نوع دقیق مشتریان برخورد کرده ام،
391
00:13:04,639 –> 00:13:06,480
بنابراین این یک سناریوی دیگر است، بنابراین
392
00:13:06,480 –> 00:13:08,560
در اینجا من مقدار زیادی پس انداز می کنم. از نظر هزینه
393
00:13:08,560 –> 00:13:10,800
زیرا فرض کنید اگر 10 1000
394
00:13:10,800 –> 00:13:12,160
مشتری پزشکی را هدف قرار دهم بدیهی است که
395
00:13:12,160 –> 00:13:13,839
شانس تبدیل
396
00:13:13,839 –> 00:13:17,839
تقریباً به صفر درصد است من آن پول را برای بازاریابی از دست دادم
397
00:13:17,839 –> 00:13:20,720
اما اگر از خوشه
398
00:13:20,720 –> 00:13:22,800
بندی استفاده کنم و دقیقاً مشتریان خود را هدف قرار دهم در آن
399
00:13:22,800 –> 00:13:24,399
صورت پول خود را پس انداز می کنم زیرا
400
00:13:24,399 –> 00:13:26,160
شانس 80 درصد ممکن است به این دلیل باشد که
401
00:13:26,160 –> 00:13:26,639
آنها
402
00:13:26,639 –> 00:13:28,160
دوره دریافت می کنند یا دوره را می خرند،
403
00:13:28,160 –> 00:13:30,480
بنابراین یک کمپین بازاریابی زیبا است
404
00:13:30,480 –> 00:13:32,320
، زیرا من از تعداد دقیق مشتریان متنفرم
405
00:13:32,320 –> 00:13:33,760
406
00:13:33,760 –> 00:13:35,839
اکنون تجزیه و تحلیل خوشه ای بیایید
407
00:13:35,839 –> 00:13:37,920
اکنون در مورد خوشه بندی با جزئیات صحبت کنیم،
408
00:13:37,920 –> 00:13:40,480
بنابراین خوشه بندی به معنای گروه بندی اشیاء
409
00:13:40,480 –> 00:13:42,480
بر اساس اطلاعات یافت شده است.
410
00:13:42,480 –> 00:13:45,199
در داده هایی که شی یا رابطه آنها را توصیف می کند
411
00:13:45,199 –> 00:13:46,880
412
00:13:46,880 –> 00:13:49,600
، هدف این است که اشیاء در یک گروه
413
00:13:49,600 –> 00:13:50,240
باید
414
00:13:50,240 –> 00:13:52,320
مشابه یکدیگر اما متفاوت از
415
00:13:52,320 –> 00:13:53,760
اشیا باشند. در گروهی دیگر
416
00:13:53,760 –> 00:13:56,079
، همان چیزی است که به درستی اشاره کردم،
417
00:13:56,079 –> 00:13:58,240
با یافتن یک ساختار در مجموعه ای
418
00:13:58,240 –> 00:13:59,199
از
419
00:13:59,199 –> 00:14:02,399
داده های بدون برچسب سروکار دارد، این برخی از تکنیک های k
420
00:14:02,399 –> 00:14:04,399
به معنای خوشه بندی است که بسیار مورد استفاده قرار می گیرد،
421
00:14:04,399 –> 00:14:06,720
اگر ابزاری مانند تابلو را بشناسید، یک
422
00:14:06,720 –> 00:14:07,600
ابزار گزارش دهی است
423
00:14:07,600 –> 00:14:09,839
، همچنین دارای یک ویژگی است. برای خوشهبندی
424
00:14:09,839 –> 00:14:11,760
دادهها و همچنین
425
00:14:11,760 –> 00:14:14,240
k-means در انتهای پشتی اجرا میشود، بنابراین k-means
426
00:14:14,240 –> 00:14:15,199
بسیار مورد استفاده قرار میگیرد،
427
00:14:15,199 –> 00:14:17,440
سپس c به معنای خوشهبندی یا خوشهبندی فازی
428
00:14:17,440 –> 00:14:18,320
429
00:14:18,320 –> 00:14:19,920
داریم، سپس خوشهبندی سلسله مراتبی
430
00:14:19,920 –> 00:14:22,079
نیز داریم، بنابراین این سه روشی هستند
431
00:14:22,079 –> 00:14:24,160
که برای خوشهبندی استفاده میکنیم. همانطور که
432
00:14:24,160 –> 00:14:25,920
اشاره کردم k به این معنی
433
00:14:25,920 –> 00:14:28,320
است که خوشه بندی مورد تقاضا است زیرا به من کمک می کند تا
434
00:14:28,320 –> 00:14:29,040
بفهمم
435
00:14:29,040 –> 00:14:31,279
چه تعداد خوشه باید در
436
00:14:31,279 –> 00:14:32,480
437
00:14:32,480 –> 00:14:34,880
موارد استفاده از خوشه بندی مجموعه داده داشته باشیم، بنابراین بیایید دوباره
438
00:14:34,880 –> 00:14:36,320
این را درست بخوانیم تا
439
00:14:36,320 –> 00:14:38,480
بازاریابی گروهی متمایز از
440
00:14:38,480 –> 00:14:39,839
پایگاه های داده مشتریان را کشف کنیم،
441
00:14:39,839 –> 00:14:42,560
مانند مشتریانی که تولید می کنند. بسیاری از
442
00:14:42,560 –> 00:14:44,079
تماسهای راه دور،
443
00:14:44,079 –> 00:14:45,760
بنابراین اساساً در مشتری جدا میشوند،
444
00:14:45,760 –> 00:14:47,600
فرض کنید من یک
445
00:14:47,600 –> 00:14:49,920
محصول جدید ارائه میکنم که در آن به مشتری من کمک
446
00:14:49,920 –> 00:14:50,880
447
00:14:50,880 –> 00:14:53,360
میکند تا مسافت طولانی را انجام دهد. به دلیل
448
00:14:53,360 –> 00:14:54,800
نرخ ارزانتر تماس میگیرد،
449
00:14:54,800 –> 00:14:56,240
بنابراین من آن مشتریان را هدف قرار میدهم، بنابراین
450
00:14:56,240 –> 00:14:58,320
باید آن بیمه را دستهبندی کنم که
451
00:14:58,320 –> 00:15:00,880
گروههایی از دارندگان بیمه محصولات کشاورزی
452
00:15:00,880 –> 00:15:02,079
را
453
00:15:02,079 –> 00:15:04,959
با نرخ متوسط خسارت بالا شناسایی میکند، زم
454
00:15:04,959 –> 00:15:05,519
455
00:15:05,519 –> 00:15:08,480
نی که کشاورزان سودآور است، محصولات را از بین میبرند، بنابراین ما
456
00:15:08,480 –> 00:15:10,000
ند بیمه میتوانیم مش
457
00:15:10,000 –> 00:15:12,240
ریان را نیز طبقهبندی کن
458
00:15:12,240 –> 00:15:14,399
م. شناسایی کاربری اراضی مناطق با کاربری مشابه
459
00:15:14,399 –> 00:15:14,880
460
00:15:14,880 –> 00:15:17,440
در مطالعات سیستمی پایگاه داده gis
461
00:15:17,440 –> 00:15:19,440
شناسایی مناطق احتمالی
462
00:15:19,440 –> 00:15:22,240
برای اکتشاف گاز نفت بر اساس داده های لرزه ای،
463
00:15:22,240 –> 00:15:22,959
464
00:15:22,959 –> 00:15:24,639
بنابراین مانند موارد کاربری مختلفی وجود دارد
465
00:15:24,639 –> 00:15:26,720
که می توانیم خوشه بندی k-means را اعمال کنیم
466
00:15:26,720 –> 00:15:28,320
و داده ها را خوشه بندی کنیم و سپس از آن داده ها استفاده کنیم.
467
00:15:28,320 –> 00:15:29,279
برای
468
00:15:29,279 –> 00:15:31,360
پیشبینی آینده یا شاید اقدامات آتی
469
00:15:31,360 –> 00:15:32,639
470
00:15:32,639 –> 00:15:35,120
انواع خوشهبندی همانطور که بحث کردیم k
471
00:15:35,120 –> 00:15:36,000
به این معنی است که یک
472
00:15:36,000 –> 00:15:38,959
خوشه انحصاری است که ما خوشهها را ایجاد میکنیم.
473
00:15:38,959 –> 00:15:40,880
474
00:15:40,880 –> 00:15:43,360
475
00:15:43,360 –> 00:15:45,360
476
00:15:45,360 –> 00:15:46,959
477
00:15:46,959 –> 00:15:49,839
یک آیتم
478
00:15:49,839 –> 00:15:52,880
منحصراً به یک خوشه تعلق دارد نه چند
479
00:15:52,880 –> 00:15:54,959
k به این معنی که این نوع خوشه بندی انحصاری
480
00:15:54,959 –> 00:15:56,160
481
00:15:56,160 –> 00:15:57,839
را انجام می دهد n ما خوشهبندی همپوشانی هم
482
00:15:57,839 –> 00:15:59,519
داریم که مانند c و برای
483
00:15:59,519 –> 00:16:01,440
خوشه z این احتمال وجود دارد که
484
00:16:01,440 –> 00:16:02,560
485
00:16:02,560 –> 00:16:05,600
مشتریان من یا هر چیزی در
486
00:16:05,600 –> 00:16:07,519
دو خوشه همپوشانی داشته باشند که این نقاط آبی را میبینید،
487
00:16:07,519 –> 00:16:08,720
اینها مانند
488
00:16:08,720 –> 00:16:11,120
مشتریانی هستند که در هر دو خوشه هستند،
489
00:16:11,120 –> 00:16:12,880
بنابراین یک آیتم میتواند متعلق به
490
00:16:12,880 –> 00:16:13,839
خوشه
491
00:16:13,839 –> 00:16:16,000
های متعدد است درجه ارتباط آن با هر
492
00:16:16,000 –> 00:16:17,680
خوشه مشخص است
493
00:16:17,680 –> 00:16:20,639
c فازی به این معنی است که این نوع
494
00:16:20,639 –> 00:16:21,600
495
00:16:21,600 –> 00:16:24,000
خوشه بندی انحصاری و سپس خوشه بندی سلسله مراتبی را انجام می دهد
496
00:16:24,000 –> 00:16:25,600
وقتی که خوشه
497
00:16:25,600 –> 00:16:28,720
یک رابطه فرزند والد یا
498
00:16:28,720 –> 00:16:30,800
ساختار درختی داشته باشد، پس این یک
499
00:16:30,800 –> 00:16:33,279
خوشه بندی سلسله مراتبی است بنابراین اساساً
500
00:16:33,279 –> 00:16:35,120
در خوشه بندی سلسله مراتبی ما یک دندروگرام ایجاد کنید،
501
00:16:35,120 –> 00:16:36,639
بنابراین یک مفهوم
502
00:16:36,639 –> 00:16:38,240
دندروگرام وجود دارد که ساختاری شبیه به درخت ایجاد می
503
00:16:38,240 –> 00:16:39,040
کند
504
00:16:39,040 –> 00:16:40,399
و من می توانم یک خوشه اصلی داشته
505
00:16:40,399 –> 00:16:42,560
باشم، سپس چند زیرخوشه و غیره، به
506
00:16:42,560 –> 00:16:43,440
همین دلیل است که به عنوان
507
00:16:43,440 –> 00:16:45,839
ساختار درختی و خوشه بندی سلسله مراتبی شناخته می
508
00:16:45,839 –> 00:16:47,519
509
00:16:47,519 –> 00:16:49,360
شود. خوشه بندی
510
00:16:49,360 –> 00:16:52,000
نحوه عملکرد واقعی آن،
511
00:16:52,000 –> 00:16:54,320
بنابراین خوشه بندی k-means یکی از
512
00:16:54,320 –> 00:16:55,040
ساده ترین
513
00:16:55,040 –> 00:16:57,519
الگوریتم هایی است که از روش یادگیری بدون نظارت استفاده می کند.
514
00:16:57,519 –> 00:16:58,720
515
00:16:58,720 –> 00:17:02,639
برای حل مسائل شناخته شده خوشه بندی،
516
00:17:02,639 –> 00:17:06,640
کل مجموعه داده ها را به k خوشه تقسیم می کند.
517
00:17:06,640 –> 00:17:09,280
k به این معنی است که خوشه بندی نیاز به دنبال کردن دو
518
00:17:09,280 –> 00:17:09,679
519
00:17:09,679 –> 00:17:12,160
عدد ورودی خوشه و مجموعه آموزشی دارد،
520
00:17:12,160 –> 00:17:13,919
بنابراین اساساً من به یک مجموعه داده نیاز دارم
521
00:17:13,919 –> 00:17:17,199
و تعداد خوشه هایی که می
522
00:17:17,199 –> 00:17:18,799
خواهید می توانید ببینید من این کل
523
00:17:18,799 –> 00:17:20,319
جمعیت را دارم و سپس
524
00:17:20,319 –> 00:17:22,640
من گروه یک گروه دو گروه سه
525
00:17:22,640 –> 00:17:24,559
گروه چهار دارم که در واقع آن را
526
00:17:24,559 –> 00:17:26,319
به خوشه
527
00:17:26,319 –> 00:17:28,079
ها تقسیم می کنم اینها نمونه هایی از
528
00:17:28,079 –> 00:17:30,640
آدرس های اینترنتی اخبار مختلف مربوط به ترامپ و مدی
529
00:17:30,640 –> 00:17:34,000
هستند که در یک بخش درست گروه بندی شده اند،
530
00:17:34,000 –> 00:17:35,280
مثل این است که شاید یک
531
00:17:35,280 –> 00:17:37,600
سخنرانی رئیس جمهور یا نخست وزیر باشد که من
532
00:17:37,600 –> 00:17:39,280
می خواهم در یک خوشه
533
00:17:39,280 –> 00:17:40,960
ممکن است گفتار کریکت یک خوشه دیگر باشد
534
00:17:40,960 –> 00:17:42,160
، چیزی شبیه به آن درست است،
535
00:17:42,160 –> 00:17:43,679
بنابراین یکی از مثالهای
536
00:17:43,679 –> 00:17:45,200
k به معنای خوشهبندی خودکار
537
00:17:45,200 –> 00:17:46,960
داستانهای جدید در مورد همان
538
00:17:46,960 –> 00:17:50,640
موضوع به خوشههای از پیش تعریفشده
539
00:17:50,799 –> 00:17:52,880
برای ترسیم دانشآموزان در منطقهای است که در زیر آورده شده است.
540
00:17:52,880 –> 00:17:54,640
آیا می توانم ببینم که من مدرسه ای
541
00:17:54,640 –> 00:17:56,480
دارم، باید مکان خاصی را برای
542
00:17:56,480 –> 00:17:57,679
ساخت مدرسه
543
00:17:57,679 –> 00:18:00,080
در این منطقه پیدا کنم تا دانش آموز مجبور نباش