در این مطلب، ویدئو مدل خوشه بندی K-Means با استفاده از پایتون | الگوریتم های علم داده | ادورکا | ML Rewind -2 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:41:59
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:06,799 –> 00:00:09,840
سلام بچه ها این راهول است که از مدولا
2
00:00:09,840 –> 00:00:11,519
به جلسه خوش آمدید
3
00:00:11,519 –> 00:00:14,080
امروز ما یک دستور کار داریم که
4
00:00:14,080 –> 00:00:17,680
در مورد k به معنای خوشه بندی صحبت
5
00:00:17,680 –> 00:00:19,760
کنیم اکنون k به معنای خوشه بندی است و
6
00:00:19,760 –> 00:00:21,520
در واقع خوشه بندی چیست، بنابراین بیایید سعی
7
00:00:21,520 –> 00:00:23,359
کنیم ابتدا جزئیات را درک کنیم، اما
8
00:00:23,359 –> 00:00:25,199
قبل از آن این آنچه قرار است
9
00:00:25,199 –> 00:00:26,080
بیاموزیم
10
00:00:26,080 –> 00:00:28,480
مقدمه ای بر تحلیل خوشه ای یادگیری ماشینی
11
00:00:28,480 –> 00:00:29,679
12
00:00:29,679 –> 00:00:31,760
نوع خوشه بندی ها
13
00:00:31,760 –> 00:00:34,000
مقدمه k به معنای خوشه بندی چگونگی کارکرد k
14
00:00:34,000 –> 00:00:36,559
به معنای خوشه بندی است و در
15
00:00:36,559 –> 00:00:39,120
نهایت یک مثال می زنم که در آن در مورد
16
00:00:39,120 –> 00:00:40,960
شرکت کارت اعتباری
17
00:00:40,960 –> 00:00:42,960
صحبت می کنیم، یک مجموعه داده را انتخاب می کنیم و ما سعی خواهیم کرد
18
00:00:42,960 –> 00:00:45,840
آن مشکل را به درستی حل کنیم،
19
00:00:45,920 –> 00:00:48,000
بنابراین اکنون آنچه که اول از همه
20
00:00:48,000 –> 00:00:50,800
یادگیری ماشینی است،
21
00:00:51,039 –> 00:00:52,480
بنابراین یادگیری ماشین نوعی
22
00:00:52,480 –> 00:00:55,360
هوش مصنوعی است که به
23
00:00:55,360 –> 00:00:57,039
کامپیوتر توانایی یادگیری
24
00:00:57,039 –> 00:01:00,239
بدون برنامهریزی صریح را میدهد،
25
00:01:00,239 –> 00:01:03,120
اگر مثالی بزنم
26
00:01:03,120 –> 00:01:05,280
، فرض کنید میخواهم برای قیمت خانه پیش بینی کنید
27
00:01:05,280 –> 00:01:06,640
28
00:01:06,640 –> 00:01:08,560
من هستم، فرض کنید در وضعیت خوبی هستم و
29
00:01:08,560 –> 00:01:11,040
می خواهم بدانم قیمت
30
00:01:11,040 –> 00:01:12,720
خانه من
31
00:01:12,720 –> 00:01:15,600
چقدر است، بنابراین چگونه آن قیمت را قضاوت کنم، آن
32
00:01:15,600 –> 00:01:18,080
قیمت را قضاوت کنم ce بر اساس منطقه
33
00:01:18,080 –> 00:01:19,280
خانه من
34
00:01:19,280 –> 00:01:22,080
فاصله از شهر تعداد اتاق
35
00:01:22,080 –> 00:01:23,759
های خانه من
36
00:01:23,759 –> 00:01:26,400
شاید محل باشد، بنابراین اینها برخی از
37
00:01:26,400 –> 00:01:29,280
ویژگی هایی هستند که بر اساس آنچه می خواهم انجام دهم یا
38
00:01:29,280 –> 00:01:31,360
به آن ویژگی ها کمک می کنم تا پیش بینی انجام شود،
39
00:01:31,360 –> 00:01:32,560
40
00:01:32,560 –> 00:01:34,240
بنابراین در اینجا آنچه که من انجام می دهم من در واقع
41
00:01:34,240 –> 00:01:36,400
متغیر پیوسته را پیشبینی میکنم
42
00:01:36,400 –> 00:01:39,119
که قیمت خانه مانند 20 لک 30
43
00:01:39,119 –> 00:01:41,600
لک 40 لک 90 لایک است، این یک
44
00:01:41,600 –> 00:01:42,960
عدد پیوسته است،
45
00:01:42,960 –> 00:01:45,119
بنابراین وقتی میخواهم یک عدد پیوسته
46
00:01:45,119 –> 00:01:48,479
پیشبینی کنم که رگرسیون
47
00:01:48,479 –> 00:01:51,200
رگرسیون است، یکی از انواع
48
00:01:51,200 –> 00:01:52,720
یادگیری ماشینی نظارت شده است،
49
00:01:52,720 –> 00:01:55,119
حالا چرا تحت نظارت است زیرا
50
00:01:55,119 –> 00:01:56,640
ما
51
00:01:56,640 –> 00:01:59,439
این داده ها را به عنوان داده های برچسب دار داریم.
52
00:01:59,439 –> 00:02:01,119
من قبلاً قیمت خانه من را می دانم
53
00:02:01,119 –> 00:02:03,360
اکنون بررسی می کنم که مدل من چه می
54
00:02:03,360 –> 00:02:04,240
55
00:02:04,240 –> 00:02:06,719
گوید ، فرض کنید قیمت خانه من 25 لایک است اما
56
00:02:06,719 –> 00:02:08,318
مدل من می گوید 10 لایک دارد
57
00:02:08,318 –> 00:02:10,560
سپس یک مقدار بسیار زیاد وجود دارد. خطایی که به این معنی است که مدل من
58
00:02:10,560 –> 00:02:13,280
خروجی درستی را پیشبینی نمیکند
59
00:02:13,280 –> 00:02:15,280
، فرض کنید قیمت خانهام
60
00:02:15,280 –> 00:02:17,360
دوباره 25 لایک دارد و مدل من
61
00:02:17,360 –> 00:02:20,160
24 لک 50 000 را پیشبینی میکند که بسیار نزدیک
62
00:02:20,160 –> 00:02:21,840
به قیمت واقعی خانه من است، یعنی مدل من.
63
00:02:21,840 –> 00:02:25,599
بسیار بهتر و خوب پیش بینی می کند
64
00:02:25,599 –> 00:02:28,000
و دقت خوبی به من می دهد،
65
00:02:28,000 –> 00:02:29,520
بنابراین یکی از سناریوهای
66
00:02:29,520 –> 00:02:31,360
یادگیری ماشینی است که یک یادگیری نظارت شده
67
00:02:31,360 –> 00:02:33,680
است که در آن من داده های برچسب را
68
00:02:33,680 –> 00:02:35,920
دارم و سپس می خواهم بدانم خوب این قیمت خانه است
69
00:02:35,920 –> 00:02:37,920
که یک متغیر پیوسته را پیش بینی می
70
00:02:37,920 –> 00:02:39,680
کند. این
71
00:02:39,680 –> 00:02:42,319
رگرسیون رگرسیون نظارت شده من است، به همین دلیل است که
72
00:02:42,319 –> 00:02:44,480
یکی از سرپرستان در حال یادگیری
73
00:02:44,480 –> 00:02:46,319
مثال دیگری از رگرسیون است، مانند
74
00:02:46,319 –> 00:02:48,959
پیش بینی حقوق و دستمزد پیش بینی تعداد
75
00:02:48,959 –> 00:02:51,120
لایک های یوتیوب در ویدیوی من،
76
00:02:51,120 –> 00:02:53,440
سپس می توانم بگویم پیش بینی
77
00:02:53,440 –> 00:02:56,239
درآمد ممکن است در بازه زمانی یا
78
00:02:56,239 –> 00:02:57,040
شاید
79
00:02:57,040 –> 00:02:59,599
درآمد فروشگاه های من.
80
00:02:59,599 –> 00:03:01,280
برخی از مثالهایی هستند که
81
00:03:01,280 –> 00:03:03,360
من رگرسیون را اعمال میکنم که یک
82
00:03:03,360 –> 00:03:04,879
یادگیری ماشینی نظارتشده است،
83
00:03:04,879 –> 00:03:06,720
سپس یک یادگیری نظارتشده دیگر وجود دارد
84
00:03:06,720 –> 00:03:07,680
که به عنوان طبقهبندی شناخته میشود
85
00:03:07,680 –> 00:03:10,000
، میخواهم طبقهبندی کنم،
86
00:03:10,000 –> 00:03:12,319
بنابراین وقتی میخواهم یک متغیر گسسته را پیشبینی کنم
87
00:03:12,319 –> 00:03:15,280
بله یا خیر، آیا شما
88
00:03:15,280 –> 00:03:17,760
جلسه را دوست دارید. یا نه بله یا نه پس
89
00:03:17,760 –> 00:03:20,080
چه گزینه هایی داریم بله و نه
90
00:03:20,080 –> 00:03:21,280
دو گزینه
91
00:03:21,280 –> 00:03:24,159
به طوری که گسسته باشد بنابراین وقتی می خواهم
92
00:03:24,159 –> 00:03:28,000
با discr پیش بینی انجام دهم به عنوان خروجی
93
00:03:28,000 –> 00:03:30,239
طبقه بندی می شود
94
00:03:30,239 –> 00:03:32,319
که آیا کارمند من مرا ترک می کند یا نه
95
00:03:32,319 –> 00:03:35,120
بله یا خیر آیا بیمار من بیمار می شود
96
00:03:35,120 –> 00:03:37,440
یا خیر بله یا
97
00:03:37,440 –> 00:03:39,440
خیر مشتری من را ترک می کند یا نه
98
00:03:39,440 –> 00:03:40,560
بله یا خیر
99
00:03:40,560 –> 00:03:42,159
بنابراین اینها مانند الگوریتم طبقه بندی هستند
100
00:03:42,159 –> 00:03:44,640
دوباره این یک نظارت است
101
00:03:44,640 –> 00:03:46,720
یادگیری، زیرا این دوباره یک داده برچسبگذاری شده است،
102
00:03:46,720 –> 00:03:47,680
103
00:03:47,680 –> 00:03:49,200
زیرا من مجموعهای از دادهها را دارم که
104
00:03:49,200 –> 00:03:52,000
شامل مشتریان قبلی است و
105
00:03:52,000 –> 00:03:54,000
میدانم کدام مشتری کدام
106
00:03:54,000 –> 00:03:56,560
مشتری را تبدیل نکرده است، بنابراین من
107
00:03:56,560 –> 00:03:58,720
قبلاً مجموعه دادهها را بر این اساس
108
00:03:58,720 –> 00:04:00,400
دارم و از آن مجموعه داده برای آموزش استفاده خواهم کرد.
109
00:04:00,400 –> 00:04:02,720
مدل و سپس زمانی که
110
00:04:02,720 –> 00:04:04,640
دادههای جدید را دریافت میکنم، در واقع میتوانم
111
00:04:04,640 –> 00:04:07,680
با آن مدل پیشبینی کنم،
112
00:04:07,680 –> 00:04:09,519
بنابراین یادگیری نظارت شده چیزی نیست جز
113
00:04:09,519 –> 00:04:11,680
جایی که میتوانم دقت خود را بررسی کنم که
114
00:04:11,680 –> 00:04:13,599
آیا دقت درست است یا نه،
115
00:04:13,599 –> 00:04:15,599
آیا مدل من خوب کار میکند یا
116
00:04:15,599 –> 00:04:18,478
نه. یادگیری نظارت شده
117
00:04:18,478 –> 00:04:20,320
پس در یادگیری نظارت شده ما دو
118
00:04:20,320 –> 00:04:22,639
سناریو داریم رگرسیون و طبقه بندی
119
00:04:22,639 –> 00:04:24,240
زمانی که می خواهم عدد پیوسته را پیش بینی کنم
120
00:04:24,240 –> 00:04:26,479
که رگرسیون است وقتی می
121
00:04:26,479 –> 00:04:28,960
خواهم p را انجام دهم. اصلاح عدد گسسته بله یا
122
00:04:28,960 –> 00:04:31,600
خیر که طبقه بندی
123
00:04:31,600 –> 00:04:34,400
بعد از آن یادگیری بدون نظارت است و
124
00:04:34,400 –> 00:04:35,919
این همان چیزی است که ما در اینجا در مورد آن صحبت خواهیم
125
00:04:35,919 –> 00:04:37,040
126
00:04:37,040 –> 00:04:40,320
127
00:04:40,320 –> 00:04:41,520
128
00:04:41,520 –> 00:04:43,759
129
00:04:43,759 –> 00:04:45,680
130
00:04:45,680 –> 00:04:47,919
کرد. مشتریانی که بر اساس
131
00:04:47,919 –> 00:04:49,520
امتیاز هزینه و
132
00:04:49,520 –> 00:04:50,960
شاید
133
00:04:50,960 –> 00:04:52,560
درآمد دارم، فرض کنید مشتری با
134
00:04:52,560 –> 00:04:54,960
امتیاز خرج کردن پایین و درآمد کم دارم که
135
00:04:54,960 –> 00:04:56,400
یک خوشه
136
00:04:56,400 –> 00:04:57,199
137
00:04:57,199 –> 00:04:59,280
امتیاز خرج زیاد است درآمد
138
00:04:59,280 –> 00:05:02,160
بالا خوشه دوم خرج زیاد کم درآمد
139
00:05:02,160 –> 00:05:04,240
خوشه سوم و خرج کم خیلی با
140
00:05:04,240 –> 00:05:06,479
درآمد بالا خوشه چهارم بنابراین اینها مانند
141
00:05:06,479 –> 00:05:09,280
چهار دسته از داده های من هستند که
142
00:05:09,280 –> 00:05:10,560
بسیار ممکن است
143
00:05:10,560 –> 00:05:12,240
برخی از نمونه ها مانند شرکت کارت اعتباری
144
00:05:12,240 –> 00:05:13,199
145
00:05:13,199 –> 00:05:14,960
اگر شرکت کارت اعتباری را دقیقاً در
146
00:05:14,960 –> 00:05:16,639
شرکت کارت اعتباری می بینید ما مشتریان پلاتینی داریم
147
00:05:16,639 –> 00:05:18,320
مشتریان جسور مشتریان نقره ای
148
00:05:18,320 –> 00:05:20,000
مشتریان برنزی که چگونه
149
00:05:20,000 –> 00:05:21,360
تصمیم می گیرند بر اساس هزینه های خود تصمیم می گیرند.
150
00:05:21,360 –> 00:05:23,120
امتیازی که آنها براساس درآمدشان تصمیم
151
00:05:23,120 –> 00:05:24,479
152
00:05:24,479 –> 00:05:27,759
میگیرند مردم بیشتر از کارت اعتباری او
153
00:05:27,759 –> 00:05:30,000
بیشتر از کارت اعتباری خود استفاده میکنند شاید یک
154
00:05:30,000 –> 00:05:31,440
مشتری پلاتینیوم باشد، زیرا
155
00:05:31,440 –> 00:05:33,039
هزینهها بیشتر است،
156
00:05:33,039 –> 00:05:35,440
بنابراین خوشهبندی چگونه کار میکند،
157
00:05:35,440 –> 00:05:37,919
من میخواهم دانشآموزانم را دستهبندی کنم.
158
00:05:37,919 –> 00:05:39,600
159
00:05:39,600 –> 00:05:41,600
160
00:05:41,600 –> 00:05:43,199
161
00:05:43,199 –> 00:05:45,120
162
00:05:45,120 –> 00:05:46,880
خوشه بندی
163
00:05:46,880 –> 00:05:49,039
بدون نظارت است چرا دلیلش این است که
164
00:05:49,039 –> 00:05:51,039
داده های بدون برچسب است
165
00:05:51,039 –> 00:05:53,120
من نمی دانم که فرض کنیم srinivas
166
00:05:53,120 –> 00:05:55,039
دانش آموز ممتاز من است یا دانش آموز ضعیف
167
00:05:55,039 –> 00:05:57,120
من نمی دانم اما با استفاده از مدل می توانم
168
00:05:57,120 –> 00:05:58,560
تصمیم بگیرم که او دانش آموز ممتاز است
169
00:05:58,560 –> 00:06:01,039
یا خیر. پاسخ هایی که او
170
00:06:01,039 –> 00:06:02,479
در کلاس می دهد
171
00:06:02,479 –> 00:06:04,720
مارکس در حال شرکت در امتحان یا شاید
172
00:06:04,720 –> 00:06:07,280
شرکت در فعالیت های مختلف است،
173
00:06:07,280 –> 00:06:08,880
بنابراین بر اساس آن تصمیم می
174
00:06:08,880 –> 00:06:11,120
گیرم خوب نیواس دانش آموز ممتازی است
175
00:06:11,120 –> 00:06:13,360
زیرا نمره خوبی می گیرد و غیره
176
00:06:13,360 –> 00:06:15,120
اما نمی توانم بررسی کنم که آیا درست است یا خیر.
177
00:06:15,120 –> 00:06:16,800
یا نه به همین دلیل است که
178
00:06:16,800 –> 00:06:18,319
بدون برچسب است و به همین دلیل است که به عنوان بدون نظارت شناخته می شود،
179
00:06:18,319 –> 00:06:20,400
من چیزی برای
180
00:06:20,400 –> 00:06:21,280
اثبات
181
00:06:21,280 –> 00:06:23,280
آن ندارم که صرفاً مبتنی بر مجموعه داده است، بنابراین
182
00:06:23,280 –> 00:06:25,919
روش یادگیری بدون نظارت است.
183
00:06:25,919 –> 00:06:27,759
موارد استفاده یادگیری ماشینی
184
00:06:27,759 –> 00:06:29,360
185
00:06:29,360 –> 00:06:31,120
گوگل ماشین خودران گوگل ماشین بدون راننده هوشمندی است
186
00:06:31,120 –> 00:06:32,880
که داده ها را از محیط جمع آوری می کند و از
187
00:06:32,880 –> 00:06:34,560
طریق سنسورها
188
00:06:34,560 –> 00:06:36,720
تصمیم می گیرد مانند زمان افزایش
189
00:06:36,720 –> 00:06:39,440
سرعت، زمان کاهش سرعت، زمان سبقت گرفتن و
190
00:06:39,440 –> 00:06:41,440
زمانی که به راست بپیچد.
191
00:06:41,440 –> 00:06:42,800
اتفاق میافتد
192
00:06:42,800 –> 00:06:45,520
گوگل چه کاری انجام میدهد این ماشین
193
00:06:45,520 –> 00:06:46,800
واقعاً چه
194
00:06:46,800 –> 00:06:48,639
میکند. تصاویر را میگیرد،
195
00:06:48,639 –> 00:06:50,639
فرض کنید ماشین در حال رانندگی است
196
00:06:50,639 –> 00:06:53,840
، تصاویری را میگیرد که در جلوی آن ماشین است،
197
00:06:53,840 –> 00:06:56,080
سپس تصویر را میخواند، بنابراین بدیهی است که
198
00:06:56,080 –> 00:06:58,000
ماشین نمیتواند مستقیماً تصویری را بخواند، ما
199
00:06:58,000 –> 00:07:00,160
باید آن را تبدیل کنیم. به اعداد،
200
00:07:00,160 –> 00:07:01,919
بنابراین ماشین کاری که انجام می دهد
201
00:07:01,919 –> 00:07:03,520
، تصویر را بر اساس
202
00:07:03,520 –> 00:07:06,000
پیکسل ها به عدد تبدیل می
203
00:07:06,000 –> 00:07:07,680
204
00:07:07,680 –> 00:07:09,680
205
00:07:09,680 –> 00:07:12,319
206
00:07:12,319 –> 00:07:14,880
207
00:07:14,880 –> 00:07:16,880
کند. اگر تصویری داشته باشم اگر آن را
208
00:07:16,880 –> 00:07:18,720
به ماتریس تبدیل کنم مجموعه ای
209
00:07:18,720 –> 00:07:21,680
از ماتریس ها ایجاد می شود و سپس
210
00:07:21,680 –> 00:07:24,560
توسط یک ماشین خوانده می شود و متوجه می شود که آیا
211
00:07:24,560 –> 00:07:26,319
اینطور است چیزی در جلوی ماشین وجود دارد
212
00:07:26,319 –> 00:07:29,759
یا نه بر این اساس که متوقف می شود یا
213
00:07:29,759 –> 00:07:31,280
ادامه می یابد
214
00:07:31,280 –> 00:07:33,360
که یکی از مثال های این است، اما یک
215
00:07:33,360 –> 00:07:35,840
مثال پیشرفته تر در
216
00:07:35,840 –> 00:07:38,160
آینده این است که همانطور که در مورد یادگیری نظارت شده بحث کردیم
217
00:07:38,160 –> 00:07:39,840
بیایید این را بخوانیم
218
00:07:39,840 –> 00:07:41,680
ایده بیشتری خواهیم داشت اما من قبلاً این
219
00:07:41,680 –> 00:07:43,199
ایده را دادم که یادگیری نظارت شده درست چیست،
220
00:07:43,199 –> 00:07:45,120
بنابراین یادگیری نظارت
221
00:07:45,120 –> 00:07:47,120
شده هنگام آموزش مجموعه داده ها
222
00:07:47,120 –> 00:07:49,840
و برچسب های از پیش تعریف شده، طبقه بندی کننده را تغذیه می کند،
223
00:07:49,840 –> 00:07:51,840
همانطور که دقیقاً اشاره کردم که آیا ویجی
224
00:07:51,840 –> 00:07:53,919
یکی از شاگردان من در اینجا در کلاس است
225
00:07:53,919 –> 00:07:56,000
که آیا تبدیل خواهد کرد یا خیر.
226
00:07:56,000 –> 00:07:57,680
227
00:07:57,680 –> 00:07:58,560
228
00:07:58,560 –> 00:08:00,960
مثلاً میخواهم پیشبینی کنم که از
229
00:08:00,960 –> 00:08:03,199
مجموعه دادههای قدیمی استفاده میکنم، مثلاً
230
00:08:03,199 –> 00:08:05,199
جهان سینما و ویجی دارای ویژگیهای
231
00:08:05,199 –> 00:08:08,400
یکسانی هستند، همان سن حقوق یکسان
232
00:08:08,400 –> 00:08:12,240
تحصیلات، بنابراین سینماها شاگرد من بودند،
233
00:08:12,240 –> 00:08:13,759
بنابراین شانس ویجی برای شاگرد من
234
00:08:13,759 –> 00:08:15,120
است. بیشتر از
235
00:08:15,120 –> 00:08:16,560
این، من از داده های قدیمی استفاده می کنم که
236
00:08:16,560 –> 00:08:18,800
سه است، هرگز یک مدل ایجاد نکنید و سپس
237
00:08:18,800 –> 00:08:20,720
با استفاده از آن مدل، چهار ویجت را پیش بینی می کنم،
238
00:08:20,720 –> 00:08:21,680
239
00:08:21,680 –> 00:08:24,240
بنابراین این همان چیزی است که نمونه طبقه بندی من
240
00:08:24,240 –> 00:08:26,560
یاد می گیرد
241
00:08:26,560 –> 00:08:29,440
242
00:08:29,440 –> 00:08:31,360
اگر اینجا را ببینید که چه زمانی و کجا
243
00:08:31,360 –> 00:08:32,479
باید یک خانه را
244
00:08:32,479 –> 00:08:34,080
درست بخرم، داده های خاص را تحت یک سطح خاص بررسی کنید، بنابراین همانطور که در این مثال ذکر کردم
245
00:08:34,080 –> 00:08:36,880
خانه دارای مساحت نرخ جرم و جنایت
246
00:08:36,880 –> 00:08:39,679
اتاق خواب فاصله از منطقه دفتر مرکزی
247
00:08:39,679 –> 00:08:41,519
فوت مربع و
248
00:08:41,519 –> 00:08:43,760
محل است که من می خواهم
249
00:08:43,760 –> 00:08:45,920
خانه خود را پیش بینی کنم. قیمت اگر میزان جرم و جنایت بیشتر باشد،
250
00:08:45,920 –> 00:08:47,519
بدیهی است که قیمت خانه من بسیار کمتر خواهد بود،
251
00:08:47,519 –> 00:08:48,320
252
00:08:48,320 –> 00:08:50,160
بنابراین اینها برخی از ویژگی هایی است که
253
00:08:50,160 –> 00:08:52,399
به من کمک می کند تا قیمت خانه را پیش بینی کنم،
254
00:08:52,399 –> 00:08:55,120
بنابراین اینها مانند متغیرهای مستقل هستند
255
00:08:55,120 –> 00:08:57,279
و متغیر وابسته من قیمت خانه من چیست،
256
00:08:57,279 –> 00:08:58,880
257
00:08:58,880 –> 00:09:01,519
ما بچه ها تحصیلاتمان را انجام دادیم و ما قبلاً
258
00:09:01,519 –> 00:09:03,760
مقداری ریاضی می دانیم آنجا y برابر با
259
00:09:03,760 –> 00:09:06,959
mx به اضافه c است که معادله رگرسیون من است
260
00:09:06,959 –> 00:09:10,320
y همان چیزی است که متغیر وابسته من است
261
00:09:10,320 –> 00:09:13,120
که قیمت خانه برابر است با
262
00:09:13,120 –> 00:09:15,360
mx به علاوه c
263
00:09:15,360 –> 00:09:18,240
که در آن x متغیر مستقل من است m
264
00:09:18,240 –> 00:09:19,920
شیب من از یک خط
265
00:09:19,920 –> 00:09:22,399
و c است. رهگیری اگر
266
00:09:22,399 –> 00:09:24,880
چندین x دارم، فرض کنید قیمت خانه را
267
00:09:24,880 –> 00:09:26,720
میخواهم بر اساس تعداد اتاقهای
268
00:09:26,720 –> 00:09:28,640
مساحت خانهام فاصله از
269
00:09:28,640 –> 00:09:31,120
میزان جرم و جنایت شهر را پیشبینی کنم، بنابراین من چهار x دارم بنابراین
270
00:09:31,120 –> 00:09:33,440
معادله wil l برابر m یکی x
271
00:09:33,440 –> 00:09:35,839
یک به علاوه m دو x دو به علاوه m m3 x3 به علاوه
272
00:09:35,839 –> 00:09:38,480
m4 x4 به اضافه c که معادله رگرسیون من
273
00:09:38,480 –> 00:09:39,600
274
00:09:39,600 –> 00:09:41,360
است یادگیری بدون نظارت همانطور که
275
00:09:41,360 –> 00:09:44,560
بحث کردیم میخواهم مجموعه دادههای خود را خوشهبندی کنم
276
00:09:44,560 –> 00:09:47,839
، تصویری از میوهها ابتدا تغذیه میشود
277
00:09:47,839 –> 00:09:50,160
در سیستم، سیستم
278
00:09:50,160 –> 00:09:52,640
میوههای مختلف را با استفاده از ویژگیهایی مانند
279
00:09:52,640 –> 00:09:55,519
اندازه رنگ و دستههای آن شناسایی میکند و سپس
280
00:09:55,519 –> 00:09:57,360
وقتی میوه جدیدی نشان داده میشود، آنها را دستهبندی میکند،
281
00:09:57,360 –> 00:10:00,080
ویژگیهای آن را تجزیه و تحلیل میکند و
282
00:10:00,080 –> 00:10:02,399
در دستهای قرار میدهد که ویژگی مشابهی دارد
283
00:10:02,399 –> 00:10:04,640
همانطور که درست ذکر کردم دانشآموزانم بر
284
00:10:04,640 –> 00:10:07,040
اساس تعداد نمرههای مبتنی بر آن بر اساس تعداد
285
00:10:07,040 –> 00:10:09,360
پاسخهایی که در
286
00:10:09,360 –> 00:10:11,360
کلاس و رویدادهای مختلف دادهاند، من
287
00:10:11,360 –> 00:10:13,920
میخواهم مشتریام را خوشهبندی کنم، بنابراین در اینجا نیز
288
00:10:13,920 –> 00:10:15,920
همین اتفاق میافتد، بنابراین
289
00:10:15,920 –> 00:10:18,560
یادگیری بدون نظارت بر اساس ویژگی من
290
00:10:18,560 –> 00:10:20,959
به دانشآموزان
291
00:10:20,959 –> 00:10:23,279
خوشهبندی میکنم، خوشهبندی مشتریان، خوشهبندی
292
00:10:23,279 –> 00:10:26,079
کارکنان، کارمندی است که کارمند انجام میدهد. خوب است،
293
00:10:26,079 –> 00:10:28,640
بنابراین من می خواهم محصولات خود را خوشه بندی کنم،
294
00:10:28,640 –> 00:10:31,120
شاید کدام محصولات خوب عمل می کنند، بنابراین
295
00:10:31,120 –> 00:10:33,920
این روش بسیار مفیدی برای
296
00:10:33,920 –> 00:10:36,320
خوشه بندی داده ها است تا من
297
00:10:36,320 –> 00:10:39,600
بینش بیشتر از آن و من
298
00:10:39,600 –> 00:10:41,600
تصمیمات خوبی میگیرم، بیایید یک
299
00:10:41,600 –> 00:10:42,640
300
00:10:42,640 –> 00:10:44,320
مثال دیگر بزنیم، فرض کنیم
301
00:10:44,320 –> 00:10:46,560
یک دوره جدید علوم داده را
302
00:10:46,560 –> 00:10:47,760
با
303
00:10:47,760 –> 00:10:50,000
پایتون راهاندازی کردهام، این آخرین دوره با
304
00:10:50,000 –> 00:10:51,680
تمام فناوریهای جدید و همه الگوریتمهای جدید
305
00:10:51,680 –> 00:10:53,120
است که
306
00:10:53,120 –> 00:10:55,040
اکنون میخواهم این را راهاندازی کنم. البته و
307
00:10:55,040 –> 00:10:57,279
بودجه بازاریابی من بسیار کمتر است،
308
00:10:57,279 –> 00:11:00,000
من 10000 مشتری در اطراف خود دارم،
309
00:11:00,000 –> 00:11:03,279
ده هزار مخاطب از مشتریانم دارم
310
00:11:03,279 –> 00:11:05,600
و بودجه من برای بازاریابی فقط یک
311
00:11:05,600 –> 00:11:07,120
هزار مشتری است، من می توانم فقط یک
312
00:11:07,120 –> 00:11:08,560
هزار مشتری را
313
00:11:08,560 –> 00:11:10,640
در آن ده هزار مشتری بازاریابی کنم
314
00:11:10,640 –> 00:11:13,680
. بگو پزشکی من
315
00:11:13,680 –> 00:11:17,360
مشتریانی از bcom از متخصصان مهندسی I.t
316
00:11:17,360 –> 00:11:20,560
و زمینه های مختلف دیگر
317
00:11:20,560 –> 00:11:23,519
دارم، حالا اگر یک مشتری تصادفی 1000 مشتری بگیرم،
318
00:11:23,519 –> 00:11:26,560
این احتمال وجود دارد که
319
00:11:26,560 –> 00:11:28,880
مشتری پزشکی را به بازار عرضه کنم یا
320
00:11:28,880 –> 00:11:30,240
321
00:11:30,240 –> 00:11:32,560
شاید اکنون مشتری شوم، شانس آنها برای تبدیل صفر چقدر است،
322
00:11:32,560 –> 00:11:34,640
زیرا آنها خط متفاوتی دارند.
323
00:11:34,640 –> 00:11:36,560
آنها نمیدانند
324
00:11:36,560 –> 00:11:37,760
پایتون چیست،
325
00:11:37,760 –> 00:11:39,760
بنابراین من میخواهم مشتریانم را بر
326
00:11:39,760 –> 00:11:42,240
اساس تحصیلاتشان بر
327
00:11:42,240 –> 00:11:44,480
اساس سنشان دستهبندی کنم. من مشتریانی
328
00:11:44,480 –> 00:11:46,560
با سنین مختلف دارم برخی از مشتریان
329
00:11:46,560 –> 00:11:50,880
از 20 تا 25 سال 25 تا 30 و 60 تا 65 سال هستند.
330
00:11:50,880 –> 00:11:53,760
اگر دوره خود را 60 تا 65 سال
331
00:11:53,760 –> 00:11:55,680
سن مشتریانم را هدف قرار دهم،
332
00:11:55,680 –> 00:11:57,519
احتمال خرید دوره
333
00:11:57,519 –> 00:11:59,360
کمتر است، اما اگر هدف قرار دهم نسل جوانی را
334
00:11:59,360 –> 00:12:00,959
که میخرند، زیرا
335
00:12:00,959 –> 00:12:02,800
میخواهند شغل خود را تغییر دهند، میخواهند فناوریهای جدید را یاد
336
00:12:02,800 –> 00:12:04,880
بگیرند و میتوانند از آن در
337
00:12:04,880 –> 00:12:06,639
شرکتهای جدید خود استفاده کنند،
338
00:12:06,639 –> 00:12:08,800
بنابراین در اینجا کاری که من انجام میدهم بر
339
00:12:08,800 –> 00:12:11,200
اساس ویژگیهایی است که سعی میکنم
340
00:12:11,200 –> 00:12:12,000
341
00:12:12,000 –> 00:12:15,200
نوع خاصی از مشتری را جذب
342
00:12:15,200 –> 00:12:17,120
کنم. شانس خرید
343
00:12:17,120 –> 00:12:18,480
دوره پایتون بیشتر است
344
00:12:18,480 –> 00:12:21,040
و پس از آن من آنها را بازاریابی خواهم کرد بنابراین بدیهی است که
345
00:12:21,040 –> 00:12:23,519
پایگاه مشتری را محدود می کنم و به
346
00:12:23,519 –> 00:12:26,399
پایگاه دقیق مشتری برخورد می کنم
347
00:12:26,399 –> 00:12:29,120
و سپس آنها را برای بازاریابی هدف قرار می دهم بنابراین
348
00:12:29,120 –> 00:12:31,600
در اینجا من در هزینه بازاریابی صرفه جویی می
349
00:12:31,600 –> 00:12:34,320
کنم زیرا بودجه من 4000 مشتری است که داشتم.
350
00:12:34,320 –> 00:12:37,440
10000 مشتری را جمع کردم تا
351
00:12:37,440 –> 00:12:40,639
پایگاه مشتری را محدود کنم و سپس
352
00:12:40,639 –> 00:12:44,399
دقیقاً به نقطه مشتری رسیدم که
353
00:12:44,399 –> 00:12:46,399
فکر می کنم محصولی را خریداری خواهم کرد که
354
00:12:46,399 –> 00:12:48,959
شناسه افراد حرفه ای و مهندسی است.
355
00:12:48,959 –> 00:12:51,839
پس زمینه m id یا شناسه
356
00:12:51,839 –> 00:12:54,720
با سن 20 تا 25 سال،
357
00:12:54,720 –> 00:12:56,560
بنابراین شانس افزایش یافته است
358
00:12:56,560 –> 00:12:58,720
، می توانم بگویم که یک کمپین بازاریابی خوب است،
359
00:12:58,720 –> 00:12:59,839
زیرا
360
00:12:59,839 –> 00:13:00,800
من
361
00:13:00,800 –> 00:13:03,440
در واقع به نوع دقیق مشتریان برخورد کرده ام،
362
00:13:03,440 –> 00:13:05,279
بنابراین این یک سناریوی دیگر است، بنابراین
363
00:13:05,279 –> 00:13:07,760
در اینجا من یک کمپین را ذخیره می کنم. هزینه زیادی دارد زیرا
364
00:13:07,760 –> 00:13:10,000
فرض کنید اگر 10 1000 مشتری پزشکی را هدف قرار دهم
365
00:13:10,000 –> 00:13:11,440
بدیهی است که شانس
366
00:13:11,440 –> 00:13:12,639
تبدیل
367
00:13:12,639 –> 00:13:15,680
تقریباً صفر درصد است من آن
368
00:13:15,680 –> 00:13:16,639
پول را
369
00:13:16,639 –> 00:13:18,320
برای بازاریابی از دست دادم
370
00:13:18,320 –> 00:13:20,399
اما اگر از خوشه بندی استفاده کنم و دقیقاً مشتریان خود را هدف قرار دهم
371
00:13:20,399 –> 00:13:22,480
در آن صورت پول خود را پس انداز می
372
00:13:22,480 –> 00:13:24,079
کنم زیرا شانس 80
373
00:13:24,079 –> 00:13:25,839
درصد است، شاید به این دلیل که آنها دوره دریافت می کنند
374
00:13:25,839 –> 00:13:28,079
یا دوره را می خرند،
375
00:13:28,079 –> 00:13:29,760
بنابراین یک کمپین بازاریابی زیبا است،
376
00:13:29,760 –> 00:13:31,279
زیرا من از تعداد دقیق مشتریان متنفرم
377
00:13:31,279 –> 00:13:32,639
378
00:13:32,639 –> 00:13:34,639
اکنون تجزیه و تحلیل خوشه ای بیایید
379
00:13:34,639 –> 00:13:36,800
اکنون در مورد خوشه بندی با جزئیات صحبت کنیم،
380
00:13:36,800 –> 00:13:39,360
بنابراین خوشه بندی به معنای گروه بندی اشیاء
381
00:13:39,360 –> 00:13:41,600
بر اساس اطلاعات است. در
382
00:13:41,600 –> 00:13:44,320
داده های توصیف کننده شی یا رابطه آنها یافت می شود
383
00:13:44,320 –> 00:13:45,680
384
00:13:45,680 –> 00:13:48,480
، هدف این است که اشیاء در یک گروه
385
00:13:48,480 –> 00:13:50,480
باید مشابه یکدیگر باشند
386
00:13:50,480 –> 00:13:52,639
اما با اشیاء در یک گروه متفاوت باشند. گروه او
387
00:13:52,639 –> 00:13:54,399
، همان چیزی است که من به درستی اشاره
388
00:13:54,399 –> 00:13:56,480
کردم، با یافتن ساختار در
389
00:13:56,480 –> 00:13:59,120
مجموعه ای از داده های بدون برچسب سروکار دارد،
390
00:13:59,120 –> 00:14:01,199
این برخی از تکنیک های
391
00:14:01,199 –> 00:14:03,360
خوشه بندی است که بسیار مورد استفاده قرار می گیرد، اگر
392
00:14:03,360 –> 00:14:05,600
ابزاری مانند تابلو را بشناسید، یک
393
00:14:05,600 –> 00:14:08,000
ابزار گزارش است، همچنین دارای ویژگی برای
394
00:14:08,000 –> 00:14:10,639
خوشه بندی است. دادهها و همچنین
395
00:14:10,639 –> 00:14:12,320
k-means را در انتهای پشت اجرا میکند،
396
00:14:12,320 –> 00:14:15,120
بنابراین k-means بسیار استفاده میشود، سپس c
397
00:14:15,120 –> 00:14:17,199
به معنای خوشهبندی یا خوشهبندی فازی
398
00:14:17,199 –> 00:14:18,800
داریم، سپس خوشهبندی سلسله مراتبی
399
00:14:18,800 –> 00:14:20,880
نیز داریم، بنابراین این سه روشی هستند
400
00:14:20,880 –> 00:14:23,040
که ما برای خوشهبندی استفاده میکنیم.
401
00:14:23,040 –> 00:14:24,959
K ذکر شده به این معنی است که خوشه بندی مورد
402
00:14:24,959 –> 00:14:27,120
تقاضا است زیرا به من کمک می کند تا
403
00:14:27,120 –> 00:14:29,519
بفهمم چه تعداد خوشه
404
00:14:29,519 –> 00:14:31,360
باید در
405
00:14:31,360 –> 00:14:33,680
موارد استفاده از خوشه بندی مجموعه داده داشته باشیم، بنابراین بیایید دوباره
406
00:14:33,680 –> 00:14:35,920
این را درست بخوانیم تا بازاریابی
407
00:14:35,920 –> 00:14:37,839
گروهی متمایز از
408
00:14:37,839 –> 00:14:40,720
پایگاه های داده مشتریان را کشف کنیم، مانند مشتریانی که تعداد زیادی
409
00:14:40,720 –> 00:14:42,880
از آنها را تولید می کنند. تماس های راه دور
410
00:14:42,880 –> 00:14:44,560
اساساً در مشتری جدا می شوند،
411
00:14:44,560 –> 00:14:46,720
فرض کنید من یک محصول جدید ارائه می
412
00:14:46,720 –> 00:14:49,199
کنم که در آن به مشتری کمک می کند
413
00:14:49,199 –> 00:14:51,839
تا تماس های راه دور را انجام دهد،
414
00:14:51,839 –> 00:14:53,680
زیرا e از نرخ ارزانتر،
415
00:14:53,680 –> 00:14:55,120
بنابراین من آن مشتریان را هدف قرار خواهم داد، بنابراین
416
00:14:55,120 –> 00:14:57,199
باید آن بیمه را دستهبندی کنم که
417
00:14:57,199 –> 00:14:59,680
گروههایی از دارندگان بیمهنامه محصولات کشاورزی
418
00:14:59,680 –> 00:15:02,639
با نرخ متوسط خسارت بالا، مح
419
00:15:02,639 –> 00:15:06,000
ولات کشاورزی را در زمانی که سودآور است، از بین می
420
00:15:06,000 –> 00:15:08,240
برند، بنابراین مانند بیمه، می
421
00:15:08,240 –> 00:15:10,480
توانیم کاربری اراضی مشتریان را نیز طبقهبندی کن
422
00:15:10,480 –> 00:15:12,639
م. شناسایی مناطق
423
00:15:12,639 –> 00:15:15,279
با کاربری مشابه در پایگاه داده gis
424
00:15:15,279 –> 00:15:17,519
مطالعات سیستمی که
425
00:15:17,519 –> 00:15:20,720
مناطق احتمالی برای اکتشاف گاز نفت را بر اساس
426
00:15:20,720 –> 00:15:22,959
داده های سیستمی شناسایی می کند، بنابراین مانند
427
00:15:22,959 –> 00:15:25,040
موارد استفاده مختلف وجود دارد که می توانیم خوشه بندی k-means را اعمال کنیم
428
00:15:25,040 –> 00:15:26,800
و داده ها را خوشه بندی کنیم و سپس
429
00:15:26,800 –> 00:15:29,120
از آن داده ها برای آینده استفاده کنیم. پیشبینی یا
430
00:15:29,120 –> 00:15:31,440
شاید اقدامات آتی
431
00:15:31,440 –> 00:15:33,920
انواع خوشهبندی همانطور که بحث کردیم k
432
00:15:33,920 –> 00:15:36,240
به این معنی است که این یک خوشه انحصاری است که ما
433
00:15:36,240 –> 00:15:37,680
خوشهها
434
00:15:37,680 –> 00:15:39,839
را ایجاد میکنیم و به طور کلی مجزا خواهد بود.
435
00:15:39,839 –> 00:15:42,399
436
00:15:42,399 –> 00:15:44,240
437
00:15:44,240 –> 00:15:46,320
438
00:15:46,320 –> 00:15:47,600
439
00:15:47,600 –> 00:15:50,000
آیتم منحصراً به یک خوشه تعلق دارد
440
00:15:50,000 –> 00:15:51,680
نه چند
441
00:15:51,680 –> 00:15:53,759
k به این معنی
442
00:15:53,759 –> 00:15:54,959
443
00:15:54,959 –> 00:15:56,639
خوشه بندی کاربردی
444
00:15:56,639 –> 00:15:59,120
نیز که مانند c و برای خوشه z
445
00:15:59,120 –> 00:16:00,480
است، احتمال
446
00:16:00,480 –> 00:16:04,480
همپوشانی مشتریان من یا هر چیزی در
447
00:16:04,480 –> 00:16:06,560
دو خوشه وجود دارد که این نقاط آبی را می بینید، این
448
00:16:06,560 –> 00:16:07,600
نقاط مانند
449
00:16:07,600 –> 00:16:09,920
مشتریانی هستند که در هر دو خوشه هستند،
450
00:16:09,920 –> 00:16:11,759
بنابراین یک آیتم می تواند به چند مورد تعلق داشته باشد.
451
00:16:11,759 –> 00:16:14,560
خوشهها درجه ارتباط آن با
452
00:16:14,560 –> 00:16:16,480
هر خوشه مشخص است
453
00:16:16,480 –> 00:16:19,519
c فازی به این معنی است که این نوع
454
00:16:19,519 –> 00:16:21,759
خوشهبندی انحصاری را انجام میدهد
455
00:16:21,759 –> 00:16:23,279
سپس خوشهبندی سلسله مراتبی زمانی که دو
456
00:16:23,279 –> 00:16:27,199
خوشه یک رابطه فرزند والد
457
00:16:27,199 –> 00:16:29,680
یا ساختار درختی دارند، پس این یک
458
00:16:29,680 –> 00:16:32,079
خوشهبندی سلسله مراتبی است، بنابراین اساساً
459
00:16:32,079 –> 00:16:33,920
در خوشهبندی سلسله مراتبی یک دندروگرام ایجاد میکنیم.
460
00:16:33,920 –> 00:16:35,440
بنابراین مفهومی از
461
00:16:35,440 –> 00:16:37,120
دندروگرام وجود دارد که ساختاری شبیه به درخت ایجاد می
462
00:16:37,120 –> 00:16:39,120
کند و من می توانم یک خوشه اصلی داشته
463
00:16:39,120 –> 00:16:40,959
باشم، سپس چند زیرخوشه و غیره به
464
00:16:40,959 –> 00:16:42,720
همین دلیل است که به
465
00:16:42,720 –> 00:16:44,639
ساختار درختی و خوشه بندی سلسله مراتبی معروف است
466
00:16:44,639 –> 00:16:46,320
467
00:16:46,320 –> 00:16:48,240
حالا اجازه دهید در مورد k به معنای خوشه بندی
468
00:16:48,240 –> 00:16:50,880
در واقع صحبت کنیم.
469
00:16:50,880 –> 00:16:53,199
بنابراین k به این معنی است که خوشه بندی یکی از
470
00:16:53,199 –> 00:16:55,519
ساده ترین الگوریتم هایی است که از
471
00:16:55,519 –> 00:16:58,800
روش یادگیری بدون نظارت برای حل
472
00:16:58,800 –> 00:17:01,440
خوشه شناخته شده استفاده می کند. حل مسائل
473
00:17:01,440 –> 00:17:05,520
کل مجموعه داده ها را به k خوشه تقسیم می کند
474
00:17:05,520 –> 00:17:08,079
k به این معنی است که خوشه بندی نیاز به دنبال کردن دو
475
00:17:08,079 –> 00:17:09,919
عدد ورودی خوشه و
476
00:17:09,919 –> 00:17:12,000
مجموعه آموزشی دارد، بنابراین اساساً من به یک
477
00:17:12,000 –> 00:17:16,079
مجموعه داده نیاز دارم و چه تعداد خوشه می خواهید
478
00:17:16,480 –> 00:17:18,559
می توانید ببینید من این کل جمعیت را
479
00:17:18,559 –> 00:17:20,240
دارم و سپس
480
00:17:20,240 –> 00:17:21,679
گروه یک را دارم. گروه دو گروه سه گروه
481
00:17:21,679 –> 00:17:23,520
چهار در واقع آن را به خوشهها تقسیم کنید
482
00:17:23,520 –> 00:17:25,199
483
00:17:25,199 –> 00:17:26,959
اینها نمونههایی از
484
00:17:26,959 –> 00:17:29,679
آدرسهای اینترنتی اخبار مختلف مربوط به ترامپ و مدی هستند
485
00:17:29,679 –> 00:17:32,400
که در یک بخش
486
00:17:32,400 –> 00:17:34,080
درست گروهبندی شدهاند، مثل این است که شاید یک
487
00:17:34,080 –> 00:17:36,400
سخنرانی رئیسجمهور یا نخستوزیری باشد که
488
00:17:36,400 –> 00:17:38,400
میخواهم آن را در یکی بیان کنم. خوشه شاید
489
00:17:38,400 –> 00:17:40,160
گفتار کریکت خوشه دیگری باشد،
490
00:17:40,160 –> 00:17:41,360
چیزی شبیه به آن درست است، به طوری که یکی
491
00:17:41,360 –> 00:17:42,559
از نمونههایی است که
492
00:17:42,559 –> 00:17:44,080
k-means خوشهبندی بهطور خودکار
493
00:17:44,080 –> 00:17:45,840
داستانهای جدید در مورد همان
494
00:17:45,840 –> 00:17:49,440
موضوع را به خوشههای از پیش تعریفشده خوشهبندی میکند
495
00:17:49,679 –> 00:17:51,679
تا دانشآموزان را در منطقهای که در زیر نشان داده شده است ترسیم کند.
496
00:17:51,679 –> 00:17:53,840
مدرسه من باید
497
00:17:53,840 –> 00:17:55,679
مکان خاصی برای ساخت
498
00:17:55,679 –> 00:17:56,559
مدرسه
499
00:17:56,559 –> 00:17:58,960
در این منطقه پیدا کنم تا دانش آموز مجبور نباشد
500
00:17:58,960 –> 00:18:00,559
زیاد سفر کند
501
00:18:00,559 –> 00:18:03,120
که دوباره مشکل بسیار خوبی است.
502
00:18:03,120 –> 00:18:04,720
این مجموعه دادهها
503
00:18:04,720 –> 00:18:08,400
بر اساس منطقهای است که میخواهم دانشآموزانم را خوشهبندی کنم
504
00:18:08,400 –> 00:18:10,799
و سپس تصمیم بگیرم که کجا میتوانم مدرسهام را
505
00:18:10,799 –> 00:18:12,240
داشته
506
00:18:12,240 –> 00:18:14,240
باشم زیرا در خوشه
507
00:18:14,240 –> 00:18:16,799
فرض کنید در یک خوشه دانشآموزان بیشتری دارم
508
00:18:16,799 –> 00:18:18,320
زیرا آن دانشآموزان در
509
00:18:18,320 –> 00:18:20,240
آن منطقه خاص زندگی میکنند، مانند اکثریت
510
00:18:20,240 –> 00:18:23,520
یک منطقه بنابراین ممکن است سعی کنم مدرسه ای
511
00:18:23,520 –> 00:18:26,160
در نزدیکی آن منطقه ایجاد کنم تا پذیرش
512
00:18:26,160 –> 00:18:28,480
در مدرسه بیشتر شود تعداد
513
00:18:28,480 –> 00:18:31,120
دانش آموزان بیشتری د