در این مطلب، ویدئو طبقه بندی درختان در پایتون از شروع تا پایان با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 1:06:23
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,240 –> 00:00:03,120
درخت های تصمیم گیری از سهام تا فنچ
2
00:00:03,120 –> 00:00:06,080
در پایتون
3
00:00:06,240 –> 00:00:11,679
ما امروز این کار را انجام خواهیم داد.
4
00:00:11,679 –> 00:00:15,120
5
00:00:15,120 –> 00:00:18,000
6
00:00:18,000 –> 00:00:21,439
7
00:00:21,439 –> 00:00:23,039
8
00:00:23,039 –> 00:00:26,560
9
00:00:27,840 –> 00:00:31,760
صفحهنمایش همینجا اوه، بچهها، میتوانید
10
00:00:31,760 –> 00:00:34,480
ببینید که من این دفترچه یادداشت مشتری را به اشتراک
11
00:00:34,480 –> 00:00:35,840
12
00:00:35,840 –> 00:00:38,719
میگذارم، امیدوارم همه بتوانند آن را ببینند، بله،
13
00:00:38,719 –> 00:00:40,399
بله، بسیار عالی است،
14
00:00:40,399 –> 00:00:42,239
بنابراین چیزی که ما امروز با آن روبرو خواهیم شد،
15
00:00:42,239 –> 00:00:44,079
این دفترچه یادداشت مشتری است و من قرار است برای
16
00:00:44,079 –> 00:00:44,640
17
00:00:44,640 –> 00:00:47,039
تک تک شما یک نسخه
18
00:00:47,039 –> 00:00:48,160
از این
19
00:00:48,160 –> 00:00:51,039
را ایمیل کنم، این شامل دفترچه یادداشت مشتری
20
00:00:51,039 –> 00:00:53,520
است که باید در مشتری باز شود،
21
00:00:53,520 –> 00:00:56,480
اما همچنین یک کپی است که می تواند
22
00:00:56,480 –> 00:00:57,440
مستقیماً
23
00:00:57,440 –> 00:01:00,640
در پایتون اجرا شود، بنابراین اگر ژوپیتر را نصب نکرده باشید.
24
00:01:00,640 –> 00:01:02,239
در رایانه خود اما نمی خواهید
25
00:01:02,239 –> 00:01:03,440
اما پایتون
26
00:01:03,440 –> 00:01:05,119
دارید، هنوز باید بتوانید
27
00:01:05,119 –> 00:01:07,040
همه چیزهایی را که ما در مورد آن صحبت می کنیم اجرا کنید
28
00:01:07,040 –> 00:01:10,640
و همه چیزهایی که در
29
00:01:10,640 –> 00:01:11,200
اینجا
30
00:01:11,200 –> 00:01:14,240
نوشته شده است، نوشته های زیادی وجود دارد.
31
00:01:14,240 –> 00:01:15,280
32
00:01:15,280 –> 00:01:19,119
در کد، بنابراین شما همه چیز را دریافت خواهید کرد
33
00:01:19,119 –> 00:01:22,320
به هر حال،
34
00:01:22,320 –> 00:01:24,560
بله، بنابراین امروز ما از
35
00:01:24,560 –> 00:01:27,520
هرس scikit-learn و پیچیدگی هزینه
36
00:01:27,520 –> 00:01:29,920
برای ساختن این درخت طبقهبندی
37
00:01:29,920 –> 00:01:30,720
38
00:01:30,720 –> 00:01:33,520
استفاده میکنیم که از دادههای مستمر و طبقهبندی
39
00:01:33,520 –> 00:01:35,600
شده از مخزن یادگیری ماشین uci
40
00:01:35,600 –> 00:01:36,960
41
00:01:36,960 –> 00:01:39,920
برای پیشبینی اینکه آیا بیمار قلب دارد یا خیر استفاده میکند.
42
00:01:39,920 –> 00:01:41,119
43
00:01:41,119 –> 00:01:44,240
توجه داشته باشید بیماری همه این چیزها لینک هستند،
44
00:01:44,240 –> 00:01:46,159
بنابراین اگر می خواهید درباره
45
00:01:46,159 –> 00:01:48,960
مخزن یادگیری ماشین uci اطلاعات
46
00:01:48,960 –> 00:01:50,479
بیشتری کسب کنید یا می خواهید درباره
47
00:01:50,479 –> 00:01:53,040
مجموعه داده های خاصی که ما استفاده می کنیم بیشتر بدانید،
48
00:01:53,040 –> 00:01:55,200
می توانید روی پیوندها کلیک کنید و اطلاعات
49
00:01:55,200 –> 00:01:56,159
بیشتری کسب کنید.
50
00:01:56,159 –> 00:01:58,479
51
00:01:59,759 –> 00:02:02,960
پیوندهای زیادی
52
00:02:02,960 –> 00:02:03,360
در اینجا وجود دارد، به
53
00:02:03,360 –> 00:02:06,079
هر حال درختان طبقهبندی یک
54
00:02:06,079 –> 00:02:07,040
55
00:02:07,040 –> 00:02:09,598
روش یادگیری ماشینی فوقالعاده مفید هستند، زمانی که
56
00:02:09,598 –> 00:02:10,800
باید بدانید
57
00:02:10,800 –> 00:02:14,000
تصمیمها چگونه گرفته میشوند، برای
58
00:02:14,000 –> 00:02:16,000
مثال اگر باید
59
00:02:16,000 –> 00:02:18,239
پیشبینیها را برای درختهای طبقهبندی رئیس خود توجیه کنید،
60
00:02:18,239 –> 00:02:20,720
روش خوبی است،
61
00:02:20,720 –> 00:02:21,760
زیرا هر مرحله
62
00:02:21,760 –> 00:02:23,840
در فرآیند تصمیمگیری به راحتی
63
00:02:23,840 –> 00:02:25,200
قابل درک است،
64
00:02:25,200 –> 00:02:28,239
اکنون میدانم درختهای طبقهبندی برخی
65
00:02:28,239 –> 00:02:29,120
افراد
66
00:02:29,120 –> 00:02:30,959
فکر میکنند جذابترین افراد یادگیری ماشینی نیستند.
67
00:02:30,959 –> 00:02:32,400
68
00:02:32,400 –> 00:02:35,280
روشهای ng موجود است، اما آنها فوقالعاده
69
00:02:35,280 –> 00:02:36,480
عملی
70
00:02:36,480 –> 00:02:39,680
هستند و در واقع بسیار
71
00:02:39,680 –> 00:02:42,800
در حرفه پزشکی استفاده میشوند، زیرا
72
00:02:42,800 –> 00:02:44,000
تصمیمات
73
00:02:44,000 –> 00:02:46,800
شما میتوانید دقیقاً منطقی
74
00:02:46,800 –> 00:02:47,440
75
00:02:47,440 –> 00:02:50,640
برای همه چیز را دنبال کنید و این
76
00:02:50,640 –> 00:02:53,680
در زمینههای خاصی مهم است و بنابراین،
77
00:02:53,680 –> 00:02:55,599
من آنها را فقط برای آن دوست دارم. مانند
78
00:02:55,599 –> 00:02:58,560
کاوش در دادهها از نظر
79
00:02:58,560 –> 00:02:59,440
این که ببینیم کدام
80
00:02:59,440 –> 00:03:02,000
ویژگیها یا متغیرهای um
81
00:03:02,000 –> 00:03:03,920
مهمترین هستند، بنابراین کارهای جالب زیادی وجود دارد
82
00:03:03,920 –> 00:03:06,080
که میتوانیم با درختهای تصمیم انجام
83
00:03:06,080 –> 00:03:07,599
دهیم و بنابراین همه چیز را در مورد آنها یاد میگیریم،
84
00:03:07,599 –> 00:03:09,120
بنابراین میخواهیم درباره
85
00:03:09,120 –> 00:03:10,879
وارد کردن دادهها که خیلی
86
00:03:10,879 –> 00:03:11,920
هیجانانگیز
87
00:03:11,920 –> 00:03:14,080
نیست، یاد بگیرید، اما مهم است که در
88
00:03:14,080 –> 00:03:16,159
مورد نحوه برخورد با دادههای از دست رفته صحبت کنیم،
89
00:03:16,159 –> 00:03:17,200
شناسایی آنها در
90
00:03:17,200 –> 00:03:19,120
برخورد با آن، در
91
00:03:19,120 –> 00:03:21,360
مورد قالببندی دادهها برای
92
00:03:21,360 –> 00:03:22,319
درختهای
93
00:03:22,319 –> 00:03:24,959
تصمیمگیری صحبت میکنیم. در
94
00:03:24,959 –> 00:03:27,200
مورد یک کدگذاری داغ صحبت کنید،
95
00:03:27,200 –> 00:03:30,720
ما همچنین
96
00:03:30,720 –> 00:03:33,280
میخواهیم یک درخت طبقهبندی اولیه بسازیم
97
00:03:33,280 –> 00:03:34,159
و
98
00:03:34,159 –> 00:03:37,440
خیلی خوب نخواهد بود، اما سپس میخواهیم
99
00:03:37,440 –> 00:03:39,840
آن چیز را
100
00:03:39,840 –> 00:03:43,040
با استفاده از هرس پیچیدگی هزینه بهینه کنیم. g
101
00:03:43,040 –> 00:03:45,280
و پس از بهینهسازی آن، درخت طبقهبندی
102
00:03:45,280 –> 00:03:46,560
103
00:03:46,560 –> 00:03:48,879
نهایی را تفسیر و ارزیابی
104
00:03:48,879 –> 00:03:50,400
105
00:03:50,400 –> 00:03:52,879
میکنیم و همه اینها مطالب زیادی را پوشش میدهد، بنابراین
106
00:03:52,879 –> 00:03:53,840
107
00:03:53,840 –> 00:03:57,760
اگر در پایان هر سؤال سؤالی دارید، به سرعت حرکت میکنیم.
108
00:03:57,760 –> 00:04:01,360
109
00:04:01,360 –> 00:04:04,400
می توانید آنها را مطرح کنید.
110
00:04:04,400 –> 00:04:07,280
اوه شما همچنین می توانید ایمیل من را داشته باشید
111
00:04:07,280 –> 00:04:09,599
statquest.bam
112
00:04:09,599 –> 00:04:12,720
gmail.com شما می توانید بعداً سؤالات را برای من ایمیل کنید،
113
00:04:12,720 –> 00:04:16,399
بنابراین
114
00:04:16,399 –> 00:04:19,839
بیایید با
115
00:04:20,079 –> 00:04:23,199
این کار وارد شوید. کد
116
00:04:23,199 –> 00:04:25,759
من قویاً شما را تشویق میکنم با آن
117
00:04:25,759 –> 00:04:26,639
118
00:04:26,639 –> 00:04:29,040
بازی کنید، امم، بازی با کد بهترین راه
119
00:04:29,040 –> 00:04:30,479
برای یادگیری از آن است،
120
00:04:30,479 –> 00:04:33,520
و من راههای جایگزینی برای
121
00:04:33,520 –> 00:04:35,199
انجام کارها در نظرات دارم،
122
00:04:35,199 –> 00:04:37,759
بنابراین میتوانید مانند روشی که ما انجام میدهیم امتحان کنید.
123
00:04:37,759 –> 00:04:39,280
آن را امروز اما میتوانید نسخههای جایگزین را نیز امتحان کنید
124
00:04:39,280 –> 00:04:41,840
و ببینید آیا
125
00:04:41,840 –> 00:04:43,680
همان نتایج را دریافت میکنید یا خیر،
126
00:04:43,680 –> 00:04:48,000
بنابراین اوم،
127
00:04:48,000 –> 00:04:49,280
کسی فقط از ما پرسیده است که ما
128
00:04:49,280 –> 00:04:51,520
پیوند این دفترچه را به اشتراک میگذاریم، من واقعاً این دفترچه یادداشت را برای
129
00:04:51,520 –> 00:04:54,160
همه ایمیل
130
00:04:54,160 –> 00:04:54,880
خواهم کرد
131
00:04:54,880 –> 00:04:56,800
برای گرفتن همه، یک کپی از آن
132
00:04:56,800 –> 00:04:58,479
به اضافه a کد
133
00:04:58,479 –> 00:05:01,919
را بنویسید تا همه چیز را دریافت کنید، پس
134
00:05:01,919 –> 00:05:04,960
نگران نباشید اگر سریع حرکت می کنم و در
135
00:05:04,960 –> 00:05:06,560
یادداشت برداری یا چیزی
136
00:05:06,560 –> 00:05:07,680
شبیه به آن مشکل دارید نگران نباشید همه
137
00:05:07,680 –> 00:05:08,160
چیز را دریافت خواهید کرد
138
00:05:08,160 –> 00:05:10,720
و من نظر داده ام
139
00:05:10,720 –> 00:05:12,400
و همه چیز را
140
00:05:12,400 –> 00:05:16,080
با جزئیات بسیار زیادی نوشتم که
141
00:05:16,080 –> 00:05:17,680
برخی از آنها را امروز پوشش خواهیم داد و
142
00:05:17,680 –> 00:05:19,600
در واقع چیزهایی وجود دارد که به آنها نخواهیم رسید،
143
00:05:19,600 –> 00:05:21,120
بنابراین می توانید
144
00:05:21,120 –> 00:05:24,479
پس از دریافت نوت بوک بیشتر بخوانید و اطلاعات بیشتری کسب کنید،
145
00:05:24,479 –> 00:05:26,800
بنابراین اولین چیزی است که ما انجام این کار این است که در
146
00:05:26,800 –> 00:05:29,039
یک دسته از ماژولهای
147
00:05:29,039 –> 00:05:31,280
پایتون بارگذاری شود، همانطور که بسیاری از شما ممکن است بدانید،
148
00:05:31,280 –> 00:05:33,120
اما ممکن است برخی از شما
149
00:05:33,120 –> 00:05:35,199
فقط یک زبان برنامهنویسی اولیه را به ما ارائه ندهند،
150
00:05:35,199 –> 00:05:37,600
این ماژولها
151
00:05:37,600 –> 00:05:40,160
عملکرد اضافی به ما میدهند تا دادهها را
152
00:05:40,160 –> 00:05:41,919
پاک کنیم و قالببندی کنیم
153
00:05:41,919 –> 00:05:45,039
و سپس ارزیابی ساخت را انجام دهیم. و
154
00:05:45,039 –> 00:05:48,240
یادداشت درخت طبقه بندی را رسم کنید، من
155
00:05:48,240 –> 00:05:49,520
همه کارها را در پایتون
156
00:05:49,520 –> 00:05:52,880
3 انجام می دهم و اگر
157
00:05:52,880 –> 00:05:54,400
پایتون را خودتان نصب کرده اید،
158
00:05:54,400 –> 00:05:56,000
به نسخه های خاصی از ماژول ها نیاز خواهید داشت
159
00:05:56,000 –> 00:05:59,120
که
160
00:05:59,120 –> 00:06:01,840
اینها در اینجا لیست شده اند و من
161
00:06:01,840 –> 00:06:02,720
کمی مبهم دارم.
162
00:06:02,720 –> 00:06:05,520
در مورد نحوه به روز رسانی ماژول ها در صورت نیاز d
163
00:06:05,520 –> 00:06:06,080
این کار را انجام دهم،
164
00:06:06,080 –> 00:06:09,600
اما از آنجایی که من مجبور نیستم این کار را انجام دهم،
165
00:06:09,600 –> 00:06:11,199
ما فقط می خواهیم از اینجا رد شویم،
166
00:06:11,199 –> 00:06:12,000
اما
167
00:06:12,000 –> 00:06:14,000
اوه و اینها ماژول هایی هستند
168
00:06:14,000 –> 00:06:15,919
که قرار است بارگذاری کنیم، پانداهایی
169
00:06:15,919 –> 00:06:17,680
را که قرار است انجام دهیم که برای دستکاری
170
00:06:17,680 –> 00:06:20,560
داده ها و برای یک کدگذاری داغ
171
00:06:20,560 –> 00:06:23,840
، num pi را بارگذاری می کنیم تا
172
00:06:23,840 –> 00:06:25,759
میانگین و انحراف استاندارد را محاسبه
173
00:06:25,759 –> 00:06:29,440
کنیم و سپس matplotlib را وارد می کنیم
174
00:06:29,440 –> 00:06:31,840
تا برخی نمودارها را ترسیم کنیم و سپس یک دسته از
175
00:06:31,840 –> 00:06:32,639
176
00:06:32,639 –> 00:06:36,560
ماژول ها و بیت ها را یاد
177
00:06:36,560 –> 00:06:38,960
می گیریم تا درخت های طبقه بندی و سردرگمی را انجام دهیم.
178
00:06:38,960 –> 00:06:40,800
ماتریسها
179
00:06:40,800 –> 00:06:44,639
و اعتبارسنجی متقاطع، بنابراین
180
00:06:44,639 –> 00:06:47,600
با یک دفترچه یادداشت مشتری،
181
00:06:47,600 –> 00:06:49,520
ممکن است برخی از شما این را بدانید،
182
00:06:49,520 –> 00:06:52,319
اگر میخواهید کد را اجرا کنید، فقط
183
00:06:52,319 –> 00:06:52,800
روی
184
00:06:52,800 –> 00:06:54,880
پنجرهای که کد را دارد
185
00:06:54,880 –> 00:06:56,160
کلیک کنید و برجسته میشود
186
00:06:56,160 –> 00:06:57,520
و سپس میتوانید به اینجا بروید و میتوانید
187
00:06:57,520 –> 00:06:59,919
روی دکمه پخش کلیک کنید و
188
00:06:59,919 –> 00:07:01,199
همه چیز را اجرا میکند، همچنین
189
00:07:01,199 –> 00:07:02,960
کلیدهای ترکیبی برای انجام همان
190
00:07:02,960 –> 00:07:05,360
کار وجود دارد یا میتوانید به منوی run بروید
191
00:07:05,360 –> 00:07:08,720
تا بتوانیم
192
00:07:08,720 –> 00:07:11,599
کنترل um را برای اجرای این سلول انتخاب شده انجام
193
00:07:11,599 –> 00:07:13,919
دهیم یا زمانی که میتوانیم اینجا کلیک کنیم
194
00:07:13,919 –> 00:07:17,120
ما انجام می دهیم شما
195
00:07:17,120 –> 00:07:20,960
یک ستاره ام را در اینجا خواهید دید و این بدان معناست که
196
00:07:20,960 –> 00:07:21,360
197
00:07:21,360 –> 00:07:24,160
پایتون کار میکند و وقتی
198
00:07:24,160 –> 00:07:26,319
کارش تمام شد، یک عدد را در آنجا قرار میدهد، اما
199
00:07:26,319 –> 00:07:28,479
عدد واقعی خیلی
200
00:07:28,479 –> 00:07:29,360
مهم
201
00:07:29,360 –> 00:07:31,280
نیست، بنابراین نگران نباشید، اما وقتی
202
00:07:31,280 –> 00:07:32,639
میخواهید این را اجرا کنید ممکن است
203
00:07:32,639 –> 00:07:34,240
برای مدتی ستارهای کوچک ببینید. اما وقتی ستاره
204
00:07:34,240 –> 00:07:35,759
به عدد تبدیل میشود،
205
00:07:35,759 –> 00:07:37,360
باید بروید، بنابراین ما
206
00:07:37,360 –> 00:07:40,400
ماژولها را وارد
207
00:07:40,400 –> 00:07:42,880
کردهایم، بنابراین اکنون آماده هستیم تا به مورد
208
00:07:42,880 –> 00:07:44,560
بعدی برویم که
209
00:07:44,560 –> 00:07:45,440
دادههایی
210
00:07:45,440 –> 00:07:47,199
را که قرار است بارگذاری کنیم وارد کنیم. در یک مجموعه داده از
211
00:07:47,199 –> 00:07:49,039
مخزن یادگیری ماشین uci به
212
00:07:49,039 –> 00:07:52,479
طور خاص،
213
00:07:52,479 –> 00:07:54,240
ما از مجموعه داده های بیماری قلبی استفاده می کنیم
214
00:07:54,240 –> 00:07:56,720
و این مجموعه داده به ما
215
00:07:56,720 –> 00:07:58,160
امکان می دهد بر اساس فشار خون سن جنسی و یک سری معیارهای دیگر پیش بینی کنیم که آیا فردی به بیماری قلبی مبتلا است یا خیر.
216
00:07:58,160 –> 00:08:00,000
217
00:08:00,000 –> 00:08:03,360
218
00:08:03,360 –> 00:08:06,400
بنابراین ما از
219
00:08:06,400 –> 00:08:08,479
پانداها برای خواندن آن فریم داده استفاده می کنیم و
220
00:08:08,479 –> 00:08:10,560
وقتی این کار انجام می شود، یک قاب داده را
221
00:08:10,560 –> 00:08:12,879
که بسیار شبیه به صفحه گسترده است برمی گرداند
222
00:08:12,879 –> 00:08:15,199
، داده ها در ردیف ها و ستون ها سازماندهی شده
223
00:08:15,199 –> 00:08:17,360
اند و هر سطر می تواند حاوی
224
00:08:17,360 –> 00:08:18,800
ترکیبی از متن
225
00:08:18,800 –> 00:08:21,599
و ستون باشد و نام متغیر استاندارد
226
00:08:21,599 –> 00:08:22,960
برای یک قاب
227
00:08:22,960 –> 00:08:26,080
داده initi است als df برای قاب داده،
228
00:08:26,080 –> 00:08:27,199
بنابراین این چیزی است که ما در اینجا از آن استفاده
229
00:08:27,199 –> 00:08:29,199
خواهیم کرد، سعی می کنیم به قراردادهای
230
00:08:29,199 –> 00:08:31,520
همرفتی پایتون
231
00:08:31,520 –> 00:08:35,519
بپیوندیم، بنابراین این کد را
232
00:08:35,519 –> 00:08:37,200
داریم.
233
00:08:37,200 –> 00:08:38,880
داده
234
00:08:38,880 –> 00:08:40,559
df که قرار است قاب
235
00:08:40,559 –> 00:08:42,080
داده ما باشد، متغیر جدید ما است
236
00:08:42,080 –> 00:08:44,880
و ما آن را روی
237
00:08:44,880 –> 00:08:46,720
دادههایی که قرار است در آن بخوانیم با استفاده از read
238
00:08:46,720 –> 00:08:49,839
csv که یک
239
00:08:49,839 –> 00:08:54,480
تابع pandas است، um تنظیم میکنیم.
240
00:08:54,480 –> 00:08:56,080
داده ها یک فایل نسبتاً
241
00:08:56,080 –> 00:08:56,480
کوچک
242
00:08:56,480 –> 00:08:58,240
هستند، بنابراین داده ها را به خوبی دریافت خواهید کرد،
243
00:08:58,240 –> 00:09:00,959
اما همانطور که در زیر می بینید، ما می توانیم
244
00:09:00,959 –> 00:09:03,120
آن را مستقیماً از
245
00:09:03,120 –> 00:09:05,680
مخزن یادگیری ماشین نیز بخوانیم و فقط
246
00:09:05,680 –> 00:09:08,000
آدرس اینترنتی داده ها را وصل کنیم،
247
00:09:08,000 –> 00:09:11,519
بنابراین من این را اجرا می کنم کد bam بسیار
248
00:09:11,519 –> 00:09:14,320
خوب حالا ما داده ها را در
249
00:09:14,320 –> 00:09:16,320
یک قاب داده به نام df بارگذاری
250
00:09:16,320 –> 00:09:17,839
کرده ایم و
251
00:09:17,839 –> 00:09:19,760
پنج ردیف اول را با استفاده از تابع head بررسی می
252
00:09:19,760 –> 00:09:22,800
کنیم، بنابراین سر نقطه df داریم و
253
00:09:22,800 –> 00:09:25,040
پنج ردیف اول را چاپ می کنیم.
254
00:09:25,040 –> 00:09:28,720
من قصد دارم از کنترل اینتر استفاده کنم که با استفاده از
255
00:09:28,720 –> 00:09:30,880
256
00:09:30,880 –> 00:09:31,920
257
00:09:31,920 –> 00:09:33,680
کامپیوترهای مختلف که من یک Macintos دارم، آن را چاپ می کند h که من در
258
00:09:33,680 –> 00:09:36,720
حال حاضر از آن استفاده می کنم، اگر از
259
00:09:36,720 –> 00:09:39,360
ویندوز یا رایانه شخصی یا لینوکس استفاده می کنید، ممکن است یک
260
00:09:39,360 –> 00:09:39,839
261
00:09:39,839 –> 00:09:43,120
کلید ترکیبی متفاوت برای اجرای کد باشد، فقط
262
00:09:43,120 –> 00:09:43,440
263
00:09:43,440 –> 00:09:45,920
به منوی اجرا بروید و بفهمید
264
00:09:45,920 –> 00:09:46,800
که در پلتفرم مورد نظر شما چیست.
265
00:09:46,800 –> 00:09:50,560
بسیار خوب، بنابراین ما
266
00:09:50,560 –> 00:09:53,440
شش سطر اول را می بینیم که آنها به نوعی به
267
00:09:53,440 –> 00:09:54,480
هم ریخته اند،
268
00:09:54,480 –> 00:09:56,800
ما شماره ردیف ها و شماره ستون ها را
269
00:09:56,800 –> 00:09:58,160
داریم، اما
270
00:09:58,160 –> 00:10:01,760
نام ستون ها نداریم و از آنجایی که نام ستون های زیبا
271
00:10:01,760 –> 00:10:02,399
،
272
00:10:02,399 –> 00:10:04,480
دانستن نحوه قالب بندی داده ها را آسان تر
273
00:10:04,480 –> 00:10:05,920
می کند. میخواهم اعداد ستونها را
274
00:10:05,920 –> 00:10:07,040
275
00:10:07,040 –> 00:10:09,600
با نام ستونهای زیر جایگزین کنم، من
276
00:10:09,600 –> 00:10:12,480
این نامها را از وبسایت uci دریافت کردم،
277
00:10:12,480 –> 00:10:15,440
بنابراین فقط آنها را درست نکردم
278
00:10:15,440 –> 00:10:15,920
،
279
00:10:15,920 –> 00:10:18,320
سن، جنس، درد قفسه سینه در استراحت فشار خون،
280
00:10:18,320 –> 00:10:19,440
281
00:10:19,440 –> 00:10:22,560
کلسترول، قند خون ناشتا،
282
00:10:22,560 –> 00:10:25,920
استراحت نتایج الکتروکاردیوگرافی
283
00:10:25,920 –> 00:10:28,560
اوه این حداکثر ضربان قلب به دست آمده از
284
00:10:28,560 –> 00:10:33,040
ورزش آنژین صدری
285
00:10:33,040 –> 00:10:36,240
و یک سری چیزهای دیگر
286
00:10:36,240 –> 00:10:38,000
نکته این است که ما
287
00:10:38,000 –> 00:10:39,600
نام ستون ها را
288
00:10:39,600 –> 00:10:41,920
با df.columns تنظیم می کنیم و آنها
289
00:10:41,920 –> 00:10:42,800
را به این
290
00:10:42,800 –> 00:10:45,440
آرایه از نام ستون ها و سپس یک بار تنظیم می کنیم.
291
00:10:45,440 –> 00:10:47,040
ما نام ستون هایی را
292
00:10:47,040 –> 00:10:49,120
که هستیم تنظیم کرده ایم پنج سطر اول را مانند قبل چاپ
293
00:10:49,120 –> 00:10:50,240
خواهیم
294
00:10:50,240 –> 00:10:53,279
کرد و امیدواریم که
295
00:10:53,279 –> 00:10:55,680
نام ستون زیبا و زیبا را ببینیم، بنابراین بیایید
296
00:10:55,680 –> 00:10:56,800
این بام را اجرا کنیم،
297
00:10:56,800 –> 00:11:00,000
بنابراین اکنون
298
00:11:00,000 –> 00:11:03,360
به جای شماره
299
00:11:03,360 –> 00:11:05,360
ستون، نام ستون های خوبی داریم که به خاطر سپردن آنها بسیار آسان تر است.
300
00:11:05,360 –> 00:11:06,480
و
301
00:11:06,480 –> 00:11:10,160
خوب دستکاری کنید، بنابراین اکنون
302
00:11:10,160 –> 00:11:10,880
که دادهها را
303
00:11:10,880 –> 00:11:12,720
در چارچوب دادههای خود داریم و
304
00:11:12,720 –> 00:11:14,000
نام ستونهای خوبی داریم
305
00:11:14,000 –> 00:11:18,959
، آماده هستیم تا با دادههای از دست
306
00:11:20,399 –> 00:11:22,560
رفته شناسایی کنیم.
307
00:11:22,560 –> 00:11:24,000
308
00:11:24,000 –> 00:11:27,120
309
00:11:27,120 –> 00:11:29,519
دو بخش، بخش اول
310
00:11:29,519 –> 00:11:31,279
بر شناسایی داده های از دست رفته تمرکز می
311
00:11:31,279 –> 00:11:32,800
کند و سپس بخش دوم
312
00:11:32,800 –> 00:11:33,360
313
00:11:33,360 –> 00:11:37,040
بر روی برخورد با داده های از دست رفته تمرکز می کند
314
00:11:37,040 –> 00:11:40,079
و متأسفانه بزرگترین بخش
315
00:11:40,079 –> 00:11:43,440
هر پروژه تجزیه و تحلیل داده، اطمینان
316
00:11:43,440 –> 00:11:45,760
از فرمت صحیح داده ها
317
00:11:45,760 –> 00:11:48,880
و رفع آنها است. هنگامی که اولین
318
00:11:48,880 –> 00:11:50,000
بخش از این فرآیند
319
00:11:50,000 –> 00:11:51,839
نیست، شناسایی و رسیدگی به داده های از دست رفته
320
00:11:51,839 –> 00:11:53,040
داده های
321
00:11:53,040 –> 00:11:55,360
از دست رفته صرفاً یک فضای خالی یا
322
00:11:55,360 –> 00:11:56,639
یک مقدار جایگزین مانند
323
00:11:56,639 –> 00:11:58,720
n a است که نشان می دهد ما موفق به
324
00:11:58,720 –> 00:11:59,839
جمع آوری داده ها برای
325
00:11:59,839 –> 00:12:02,800
یکی از fe ها نشده ایم. برای مثال اگر ما
326
00:12:02,800 –> 00:12:04,880
فراموش کرده ایم سن شخصی را بپرسیم یا فراموش
327
00:12:04,880 –> 00:12:06,639
کرده ایم آن را یادداشت کنیم،
328
00:12:06,639 –> 00:12:08,639
در مجموعه داده های مربوط به
329
00:12:08,639 –> 00:12:09,600
سن
330
00:12:09,600 –> 00:12:12,480
آن فرد یک فضای خالی خواهیم داشت، دو راه اصلی برای مقابله با
331
00:12:12,480 –> 00:12:13,360
داده های از دست رفته وجود دارد،
332
00:12:13,360 –> 00:12:16,160
یکی این است که اگر اینگونه باشد حذف شود. یک
333
00:12:16,160 –> 00:12:16,720
334
00:12:16,720 –> 00:12:20,000
ستون یا سطر
335
00:12:20,000 –> 00:12:21,760
که تعداد زیادی داده از دست رفته دارد، میتوانیم
336
00:12:21,760 –> 00:12:24,160
آن سطر از دادهها را حذف کنیم یا میتوانیم آن ستون را جابهجا
337
00:12:24,160 –> 00:12:25,680
338
00:12:25,680 –> 00:12:29,040
کنیم، میتوانیم مقادیری را
339
00:12:29,040 –> 00:12:31,680
که گم شدهاند نسبت دهیم و در این زمینه
340
00:12:31,680 –> 00:12:34,639
impute فقط یک روش خیالی برای گفتن است که
341
00:12:34,639 –> 00:12:35,279
میتوانیم یک
342
00:12:35,279 –> 00:12:37,680
حدس میزنید که مقدار
343
00:12:37,680 –> 00:12:39,279
باید چقدر باشد،
344
00:12:39,279 –> 00:12:42,480
بنابراین اگر مقداری را برای سن از دست
345
00:12:42,480 –> 00:12:44,560
میدادیم بهجای پرتاب
346
00:12:44,560 –> 00:12:46,639
کل آن ردیف داده، ممکن است
347
00:12:46,639 –> 00:12:47,760
مقدار گمشده را با
348
00:12:47,760 –> 00:12:50,399
میانگین سن یا میانه پر کنیم یا از
349
00:12:50,399 –> 00:12:52,000
روش پیچیدهتری
350
00:12:52,000 –> 00:12:56,240
برای حدس زدن استفاده کنیم. یک مقدار مناسب،
351
00:12:57,600 –> 00:12:59,120
بنابراین ابتدا کاری که میخواهیم انجام دهیم این
352
00:12:59,120 –> 00:13:01,120
است که ببینیم چه نوع
353
00:13:01,120 –> 00:13:02,560
دادههایی در قاب دادههای خود
354
00:13:02,560 –> 00:13:06,240
داریم و این کار را با انواع d با
355
00:13:06,240 –> 00:13:06,880
نگاه کردن به
356
00:13:06,880 –> 00:13:09,839
انواع d انجام میدهیم تا d قاب داده نقطه d
357
00:13:09,839 –> 00:13:11,279
نوع دارد
358
00:13:11,279 –> 00:13:14,800
و آن را اجرا می کنیم و این به ما می گوید که
359
00:13:14,800 –> 00:13:17,360
سن یک شناور است که خوب است زیرا
360
00:13:17,360 –> 00:13:18,880
سن قرار است یک
361
00:13:18,880 –> 00:13:20,800
362
00:13:20,800 –> 00:13:21,920
363
00:13:21,920 –> 00:13:24,639
364
00:13:24,639 –> 00:13:25,680
365
00:13:25,680 –> 00:13:28,720
366
00:13:28,720 –> 00:13:31,760
عدد باشد. نوع داده شی و
367
00:13:31,760 –> 00:13:35,360
یک ستون hd که فقط مختصر
368
00:13:35,360 –> 00:13:36,720
بیماری قلبی است، چه کسی بیماری قلبی داشته باشد یا نه
369
00:13:36,720 –> 00:13:38,000
370
00:13:38,000 –> 00:13:41,920
، یک عدد صحیح است، بنابراین این واقعیت که
371
00:13:41,920 –> 00:13:44,320
ستونهای ca و ستونهای خطا دارای انواع دادههای شی هستند،
372
00:13:44,320 –> 00:13:45,680
نشان میدهد که
373
00:13:45,680 –> 00:13:48,720
چیز خندهداری در آنها وجود دارد.
374
00:13:48,720 –> 00:13:50,320
زمانی استفاده می شود که ترکیبی از
375
00:13:50,320 –> 00:13:52,240
چیزهایی مانند ترکیبی از اعداد
376
00:13:52,240 –> 00:13:55,760
و حروف وجود داشته باشد و در تئوری هر دو ca و
377
00:13:55,760 –> 00:13:57,040
false باید فقط
378
00:13:57,040 –> 00:13:59,040
دارای چند مقدار باشند که نشان دهنده دسته های مختلف هستند
379
00:13:59,040 –> 00:14:00,720
380
00:14:00,720 –> 00:14:04,160
و من این را از وب سایت uci می دانم، بنابراین
381
00:14:04,160 –> 00:14:04,639
382
00:14:04,639 –> 00:14:06,079
اگر می خواهید در مورد آن بیشتر بدانید می توانید این
383
00:14:06,079 –> 00:14:07,839
مجموعه داده من در واقع اطلاعات بیشتری در مورد
384
00:14:07,839 –> 00:14:08,720
مجموعه دادهها
385
00:14:08,720 –> 00:14:11,199
در پایینتر دارم، اما شما همچنین میتوانید
386
00:14:11,199 –> 00:14:13,600
در مورد آن در وبسایت uci مطالعه کنید،
387
00:14:13,600 –> 00:14:15,920
بنابراین کاری که ما برای
388
00:14:15,920 –> 00:14:17,040
بررسی
389
00:14:17,040 –> 00:14:19,040
آنچه در این ستونها میگذرد انجام میدهیم این است
390
00:14:19,040 –> 00:14:20,639
که رفتن تی o مقادیر منحصربهفرد آنها را چاپ کنید،
391
00:14:20,639 –> 00:14:23,920
بنابراین با ca شروع
392
00:14:23,920 –> 00:14:25,839
میکنیم تا قاب دادهای داشته باشیم و سپس
393
00:14:25,839 –> 00:14:28,959
در براکتها و نقل قولهای تک
394
00:14:28,959 –> 00:14:31,600
ستونی را که به آن
395
00:14:31,600 –> 00:14:33,519
علاقهمندیم شناسایی کردهایم.
396
00:14:33,519 –> 00:14:34,160
ستون
397
00:14:34,160 –> 00:14:35,680
و ما علاقه مند به دیدن
398
00:14:35,680 –> 00:14:37,199
مقادیر منحصر به فرد هستیم، می خواهیم از تابع
399
00:14:37,199 –> 00:14:37,760
منحصر به فرد
400
00:14:37,760 –> 00:14:40,720
برای چاپ آن مقادیر استفاده کنیم، بنابراین آن را
401
00:14:40,720 –> 00:14:42,160
اجرا می کنیم
402
00:14:42,160 –> 00:14:46,000
و می بینیم که ca شامل اعداد
403
00:14:46,000 –> 00:14:49,120
0 3 2 و 1 است و
404
00:14:49,120 –> 00:14:52,000
علامت سوال اعداد نشان دهنده
405
00:14:52,000 –> 00:14:53,279
تعداد رگهای
406
00:14:53,279 –> 00:14:55,839
خونی که در طی فلوروسکوپی روشن شدهاند
407
00:14:55,839 –> 00:14:59,839
که
408
00:15:00,079 –> 00:15:02,480
نوعی روش تشخیصی است، من در واقع
409
00:15:02,480 –> 00:15:04,399
جزئیات آن را نمیدانم،
410
00:15:04,399 –> 00:15:05,519
مهم
411
00:15:05,519 –> 00:15:07,440
نیست که بتوانیم
412
00:15:07,440 –> 00:15:09,440
آنچه در این
413
00:15:09,440 –> 00:15:13,440
وبینار میگذرد و علامتهای سوال را دنبال کنم.
414
00:15:13,440 –> 00:15:16,560
دادههای از دست رفته اوه،
415
00:15:16,560 –> 00:15:18,000
اکنون میخواهیم به مقادیر منحصربهفرد
416
00:15:18,000 –> 00:15:19,839
در ستونی به نام
417
00:15:19,839 –> 00:15:22,399
fal که مختصر اسکن قلب تالیوم است نگاه
418
00:15:22,399 –> 00:15:23,519
419
00:15:23,519 –> 00:15:25,279
کنیم و دقیقاً همان کدی را انجام
420
00:15:25,279 –> 00:15:27,440
میدهیم که قبل از گرفتن قاب داده
421
00:15:27,440 –> 00:15:30,000
و در براکتهای مربع داشتیم. و تک ق
422
00:15:30,000 –> 00:15:30,560
ما
423
00:15:30,560 –> 00:15:32,639
مشخص می کنیم که به کدام ستون علاقه
424
00:15:32,639 –> 00:15:34,320
مندیم نگاه کنیم و سپس
425
00:15:34,320 –> 00:15:37,360
مقادیر منحصر به فرد را چاپ می کنیم
426
00:15:37,360 –> 00:15:39,519
و دوباره می بینیم که foul حاوی
427
00:15:39,519 –> 00:15:40,720
ترکیبی از اعداد است
428
00:15:40,720 –> 00:15:43,920
که تشخیص های مختلف را
429
00:15:43,920 –> 00:15:46,560
برای اسکن قلب تالیوم
430
00:15:46,560 –> 00:15:47,040
نشان می دهد و علامت های سوالی
431
00:15:47,040 –> 00:15:50,399
که نشان دهنده اشتباه متفاوت
432
00:15:50,399 –> 00:15:52,560
مقادیر از دست رفته است.
433
00:15:52,560 –> 00:15:54,399
اکنون که
434
00:15:54,399 –> 00:15:57,519
مقادیری از دست رفته را شناسایی کردهایم، باید با آنها مقابله کنیم
435
00:15:57,519 –> 00:16:00,959
و این ما را به دادههای
436
00:16:00,959 –> 00:16:05,360
از دست رفته سوق میدهد، بخش دوم که با دادههای از دست رفته سروکار دارد،
437
00:16:05,360 –> 00:16:08,800
زیرا scikit یاد میگیرد که درختهای طبقهبندی
438
00:16:08,800 –> 00:16:11,199
از مجموعه دادههایی با مقادیر گمشده پشتیبانی نمیکنند،
439
00:16:11,199 –> 00:16:12,240
440
00:16:12,240 –> 00:16:13,759
باید بفهمیم با چه کاری باید انجام دهیم.
441
00:16:13,759 –> 00:16:15,680
این علامتهای سؤال را
442
00:16:15,680 –> 00:16:17,519
میتوانیم این بیماران را از
443
00:16:17,519 –> 00:16:18,959
مجموعه دادههای آموزشی حذف کنیم
444
00:16:18,959 –> 00:16:21,839
یا دادههای از دست رفته را نسبت دهیم یا
445
00:16:21,839 –> 00:16:23,920
مقادیری را برای دادههای از دست رفته درج کنیم،
446
00:16:23,920 –> 00:16:25,680
بنابراین ابتدا میخواهیم ببینیم چند
447
00:16:25,680 –> 00:16:28,800
ردیف حاوی مقادیر گمشده هستند و
448
00:16:28,800 –> 00:16:30,720
میخواهیم آنها را بشماریم.
449
00:16:30,720 –> 00:16:32,320
تعداد ردیفها، بنابراین از لنزی استفاده میکنیم
450
00:16:32,320 –> 00:16:34,959
که مختص تابع طول
451
00:16:34,959 –> 00:16:38,399
است و
452
00:16:38,399 –> 00:16:42,240
با این خط میخواهیم به ردیفهای
453
00:16:42,240 –> 00:16:46,160
um در t نگاه کنیم. او قاب داده مکانی است
454
00:16:46,160 –> 00:16:49,199
که این
455
00:16:49,199 –> 00:16:52,959
درست است، بنابراین آیا یک علامت سوال
456
00:16:52,959 –> 00:16:56,000
برای مقدار ca وجود دارد یا یک
457
00:16:56,000 –> 00:16:58,959
لوله است که نشان دهنده یک منطقی یا
458
00:16:58,959 –> 00:17:01,920
بیتی یا
459
00:17:01,920 –> 00:17:05,119
uh است یا ما ردیف هایی را می خواهیم که
460
00:17:05,119 –> 00:17:06,559
علامت سوال دارند
461
00:17:06,559 –> 00:17:09,199
uh در نقطه خطا بنابراین ما
462
00:17:09,199 –> 00:17:09,839
این کد را اجرا می
463
00:17:09,839 –> 00:17:12,240
464
00:17:12,880 –> 00:17:15,119
کنیم و می بینیم که فقط شش ردیف
465
00:17:15,119 –> 00:17:16,799
وجود دارد که مقادیر کم دارند
466
00:17:16,799 –> 00:17:18,319
و از آنجایی که این مقدار زیاد نیست،
467
00:17:18,319 –> 00:17:19,520
فقط آنها را چاپ می کنیم، بنابراین
468
00:17:19,520 –> 00:17:21,599
دقیقاً همان کدی را که می خواهیم اجرا کنیم.
469
00:17:21,599 –> 00:17:22,559
اجرا
470
00:17:22,559 –> 00:17:25,039
شد اما قرار نیست آن را در
471
00:17:25,039 –> 00:17:27,199
تابع طول یا تابع len
472
00:17:27,199 –> 00:17:28,480
قرار دهیم، بنابراین
473
00:17:28,480 –> 00:17:30,240
تعداد ردیفهایی را که قرار است آنها را چاپ کنیم،
474
00:17:30,240 –> 00:17:33,760
نمیشماریم، بنابراین اجازه دهید اجرا کنیم که
475
00:17:33,760 –> 00:17:37,840
در اینجا
476
00:17:37,840 –> 00:17:39,840
ما میتوانیم ببینیم یک علامت سوال اینجا در
477
00:17:39,840 –> 00:17:41,840
ستون خطا یک علامت سوال در اینجا
478
00:17:41,840 –> 00:17:43,440
علامت سوال
479
00:17:43,440 –> 00:17:45,600
480
00:17:45,600 –> 00:17:47,440
481
00:17:47,440 –> 00:17:48,720
482
00:17:48,720 –> 00:17:52,080
483
00:17:52,080 –> 00:17:53,760
اینجا بلاههههههههههههههههههههههه بسیاری از ردیف ها
484
00:17:53,760 –> 00:17:55,919
در مجموعه داده کامل هستند، بنابراین ما
485
00:17:55,919 –> 00:17:57,120
دوباره از آن تابع طول استفاده می کنیم
486
00:17:57,120 –> 00:17:58,720
فقط این بار مشخص نمیکنیم که
487
00:17:58,720 –> 00:18:00,799
کدام ردیفها را میخواهیم نگاه کنیم، فقط
488
00:18:00,799 –> 00:18:01,360
میگوییم
489
00:18:01,360 –> 00:18:04,400
بیایید همه ردیفها را بشماریم
490
00:18:04,400 –> 00:18:07,600
وقتی این کار را انجام میدهیم که میبینیم 303
491
00:18:07,600 –> 00:18:08,720
ردیف داریم
492
00:18:08,720 –> 00:18:12,559
و بنابراین 6 ردیف از 303 ردیف 2 درصد
493
00:18:12,559 –> 00:18:16,799
از دست رفته هستند. مقادیر و از آنجایی که 297
494
00:18:16,799 –> 00:18:18,080
هنوز اطلاعات زیادی دارد،
495
00:18:18,080 –> 00:18:20,559
برای ساختن این
496
00:18:20,559 –> 00:18:22,000
درخت طبقه بندی، به جای اینکه سعی کنیم مقادیر آنها را نسبت دهیم
497
00:18:22,000 –> 00:18:22,720
498
00:18:22,720 –> 00:18:25,280
، سطرهایی را حذف می کنیم که مقادیر
499
00:18:25,280 –> 00:18:27,200
از
500
00:18:27,200 –> 00:18:30,799
501
00:18:30,799 –> 00:18:33,280
دست رفته را حذف کنیم.
502
00:18:33,280 –> 00:18:35,200
وبینار،
503
00:18:35,200 –> 00:18:35,760
زیرا
504
00:18:35,760 –> 00:18:38,240
راههای زیادی برای انجام آن وجود دارد، تفاوتهای ظریف زیادی وجود دارد
505
00:18:38,240 –> 00:18:39,440
506
00:18:39,440 –> 00:18:43,840
و بنابراین، در لیست کارهای من
507
00:18:44,080 –> 00:18:47,120
برای اینکه وبینار بعدی قرار است انجام شود،
508
00:18:47,120 –> 00:18:49,200
بسیار بالاست.
509
00:18:49,200 –> 00:18:50,799
510
00:18:50,799 –> 00:18:51,200
511
00:18:51,200 –> 00:18:53,360
میتوانیم روی چیزی که امروز میخواهیم
512
00:18:53,360 –> 00:18:55,120
درباره آن صحبت کنیم، یعنی
513
00:18:55,120 –> 00:18:56,640
درختهای تصمیم، متمرکز بمانیم، زیرا هنوز
514
00:18:56,640 –> 00:19:00,799
چیزهای زیادی برای صحبت با درختهای تصمیم داریم،
515
00:19:00,960 –> 00:19:02,240
بنابراین کاری که میخواهیم انجام دهیم این است که
516
00:19:02,240 –> 00:19:04,320
517
00:19:04,320 –> 00:19:06,720
با انتخاب همه، ردیفهای دارای مقادیر گمشده را حذف کنیم. از ردیف هایی که انجام می دهند
518
00:19:06,720 –> 00:19:09,520
در ستونهای ca یا ستونهای خطا شامل علامتهای سوال نیست،
519
00:19:09,520 –> 00:19:10,080
520
00:19:10,080 –> 00:19:13,280
بنابراین به نظر میرسد که
521
00:19:13,280 –> 00:19:15,200
بسیار شبیه به کدی است
522
00:19:15,200 –> 00:19:16,799
که فقط زمانی که میخواستیم سطرها را چاپ کنیم، اجرا میکردیم
523
00:19:16,799 –> 00:19:18,000
524
00:19:18,000 –> 00:19:20,559
، اما به جای جستجوی
525
00:19:20,559 –> 00:19:21,520
526
00:19:21,520 –> 00:19:25,200
ردیفهایی که دارای علامت سوال هستند، ما
527
00:19:25,200 –> 00:19:26,960
به دنبال ردیفهایی میگردیم
528
00:19:26,960 –> 00:19:29,919
که با هم مطابقت ندارند
529
00:19:29,919 –> 00:19:31,039
530
00:19:31,039 –> 00:19:33,039
و میخواهیم این کار را برای هر دو
531
00:19:33,039 –> 00:19:34,559
ستون uh انجام
532
00:19:34,559 –> 00:19:38,160
دهیم و میخواهیم از منطقی استفاده کنیم و
533
00:19:38,160 –> 00:19:41,440
تمام ردیفهایی را که علامت سؤال ندارند به دست آوریم.
534
00:19:41,440 –> 00:19:45,120
در اینجا یا اینجا
535
00:19:45,120 –> 00:19:48,559
ما همه چیز را میخواهیم به جز آن ردیفها،
536
00:19:48,559 –> 00:19:52,160
بنابراین آن را اجرا میکنیم
537
00:19:52,160 –> 00:19:54,960
و since و به هر حال
538
00:19:54,960 –> 00:19:56,720
539
00:19:56,720 –> 00:20:00,240
، نتایج را در یک متغیر جدید به نام df ذخیره کردیم،
540
00:20:00,240 –> 00:20:02,480
بنابراین این قاب داده ما
541
00:20:02,480 –> 00:20:04,720
بدون مقادیر از دست رفته است
542
00:20:04,720 –> 00:20:07,760
و از آنجایی که uh df no missing شش
543
00:20:07,760 –> 00:20:09,600
ردیف کمتر در قاب داده اصلی دارد،
544
00:20:09,600 –> 00:20:11,679
باید 297
545
00:20:11,679 –> 00:20:14,880
ردیف داشته باشد، میتوانیم تأیید کنیم که
546
00:20:14,880 –> 00:20:18,159
با این دستور اوه و میبینیم که متوجه
547
00:20:18,159 –> 00:20:22,480
شدیم ریاضی کار میکند.
548
00:20:22,480 –> 00:20:25,039
549
00:20:25,039 –> 00:20:26,559
550
00:20:26,559 –> 00:20:28,400
دیگر شامل علامت سوال f نیست یا
551
00:20:28,400 –> 00:20:30,080
مقادیر منحصر به فرد خود را چاپ می کنیم،
552
00:20:30,080 –> 00:20:32,559
بنابراین این دقیقاً مانند کاری است که قبلا انجام می دادیم،
553
00:20:32,559 –> 00:20:34,480
اما این بار
554
00:20:34,480 –> 00:20:38,159
به جای uh just df به تنهایی، df no missing را فراخوانی می
555
00:20:38,159 –> 00:20:40,640
556
00:20:41,120 –> 00:20:44,000
کنیم و می بینیم که فقط اعداد داریم و
557
00:20:44,000 –> 00:20:45,520
هیچ علامت سؤالی در اینجا وجود ندارد، بنابراین خوب است که
558
00:20:45,520 –> 00:20:46,640
559
00:20:46,640 –> 00:20:48,159
اکنون ما همان کار را برای
560
00:20:48,159 –> 00:20:50,480
thal انجام خواهیم داد
561
00:20:50,480 –> 00:20:52,000
و دوباره میبینیم که فقط
562
00:20:52,000 –> 00:20:54,080
اعداد را
563
00:20:54,080 –> 00:20:57,200
داریم، بنابراین تأیید کردهایم که فریم داده وجود ندارد
564
00:20:57,200 –> 00:20:58,240
565
00:20:58,240 –> 00:21:00,480
یا فریم دادهای بدون مقادیر از دست رفته
566
00:21:00,480 –> 00:21:02,000
حاوی
567
00:21:02,000 –> 00:21:05,840
مقادیر گمشده نیست.
568
00:21:05,840 –> 00:21:08,960
نوع داده شی که
569
00:21:08,960 –> 00:21:12,640
اشکالی ندارد، اکنون آماده هستیم که داده ها را
570
00:21:12,640 –> 00:21:17,840
برای ساختن درخت طبقه بندی قالب بندی
571
00:21:19,520 –> 00:21:23,440
کنیم، اولین کاری که باید
572
00:21:23,440 –> 00:21:26,000
هنگام قالب بندی داده ها برای
573
00:21:26,000 –> 00:21:28,080
درخت طبقه بندی انجام دهیم،
574
00:21:28,080 –> 00:21:31,919
تقسیم داده ها به دو قسمت است
575
00:21:31,919 –> 00:21:34,400
که می خواهیم ستون ها را داشته باشیم. از دادههایی که
576
00:21:34,400 –> 00:21:35,919
برای
577
00:21:35,919 –> 00:21:38,159
طبقهبندی استفاده خواهیم کرد و میخواهیم
578
00:21:38,159 –> 00:21:39,039
ستونی
579
00:21:39,039 –> 00:21:41,840
از دادهها را که میخواهیم با
580
00:21:41,840 –> 00:21:43,760
دادههای اینجا پیشبینی
581
00:21:43,760 –> 00:21:45,200
کنیم و میخواهیم از
582
00:21:45,200 –> 00:21:46,799
نماد متعارف بزرگ
583
00:21:46,799 –> 00:21:49,600
x برای نشان دادن ستونهایی استفاده کنیم که
584
00:21:49,600 –> 00:21:51,360
برای m استفاده میکنیم. با توجه به طبقه بندی ها و
585
00:21:51,360 –> 00:21:52,640
پیش بینی ها
586
00:21:52,640 –> 00:21:55,760
و حروف کوچک y برای نشان دادن چیزی
587
00:21:55,760 –> 00:21:57,280
که می خواهیم پیش بینی کنیم
588
00:21:57,280 –> 00:22:00,320
در این مورد، می خواهیم hd
589
00:22:00,320 –> 00:22:00,960
ستون
590
00:22:00,960 –> 00:22:03,120
مشخص شده توسط hd که مختصر بیماری قلبی
591
00:22:03,120 –> 00:22:05,520
است
592
00:22:05,520 –> 00:22:07,679
و دلیل اینکه چرا
593
00:22:07,679 –> 00:22:09,520
قبل از تقسیم آن به x با داده های از دست رفته مواجه می شویم، پیش بینی کنیم
594
00:22:09,520 –> 00:22:12,559
. و y این است که اگر ما نیاز به
595
00:22:12,559 –> 00:22:13,120
حذف
596
00:22:13,120 –> 00:22:16,000
ردیفها داشته باشیم، پس از آن تقسیم میشود، اطمینان حاصل میکند که
597
00:22:16,000 –> 00:22:17,200
هر ردیف و
598
00:22:17,200 –> 00:22:20,480
x به درستی با یک ردیف مطابقت دارند و
599
00:22:20,480 –> 00:22:20,960
y
600
00:22:20,960 –> 00:22:22,559
اگر این کار را برعکس انجام دهیم،
601
00:22:22,559 –> 00:22:27,200
همه چیز با هم مخلوط میشود،
602
00:22:27,200 –> 00:22:29,120
بنابراین چه کاری انجام میدهیم. آیا ما
603
00:22:29,120 –> 00:22:32,080
قصد داریم تمام سطرها را کپی کنیم،
604
00:22:32,080 –> 00:22:34,640
ببخشید همه ستون ها به جز
605
00:22:34,640 –> 00:22:35,520
606
00:22:35,520 –> 00:22:39,760
ستونی که hd نام دارد
607
00:22:39,760 –> 00:22:41,600
و من چند راه جایگزین برای انجام
608
00:22:41,600 –> 00:22:43,039
این کد دارم
609
00:22:43,039 –> 00:22:45,039
تا بتوانید با آن بازی کنید
610
00:22:45,039 –> 00:22:46,960
هنگامی که دفترچه یادداشت مشتری را دریافت کردید
611
00:22:46,960 –> 00:22:48,080
و سپس کاری که ما میخواهیم انجام دهیم این است که یک بار
612
00:22:48,080 –> 00:22:50,000
613
00:22:50,000 –> 00:22:51,760
همه چیز را کپی میکنیم، به جز hd، به
614
00:22:51,760 –> 00:22:53,840
پنج ردیف اول نگاه میکنیم تا مطمئن
615
00:22:53,840 –> 00:22:56,320
شویم که این کار را به درستی انجام دادهایم،
616
00:22:56,320 –> 00:22:58,240
بنابراین میرویم و در در
617
00:22:58,240 –> 00:22:59,919
سمت راست جایی که دیگر نداریم این
618
00:22:59,919 –> 00:23:00,640
619
00:23:00,640 –> 00:23:04,880
ستون به نام hd خوب جواب داد
620
00:23:04,880 –> 00:23:07,600
و حالا ما فقط میخواهیم
621
00:23:07,600 –> 00:23:08,400
ستون hd
622
00:23:08,400 –> 00:23:13,600
را در متغیر جدید خود به نام
623
00:23:15,280 –> 00:23:18,720
y کپی کنیم، بسیار خوب حالا که
624
00:23:18,720 –> 00:23:21,039
x را ایجاد کردهایم که دادههایی را دارد که میخواهیم از آن
625
00:23:21,039 –> 00:23:22,400
استفاده کنیم. پیشبینیها
626
00:23:22,400 –> 00:23:25,280
و y که دادههایی را دارد که میخواهیم
627
00:23:25,280 –> 00:23:26,480
پیشبینی
628
00:23:26,480 –> 00:23:29,120
کنیم، ما آمادهایم به قالببندی x ادامه دهیم تا
629
00:23:29,120 –> 00:23:30,559
630
00:23:30,559 –> 00:23:34,000
برای ایجاد یک درخت تصمیم
631
00:23:34,640 –> 00:23:37,600
مناسب باشد، در اینجا به قسمت
632
00:23:37,600 –> 00:23:38,080
633
00:23:38,080 –> 00:23:40,799
سرگرمکننده یک میرسیم که بسیاری از شما ممکن است
634
00:23:40,799 –> 00:23:43,200
قبلاً بدانید کدام یک رمزگذاری داغ این است که
635
00:23:43,200 –> 00:23:45,200
اگر نگران نباشید این
636
00:23:45,200 –> 00:23:46,640
چیزی است که ما به
637
00:23:46,640 –> 00:23:51,039
طور مفصل
638
00:23:51,039 –> 00:23:52,880
به
639
00:23:52,880 –> 00:23:54,799
آن می پردازیم اکنون باید قاب داده
640
00:23:54,799 –> 00:23:56,240
را به دو قسمت
641
00:23:56,240 –> 00:23:58,960
تقسیم کنیم که شامل داده های ما است. میخواهیم از آن
642
00:23:58,960 –> 00:23:59,440
برای طبقهبندی استفاده کنیم
643
00:23:59,440 –> 00:24:02,320
و چرا که شامل
644
00:24:02,320 –> 00:24:04,159
طبقهبندیهای شناخته شده در
645
00:24:04,159 –> 00:24:05,760
مجموعه دادههای آموزشی
646
00:24:05,760 –> 00:24:07,360
ما است، باید به متغیرهای x نگاهی دقیقتر بیندازیم،
647
00:24:07,360 –> 00:24:09,520
648
00:24:09,520 –> 00:24:11,679
فهرست زیر به ما میگوید هر متغیر چه چیزی را
649
00:24:11,679 –> 00:24:13,840
نشان میدهد و نوع
650
00:24:13,840 –> 00:24:17,279
شناور یا دستهبندی دادهها باید
651
00:24:17,279 –> 00:24:21,279
um. اوه باید شامل شود
652
00:24:21,279 –> 00:24:25,120
خوب پس اوه اوه پس ما
653
00:24:25,120 –> 00:24:27,679
سن داریم آه که باید شناور باشد زیرا
654
00:24:27,679 –> 00:24:29,440
این می تواند هر عددی باشد
655
00:24:29,440 –> 00:24:31,600
و ما جنسیت داریم که باید
656
00:24:31,600 –> 00:24:33,360
مقوله ای باشد که باید
657
00:24:33,360 –> 00:24:35,200
مقدار صفر برای زنان و
658
00:24:35,200 –> 00:24:38,480
یک برای مردان باشد. درد قفسه سینه دارید
659
00:24:38,480 –> 00:24:40,159
که باید یک دسته باشد،
660
00:24:40,159 –> 00:24:42,240
ما چهار دسته مختلف داریم، بعداً با
661
00:24:42,240 –> 00:24:44,159
جزئیات بیشتر به آن دسته بندی
662
00:24:44,159 –> 00:24:45,440
663
00:24:45,440 –> 00:24:47,600
خواهیم پرداخت، اما در این لیست می بینیم
664
00:24:47,600 –> 00:24:49,120
که فشار خون در حالت استراحت داریم که فقط یک
665
00:24:49,120 –> 00:24:50,720
عدد است، بنابراین می خواهیم ادامه دهیم. برای ذخیره آن به عنوان یک
666
00:24:50,720 –> 00:24:52,000
667
00:24:52,000 –> 00:24:54,400
کلسترول سرم شناور، آن هم فقط یک
668
00:24:54,400 –> 00:24:56,480
عدد است، بنابراین یک عدد شناور است
669
00:24:56,480 –> 00:25:00,080
و سپس ما دسته ها و
670
00:25:00,080 –> 00:25:03,039
چیزهای مختلفی از این قبیل داریم، با این حال فقط
671
00:25:03,039 –> 00:25:05,039
مرور کنید،
672
00:25:05,039 –> 00:25:07,279
اجازه دهید به انواع داده ها در x نگاه کنیم تا به
673
00:25:07,279 –> 00:25:08,240
یاد بیاوریم
674
00:25:08,240 –> 00:25:10,559
که پایتون چگونه می بیند. داده ها به این صورت
675
00:25:10,559 –> 00:25:11,840
676
00:25:11,840 –> 00:25:14,559
باید در نظر گرفته شوند که برخی
677
00:25:14,559 –> 00:25:16,320
چیزها شناور هستند و برخی چیزها
678
00:25:16,320 –> 00:25:18,080
دسته بندی می شوند،
679
00:25:18,080 –> 00:25:21,520
اما وقتی به
680
00:25:21,520 –> 00:25:24,559
انواع xd یا انواع x نقطه d می رویم و می بینیم که
681
00:25:24,559 –> 00:25:27,600
هر ستون چه نوع داده ای دارد، می بینیم
682
00:25:27,600 –> 00:25:29,440
که بسیاری از این ها چیزهایی که
683
00:25:29,440 –> 00:25:31,679
قرار است دسته بندی
684
00:25:31,679 –> 00:25:34,480
شوند امم هستند
685
00:25:34,880 –> 00:25:38,480
مانند شیب قرار است یک دسته باشد،
686
00:25:38,480 –> 00:25:42,320
اما ما آن را به عنوان یک شناور ذخیره کرده ایم،
687
00:25:42,320 –> 00:25:44,720
خوب است، بنابراین برخی از آن ها مشکلی وجود دارد،
688
00:25:44,720 –> 00:25:46,640
689
00:25:46,640 –> 00:25:48,480
اما قبل از اینکه به
690
00:25:48,480 –> 00:25:49,679
مشکل برسیم، می خواهم بگویم که
691
00:25:49,679 –> 00:25:52,960
ما آن سن را در حال استراحت فشار خون می بینیم.
692
00:25:52,960 –> 00:25:55,760
کلسترول و لچ همگی شناور
693
00:25:55,760 –> 00:25:57,679
64 هستند که خوب است
694
00:25:57,679 –> 00:25:59,600
زیرا ما میخواهیم آنها اعداد ممیز شناور
695
00:25:59,600 –> 00:26:01,120
696
00:26:01,120 –> 00:26:02,640
باشند، این روشی است که قرار است دادهها
697
00:26:02,640 –> 00:26:05,679
همه ستونهای دیگر باشند، اما
698
00:26:05,679 –> 00:26:08,080
باید بررسی شوند تا مطمئن شویم که
699
00:26:08,080 –> 00:26:10,799
آنها فقط حاوی مقادیر معقول
700
00:26:10,799 –> 00:26:13,760
و مقداری هستند. آنها باید این را تغییر دهند
701
00:26:13,760 –> 00:26:14,559
زیرا در حالی که
702
00:26:14,559 –> 00:26:17,120
درختان تصمیم گیری Sikit-Learn به طور بومی
703
00:26:17,120 –> 00:26:19,039
از داده های پیوسته
704
00:26:19,039 –> 00:26:21,120
مانند فشار خون در حالت استراحت و حداکثر
705
00:26:21,120 –> 00:26:22,480
ضربان قلب
706
00:26:22,480 –> 00:26:25,279
پشتیبانی می کنند، اما به طور بومی از
707
00:26:25,279 –> 00:26:25,919
داده های طبقه بندی مانند
708
00:26:25,919 –> 00:26:28,480
درد قفسه سینه پشتیبانی نمی کنند که شامل چهار دسته مختلف است
709
00:26:28,480 –> 00:26:30,000
710
00:26:30,000 –> 00:26:32,640
بنابراین به منظور استفاده از داده های طبقه بندی شده
711
00:26:32,640 –> 00:26:34,720
با scikit -یادگیری درختان تصمیم
712
00:26:34,720 –> 00:26:36,880
باید از ترفندی استفاده کنیم که یک
713
00:26:36,880 –> 00:26:38,880
ستون با داده های طبقه بندی شده
714
00:26:38,880 –> 00:26:42,159
را به چندین ستون از مقادیر باینری تبدیل می کند
715
00:26:42,159 –> 00:26:44,240
و این ترفند یک ساعت نامیده می شود.
716
00:26:44,240 –> 00:26:46,720
717
00:26:46,720 –> 00:26:50,159
در این مرحله ممکن است از خود بپرسید
718
00:26:50,159 –> 00:26:52,480
چه اشکالی دارد که
719
00:26:52,480 –> 00:26:54,799
داده های طبقه بندی شده مانند داده های پیوسته را درمان
720
00:26:54,799 –> 00:26:56,720
کنیم و برای پاسخ به این
721
00:26:56,720 –> 00:26:59,120
سوال، نمونه ای را
722
00:26:59,120 –> 00:27:02,159
برای ستون درد قفسه سینه بررسی می کنیم، ما
723
00:27:02,159 –> 00:27:02,559
چهار
724
00:27:02,559 –> 00:27:06,080
گزینه داریم: یک آنژین معمولی
725
00:27:06,080 –> 00:27:09,279
دو آنژین غیر معمول
726
00:27:09,279 –> 00:27:12,960
سه
727
00:27:12,960 –> 00:27:16,480
اگر
728
00:27:16,480 –> 00:27:19,520
این مقادیر یک دو سه و چهار را مانند دادههای پیوسته در نظر بگیریم، اکنون اگر این مقادیر را یک دو سه و چهار بیعلامت
729
00:27:19,520 –> 00:27:21,120
730
00:27:21,120 –> 00:27:23,559
بدانیم، آنگاه فرض میکنیم که 4 که به معنی
731
00:27:23,559 –> 00:27:24,960
بدون علامت
732
00:27:24,960 –> 00:27:27,559
است، بیشتر شبیه به 3 است که به معنای
733
00:27:27,559 –> 00:27:29,360
درد غیر آنژینی
734
00:27:29,360 –> 00:27:31,919
است تا 1 یا 2.
735
00:27:31,919 –> 00:27:34,159
انواع دیگر درد قفسه سینه
736
00:27:34,159 –> 00:27:36,240
یعنی درخت تصمیم
737
00:27:36,240 –> 00:27:37,520
احتمال بیشتری دارد
738
00:27:37,520 –> 00:27:39,279
که بیماران چهار و سه
739
00:27:39,279 –> 00:27:41,760
تا را با هم جمع کند تا بیماران چهار و یک
740
00:27:41,760 –> 00:27:43,600
با هم،
741
00:27:43,600 –> 00:27:46,240
در مقابل اگر این اعداد را
742
00:27:46,240 –> 00:27:48,559
مانند داده های طبقه بندی کنیم، هر کدام را
743
00:27:48,559 –> 00:27:50,399
به عنوان یک دسته جداگانه در نظر می
744
00:27:50,399 –> 00:27:53,600
گیریم. کم و بیش شبیه به هیچ یک
745
00:27:53,600 –> 00:27:56,000
از دسته های دیگر نیست،
746
00:27:56,000 –> 00:27:58,480
بنابراین احتمال خوشه بندی
747
00:27:58,480 –> 00:27:59,120
بیماران
748
00:27:59,120 –> 00:28:01,440
با چهار و سه مثل
749
00:28:01,440 –> 00:28:03,039
خوشه بندی چهار و سه است. یکی
750
00:28:03,039 –> 00:28:05,039
و این رویکرد منطقی تر است
751
00:28:05,039 –> 00:28:06,799
تا حدی به این دلیل که من واقعاً نمی دانم
752
00:28:06,799 –> 00:28:07,600
753
00:28:07,600 –> 00:28:10,480
این معنی چیست، یکی و دو
754
00:28:10,480 –> 00:28:12,240
مورد مشابه ما هستند، نمی دانم زیرا
755
00:28:12,240 –> 00:28:13,120
نمی دانم
756
00:28:13,120 –> 00:28:16,480
از یک رمزگذاری داغ برای اجبار روانی استفاده خواهم کرد.
757
00:28:16,480 –> 00:28:18,399
بیاموزید که با این
758
00:28:18,399 –> 00:28:19,600
دادهها مانند دادههای طبقهبندی شده
759
00:28:19,600 –> 00:28:22,320
به جای
760
00:28:23,279 –> 00:28:26,880
دادههای پیوسته رفتار کنید، بنابراین اکنون اجازه دهید بررسی کنیم و در
761
00:28:26,880 –> 00:28:27,919
صورت نیاز
762
00:28:27,919 –> 00:28:29,600
ستونهایی را که حاوی
763
00:28:29,600 –> 00:28:31,919
دادههای طبقهبندی و عدد صحیح هستند به
764
00:28:31,919 –> 00:28:33,840
انواع دادههای صحیح تبدیل
765
00:28:33,840 –> 00:28:35,600
کنیم، با بررسی مقادیر منحصربهفرد آن با درد قفسه سینه شروع میکنیم،
766
00:28:35,600 –> 00:28:39,360
767
00:28:40,080 –> 00:28:43,279
بنابراین خبر خوب این است که درد قفسه سینه
768
00:28:43,279 –> 00:28:45,679
فقط حاوی مقادیری است که قرار
769
00:28:45,679 –> 00:28:46,960
است شامل
770
00:28:46,960 –> 00:28:50,320
یک دو سه و چهار باشد، بنابراین ما
771
00:28:50,320 –> 00:28:52,240
آن را با استفاده از یک رمزگذاری داغ
772
00:28:52,240 –> 00:28:54,000
به مجموعهای از ستونها تبدیل میکنیم که فقط
773
00:28:54,000 –> 00:28:57,360
حاوی صفر و یک هستند.
774
00:28:57,360 –> 00:29:00,559
توجه داشته باشید که توضیح طولانی در
775
00:29:00,559 –> 00:29:02,159
مورد روش های مختلف برای انجام
776
00:29:02,159 –> 00:29:05,600
یک کدگذاری داغ
777
00:29:05,600 –> 00:29:08,320
دو روش اصلی وجود دارد که یکی به نام
778
00:29:08,320 –> 00:29:08,799
779
00:29:08,799 –> 00:29:10,880
ترانسفورماتور ستونی از scikit Learn و
780
00:29:10,880 –> 00:29:14,080
دیگری به نام دریافت ساختگی از
781
00:29:14,080 –> 00:29:17,120
782
00:29:17,120 –> 00:29:17,600
783
00:29:17,600 –> 00:29:19,679
پانداها وجود دارد. امروز به این دلیل که فکر میکنم
784
00:29:19,679 –> 00:29:20,720
این بهترین راه برای
785
00:29:20,720 –> 00:29:22,200
آموزش
786
00:29:22,200 –> 00:29:23,840
[موسیقی] است
787
00:29:23,840 –> 00:29:25,600
که چگونه یک کدگذاری داغ را انجام دهد،
788
00:29:25,600 –> 00:29:27,440
فکر میکنم این بهترین راه برای
789
00:29:27,440 –> 00:29:28,159
آموزش آن است،
790
00:29:28,159 –> 00:29:30,960
اما ترانسفورماتور ستونی
791
00:29:30,960 –> 00:29:32,720
بیشتر در
792
00:29:32,720 –> 00:29:36,000
سیستمهای تولید استفاده میشود، پس مطمئن شوید که من
793
00:29:36,000 –> 00:29:36,480
با
794
00:29:36,480 –> 00:29:40,159
هر دو
795
00:29:40,159 –> 00:29:43,200
روش آشنا هستم و یک راه برای انجام این کار این است که فقط
796
00:29:43,200 –> 00:29:45,039
این نوشته را بخوانید که من در
797
00:29:45,039 –> 00:29:47,039
اختیار شما قرار داده ام همه مزایا
798
00:29:47,039 –> 00:29:49,120
و معایب روش های مختلف
799
00:29:49,120 –> 00:29:51,360
را در اختیار شما قرار می دهد تا در اوقات فراغت خود بتوانید از آن استفاده کنید.
800
00:29:51,360 –> 00:29:53,520
801
00:29:53,520 –> 00:29:56,720
با این حال، بنابراین ما میخواهیم
802
00:29:56,720 –> 00:29:58,480
از آدمکها استفاده کنیم،
803
00:29:58,480 –> 00:30:00,480
اوه، چون فکر میکنم برای
804
00:30:00,480 –> 00:30:01,679
آموزش
805
00:30:01,679 –> 00:30:04,159
به ما بهتر است، بنابراین کاری که میخواهیم انجام دهیم این است که
806
00:30:04,159 –> 00:30:05,840
با درد قفسه سینه شروع کنیم
807
00:30:05,840 –> 00:30:08,720
و فقط ببینیم وقتی چه اتفاقی میافتد
808
00:30:08,720 –> 00:30:09,440
809
00:30:09,440 –> 00:30:11,039
میتوانیم نوار قفسه سینه را تبدیل کنیم، این کار را
810
00:30:11,039 –> 00:30:13,120
بدون ذخیره کردن نتایج
811
00:30:13,120 –> 00:30:15,600
انجام میدهیم، فقط برای اینکه بتوانیم ببینیم که Dummies git چگونه
812
00:30:15,600 –> 00:30:16,320
کار میکند،
813
00:30:16,320 –> 00:30:17,600
بنابراین کاری که ما انجام میدهیم این است که
814
00:30:17,600 –> 00:30:19,440
از این تابع پاندا استفاده
815
00:30:19,440 –> 00:30:23,760
کنیم یا اینکه دادههایمان را ارسال
816
00:30:23,760 –> 00:30:25,520
کنیم. قاب داده ای که ما آن را x
817
00:30:25,520 –> 00:30:27,600
می نامیم، این همان داده ای است که ما از آن
818
00:30:27,600 –> 00:30:30,720
برای ma استفاده می کنیم پیشبینیهای ke و ما
819
00:30:30,720 –> 00:30:32,720
یک ستون را مشخص میکنیم، فقط
820
00:30:32,720 –> 00:30:35,120
ستون قفسه سینه را مشخص میکنیم، میتوانیم
821
00:30:35,120 –> 00:30:36,880
دستهای از ستونها را مشخص کنیم و همه آنها را به یکباره تبدیل کنیم،
822
00:30:36,880 –> 00:30:37,600
823
00:30:37,600 –> 00:30:38,960
اما در حال حاضر فقط میخواهیم
824
00:30:38,960 –> 00:30:41,279
قفسه سینه را مشخص
825
00:30:41,279 –> 00:30:43,520
کنیم و میرویم برای چاپ پنج سطر اول
826
00:30:43,520 –> 00:30:44,640
827
00:30:44,640 –> 00:30:47,120
برای دیدن اینکه چه کاری با ستون قفسه سینه
828
00:30:47,120 –> 00:30:48,000
829
00:30:48,000 –> 00:30:51,279
انجام می دهد، بنابراین اجازه دهید آن را اجرا
830
00:30:51,279 –> 00:30:52,960
کنیم و در چاپ بالا می توانیم ببینیم
831
00:30:52,960 –> 00:30:55,279
که git dummies همه ستون هایی
832
00:30:55,279 –> 00:30:56,240
را که
833
00:30:56,240 –> 00:31:00,159
پردازش نمی کند در جلو قرار می دهد و درد قفسه سینه را در قسمت جلو قرار می دهد.
834
00:31:00,159 –> 00:31:03,120
همینجا
835
00:31:03,120 –> 00:31:05,120
تمام شود، بنابراین هر چیزی که لمس نکردیم
836
00:31:05,120 –> 00:31:06,000
در سمت چپ باشد
837
00:31:06,000 –> 00:31:08,000
و هر چیزی که لمس
838
00:31:08,000 –> 00:31:09,679
کردیم فقط با درد قفسه سینه در سمت راست
839
00:31:09,679 –> 00:31:11,039
840
00:31:11,039 –> 00:31:13,360
بود، همچنین درد قفسه سینه را به چهار
841
00:31:13,360 –> 00:31:15,120
ستون تقسیم می کند،
842
00:31:15,120 –> 00:31:18,159
همانطور که انتظار داشتیم درد قفسه سینه را
843
00:31:18,159 –> 00:31:18,640
ایجاد کند
844
00:31:18,640 –> 00:31:22,399
1.0 برای هر بیماری که
845
00:31:22,399 –> 00:31:23,679
برای درد قفسه سینه یک نمره و
846
00:31:23,679 –> 00:31:26,720
برای همه بیماران دیگر
847
00:31:26,720 –> 00:31:30,799
درد قفسه سینه 2.0 یک است برای هر بیماری
848
00:31:30,799 –> 00:31:32,880
که دو نمره برای درد قفسه سینه گرفته و صفر
849
00:31:32,880 –> 00:31:35,039
برای همه بیماران دیگر است، به
850
00:31:35,039 –> 00:31:37,600
همین ترتیب درد قفسه سینه سه و
851
00:31:37,600 –> 00:31:38,799
درد قفسه سینه چهار است
852
00:31:38,799 –> 00:31:42,080
و این حساب کاربری nts برای هر چهار
853
00:31:42,080 –> 00:31:46,799
گزینه متفاوتی که برای درد قفسه سینه داشتیم،
854
00:31:46,799 –> 00:31:49,600
بنابراین اکنون که میبینیم git dummies چگونه
855
00:31:49,600 –> 00:31:50,880
کار میکند، از آن
856
00:31:50,880 –> 00:31:53,600
در چهار ستون طبقهبندی که
857
00:31:53,600 –> 00:31:55,200
بیش از دو دسته دارند استفاده
858
00:31:55,200 –> 00:31:56,720
میکنیم و این بار نتیجه را ذخیره میکنیم.
859
00:31:56,720 –> 00:31:57,919
ما فقط قرار نیست آن
860
00:31:57,919 –> 00:31:59,279
را
861
00:31:59,279 –> 00:32:02,559
در یک موقعیت واقعی چاپ کنیم، و نه
862
00:32:02,559 –> 00:32:03,760
آموزشی مانند این،
863
00:32:03,760 –> 00:32:06,159
آنچه شما باید انجام دهید این است که تأیید کنید که تمام
864
00:32:06,159 –> 00:32:08,080
این پنج ستون
865
00:32:08,080 –> 00:32:11,120
فقط شامل دستههای پذیرفته شده هستند
866
00:32:11,120 –> 00:32:14,080
، احساس میکنم هر مجموعه دادهای که تا به حال داشتهام
867
00:32:14,080 –> 00:32:15,360
868
00:32:15,360 –> 00:32:18,080
همیشه یک نفر دارد که چیزی کاملا تصادفی تایپ می
869
00:32:18,080 –> 00:32:19,120
کند
870
00:32:19,120 –> 00:32:22,159
و ما باید از شر آن چیزها خلاص شویم،
871
00:32:22,159 –> 00:32:24,000
بنابراین از این تابع منحصر به فرد
872
00:32:24,000 –> 00:32:25,760
استفاده کنید تا مطمئن شوید که هر یک از
873
00:32:25,760 –> 00:32:29,200
این ستون ها به درستی قالب بندی شده اند،
874
00:32:29,200 –> 00:32:31,760