در این مطلب، ویدئو انجام تجزیه و تحلیل داده های اکتشافی با استفاده از پایتون | آموزش علوم داده | ادورکا | ML Rewind – 3 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:29:58
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:12,160 –> 00:00:13,679
سلام به همه این وسیم از
2
00:00:13,679 –> 00:00:15,599
edureka است و من به همه شما خوش آمد می گویم به این
3
00:00:15,599 –> 00:00:17,199
جلسه که در آن من قصد دارم در
4
00:00:17,199 –> 00:00:19,600
مورد تجزیه و تحلیل داده های اکتشافی در
5
00:00:19,600 –> 00:00:21,439
پایتون صحبت کنم، بنابراین بیایید ابتدا به
6
00:00:21,439 –> 00:00:23,680
دستور کار این جلسه نگاهی بیندازیم، من
7
00:00:23,680 –> 00:00:25,359
می خواهم توضیح دهم که دقیقاً چه چیزی
8
00:00:25,359 –> 00:00:28,240
اکتشافی است. تجزیه و تحلیل داده ها است و سپس ما
9
00:00:28,240 –> 00:00:30,400
به سمت کل هدف
10
00:00:30,400 –> 00:00:32,880
انجام eda بر روی هر مجموعه داده
11
00:00:32,880 –> 00:00:34,640
پیش می رویم، تمام
12
00:00:34,640 –> 00:00:36,320
مراحلی را که در کل
13
00:00:36,320 –> 00:00:39,280
فرآیند تجزیه و تحلیل داده های اکتشافی دخیل هستند را مورد بحث قرار
14
00:00:39,280 –> 00:00:41,440
می دهیم و در نهایت eda را بر روی یک
15
00:00:41,440 –> 00:00:42,960
مجموعه داده از
16
00:00:42,960 –> 00:00:44,160
من امیدوارم که اکنون بدون هیچ مقدمه ای
17
00:00:44,160 –> 00:00:45,200
دستور کار را روشن کرده
18
00:00:45,200 –> 00:00:47,360
باشید، اجازه دهید
19
00:00:47,360 –> 00:00:48,559
جلسه خود را شروع کنیم،
20
00:00:48,559 –> 00:00:50,800
بنابراین تجزیه و تحلیل داده های اکتشافی دقیقاً
21
00:00:50,800 –> 00:00:52,000
تجزیه و
22
00:00:52,000 –> 00:00:54,079
تحلیل داده های اکتشافی چیست یا به زبان ساده
23
00:00:54,079 –> 00:00:56,559
می توانیم آن را به عنوان eda نیز نام ببریم، چیزی
24
00:00:56,559 –> 00:00:58,719
جز یک تکنیک اکتشاف داده برای
25
00:00:58,719 –> 00:01:01,600
درک نیست. جنبه های مختلف
26
00:01:01,600 –> 00:01:03,280
داده شامل چندین تکنیک در یک
27
00:01:03,280 –> 00:01:06,080
توالی است که باید آنها را دنبال کنیم و خوب است
28
00:01:06,080 –> 00:01:07,680
که بعداً در مورد آن تکنیک ها
29
00:01:07,680 –> 00:01:10,080
در جلسه یاد خواهیم گرفت اما
30
00:01:10,080 –> 00:01:11,920
هدف یا کل هدف
31
00:01:11,920 –> 00:01:14,320
درک داده ها است و
32
00:01:14,320 –> 00:01:16,240
درک داده ها می تواند چیزهای زیادی باشد وقتی که
33
00:01:16,240 –> 00:01:18,479
در حال کاوش در داده ها هستیم، بنابراین موارد کمی
34
00:01:18,479 –> 00:01:19,920
را باید در حین کاوش داده ها در نظر داشته باشیم،
35
00:01:19,920 –> 00:01:22,000
مانند اینکه باید مطمئن شویم که
36
00:01:22,000 –> 00:01:24,240
داده ها هستند. تمیز است و هیچ
37
00:01:24,240 –> 00:01:26,320
افزونگی یا مقادیر مفقود یا حتی
38
00:01:26,320 –> 00:01:28,720
مقادیر تهی در مجموعه داده ندارد و
39
00:01:28,720 –> 00:01:30,320
باید مطمئن شویم که
40
00:01:30,320 –> 00:01:32,799
متغیرهای مهم در مجموعه داده را شناسایی کرده و
41
00:01:32,799 –> 00:01:34,720
تمام نویزهای غیر ضروری در
42
00:01:34,720 –> 00:01:36,880
داده ها را که ممکن است در واقع مانع از
43
00:01:36,880 –> 00:01:39,040
صحت نتیجهگیریهای خود را هنگامی که
44
00:01:39,040 –> 00:01:40,400
بر روی ساخت مدل کار
45
00:01:40,400 –> 00:01:42,560
میکنیم و باید رابطه
46
00:01:42,560 –> 00:01:45,280
بین متغیرها را از طریق eda درک کنیم و در
47
00:01:45,280 –> 00:01:47,040
آخر باید
48
00:01:47,040 –> 00:01:49,520
بتوانیم نتیجهگیری کنیم یا بینشهایی
49
00:01:49,520 –> 00:01:51,360
در مورد دادهها برای
50
00:01:51,360 –> 00:01:53,360
تفسیر قطعی جمعآوری کنیم تا
51
00:01:53,360 –> 00:01:55,439
به فرآیندهای پیچیدهتر برویم.
52
00:01:55,439 –> 00:01:57,040
چرخه حیات پردازش دادهها
53
00:01:57,040 –> 00:01:58,560
اکنون اجازه دهید
54
00:01:58,560 –> 00:02:01,680
هدف eda در کاوش داده را درک
55
00:02:01,680 –> 00:02:04,320
کنیم، ایده اصلی این است که مطمئن
56
00:02:04,320 –> 00:02:06,880
شویم دادههای بعد از eda هستند.
57
00:02:06,880 –> 00:02:09,119
منظورم این است که دادهها باید
58
00:02:09,119 –> 00:02:10,800
عاری از همه وابستگیها از جمله
59
00:02:10,800 –> 00:02:12,800
مقادیر null و همه آن چیزها
60
00:02:12,800 –> 00:02:14,640
باشند، بنابراین میتوانیم آن را به دو هدف اصلی و
61
00:02:14,640 –> 00:02:16,959
اساسی برای اجرای eda محدود کنیم،
62
00:02:16,959 –> 00:02:19,599
بنابراین هدف اول این است که eda به ما در
63
00:02:19,599 –> 00:02:21,680
شناسایی نقاط معیوب کمک میکند. در داده ها
64
00:02:21,680 –> 00:02:23,360
و اگر نقاط معیوب را شناسایی
65
00:02:23,360 –> 00:02:25,360
کرده اید، می توانید به راحتی آنها را حذف کرده
66
00:02:25,360 –> 00:02:27,200
و داده های خود را پاک کنید
67
00:02:27,200 –> 00:02:30,080
و هدف بعدی این است که eda به
68
00:02:30,080 –> 00:02:31,840
ما کمک کند تا رابطه بین متغیرها را درک کنیم
69
00:02:31,840 –> 00:02:34,239
که به ما
70
00:02:34,239 –> 00:02:36,480
دید وسیع تری از داده ها می دهد
71
00:02:36,480 –> 00:02:38,640
و در واقع به ما کمک می کند. با
72
00:02:38,640 –> 00:02:40,400
استفاده از رابطه بین متغیرها بر روی آن بسازید،
73
00:02:40,400 –> 00:02:41,680
74
00:02:41,680 –> 00:02:43,519
بنابراین اینها اهداف اصلی
75
00:02:43,519 –> 00:02:46,160
اجرای eda بر روی هر داده ای هستند،
76
00:02:46,160 –> 00:02:47,840
اکنون اجازه دهید
77
00:02:47,840 –> 00:02:50,640
به مراحل پیش برویم و نگاهی به مراحل مربوط به eda بیندازیم، بنابراین اینها
78
00:02:50,640 –> 00:02:52,959
مراحل اساسی هستند که درگیر هستند، بنابراین
79
00:02:52,959 –> 00:02:55,519
من فقط چند نکته اصلی را برجسته کنید،
80
00:02:55,519 –> 00:02:57,840
اگرچه مانند هر مرحله، چندین
81
00:02:57,840 –> 00:03:00,319
ویژگی دیگر نیز وجود دارد، بنابراین
82
00:03:00,319 –> 00:03:01,920
در حالی که در حال کار بر
83
00:03:01,920 –> 00:03:03,599
روی راه های نمایشی
84
00:03:03,599 –> 00:03:05,760
در ابتدا و پایه اولیه هستیم، به آنها نگاهی خواهیم انداخت. p برای
85
00:03:05,760 –> 00:03:08,159
درک متغیرهای مجموعه داده است،
86
00:03:08,159 –> 00:03:10,000
بنابراین باید کاملاً مطمئن
87
00:03:10,000 –> 00:03:11,760
باشید که چه نوع دادههایی را
88
00:03:11,760 –> 00:03:13,760
روی متغیرهایی مانند تعداد ستونها و
89
00:03:13,760 –> 00:03:16,080
ردیفها کار میکنید و واقعاً چگونه به نظر میرسد، بنابراین
90
00:03:16,080 –> 00:03:17,840
این اولین قدم شما پس از آن است.
91
00:03:17,840 –> 00:03:19,760
بارگذاری داده ها در برنامه خود،
92
00:03:19,760 –> 00:03:21,760
سپس مرحله بعدی پاک کردن داده ها
93
00:03:21,760 –> 00:03:24,159
از افزونگی ها است، حالا افزونگی ها
94
00:03:24,159 –> 00:03:26,560
می توانند بی نظمی در داده ها باشند، می
95
00:03:26,560 –> 00:03:28,720
توانند برخی از متغیرها یا ستون هایی
96
00:03:28,720 –> 00:03:30,799
باشند که برای
97
00:03:30,799 –> 00:03:32,879
نتیجه گیری یا تفسیر ما ضروری نیستند، بنابراین ما می
98
00:03:32,879 –> 00:03:35,040
توانیم آنها را حذف کنیم. یا نقاط دورافتاده وجود دارد
99
00:03:35,040 –> 00:03:38,319
که میتواند باعث ایجاد نویز در دادهها شود
100
00:03:38,319 –> 00:03:40,480
یا میدانید که ممکن
101
00:03:40,480 –> 00:03:42,000
است زمانی که ما بر روی ساختمان مدل کار میکنیم بیش از حد یا کمتر از آن به مدل برسد،
102
00:03:42,000 –> 00:03:44,159
بنابراین این دومین
103
00:03:44,159 –> 00:03:45,920
قدم است که بچهها باید دادهها را پاک کنیم
104
00:03:45,920 –> 00:03:48,080
تا به جلو برویم و آخرین اما مهم نیست
105
00:03:48,080 –> 00:03:49,840
که ما باید رابطه بین متغیرها را تجزیه و تحلیل کنیم
106
00:03:49,840 –> 00:03:52,159
،
107
00:03:52,159 –> 00:03:54,319
بنابراین اجازه دهید به قسمت سرگرم کننده آن برویم،
108
00:03:54,319 –> 00:03:56,720
بنابراین کاری که اکنون انجام خواهم داد،
109
00:03:56,720 –> 00:03:58,480
به سمت دفترچه یادداشت jupiter
110
00:03:58,480 –> 00:04:00,879
می روم و روی یک نسخه آزمایشی کار می کنم. میتوان مجموعهای از دادهها را از
111
00:04:00,879 –> 00:04:03,439
kaggle گرفته و eda را روی آن اجرا کرد، بنابراین
112
00:04:03,439 –> 00:04:05,680
بیایید آن را به نوتبوک jupiter ببریم،
113
00:04:05,680 –> 00:04:07,280
بنابراین من قبلاً این نوتبوک
114
00:04:07,280 –> 00:04:09,599
را باز کردهام و اگر از قبل نمیدانید چگونه
115
00:04:09,599 –> 00:04:11,280
در نوتبوک jupyter کار کنید، یک
116
00:04:11,280 –> 00:04:13,200
آموزش کامل در مورد آن داریم. نحوه کار با
117
00:04:13,200 –> 00:04:14,879
نوت بوک ژوپیتر، می توانید آن را در صفحه یوتیوب ما پیدا کنید،
118
00:04:14,879 –> 00:04:17,519
بچه ها، و اگر هنوز
119
00:04:17,519 –> 00:04:19,519
به دنبال میانبرهایی هستید، مانند اگر می خواهید
120
00:04:19,519 –> 00:04:22,079
بفهمید واقعا چگونه کار می کند،
121
00:04:22,079 –> 00:04:23,680
ما یک برگه تقلب نیز داریم که می
122
00:04:23,680 –> 00:04:25,680
توانید برای کار به آن مراجعه کنید.
123
00:04:25,680 –> 00:04:27,040
نوت بوک jupiter و اگر به
124
00:04:27,040 –> 00:04:28,400
نصب و همه چیزهایی که ما داریم
125
00:04:28,400 –> 00:04:30,720
آموزش آناکوندا را می بینید، بنابراین
126
00:04:30,720 –> 00:04:32,080
اولین کاری که باید انجام دهید این است
127
00:04:32,080 –> 00:04:33,600
که کتابخانه های خاصی را وارد کنید که به آنها
128
00:04:33,600 –> 00:04:36,479
نیاز خواهید داشت، بنابراین من پانداها را با
129
00:04:36,479 –> 00:04:39,120
نام مستعار pd وارد می کنم. من قصد دارم چند
130
00:04:39,120 –> 00:04:42,479
کتابخانه دیگر را وارد کنم که ممکن است به آنها نیاز داشته باشید،
131
00:04:42,479 –> 00:04:44,880
من قصد دارم c bond را برای
132
00:04:44,880 –> 00:04:46,479
نمایش بصری بچه ها وارد کنم، زیرا ما
133
00:04:46,479 –> 00:04:47,919
قرار است رابطه
134
00:04:47,919 –> 00:04:49,360
بین متغیرها را تجسم کنیم، بنابراین برای آن
135
00:04:49,360 –> 00:04:50,960
من از c bond استفاده می کنم
136
00:04:50,960 –> 00:04:52,880
بنابراین من این برنامه را اجرا می کنم m
137
00:04:52,880 –> 00:04:55,440
و این سلول در حال حاضر با موفقیت اجرا
138
00:04:55,440 –> 00:04:57,280
می شود، بچه ها مدتی طول می کشد، در
139
00:04:57,280 –> 00:04:58,639
140
00:04:58,639 –> 00:04:59,919
ضمن من فقط می خواهم به شما بگویم که
141
00:04:59,919 –> 00:05:01,919
چگونه می خواهیم به این موضوع نزدیک
142
00:05:01,919 –> 00:05:04,000
شویم.
143
00:05:04,000 –> 00:05:05,680
برای گرفتن این
144
00:05:05,680 –> 00:05:09,039
داده متغیر و من از کتابخانه pandas استفاده می کنم،
145
00:05:09,039 –> 00:05:12,880
بنابراین اول از همه اولین قدم این است که
146
00:05:13,840 –> 00:05:17,280
من باید
147
00:05:17,919 –> 00:05:20,960
مجموعه داده های خود را وارد کنم بچه ها، بنابراین این مکان
148
00:05:20,960 –> 00:05:24,759
مجموعه داده های من است
149
00:05:25,199 –> 00:05:29,039
و نام مجموعه داده Students.csv است.
150
00:05:30,639 –> 00:05:33,639
151
00:05:34,000 –> 00:05:35,840
بسیار خوب، ما فایل خطای خود را
152
00:05:35,840 –> 00:05:38,840
153
00:05:39,600 –> 00:05:41,280
پیدا نکردیم، بنابراین
154
00:05:41,280 –> 00:05:44,320
مجموعه داده های خود را با موفقیت وارد برنامه کردیم،
155
00:05:44,320 –> 00:05:46,160
بنابراین اولین قدم پس از
156
00:05:46,160 –> 00:05:48,800
بارگیری داده ها در برنامه خود این است که باید
157
00:05:48,800 –> 00:05:51,199
با
158
00:05:51,199 –> 00:05:53,360
درک متغیرهای داخل داده، داده ها را درک کنید. من
159
00:05:53,360 –> 00:05:55,199
فقط آن را به عنوان اولین نام می
160
00:05:55,199 –> 00:05:58,479
161
00:06:00,400 –> 00:06:03,600
162
00:06:05,440 –> 00:06:06,560
163
00:06:06,560 –> 00:06:09,039
گذارم، بنابراین اولین قدم درک داده ها است و من می خواهم
164
00:06:09,039 –> 00:06:11,199
پنج ردیف اول داده های خود را بررسی کنم، بنابراین
165
00:06:11,199 –> 00:06:13,440
این داده های من
166
00:06:13,440 –> 00:06:16,160
167
00:06:16,160 –> 00:06:19,039
است. شرکت آمادگی آزمون ناهار آموزش و پرورش
168
00:06:19,039 –> 00:06:21,759
نمره
169
00:06:21,759 –> 00:06:24,560
خواندن نمره ریاضی urse و آخرین نمره رایتینگ داریم،
170
00:06:24,560 –> 00:06:25,919
بنابراین اینها نمراتی هستند
171
00:06:25,919 –> 00:06:27,680
که در مجموعه داده های ما با
172
00:06:27,680 –> 00:06:29,360
نگاه کردن به آن مهم هستند، می توانم به شما بگویم که
173
00:06:29,360 –> 00:06:31,520
این مقادیر هستند که
174
00:06:31,520 –> 00:06:33,360
هنگام کار بر روی هر مدلی بسیار مهم خواهند بود.
175
00:06:33,360 –> 00:06:35,759
یا فرضیات یا
176
00:06:35,759 –> 00:06:37,840
نتیجه گیری مانند جنسیت باید وجود داشته باشد
177
00:06:37,840 –> 00:06:39,919
زیرا تعیین کننده است که باید
178
00:06:39,919 –> 00:06:42,000
مرد یا زن باشد، بنابراین این یک
179
00:06:42,000 –> 00:06:43,600
ارزش طبقه بندی است که
180
00:06:43,600 –> 00:06:45,520
ما در مجموعه داده های خود به آن نیاز خواهیم داشت، نژاد و
181
00:06:45,520 –> 00:06:47,680
قومیت ممکن است حذف شود.
182
00:06:47,680 –> 00:06:49,680
لزوماً یک متغیر بسیار مهم در
183
00:06:49,680 –> 00:06:51,599
مجموعه دادههای ما و سطح تحصیلات والدین است،
184
00:06:51,599 –> 00:06:54,000
اگر
185
00:06:54,000 –> 00:06:55,840
مقادیر منحصربهفرد را بررسی کنیم و تصمیم بگیریم که این همان کاری است که
186
00:06:55,840 –> 00:06:57,440
میخواهیم انجام دهیم.
187
00:06:57,440 –> 00:06:59,840
188
00:06:59,840 –> 00:07:02,319
همچنین پنج ردیف،
189
00:07:02,319 –> 00:07:03,680
بنابراین ما همه این مقادیر را داریم که
190
00:07:03,680 –> 00:07:05,199
قبلاً به آنها نگاه کرده ایم، بنابراین یک چیز می
191
00:07:05,199 –> 00:07:07,199
توانید مطمئن شوید که از صفر شروع می شود
192
00:07:07,199 –> 00:07:09,440
و تا 999
193
00:07:09,440 –> 00:07:11,280
ادامه می یابد، بنابراین می توانیم فقط بگوییم که ما
194
00:07:11,280 –> 00:07:13,759
هزار ورودی در این مجموعه داده داریم، بنابراین
195
00:07:13,759 –> 00:07:16,160
من t یک مجموعه داده خیلی بزرگ نیست، اما یک
196
00:07:16,160 –> 00:07:18,240
مجموعه داده نسبتاً کوچک
197
00:07:18,240 –> 00:07:21,280
نیست، همچنین برای ما عالی است، زیرا در حین
198
00:07:21,280 –> 00:07:22,880
انجام نمایش
199
00:07:22,880 –> 00:07:25,599
برای ما بسیار آسان خواهد بود،
200
00:07:25,599 –> 00:07:27,440
اکنون اجازه دهید شکل
201
00:07:27,440 –> 00:07:29,039
داده ها را نیز بررسی کنیم، بنابراین همه اینها هستند. مراحلی را
202
00:07:29,039 –> 00:07:31,840
که باید
203
00:07:32,080 –> 00:07:33,520
در حین کار
204
00:07:33,520 –> 00:07:35,919
کردن به درستی دنبال کنید،
205
00:07:36,960 –> 00:07:39,199
بنابراین ما شکل را بررسی کرده ایم، بنابراین ما
206
00:07:39,199 –> 00:07:42,319
هزار ردیف و هشت ستون داریم بچه ها،
207
00:07:42,319 –> 00:07:44,800
اجازه دهید فقط به چند نکته کلیدی دیگر نگاهی بیندازیم
208
00:07:44,800 –> 00:07:47,199
209
00:07:47,440 –> 00:07:50,000
وقتی از توصیف استفاده می کنید
210
00:07:50,000 –> 00:07:51,599
که فقط نمره ریاضی را نشان می دهد و نمره خواندن را نشان می دهد
211
00:07:51,599 –> 00:07:53,280
و نمره نوشتن
212
00:07:53,280 –> 00:07:55,360
چون همه متغیرهای دیگری که
213
00:07:55,360 –> 00:07:57,919
داریم اشیاء رشته ای هستند فقط
214
00:07:57,919 –> 00:08:00,080
اشیاء عدد صحیح در اینجا نشان داده می شوند،
215
00:08:00,080 –> 00:08:02,960
بنابراین ما یک تعداد در اینجا مانند هزار
216
00:08:02,960 –> 00:08:04,720
داریم و یک مقدار متوسط داریم، ح
217
00:08:04,720 –> 00:08:06,960
اقل مقدار انحراف استاندارد را داریم 25 در
218
00:08:06,960 –> 00:08:09,039
د 50 در
219
00:08:09,039 –> 00:08:11,199
د 75 و حداکثر مقدار و همچنین همانطور که
220
00:08:11,199 –> 00:08:13,840
می بینید برای همه آن مقادیر 100
221
00:08:13,840 –> 00:08:16,879
نمره حداکثر است و حداقل
222
00:08:16,879 –> 00:08:19,680
نمره ریاضی ما 0 نمره خواندن 17 و
223
00:08:19,680 –> 00:08:22,000
نمره نوشتن 10 است. بنابراین همه این مقادیر
224
00:08:22,000 –> 00:08:24,319
شما فقط می توانید با روش توصیف دریافت کنید و
225
00:08:24,319 –> 00:08:26,560
سپس می توانید
226
00:08:26,560 –> 00:08:29,360
ستون ها و ردیف ها را به طور جداگانه بررسی کنید، بنابراین
227
00:08:29,360 –> 00:08:31,280
برای این کار فقط باید مانند
228
00:08:31,280 –> 00:08:32,320
229
00:08:32,320 –> 00:08:34,000
230
00:08:34,000 –> 00:08:35,360
ستون
231
00:08:35,360 –> 00:08:38,399
های نقطه داده بنویسید، بسیار خوب، قابل فراخوانی نیست،
232
00:08:38,399 –> 00:08:40,880
بنابراین ما جنسیت نژاد قومیت والدین
233
00:08:40,880 –> 00:08:43,039
سطح تحصیلات آزمون ناهار داریم.
234
00:08:43,039 –> 00:08:45,360
نمره درس آمادگی ریاضی نمره خواندن
235
00:08:45,360 –> 00:08:47,120
و نمره نوشتن،
236
00:08:47,120 –> 00:08:49,920
بنابراین ما هیچکدام را کامل نکردیم، بنابراین
237
00:08:49,920 –> 00:08:52,480
فقط n مقدار منحصر به فرد را بررسی می کنیم
238
00:08:52,480 –> 00:08:54,800
که چیزی نیست جز تابعی که
239
00:08:54,800 –> 00:08:56,399
یک سری را با تعدادی
240
00:08:56,399 –> 00:08:59,120
مشاهدات متمایز بر روی محور درخواستی برمی گرداند،
241
00:08:59,120 –> 00:09:01,200
بنابراین اگر مقدار را تنظیم کنیم مقدار xs 0
242
00:09:01,200 –> 00:09:02,800
باشد سپس تعداد کل
243
00:09:02,800 –> 00:09:05,040
مشاهدات منحصربهفرد را بر روی محور شاخص پیدا میکند،
244
00:09:05,040 –> 00:09:07,360
پس بیایید فقط مقادیر یکتا را بررسی
245
00:09:07,360 –> 00:09:08,480
کنیم،
246
00:09:08,480 –> 00:09:10,160
پس بچهها، اکنون چه خواهیم کرد،
247
00:09:10,160 –> 00:09:12,399
مقادیر منحصربهفرد در دادههایمان را بررسی میکنیم،
248
00:09:12,399 –> 00:09:14,240
بنابراین من. من فقط از n منحصربفرد استفاده می کنم و
249
00:09:14,240 –> 00:09:16,160
قبلاً به شما گفته ام که چه کاری انجام می دهد
250
00:09:16,160 –> 00:09:17,839
بنابراین برای همه این ستون ها
251
00:09:17,839 –> 00:09:19,680
مقادیر منحصر به فرد را به ما نشان می دهد بنابراین برای جنسیت ما
252
00:09:19,680 –> 00:09:21,200
دو مقدار منحصر به فرد داریم که اساساً
253
00:09:21,200 –> 00:09:23,200
مرد و زن برای نژاد و قومیت
254
00:09:23,200 –> 00:09:25,040
w است. e دارای پنج مقدار سطح تحصیلات والدین،
255
00:09:25,040 –> 00:09:27,200
ما شش مقدار برای ناهار
256
00:09:27,200 –> 00:09:29,200
داریم، دو مقدار برای دوره آمادگی آزمون
257
00:09:29,200 –> 00:09:31,200
، دو مقدار
258
00:09:31,200 –> 00:09:33,040
برای نمره ریاضی نمره خواندن و نمره نوشتن
259
00:09:33,040 –> 00:09:36,160
داریم،
260
00:09:36,160 –> 00:09:38,640
از 0 تا 100 مقدار بسیار کمی داریم. از
261
00:09:38,640 –> 00:09:41,360
77 مقدار منحصر به فرد برای نوشتن نمره برای
262
00:09:41,360 –> 00:09:43,440
نمره خواندن، ما همه آن چیزها را داریم
263
00:09:43,440 –> 00:09:45,200
و اگر می خواهید به طور جداگانه برای
264
00:09:45,200 –> 00:09:47,519
هر ستونی بررسی کنید، فقط می توانید بنویسید فرض کنید
265
00:09:47,519 –> 00:09:48,560
جنسیت
266
00:09:48,560 –> 00:09:51,600
و ما فقط می توانیم منحصر به فرد بنویسیم
267
00:09:51,600 –> 00:09:53,360
و مقدار منحصر به فرد داخل آن ستون را به ما نشان می دهد.
268
00:09:53,360 –> 00:09:55,279
بنابراین
269
00:09:55,279 –> 00:09:56,560
270
00:09:56,560 –> 00:09:58,240
اگر می خواهید بررسی کنید که مثلاً از
271
00:09:58,240 –> 00:10:01,920
نظر نژاد و قومیت کدام زن و مرد است به طور مشابه
272
00:10:03,200 –> 00:10:05,120
می توانیم بررسی کنیم تا گروه b گروه c
273
00:10:05,120 –> 00:10:07,519
گروه a گروه d و گروه a
274
00:10:07,519 –> 00:10:09,760
برای سطح تحصیلات والدین داشته باشیم همچنین می توانیم
275
00:10:09,760 –> 00:10:12,920
276
00:10:18,399 –> 00:10:19,920
همه چیز را بررسی کنیم تا لیسانس داشته باشیم مدرک تحصیلی
277
00:10:19,920 –> 00:10:21,600
برخی از دانشگاهها ما دارای مدرک کارشناسی ارشد
278
00:10:21,600 –> 00:10:23,839
مقطع دبیرستان و تعدادی
279
00:10:23,839 –> 00:10:25,680
دبیرستان هستیم، بنابراین اینها همه ارزشهایی هستند
280
00:10:25,680 –> 00:10:27,680
که میتوانید فقط با نگاه کردن به
281
00:10:27,680 –> 00:10:29,839
دادهها متوجه شوید، بنابراین با نگاه کردن به این
282
00:10:29,839 –> 00:10:31,279
مقادیر منحصر به فرد، من می توانم به شما بگویم که ما
283
00:10:31,279 –> 00:10:33,200
مقادیر طبقه بندی داریم مانند
284
00:10:33,200 –> 00:10:35,839
ناهار و دستور کار دوره آماده سازی آزمون
285
00:10:35,839 –> 00:10:37,440
که می تواند به مقادیر ساختگی
286
00:10:37,440 –> 00:10:39,760
از همه این مقادیر تبدیل شود، من فقط
287
00:10:39,760 –> 00:10:41,519
این سه را می گیرم که
288
00:10:41,519 –> 00:10:43,040
نمره خواندن و نمره نوشتن
289
00:10:43,040 –> 00:10:45,920
و ناهار است. آماده سازی آزمون و
290
00:10:45,920 –> 00:10:48,720
جنسیت و موارد دیگر مانند قومیت
291
00:10:48,720 –> 00:10:50,640
و سطح تحصیلات والدین را می توان
292
00:10:50,640 –> 00:10:52,320
حذف کرد زیرا اینها لزوماً
293
00:10:52,320 –> 00:10:54,560
متغیرهای بسیار مهمی
294
00:10:54,560 –> 00:10:56,800
در مجموعه داده ما
295
00:10:56,800 –> 00:10:59,360
296
00:10:59,360 –> 00:11:02,800
نیستند. دوستان داده،
297
00:11:03,920 –> 00:11:05,519
بنابراین اولین چیزی که
298
00:11:05,519 –> 00:11:07,600
به ذهن شما می رسد این است که مقادیر تهی
299
00:11:07,600 –> 00:11:09,920
را در هر یک از اینها بررسی کنید،
300
00:11:09,920 –> 00:11:11,519
برای اینکه ما فقط می توانیم
301
00:11:11,519 –> 00:11:13,040
302
00:11:13,040 –> 00:11:15,040
مقادیر تهی را بررسی
303
00:11:15,040 –> 00:11:18,240
کنیم و یک مجموع نیز بدست آوریم، بنابراین در داخل این
304
00:11:18,240 –> 00:11:20,640
مجموعه داده، مقادیر صفر
305
00:11:20,640 –> 00:11:22,399
داریم، بنابراین ما می توانیم مقادیر تهی را بررسی کنیم. لازم نیست نگران حذف
306
00:11:22,399 –> 00:11:24,320
هر ستونی باشید فقط به دلیل اینکه مقداری وجود ندارد
307
00:11:24,320 –> 00:11:26,240
یا آن را با مقادیر دیگری جایگزین کنید،
308
00:11:26,240 –> 00:11:28,959
اما در برخی موارد در برخی از
309
00:11:28,959 –> 00:11:31,279
مجموعه های داده که نسبتاً بسیار بزرگ هستند،
310
00:11:31,279 –> 00:11:33,200
مانند h هفت هزار یا هشت
311
00:11:33,200 –> 00:11:35,279
هزار مقدار داشته باشید و اگر حتی دو
312
00:11:35,279 –> 00:11:37,440
درصد مقادیر تهی دارید یا مقداری از دست رفته
313
00:11:37,440 –> 00:11:39,519
در آن مجموعه دادهها دارید، باید
314
00:11:39,519 –> 00:11:41,600
مطمئن باشید که
315
00:11:41,600 –> 00:11:44,399
میخواهید آن مقادیر را دست نخورده
316
00:11:44,399 –> 00:11:46,480
رها کنید یا میخواهید آنها را حذف کنید یا هر کدام را جایگزین کنید.
317
00:11:46,480 –> 00:11:48,560
مقادیر از آنها، بنابراین از آنجایی که ما
318
00:11:48,560 –> 00:11:50,160
هیچ مقدار تهی در داخل آن نداریم،
319
00:11:50,160 –> 00:11:52,079
به قسمت بعدی میرویم
320
00:11:52,079 –> 00:11:53,839
که دادههای اضافی را حذف میکند که
321
00:11:53,839 –> 00:11:56,160
لزوماً روی
322
00:11:56,160 –> 00:11:58,480
عملکرد ما از جدول ما تأثیر نمیگذارد،
323
00:11:58,480 –> 00:12:00,320
بنابراین اکنون چه خواهیم کرد آیا ما
324
00:12:00,320 –> 00:12:02,079
چند ستون را که در واقع به آنها نیاز
325
00:12:02,079 –> 00:12:04,240
نداریم در مجموعه داده های خود حذف می کنیم، بنابراین نژاد، قومیت و سطح تحصیلات والدین را حذف می کنیم،
326
00:12:04,240 –> 00:12:06,160
327
00:12:06,160 –> 00:12:07,279
328
00:12:07,279 –> 00:12:08,880
بنابراین این دو مقدار هستند که
329
00:12:08,880 –> 00:12:10,399
من در مجموعه داده های خود به آنها نیازی ندارم زیرا فکر می کنم
330
00:12:10,399 –> 00:12:12,079
اینها مقادیر مهمی برای هیچ
331
00:12:12,079 –> 00:12:14,560
ارزشیابی نیستند، بنابراین فقط اینها را حذف کنید، بنابراین
332
00:12:14,560 –> 00:12:16,160
من یک متغیر را انتخاب می کنم، فرض کنید دانش آموز
333
00:12:16,160 –> 00:12:18,560
برابر است با
334
00:12:18,639 –> 00:12:20,720
افت نقطه داده
335
00:12:20,720 –> 00:12:22,160
و من
336
00:12:22,160 –> 00:12:25,200
337
00:12:25,200 –> 00:12:28,959
قومیت نژاد را به درستی نام ستون ارائه می کنم
338
00:12:28,959 –> 00:12:30,720
339
00:12:30,720 –> 00:12:34,399
و ما سطح والدین را نمی خواهیم
340
00:12:34,399 –> 00:12:37,800
آموزش
341
00:12:38,480 –> 00:12:39,440
و پرورش و
342
00:12:39,440 –> 00:12:40,959
آن h به عنوان
343
00:12:40,959 –> 00:12:43,200
محور برابر با 1 است
344
00:12:43,200 –> 00:12:45,839
در غیر این صورت یک خطا برای ما
345
00:12:45,839 –> 00:12:48,240
درست می کند، بنابراین وقتی
346
00:12:48,240 –> 00:12:50,639
به دانش آموز نگاه می کنم،
347
00:12:50,880 –> 00:12:53,839
348
00:12:53,920 –> 00:12:55,680
بنابراین همه این مقادیر را داریم،
349
00:12:55,680 –> 00:12:57,920
جنسیت آزمون ناهار را داریم
350
00:12:57,920 –> 00:12:59,600
نمره مطابقت درس نمره خواندن و نمره نوشتن
351
00:12:59,600 –> 00:13:00,560
352
00:13:00,560 –> 00:13:02,800
مرحله بعدی مانند بررسی موارد
353
00:13:02,800 –> 00:13:04,720
پرت است. که لزوماً
354
00:13:04,720 –> 00:13:06,560
برای ما مشکلی ایجاد نمی کند زیرا ما
355
00:13:06,560 –> 00:13:08,320
مجموعه داده های کاملاً تمیزی داریم،
356
00:13:08,320 –> 00:13:10,160
بنابراین اگر
357
00:13:10,160 –> 00:13:12,000
می خواهید در مورد انبردست های ما بیشتر بدانید، می توانید به دنبال مقادیر پرت نیز بروید، من
358
00:13:12,000 –> 00:13:14,480
به شما خواهم گفت که انقباضات پرت واقعاً چه هستند،
359
00:13:14,480 –> 00:13:16,480
بنابراین پرت ها چیزی نیستند جز
360
00:13:16,480 –> 00:13:19,040
در آمار یک نقطه پرت یک نقطه داده است
361
00:13:19,040 –> 00:13:21,120
که به طور قابل توجهی با مشاهدات دیگر متفاوت است
362
00:13:21,120 –> 00:13:22,480
363
00:13:22,480 –> 00:13:23,839
، فرض کنید اگر یک امتیاز مسابقه دارید
364
00:13:23,839 –> 00:13:26,720
که 72 است، شما 69 را می دانید و ناگهان
365
00:13:26,720 –> 00:13:29,519
فردی صفر و یک دارد، بنابراین
366
00:13:29,519 –> 00:13:32,320
367
00:13:32,320 –> 00:13:34,399
ممکن است به دلیل تغییرپذیری در
368
00:13:34,399 –> 00:13:36,160
اندازهگیری یا ممکن است نشاندهنده
369
00:13:36,160 –> 00:13:38,720
خطای آزمایشی نیز باشد، بنابراین موارد
370
00:13:38,720 –> 00:13:41,519
دوم گاهی از مجموعه دادهها حذف میشوند،
371
00:13:41,519 –> 00:13:44,079
زیرا یک نقطه دور در واقع میتواند
372
00:13:44,079 –> 00:13:46,320
مشکلات جدی در تجزیه و تحلیل آماری ایجاد کند.
373
00:13:46,320 –> 00:13:47,440
بنابراین، به همین دلیل است که ما باید به دنبال
374
00:13:47,440 –> 00:13:50,000
نقاط پرت باشیم و در این مجموعه داده
375
00:13:50,000 –> 00:13:51,680
لزوماً ما هیچ نقطه پرت
376
00:13:51,680 –> 00:13:53,600
نداریم، بنابراین آن را رها می کنیم و به
377
00:13:53,600 –> 00:13:55,199
مرحله سومی می رویم که داریم که
378
00:13:55,199 –> 00:13:57,519
اساساً چیزی نیست جز تجزیه و تحلیل
379
00:13:57,519 –> 00:13:58,320
380
00:13:58,320 –> 00:14:00,079
یا ما. می توان آن را به عنوان
381
00:14:00,079 –> 00:14:01,519
تجزیه و تحلیل رابطه نامید،
382
00:14:01,519 –> 00:14:03,920
بنابراین من فقط آن را به عنوان سه علامت گذاری می
383
00:14:03,920 –> 00:14:07,040
کنم بسیار خوب، من فقط به عنوان
384
00:14:07,040 –> 00:14:09,519
تجزیه و تحلیل کشتی رابطه می نویسم
385
00:14:09,519 –> 00:14:11,199
اکنون کاری که ما انجام خواهیم داد این است که
386
00:14:11,199 –> 00:14:13,600
به چند معیار دیگر نگاهی بیندازیم، بنابراین اول از همه
387
00:14:13,600 –> 00:14:17,040
ما همبستگی داریم ماتریس و قبل از
388
00:14:17,040 –> 00:14:19,839
اینکه به تجزیه و تحلیل رابطه بپردازیم، امیدوارم
389
00:14:19,839 –> 00:14:22,000
همه چیز برای شما روشن باشد، مثل اینکه
390
00:14:22,000 –> 00:14:24,240
ما از بارگذاری داده ها
391
00:14:24,240 –> 00:14:26,639
شروع کردیم و سپس در مورد اینکه چگونه می توانیم
392
00:14:26,639 –> 00:14:28,000
داده ها را
393
00:14:28,000 –> 0