در این مطلب، ویدئو تشخیص و حذف موارد پرت: امتیاز z، انحراف استاندارد | آموزش مهندسی ویژه پایتون شماره 3 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:20:05
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:01,860
در این ویدیو می خواهیم ببینیم
2
00:00:01,860 –> 00:00:04,230
که چگونه می توانیم از z-score و
3
00:00:04,230 –> 00:00:06,450
انحراف استاندارد برای حذف نقاط پرت از
4
00:00:06,450 –> 00:00:08,790
مجموعه داده های شما استفاده کنیم، ما از یک مجموعه داده واقعی
5
00:00:08,790 –> 00:00:12,179
از Cagle comm استفاده خواهیم کرد و نقاط پرت را
6
00:00:12,179 –> 00:00:14,849
با استفاده از z-score و سه انحراف استاندارد حذف خواهیم
7
00:00:14,849 –> 00:00:17,699
کرد. در پایان ما یک
8
00:00:17,699 –> 00:00:19,770
تمرین جالب برای شما
9
00:00:19,770 –> 00:00:22,380
خواهیم داشت که روی آن کار کنید ما از مجموعه داده های وزن و قد استفاده خواهیم کرد با
10
00:00:22,380 –> 00:00:25,199
تشکر از مصطفی علی
11
00:00:25,199 –> 00:00:28,470
برای ارائه این مجموعه داده این مجموعه داده
12
00:00:28,470 –> 00:00:30,929
دارای قد است و وزن ستون ها
13
00:00:30,929 –> 00:00:33,600
اساساً وزن و قد
14
00:00:33,600 –> 00:00:37,079
افراد مختلف است. و فقط برای ساده کردن چیزها
15
00:00:37,079 –> 00:00:40,500
، وزنی را از آن مجموعه داده حذف می
16
00:00:40,500 –> 00:00:43,410
کنم و فایل CSV من چیزی
17
00:00:43,410 –> 00:00:48,200
شبیه به این است، می توانید ببینید که 10000
18
00:00:48,200 –> 00:00:51,030
رکورد در آن وجود دارد و من آن
19
00:00:51,030 –> 00:00:53,250
را در نوت بوک مشتری خود بارگذاری می کنم، بنابراین در اینجا
20
00:00:53,250 –> 00:00:56,250
یک جفت را وارد کردم. از ماژول های مهم
21
00:00:56,250 –> 00:01:00,449
و سپس مجموعه داده را به
22
00:01:00,449 –> 00:01:02,520
عنوان قاب داده وارد یک حوضچه کردم، چیزی
23
00:01:02,520 –> 00:01:05,369
شبیه به این است و اولین کاری که اکنون می
24
00:01:05,369 –> 00:01:09,180
خواهم انجام دهم این است که یک هیستوگرام را فقط برای
25
00:01:09,180 –> 00:01:12,420
درک توزیع داده ها ترسیم کنم تا هیستوگرام این کار
26
00:01:12,420 –> 00:01:15,180
را انجام دهد. چیزی شبیه به این نگاه کنید،
27
00:01:15,180 –> 00:01:21,840
بنابراین در اینجا می دانید که من از این
28
00:01:21,840 –> 00:01:24,000
ستون ارتفاع دارم که از آن برای رسم هیستوگرام استفاده می کنم
29
00:01:24,000 –> 00:01:26,759
و لوبیاها مانند تعداد
30
00:01:26,759 –> 00:01:28,860
میله هایی است که می خواهید در نمودار ببینید،
31
00:01:28,860 –> 00:01:31,409
اگر اندازه سطل را
32
00:01:31,409 –> 00:01:34,970
افزایش دهید، در نمودار بیشتری خواهید دید. سطل های بیشتر در اینجا،
33
00:01:34,970 –> 00:01:38,640
بنابراین این هیستوگرام توزیع نرمال را نشان می دهد،
34
00:01:38,640 –> 00:01:41,250
اگر شما در مورد هیستوگرام ها نمی دانید،
35
00:01:41,250 –> 00:01:43,439
این بسیار ساده است، در واقع
36
00:01:43,439 –> 00:01:46,799
آنچه این می گوید برای ارتفاع 65 اینچ است،
37
00:01:46,799 –> 00:01:50,810
من بیش از هزار نمونه
38
00:01:50,810 –> 00:01:56,340
برای ارتفاع 60 اینچ دارم، من حدود 370 380
39
00:01:56,340 –> 00:01:59,820
نمونه دارم. محور y
40
00:01:59,820 –> 00:02:02,939
تعداد نمونههایی را که در مجموعه دادههای
41
00:02:02,939 –> 00:02:06,299
آن مقدار x دارید نشان میدهد که قد شما خوب است،
42
00:02:06,299 –> 00:02:07,890
بنابراین اگر هیستوگرام را نمیدانید
43
00:02:07,890 –> 00:02:10,229
دوباره در گوگل آن را جستجو کنید، وقتی هیستوگرام را داشته باشید خودتان را نمیشناسم،
44
00:02:10,229 –> 00:02:13,650
45
00:02:13,650 –> 00:02:16,620
میتوانید آن را بفهمید. ببینید آیا توزیع شما
46
00:02:16,620 –> 00:02:20,400
یک توزیع عادی است یا نه، اکنون
47
00:02:20,400 –> 00:02:22,500
توزیع نرمال چیست، بنابراین اگر
48
00:02:22,500 –> 00:02:26,189
به این وب سایت بروید، ریاضیات سرگرم کننده است، این
49
00:02:26,189 –> 00:02:28,799
یک وب سایت عالی است، این وب سایت
50
00:02:28,799 –> 00:02:31,680
توضیح می دهد که چگونه یک توزیع عادی به نظر می
51
00:02:31,680 –> 00:02:34,799
رسد که اغلب دارای این است. شکل یک
52
00:02:34,799 –> 00:02:37,430
منحنی زنگی چون شبیه زنگ است
53
00:02:37,430 –> 00:02:41,069
و معنی آن این است که اکثر
54
00:02:41,069 –> 00:02:43,709
مقادیر حول میانگین یا میانگین متمرکز شده اند
55
00:02:43,709 –> 00:02:47,609
و سپس با دور شدن از میانگین
56
00:02:47,609 –> 00:02:51,629
تعداد مقادیر در طبیعت کاهش می یابد،
57
00:02:51,629 –> 00:02:54,959
مجموعه داده های زیادی را می بینیم که از توزیع های نرمال پیروی کنید
58
00:02:54,959 –> 00:02:57,959
به عنوان مثال در اینجا آنها می
59
00:02:57,959 –> 00:03:00,629
گویند قد افراد اندازه
60
00:03:00,629 –> 00:03:02,159
چیزهایی که توسط ماشین ها تولید می شوند شما می دانید
61
00:03:02,159 –> 00:03:05,010
علائم فشار خون روی طعم اینها
62
00:03:05,010 –> 00:03:07,430
همه نمونه هایی از توزیع نرمال هستند
63
00:03:07,430 –> 00:03:10,709
که اگر قد افراد را مثال می زنید
64
00:03:10,709 –> 00:03:13,230
که این داده ها است.
65
00:03:13,230 –> 00:03:16,079
شما متوجه خواهید شد که اکثر
66
00:03:16,079 –> 00:03:18,269
افراد دارای ارتفاعات بین شما می دانید در
67
00:03:18,269 –> 00:03:24,419
این منطقه 65 تا 68 اینچ و سپس افرادی
68
00:03:24,419 –> 00:03:27,750
که حدود 80 اینچ قد دارند که
69
00:03:27,750 –> 00:03:31,199
بیشتر از آن حدود 7 فوت است بسیار
70
00:03:31,199 –> 00:03:33,599
کمتر است بنابراین می توانید تعداد نمونه
71
00:03:33,599 –> 00:03:35,519
ها را کمتر مشاهده کنید. به طور مشابه، تعداد افرادی
72
00:03:35,519 –> 00:03:37,680
که قد بسیار کمتری دارند یعنی 4
73
00:03:37,680 –> 00:03:41,699
فوت و 4 فوت پیدا میکنند نیز کمتر است، بنابراین این
74
00:03:41,699 –> 00:03:43,440
حرف که به وضوح از توزیع عادی پیروی میکند،
75
00:03:43,440 –> 00:03:47,250
اکنون کاری که ما
76
00:03:47,250 –> 00:03:51,599
میخواهیم انجام دهیم این است که رسم کنیم. یک bilko که
77
00:03:51,599 –> 00:03:55,049
در اینجا دیدید پس این نمودار زرد
78
00:03:55,049 –> 00:03:58,199
یک هیستوگرام است و این منحنی یک
79
00:03:58,199 –> 00:04:02,609
منحنی زنگی است و ما فقط آن bilko را برای
80
00:04:02,609 –> 00:04:05,699
هدف تجسم خود رسم می کنیم و شما
81
00:04:05,699 –> 00:04:08,370
باید از یک ماژول علمی تخیلی استفاده کنید بنابراین اگر
82
00:04:08,370 –> 00:04:13,319
نصب کرده اید ماژول علمی تخیلی در حال حاضر آن
83
00:04:13,319 –> 00:04:15,299
را با نصب آناکوندا ارائه می کنم،
84
00:04:15,299 –> 00:04:16,829
بنابراین شما باید خوب باشید این سه
85
00:04:16,829 –> 00:04:19,470
خط مانند این هستند، بنابراین شما در
86
00:04:19,470 –> 00:04:22,169
اینجا یک هیستوگرام رسم می کنید و سپس در این دو
87
00:04:22,169 –> 00:04:24,599
خط منحنی زنگ واقعی را رسم می کنید،
88
00:04:24,599 –> 00:04:27,570
حالا اینها چیستند دو خط
89
00:04:27,570 –> 00:04:31,470
با محدوده مقادیر X را تولید می کند، بنابراین DF
90
00:04:31,470 –> 00:04:34,020
نقطه ارتفاع نقطه min
91
00:04:34,020 –> 00:04:37,230
و حداکثر مقدار حداقل و حداکثر برای قد شما را به شما می
92
00:04:37,230 –> 00:04:40,140
دهد، بنابراین اجازه دهید آنها را
93
00:04:40,140 –> 00:04:42,990
برای اطلاعات شما اینجا بیاورم تا حداقل
94
00:04:42,990 –> 00:04:45,930
ارتفاعی که در مجموعه داده های خود می بینیم. 54
95
00:04:45,930 –> 00:04:52,050
اینچ است که 4 فوت و 6 اینچ است زیرا
96
00:04:52,050 –> 00:04:56,190
4 فوت 48 اینچ است بنابراین 4 فوت و 60 و 6
97
00:04:56,190 –> 00:05:01,310
اینچ حداکثر ارتفاع در مجموعه داده
98
00:05:01,310 –> 00:05:05,040
78 اینچ است که حدود 6 فوت و 6 اینچ است.
99
00:05:05,040 –> 00:05:11,730
100
00:05:11,730 –> 00:05:16,830
آمار سریع ارتفاع را به شما بگویم
101
00:05:16,830 –> 00:05:20,520
ستونی که می دانید اینجا می گوید
102
00:05:20,520 –> 00:05:25,530
حداقل ارتفاع 54 حداکثر 78 است، سپس
103
00:05:25,530 –> 00:05:28,170
این یک انحراف استاندارد است که تعداد آن
104
00:05:28,170 –> 00:05:30,990
10000 است، ما دیدیم که فایل اکسل دارای 10000 نقطه داده است
105
00:05:30,990 –> 00:05:34,980
خوب است، پس وقتی همه این کارها انجام شد،
106
00:05:34,980 –> 00:05:37,470
اکنون می توانید این سلول را اجرا کنید و
107
00:05:37,470 –> 00:05:41,910
نمودار را رسم می کند. برای شما در حال حاضر NP در
108
00:05:41,910 –> 00:05:45,900
اینجا تعریف نشده است، بنابراین من numpy را به عنوان NP وارد می کنم
109
00:05:45,900 –> 00:05:53,370
و این
110
00:05:53,370 –> 00:05:58,500
منحنی زنگ زیبا را برای شما ترسیم می کند و این منحنی زنگ
111
00:05:58,500 –> 00:06:01,530
به وضوح توزیع نرمال را نشان می دهد که
112
00:06:01,530 –> 00:06:05,700
قبلاً در این نمودار خاص دیده بودیم، می
113
00:06:05,700 –> 00:06:07,920
دانید اگر به خاطر دارید این نمودار
114
00:06:07,920 –> 00:06:11,400
نشان می دهد توزیع نرمال در اینجا اکنون
115
00:06:11,400 –> 00:06:15,630
کاری که بعداً انجام می دهیم این است
116
00:06:15,630 –> 00:06:17,790
که میانگین
117
00:06:17,790 –> 00:06:19,530
و انحراف استاندارد را که قبلاً در
118
00:06:19,530 –> 00:06:21,900
این پارامتر توصیف شده دیده بودیم پیدا کنیم، اما اگر می
119
00:06:21,900 –> 00:06:25,770
خواهید فقط آن را چاپ کنید، می
120
00:06:25,770 –> 00:06:29,610
توانید نقطه F را بگویید. سلام نقطه یعنی
121
00:06:29,610 –> 00:06:33,240
میانگین این ستون و سپس
122
00:06:33,240 –> 00:06:36,990
DF dot Light dot STD این
123
00:06:36,990 –> 00:06:39,390
انحراف استاندارد را چاپ می کند اکنون
124
00:06:39,390 –> 00:06:41,009
اگر انحراف معیار را نمی دانید
125
00:06:41,009 –> 00:06:44,819
انحراف معیار چیست اساساً به
126
00:06:44,819 –> 00:06:49,439
شما نشان می دهد که چقدر aw ay نقطه داده از
127
00:06:49,439 –> 00:06:56,729
مقدار میانگین است، بنابراین در این مثال،
128
00:06:56,729 –> 00:06:59,490
اکثر نقاط داده در یک
129
00:06:59,490 –> 00:07:02,240
انحراف استاندارد قرار دارند، اگر مجموعه داده شما به
130
00:07:02,240 –> 00:07:05,969
طور معمول توزیع شده باشد، 68٪ از نمونه
131
00:07:05,969 –> 00:07:07,649
ها در یک مقدار انحراف استاندارد قرار می گیرند،
132
00:07:07,649 –> 00:07:12,360
سپس 95٪ نمونه ها در دو انحراف استاندارد خواهند بود.
133
00:07:12,360 –> 00:07:15,569
انحراف استاندارد در نمونههای 99.7 درصد
134
00:07:15,569 –> 00:07:18,509
در سه انحراف استاندارد خواهد بود،
135
00:07:18,509 –> 00:07:20,610
بنابراین انحراف استاندارد
136
00:07:20,610 –> 00:07:23,309
چیزی نیست، اما فقط به شما نشان میدهد که چقدر
137
00:07:23,309 –> 00:07:29,099
از میانگین فاصله دارید، به عنوان مثال،
138
00:07:29,099 –> 00:07:32,580
میانگین مقدار ما 66 اینچ است و اگر
139
00:07:32,580 –> 00:07:35,669
نقطه دادهای داریم که کمتر است. از این 178،
140
00:07:35,669 –> 00:07:39,599
بنابراین 78 بسیار دور از حداکثر شما است، بنابراین
141
00:07:39,599 –> 00:07:41,039
به طور طبیعی انحراف استاندارد بالاتری خواهد داشت،
142
00:07:41,039 –> 00:07:43,589
اما اگر
143
00:07:43,589 –> 00:07:46,800
چیزی مانند فرض کنید 67 68 دارید،
144
00:07:46,800 –> 00:07:48,930
به احتمال زیاد در یک
145
00:07:48,930 –> 00:07:51,360
محدوده انحراف استاندارد قرار خواهند گرفت، پس ببینید
146
00:07:51,360 –> 00:07:58,050
اگر شما این را نشان می دهد چه چیزی است. چیزی در
147
00:07:58,050 –> 00:08:03,300
محدوده 3.84 از 66 داشته باشید، بنابراین 66 به اضافه سه
148
00:08:03,300 –> 00:08:04,589
امتیاز هشتاد و چهار یک
149
00:08:04,589 –> 00:08:08,699
انحراف استاندارد فاصله دارد – 3.84 با دو
150
00:08:08,699 –> 00:08:14,519
انحراف استاندارد فاصله دارد، بنابراین اکنون ابتدا از سه
151
00:08:14,519 –> 00:08:16,979
انحراف استاندارد برای حذف
152
00:08:16,979 –> 00:08:19,499
ou استفاده می کنیم. بنابراین سه انحراف استاندارد
153
00:08:19,499 –> 00:08:21,059
نوعی روش رایج در
154
00:08:21,059 –> 00:08:23,370
صنعت برای حذف انحرافات پرت است که
155
00:08:23,370 –> 00:08:25,889
گاهی اوقات مردم برای
156
00:08:25,889 –> 00:08:27,899
انحراف استاندارد از پنج انحراف استاندارد استفاده می کنند و
157
00:08:27,899 –> 00:08:30,990
همچنین اگر مجموعه داده ها کوچک باشد، من
158
00:08:30,990 –> 00:08:33,000
افرادی را دیده ام که حتی از دو انحراف استاندارد استفاده می کنند،
159
00:08:33,000 –> 00:08:35,429
اما شما باید واقعا استفاده کنید.
160
00:08:35,429 –> 00:08:38,339
حس قضاوت شما یا رسیدن
161
00:08:38,339 –> 00:08:41,159
به آن آستانه در مورد اینکه چند
162
00:08:41,159 –> 00:08:43,409
انحراف معیار را می خواهید استفاده
163
00:08:43,409 –> 00:08:48,240
کنید، در اینجا من حد بالایی خود را با
164
00:08:48,240 –> 00:08:50,040
گفتن خوب می خواهم
165
00:08:50,040 –> 00:08:53,370
میانگین و سه انحراف معیار
166
00:08:53,370 –> 00:08:54,670
حد بالایی من باشد
167
00:08:54,670 –> 00:08:58,510
و هر چیزی که بیش از هفتاد و
168
00:08:58,510 –> 00:09:00,880
هفت نقطه نه یک است، میخواهم علامتگذاری کنم که
169
00:09:00,880 –> 00:09:05,230
بهعنوان یک نقطه پرت میتوانید کارهای مشابهی را
170
00:09:05,230 –> 00:09:11,260
در انتهای پایین انجام دهید و میتوانید بگویید میانگین ارتفاع
171
00:09:11,260 –> 00:09:14,350
منهای سه انحراف استاندارد
172
00:09:14,350 –> 00:09:18,880
حد پایینتر من است که به معنای هر ارتفاع کمتر
173
00:09:18,880 –> 00:09:20,620
از پنجاه و چهار نقطه هشتاد است. دو
174
00:09:20,620 –> 00:09:22,690
علامت گذاری می کنم که به عنوان یک نقطه پرت حالا بیایید به
175
00:09:22,690 –> 00:09:27,070
سرعت ببینیم که نقاط پرت در
176
00:09:27,070 –> 00:09:30,100
قاب داده ما چیست، بنابراین امروزه زمانی که شما
177
00:09:30,100 –> 00:09:32,500
کاری شبیه به این را انجام می دهید، می
178
00:09:32,500 –> 00:09:34,960
گویید آیا قد من g است یا خیر. بیش از
179
00:09:34,960 –> 00:09:38,410
حد بالا یا پایینتر از حد پایینتر
180
00:09:38,410 –> 00:09:41,320
و سپس آن نقاط داده را به من نشان دهید و من
181
00:09:41,320 –> 00:09:44,770
این هفت نقطه داده را پیدا میکنم که
182
00:09:44,770 –> 00:09:46,660
ارتفاع آن واقعاً زیاد است، این شش به
183
00:09:46,660 –> 00:09:50,110
شش فوت شش اینچ است در واقع ارتفاع
184
00:09:50,110 –> 00:09:52,600
به اینچ است، میتوانید آن را به فوت تبدیل کنید
185
00:09:52,600 –> 00:10:00,310
اینچ 54 چهار فوت شش اینچ است اکنون این
186
00:10:00,310 –> 00:10:03,760
ارتفاعات در واقع ممکن است معتبر باشند.
187
00:10:03,760 –> 00:10:05,560
188
00:10:05,560 –> 00:10:08,440
189
00:10:08,440 –> 00:10:12,310
190
00:10:12,310 –> 00:10:14,800
191
00:10:1