در این مطلب، ویدئو آموزش پایتون: داده های پرت و مقیاس بندی با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:06:27
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,350 –> 00:00:03,949
در آخرین درس درباره
2
00:00:03,949 –> 00:00:06,759
توزیع و تبدیل دادهها در
3
00:00:06,759 –> 00:00:10,580
این ویدیو بحث کردیم، دو
4
00:00:10,580 –> 00:00:13,670
مرحله پیش پردازش اضافی را برای یافتن و
5
00:00:13,670 –> 00:00:16,880
مدیریت نقاط پرت و چگونگی و زمان
6
00:00:16,880 –> 00:00:21,380
مقیاسبندی دادههای پرت بهعنوان
7
00:00:21,380 –> 00:00:24,080
یک یا چند مشاهده تعریف
8
00:00:24,080 –> 00:00:25,460
میکنیم که از بقیه موارد دور هستند.
9
00:00:25,460 –> 00:00:28,820
مشاهدات در یک ویژگی مشخص هنگام
10
00:00:28,820 –> 00:00:31,900
نگاه کردن به هیستوگرام یک ویژگی،
11
00:00:31,900 –> 00:00:34,880
نقاط پرت تمایل دارند در دم ها نشان داده شوند، همانطور
12
00:00:34,880 –> 00:00:37,670
که در این تصویر می بینید
13
00:00:37,670 –> 00:00:42,610
، محدوده بین ربعی یا IQR
14
00:00:42,610 –> 00:00:45,440
به عنوان تفاوت مقادیر
15
00:00:45,440 –> 00:00:49,040
در چارک اول و سوم تعریف
16
00:00:49,040 –> 00:00:54,650
می شود. به ترتیب 25% و 75% با
17
00:00:54,650 –> 00:01:00,170
میانگین دقیقاً بین 50% به طور کلی،
18
00:01:00,170 –> 00:01:04,729
نقاط بالاتر و/یا کمتر از 1.5
19
00:01:04,729 –> 00:01:08,450
برابر IQR را باید به عنوان
20
00:01:08,450 –> 00:01:11,539
نقاط دورتر احتمالی مشکوک دانست که مطابق با
21
00:01:11,539 –> 00:01:15,740
مناطق سایهدار دیده میشود که در اینجا
22
00:01:15,740 –> 00:01:18,500
نقاط منفرد وزن کمتری را در یک مکان
23
00:01:18,500 –> 00:01:21,530
بزرگ دارند. مجموعه دادهها و سپس همان نقطه داده
24
00:01:21,530 –> 00:01:24,890
در مجموعه دادههای کوچکتر و نقطهای
25
00:01:24,890 –> 00:01:27,020
که فقط دوبرابر بزرگتر از
26
00:01:27,020 –> 00:01:30,080
مرز بالایی شماست، نسبت به نقطهای
27
00:01:30,080 –> 00:01:34,280
که ده ti است، کمتر نگران کننده است. نگاه کردن به یک
28
00:01:34,280 –> 00:01:36,560
مدل رگرسیون خطی ساده از یک
29
00:01:36,560 –> 00:01:40,039
مجموعه داده با و بدون پرت نشان میدهد
30
00:01:40,039 –> 00:01:42,229
که نقاط افراطی چقدر
31
00:01:42,229 –> 00:01:45,200
برای این دادههای خاص تأثیرگذار هستند
32
00:01:45,200 –> 00:01:47,509
، ضرایب شیب و
33
00:01:47,509 –> 00:01:50,479
فاصله بین این دو بسیار متفاوت است.
34
00:01:50,479 –> 00:01:53,479
35
00:01:53,479 –> 00:01:56,890
حذف آنها یا نه، و
36
00:01:56,890 –> 00:01:59,930
کاملاً ممکن است این ناهنجاری
37
00:01:59,930 –> 00:02:03,110
ها هنگام طراحی یک
38
00:02:03,110 –> 00:02:05,450
مدل یادگیری ماشینی که هدف
39
00:02:05,450 –> 00:02:08,990
آن تشخیص چنین رفتار شومی است، بسیار مهم در نظر گرفته شود،
40
00:02:08,990 –> 00:02:11,150
برخی از عملکردهایی که در تمرین ها با آنها مواجه خواهید
41
00:02:11,150 –> 00:02:13,910
شد، از ماژول Seabourn هستند
42
00:02:13,910 –> 00:02:16,820
که در آن از تابع boxplot استفاده می شود.
43
00:02:16,820 –> 00:02:19,000
در متغیر هدف ما، وضعیت وام
44
00:02:19,000 –> 00:02:23,470
ارائه شده به Y،
45
00:02:23,470 –> 00:02:27,730
نمودارهای باکس شرطی را نشان می دهد نمودار فاصله ای یک هیستوگرام با KDE
46
00:02:27,730 –> 00:02:31,550
num تابع ABS PI یک
47
00:02:31,550 –> 00:02:35,320
مقدار مطلق را از ماژول PI کناری برمی گرداند.
48
00:02:35,320 –> 00:02:39,620
49
00:02:39,620 –> 00:02:43,880
50
00:02:43,880 –> 00:02:46,850
تابع مفیدی که لیستی از محدودیت
51
00:02:46,850 –> 00:02:50,630
ها را ارائه می دهد، در این مثال، نقاط پرت را با
52
00:02:50,630 –> 00:02:53,600
صدک 5 و p 95 جایگزین می کند.
53
00:02:53,600 –> 00:02:58,130
مقادیر دادههای ercentile و در نهایت numpy نقطهای است
54
00:02:58,130 –> 00:03:01,070
که در آن یک تابع شرطی را
55
00:03:01,070 –> 00:03:04,130
که به عنوان اولین آرگومان داده شده ارزیابی میکند و
56
00:03:04,130 –> 00:03:06,140
آن را با مقادیر مشخصشده توسط
57
00:03:06,140 –> 00:03:09,950
دومی در صورت درست یا با آخرین زمانی که
58
00:03:09,950 –> 00:03:12,220
به غلط ارزیابی میکند جایگزین میکند،
59
00:03:12,220 –> 00:03:15,140
این تصویر دو توزیع نرمال را نشان میدهد
60
00:03:15,140 –> 00:03:16,880
که واریانسهای متفاوتی دارند.
61
00:03:16,880 –> 00:03:19,600
که نشان دهنده میانگین
62
00:03:19,600 –> 00:03:21,920
انحراف از میانگین در یک
63
00:03:21,920 –> 00:03:24,890
توزیع