در این مطلب، ویدئو پاک کردن داده ها در پایتون با استفاده از پانداها در داده کاوی مثال، آمار با پایتون برای علم داده با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:02,760
سلام بچه ها به آموزش بعدی
2
00:00:02,760 –> 00:00:06,450
سری آموزش آمار پایتون خوش آمدید در
3
00:00:06,450 –> 00:00:09,900
این ویدیو من قصد دارم
4
00:00:09,900 –> 00:00:12,000
اصول تمیز کردن مجموعه داده
5
00:00:12,000 –> 00:00:16,049
با استفاده از پانداها را به شما نشان دهم.
6
00:00:16,049 –> 00:00:18,930
7
00:00:18,930 –> 00:00:21,270
8
00:00:21,270 –> 00:00:23,789
برگه اکسل اما ما میتوانیم دادهها را
9
00:00:23,789 –> 00:00:28,590
با استفاده از پانداها در برگه مشتری نیز پاک کنیم، بنابراین من
10
00:00:28,590 –> 00:00:32,040
مقاله عالی Taiji
11
00:00:32,040 –> 00:00:35,160
data نوشته Headley Wickham را دنبال میکنم و
12
00:00:35,160 –> 00:00:37,550
دوباره بر اهمیت
13
00:00:37,550 –> 00:00:41,040
سازماندهی این متغیرها و همچنین
14
00:00:41,040 –> 00:00:43,140
تقسیم مشاهدات چندگانه به
15
00:00:43,140 –> 00:00:45,899
ردیفهای جداگانه تأکید میکنیم که بسیار آسانتر است.
16
00:00:45,899 –> 00:00:49,379
زمانی که شما در حال کدنویسی هستید،
17
00:00:49,379 –> 00:00:53,190
نشان دادن آن در عمل بسیار ساده تر است، ما
18
00:00:53,190 –> 00:00:55,110
می خواهیم از یکی از
19
00:00:55,110 –> 00:00:59,550
فایل های نمونه wakens بیلبورد نقطه CSV استفاده
20
00:00:59,550 –> 00:01:01,160
21
00:01:01,160 –> 00:01:04,199
22
00:01:04,199 –> 00:01:07,080
23
00:01:07,080 –> 00:01:10,189
کنیم. ابتدا در حین تمرین از آن استفاده کنید،
24
00:01:10,189 –> 00:01:13,560
اما ما همه ماژولهای پایتون را
25
00:01:13,560 –> 00:01:18,060
که نیاز داریم وارد میکنیم، سپس
26
00:01:18,060 –> 00:01:22,310
فایل CSV را بارگیری میکنیم و فایلی را که مشاهده خواهید کرد بارگیری میکنیم.
27
00:01:22,310 –> 00:01:25,860
خطای رمزگشایی یونیکد در برخی مواقع شما
28
00:01:25,860 –> 00:01:29,729
خطای رمزگشایی یونیکد را مشاهده خواهید کرد و این
29
00:01:29,729 –> 00:01:32,400
فایل با کدگذاری پیش فرض
30
00:01:32,400 –> 00:01:36,570
پایتون که utf-8 است ذخیره نشده است، بنابراین پس از
31
00:01:36,570 –> 00:01:38,610
جستجو در وب، یک
32
00:01:38,610 –> 00:01:41,880
لینک مفید یا در وب سایت سرریز سهام پیدا کردم
33
00:01:41,880 –> 00:01:45,780
که می گوید ما می توانیم کمک در کدنویسی
34
00:01:45,780 –> 00:01:49,020
دستور امروز و که کاملاً خوب کار خواهد کرد
35
00:01:49,020 –> 00:01:52,890
iso-8859 که در
36
00:01:52,890 –> 00:01:55,829
واقع اجازه دادن به یک در رمزگذاری
37
00:01:55,829 –> 00:01:58,409
نامیده میشود در واقع let in one در پایتون نامیده میشود، بنابراین
38
00:01:58,409 –> 00:02:03,450
من از رمزگذاری برابر iso-8859 استفاده کردهام، پس
39
00:02:03,450 –> 00:02:06,420
بیایید دوباره فایل را بارگیری کنیم و با
40
00:02:06,420 –> 00:02:09,149
اعمال این عبارت
41
00:02:09,149 –> 00:02:12,360
در اینجا همه چیز خوب پیش رفت این بار در
42
00:02:12,360 –> 00:02:15,000
پانداها ما می توانیم از سر برای دیدن
43
00:02:15,000 –> 00:02:18,780
چند خط اول جدول خود استفاده کنیم. این رتبه بندی
44
00:02:18,780 –> 00:02:22,500
آهنگ ها مربوط به سال 2000 برای هر آهنگ
45
00:02:22,500 –> 00:02:25,079
در بیلبورد است. اطلاعات زیادی از
46
00:02:25,079 –> 00:02:27,480
جمله هنرمند یک
47
00:02:27,480 –> 00:02:30,209
نام ایجاد شده در Great Lengths
48
00:02:30,209 –> 00:02:32,730
a
49
00:02:32,730 –> 00:02:35,280
تاریخ ورود آهنگ به بیلبورد سرعت ضربه
50
00:02:35,280 –> 00:02:38,700
و رتبه بندی آن به مدت هفتاد و شش هفته را ایجاد کنید، بنابراین
51
00:02:38,700 –> 00:02:40,409
اجازه دهید به نام ستون ها نگاه کنیم
52
00:02:40,409 –> 00:02:43,799
و به من اجازه دهید نام آن را اصلاح کنم.
53
00:02:43,799 –> 00:02:47,010
شی ما می توانیم کارهای زیادی را با این
54
00:02:47,010 –> 00:02:50,609
مجموعه داده انجام دهیم، به عنوان مثال، می توانیم
55
00:02:50,609 –> 00:02:53,370
تکامل رتبه بندی را برای هر
56
00:02:53,370 –> 00:02:57,480
آهنگ مشخصی ترسیم کنیم، من فقط تابع کف را
57
00:02:57,480 –> 00:03:00,859
از بالابر طبقه در اولین آهنگ صدا می زنم و
58
00:03:00,859 –> 00:03:05,450
ستون هایی که از اولین 76th
59
00:03:05,450 –> 00:03:08,280
mcleod lip هستند معمولاً در
60
00:03:08,280 –> 00:03:11,250
تنظیم یک کف زدن بر اساس شاخص
61
00:03:11,250 –> 00:03:14,400
یک سری پاندا بسیار خوب است، اما در این مورد
62
00:03:14,400 –> 00:03:18,180
نمیتوانست، بنابراین ما میخواهیم به صراحت بگوییم که
63
00:03:18,180 –> 00:03:21,769
از محدوده 1 تا
64
00:03:21,769 –> 00:03:27,419
76 استفاده نکنید، بنابراین در اینجا آهنگی است که
65
00:03:27,419 –> 00:03:29,940
واقعاً بالا شروع شد و سپس صعود کرد.
66
00:03:29,940 –> 00:03:31,590
در عرض 8 هفته به بالای صفحه
67
00:03:31,590 –> 00:03:35,190
68
00:03:35,190 –> 00:03:39,030
می رسیم و اجازه دهید چندین آهنگ را به طور همزمان ترسیم کنیم و می توانیم با روش قاب داده،
69
00:03:39,030 –> 00:03:43,079
ردیف های عنوان را روی ردیف ها تکرار
70
00:03:43,079 –> 00:03:47,579
کنیم که هم شاخص و هم محتوای 0 را بهبود می بخشد.
71
00:03:47,579 –> 00:03:50,099
72
00:03:50,099 –> 00:03:53,250
تک رنگ برای
73
00:03:53,250 –> 00:03:57,840
آهنگ های ما و مقداری شفافیت می بینیم که
74
00:03:57,840 –> 00:04:01,109
اکثر آهنگ ها در رتبه بندی دوام زیادی ندارند،
75
00:04:01,109 –> 00:04:03,599
اجازه دهید به تمیز کردن بپردازیم یکی از
76
00:04:03,599 –> 00:04:06,120
مشکلات این قاب داده این است که
77
00:04:06,120 –> 00:04:08,639
رتبه ها برای
78
00:04:08,639 –> 00:04:10,859
تجزیه و تحلیل چندان قابل استفاده نیستند زیرا تقسیم بندی می شوند. ed یا
79
00:04:10,859 –> 00:04:13,319
ستون های متعدد منطقی تر است
80
00:04:13,319 –> 00:04:16,199
که به هر رتبه بندی در یک
81
00:04:16,199 –> 00:04:18,478
ردیف جداگانه با عدد هفته به عنوان یک متغیر کمک کنیم. از نظر
82
00:04:18,478 –> 00:04:21,070
فنی به آن می گویند ذوب
83
00:04:21,070 –> 00:04:24,040
در هر سطر به چندین ستون که هر
84
00:04:24,040 –> 00:04:26,620
کدام نشان دهنده یک رتبه بندی برای
85
00:04:26,620 –> 00:04:29,530
سادگی است. من با یک زیر مجموعه کار خواهم کرد.
86
00:04:29,530 –> 00:04:32,890
از ستونها، بنابراین بیایید یک قاب داده جدید ایجاد کنیم،
87
00:04:32,890 –> 00:04:36,850
با استفاده از براکتها برای
88
00:04:36,850 –> 00:04:40,330
انتخاب زیرمجموعهای از ستونها،
89
00:04:40,330 –> 00:04:43,570
نگاهی بیندازیم.
90
00:04:43,570 –> 00:04:46,930
91
00:04:46,930 –> 00:04:49,900
92
00:04:49,900 –> 00:04:51,820
93
00:04:51,820 –> 00:04:53,770
بنابراین ما
94
00:04:53,770 –> 00:04:57,010
برای هفتهها در نام ستونها ثابتتر خواهیم بود و دوباره
95
00:04:57,010 –> 00:05:00,730
بیایید نگاهی بیندازیم که
96
00:05:00,730 –> 00:05:04,270
با استفاده از روش ذوب پانداها ذوب
97
00:05:04,270 –> 00:05:06,700
98
00:05:06,700 –> 00:05:08,890
99
00:05:08,890 –> 00:05:11,920
100
00:05:11,920 –> 00:05:17,680
میشویم. هنرمندان زمان استراحت و تاریخ
101
00:05:17,680 –> 00:05:21,790
وارد شده بعدی را به روش می
102
00:05:21,790 –> 00:05:24,430
گوییم که مقادیر یا ستون های مشاهده در
103
00:05:24,430 –> 00:05:30,880
این مورد هفته 1 هفته 2 و هفته 3
104
00:05:30,880 –> 00:05:32,890
بعدی باید باشد نام ستون
105
00:05:32,890 –> 00:05:36,520
وجود دارد نوع مشاهده
106
00:05:36,520 –> 00:05:38,920
هفته و
107
00:05:38,920 –> 00:05:41,200
نام ستونی که
108
00:05:41,200 –> 00:05:45,000
ارزش مشاهدات را دارد باید رتبه بندی
109
00:05:45,000 –> 00:05:49,540
شود پس سعی کنیم ببینیم این کار می کند
110
00:05:49,540 –> 00:05:52,630
بهتر است آهنگ خاصی را انتخاب کنیم. و
111
00:05:52,630 –> 00:05:55,810
ما میتوانیم این کار را با روش پانداهای
112
00:05:55,810 –> 00:05:58,510
کوری انجام دهیم که یک E خالص را به عنوان فنر
113
00:05:58,510 –> 00:06:01,170
در چیزی شبیه به یک زبان طبیعی در نظر میگیرد،
114
00:06:01,170 –> 00:06:05,920
برای مثال کریگ برابر است با
115
00:06:05,920 –> 00:06:06,840
lat
116
00:06:06,840 –> 00:06:10,330
بسیار خوب، ما میتوانیم
117
00:06:10,330 –> 00:06:13,420
با تبدیل هفته به عددی که
118
00:06:13,420 –> 00:06:16,150
میتوانید با استفاده از آن انجام دهید، در واقع حتی بهتر انجام دهیم. متد اعمال در
119
00:06:16,150 –> 00:06:19,840
سری pandas برای هفته ستون
120
00:06:19,840 –> 00:06:22,720
اعمال یک توابع پایتون را می گیرد و ما می
121
00:06:22,720 –> 00:06:25,180
خواهیم آن را با استفاده از
122
00:06:25,180 –> 00:06:26,880
لامبدا تعریف
123
00:06:26,880 –> 00:06:29,410
کنیم، در هر
124
00:06:29,410 –> 00:06:32,200
رشته به کاراکتر سوم نیاز داریم و اکنون باید آن را به یک
125
00:06:32,200 –> 00:06:37,270
عدد و عدد صحیح تبدیل کنیم. ما میتوانیم
126
00:06:37,270 –> 00:06:39,310
این سری را به هفته ستون اختصاص دهیم،
127
00:06:39,310 –> 00:06:43,510
بنابراین در مرحله بعدی باید تاریخها را نیز
128
00:06:43,510 –> 00:06:46,870
به اشیاء تاریخ/زمان مناسبی که
129
00:06:46,870 –> 00:06:49,810
دیدهایم تبدیل کنیم، میتوانیم این کار را با استفاده از پانداها برای
130
00:06:49,810 –> 00:06:53,200
تاریخگذاری زمان با آن انجام دهیم و نتیجه را به c اختصاص دهیم.
131
00:06:53,200 –> 00:06:56,680
تاریخ ستون وارد شده به محض اینکه
132
00:06:56,680 –> 00:07:00,310
تاریخ های واقعی داشته باشیم می توانیم به صورت خودکار مرده انجام دهیم و
133
00:07:00,310 –> 00:07:03,250
برای نمونه درخواست کنیم زمان به ما می گوید
134
00:07:03,250 –> 00:07:05,320
که تاریخ صحیح را برای هر
135
00:07:05,320 –> 00:07:09,370
رتبه در هفته اول تا ورودی به دست
136
00:07:09,370 –> 00:07:11,830
آوریم، برای مثال می توانیم
137
00:07:11,830 –> 00:07:14,910
تور تاریخ ستون وارد شده را برای اولین رکورد
138
00:07:14,910 –> 00:07:19,240
به اضافه بار دلتا محاسبه کنیم. هفت روز است، بنابراین
139
00:07:19,240 –> 00:07:22,030
ما یک عملیات شامل دو ستون جداگانه انجام می
140
00:07:22,030 –> 00:07:25,300
دهیم، با تاریخ وارد شده شروع می کنیم
141
00:07:25,300 –> 00:07:29,910
و سپس یک دلتای زمانی یک هفته
142
00:07:29,910 –> 00:07:33,910
ضرب در ضربان ستون منهای یک اضافه می کنیم،
143
00:07:33,910 –> 00:07:37,120
زیرا بن بست قدیمی از قبل
144
00:07:37,120 –> 00:07:40,090
تاریخ هفته اول است و ما اختصاص می دهیم.
145
00:07:40,090 –> 00:07:43,300
نتیجه دوباره به یک ستون جدید به نام فقط
146
00:07:43,300 –> 00:07:52,810
مرده در این مرحله ممکن است
147
00:07:52,810 –> 00:07:56,350
ستون مرده را نیز رها کنیم. این کار
148
00:07:56,350 –> 00:07:59,980
با drop انجام می
149
00:07:59,980 –> 00:08:03,100
150
00:08:03,100 –> 00:08:08,290
شود.
151
00:08:08,290 –> 00:08:10,560
نگاهی بیندازید
152
00:08:10,980 –> 00:08:14,169
در نهایت ما هر دو ستون و
153
00:08:14,169 –> 00:08:22,660
اروس هنرمند دریک زمان تاریخ هفته را در رتبهبندی حل میکنیم
154
00: