در این مطلب، ویدئو تبدیل داده های پیشرفته پاندای پایتون | ماساژ داده ها با استفاده از پانداها با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:12:22
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,089 –> 00:00:04,490
این کنفرانس اکنون ثبت خواهد شد
2
00:00:04,490 –> 00:00:06,870
سلام دوستان و خوش آمدید به
3
00:00:06,870 –> 00:00:09,690
آموزش های PSP آرام من نیاز دارم و امروز
4
00:00:09,690 –> 00:00:11,340
قصد دارم به شما یاد بدهم که چگونه
5
00:00:11,340 –> 00:00:13,800
داده های پیشرفته ماساژ داده پاکسازی
6
00:00:13,800 –> 00:00:17,520
و تبدیل داده های خام خود را انجام دهید، ما
7
00:00:17,520 –> 00:00:19,890
از کتابخانه pandas Python برای
8
00:00:19,890 –> 00:00:22,110
انجام داده های مختلف استفاده خواهیم کرد. ماساژ و
9
00:00:22,110 –> 00:00:24,180
تغییر شکل، تکنیکهای مختلف پاکسازی و فیلتر کردن دادهها را انجام میدهد،
10
00:00:24,180 –> 00:00:25,740
11
00:00:25,740 –> 00:00:29,039
همچنین نموداری را مشاهده میکنید تا
12
00:00:29,039 –> 00:00:31,650
هر نوع تجزیه و تحلیل دادههای توماس یا
13
00:00:31,650 –> 00:00:34,320
تجزیه و تحلیل دادهها را انجام دهید یا هر نوع
14
00:00:34,320 –> 00:00:36,660
یادگیری ماشینی را اعمال کنید، نکته آخر این است که
15
00:00:36,660 –> 00:00:40,980
دادههای شما باید در قالب تیمی
16
00:00:40,980 –> 00:00:42,420
دادههایی را که از سیستم منبع خود استخراج میکنید
17
00:00:42,420 –> 00:00:46,200
ممکن است مطابق با
18
00:00:46,200 –> 00:00:48,840
الزامات مورد نیاز مشتری شما نباشد و
19
00:00:48,840 –> 00:00:51,719
بنابراین قدم اول همیشه این است که
20
00:00:51,719 –> 00:00:53,610
دادههای شما را ماساژ دهید خوب اجازه دهید
21
00:00:53,610 –> 00:00:56,399
ابتدا در مثال امروزی نیاز را نشان دهم،
22
00:00:56,399 –> 00:00:58,410
همانطور که در زوج قبلی انجام دادید. از
23
00:00:58,410 –> 00:01:01,190
نمونههایی که دادههای ترم داریم و
24
00:01:01,190 –> 00:01:04,409
به ترتیب انواع مختلفی
25
00:01:04,409 –> 00:01:06,439
از ماساژ دادن
26
00:01:06,439 –> 00:01:09,119
دادهها را به ترتیب انجام میدهیم. برای آماده شدن
27
00:01:09,119 –> 00:01:12,450
برای کارهای تجزیه و تحلیل داده های آینده، بنابراین
28
00:01:12,450 –> 00:01:15,209
امروز ما چندین فایل منبع ERP داریم که
29
00:01:15,209 –> 00:01:17,520
این فایل ها فایل های پروازی هستند و
30
00:01:17,520 –> 00:01:20,549
اهداف ما برای تبدیل استفاده از تکنیک های مختلف
31
00:01:20,549 –> 00:01:22,889
پاکسازی داده ها
32
00:01:22,889 –> 00:01:25,560
این فایل ها را تبدیل کرده و چندین فایل را ماساژ داده
33
00:01:25,560 –> 00:01:28,829
و به یک فایل تبدیل
34
00:01:28,829 –> 00:01:31,919
می کنیم. این دارای دو
35
00:01:31,919 –> 00:01:34,919
فایل مسطح است زیرا فقط در جلسه بعدی
36
00:01:34,919 –> 00:01:36,209
به شما نشان خواهم داد که چگونه داده ها را از
37
00:01:36,209 –> 00:01:40,259
منابع مختلف مانند فیس بوک اکسل بیاورید
38
00:01:40,259 –> 00:01:42,749
محصول تجاری شما مانند Salesforce
39
00:01:42,749 –> 00:01:44,819
Google Index برای منابع مختلف
40
00:01:44,819 –> 00:01:46,919
داده ها را به ارمغان می آورد و انواع مختلفی از
41
00:01:46,919 –> 00:01:49,289
تکنیک های ماساژ داده را اعمال می کند و آن را تمیز می کند.
42
00:01:49,289 –> 00:01:52,619
تکنیک با استفاده از کتابخانه پانل پایتون پانداها
43
00:01:52,619 –> 00:01:55,109
و آوردن دادهها به
44
00:01:55,109 –> 00:01:57,569
قالب معنادار، بیایید نیازهای امروز را درک کنیم،
45
00:01:57,569 –> 00:01:59,789
بنابراین من دو
46
00:01:59,789 –> 00:02:02,489
واقعیت کوچک از مشتری خود در این فایل داده دریافت
47
00:02:02,489 –> 00:02:05,429
کردهام، آن را محدود میکنم و دادههای ما از تجارت
48
00:02:05,429 –> 00:02:08,399
این دو فایل منبع
49
00:02:08,399 –> 00:02:08,719
از
50
00:02:08,719 –> 00:02:12,840
سیستم ERP داخلی استخراج میشوند و اینها
51
00:02:12,840 –> 00:02:13,980
نمونه داده های
52
00:02:13,980 –> 00:02:15,750
من هستند، بنابراین من دو فایل داده از دو
53
00:02:15,750 –> 00:02:18,349
نهاد مختلف یا اشخاص حقوقی دارم
54
00:02:18,349 –> 00:02:22,560
استرالیا و ایالات متحده و هدف من
55
00:02:22,560 –> 00:02:24,090
انجام پاکسازی داده های مختلف و
56
00:02:24,090 –> 00:02:26,370
ترکیب این دو فایل در قالب یک
57
00:02:26,370 –> 00:02:28,950
فایل یکنواخت به منظور هر نوع تجزیه و
58
00:02:28,950 –> 00:02:31,260
تحلیلی است که باید در یک فایل
59
00:02:31,260 –> 00:02:35,190
با فرمت یکنواخت باشد، بنابراین
60
00:02:35,190 –> 00:02:36,569
این دو فایل را باز نگه می
61
00:02:36,569 –> 00:02:38,430
داریم. آنچه را که باید انجام دهیم را در این لیست خواهیم دید.
62
00:02:38,430 –> 00:02:41,819
فهرستی از فعالیت
63
00:02:41,819 –> 00:02:42,780
هایی که باید انجام شوند را فهرست کرده ام.
64
00:02:42,780 –> 00:02:44,819
مرحله اول داده ها را از چندین
65
00:02:44,819 –> 00:02:46,980
فایل پروازی می خوانم، محدود کننده را
66
00:02:46,980 –> 00:02:47,849
هر چه باشد
67
00:02:47,849 –> 00:02:49,739
در مثال ما تعریف می کنم، این یک جداکننده لوله است
68
00:02:49,739 –> 00:02:51,799
و می خواهم این تبدیل ها را انجام
69
00:02:51,799 –> 00:02:55,260
دهم، اجازه دهید
70
00:02:55,260 –> 00:02:56,549
آنها را یکی یکی بخوانم و به
71
00:02:56,549 –> 00:02:59,160
طور عملی در فایل های مسطح برای شما توضیح دهم، بنابراین باید
72
00:02:59,160 –> 00:03:02,310
نوع داده را تغییر دهم زیرا اگر
73
00:03:02,310 –> 00:03:05,489
به فایل داده فایل داده خود نگاه کنید،
74
00:03:05,489 –> 00:03:08,130
احتمالاً اگر
75
00:03:08,130 –> 00:03:09,599
خواندن من برای شما مشکل باشد، ناسازگار نیست. میتوانید این
76
00:03:09,599 –> 00:03:12,090
فایل را به فرمت ستونی تبدیل کنید،
77
00:03:12,090 –> 00:03:16,079
اگر میخواهید دانشمند داده شوید
78
00:03:16,079 –> 00:03:18,299
یا میخواهید خاص
79
00:03:18,299 –> 00:03:20,100
باشید، میتوانید از ستون data x2 استفاده
80
00:03:20,100 –> 00:03:22,709
81
00:03:22,709 –> 00:03:25,829
کنید. باید در اکسل خوب باشد،
82
00:03:25,829 –> 00:03:29,250
بنابراین اگر به این نگاه کنید تاریخ سفارش من
83
00:03:29,250 –> 00:03:31,799
84
00:03:31,799 –> 00:03:34,440
با فرمت درستی نیست، فروش من با فرمت رشته ای احتمالاً اینجا را نمی بینم
85
00:03:34,440 –> 00:03:38,430
در واقع رشته است، بنابراین می
86
00:03:38,430 –> 00:03:41,400
دانید که من باید فروش را از رشته ای
87
00:03:41,400 –> 00:03:43,319
به فرمت عددی تبدیل کنم. چند کار
88
00:03:43,319 –> 00:03:46,049
تبدیل داده که انجام میدهیم
89
00:03:46,049 –> 00:03:48,870
، بنابراین نوع داده را تغییر میدهیم، بنابراین اعداد تمام
90
00:03:48,870 –> 00:03:52,260
هزینههای عملیاتی عمده فروش، اینها
91
00:03:52,260 –> 00:03:54,750
حقایقی برای اصلی هستند،
92
00:03:54,750 –> 00:03:57,630
باید نوع عددی باشند، همچنین تعدادی ستون ناخواسته را حذف میکنیم،
93
00:03:57,630 –> 00:03:59,280
چند ستون ناخواسته وجود دارد
94
00:03:59,280 –> 00:04:01,319
که من نمیکنم. نیاز به
95
00:04:01,319 –> 00:04:03,150
تجزیه و تحلیل، شما همچنین باید
96
00:04:03,150 –> 00:04:06,900
روی دادهها در دیل یا یک تاریخ مثبت عمل کنید، بنابراین
97
00:04:06,900 –> 00:04:08,970
اوراکل میبینید که در
98
00:04:08,970 –> 00:04:12,269
قالب یکنواخت است، بنابراین این
99
00:04:12,269 –> 00:04:14,549
تاریخ سفارش را به یک قالب یکنواخت منتقل میکند، سپس
100
00:04:14,549 –> 00:04:16,019
دو سه کار اضافی که قرار است
101
00:04:16,019 –> 00:04:19,168
انجام دهیم، مینویسیم. این داده ها را
102
00:04:19,168 –> 00:04:21,298
به فایل متنی خود برگردانید، اما قبل از آن باید
103
00:04:21,298 –> 00:04:23,130
اطمینان حاصل کنیم که هیچ تکراری نداریم
104
00:04:23,130 –> 00:04:24,690
، چند مورد تکراری در فایل داده ما وجود دارد
105
00:04:24,690 –> 00:04:25,810
و سپس
106
00:04:25,810 –> 00:04:28,930
مقادیر، بنابراین اگر به فایل داده مادر خود نگاه کنیم
107
00:04:28,930 –> 00:04:35,230
le من آن را دوباره از
108
00:04:35,230 –> 00:04:38,020
یک فایل ساده ساده به فرمت معنی دار اکسل
109
00:04:38,020 –> 00:04:41,830
تبدیل می کنم که در فضای مجازی
110
00:04:41,830 –> 00:04:44,500
در شهرها مقادیری وجود ندارد به طور مشابه
111
00:04:44,500 –> 00:04:45,820
آنها رکوردهای تکراری هستند،
112
00:04:45,820 –> 00:04:48,070
بنابراین همه این مشکل زمانی وجود دارد که
113
00:04:48,070 –> 00:04:50,230
داده های اضافی را از منابع خود می دانید
114
00:04:50,230 –> 00:04:52,630
و نمی دانید یک
115
00:04:52,630 –> 00:04:54,790
لایه ماساژ داده میانی نداریم، بنابراین
116
00:04:54,790 –> 00:04:58,419
میخواهیم موارد تکراری را حذف کنیم،
117
00:04:58,419 –> 00:05:00,520
موارد تکراری و غیر ارزشی را حذف میکنیم و در نهایت
118
00:05:00,520 –> 00:05:02,350
میخواهیم رکوردها را بر اساس
119
00:05:02,350 –> 00:05:05,680
معیارهای خاصی در این مثال فیلتر کنیم،
120
00:05:05,680 –> 00:05:10,320
اما برای برخی از شهرهایی
121
00:05:10,320 –> 00:05:14,740
که وجود دارد، چندین شهر داریم. هیچ انتقالی وجود ندارد چرا چون
122
00:05:14,740 –> 00:05:17,050
برخی از شهرها یا نهادهای تجاری در حال
123
00:05:17,050 –> 00:05:19,300
غروب هستند آنها در حال فعالیت نیستند و
124
00:05:19,300 –> 00:05:21,840
بنابراین من می خواهم آنها را از
125
00:05:21,840 –> 00:05:23,889
تجزیه و تحلیل حذف کنم، نمی خواهم آنها
126
00:05:23,889 –> 00:05:26,080
را در سیستم من قرار دهم بنابراین یک
127
00:05:26,080 –> 00:05:28,240
فیلتر ساده در روح
128
00:05:28,240 –> 00:05:30,280
من وجود دارد. متعاقباً تجزیه و تحلیل ساده خواهد بود،
129
00:05:30,280 –> 00:05:33,700
بنابراین اکنون انجام آنها امکان پذیر است،
130
00:05:33,700 –> 00:05:36,400
اجازه دهید این BPD را
131
00:05:36,400 –> 00:05:38,140
باز کنیم و کد را باز کنیم و سعی کنیم کد را خط به خط بخوانیم،
132
00:05:38,140 –> 00:05:41,710
بنابراین مرحله اول اجازه دهید همه m را پاک کنم.
133
00:05:41,710 –> 00:05:47,440
ابتدا مقدار متغیر y و من نیز
134
00:05:47,440 –> 00:05:49,630
کنسول خود را تمیز میکنم. من از Python spider استفاده میکنم. من از
135
00:05:49,630 –> 00:05:50,050
136
00:05:50,050 –> 00:05:52,900
این IDE خوشم میآید، میتوانید از همان IDE استفاده کنید یا
137
00:05:52,900 –> 00:05:55,150
میتوانید از IDE مورد علاقهتان استفاده کنید، بنابراین مرحله
138
00:05:55,150 –> 00:05:58,479
اول شما کاملاً به این معنی است که ما در حال وارد کردن
139
00:05:58,479 –> 00:06:01,870
کتابخانه پایتون مرحله کتابخانه پانل پایتون هستیم.
140
00:06:01,870 –> 00:06:04,390
دوم، من در حال خواندن دادهها از یک فایل مسطح هستم،
141
00:06:04,390 –> 00:06:06,400
بنابراین این دو فایل مسطح من هستند
142
00:06:06,400 –> 00:06:09,160
که همین الان به شما جزئیات سفارش از
143
00:06:09,160 –> 00:06:11,350
مبدا استرالیا از ایالات متحده را به شما نشان دادم، بنابراین این
144
00:06:11,350 –> 00:06:14,500
بخشی از آرگومان اول