در این مطلب، ویدئو حل وظایف علم داده در دنیای واقعی با پاندای پایتون! با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 1:26:07
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,590 –> 00:00:01,340
[موسیقی]
2
00:00:01,340 –> 00:00:03,929
هی چه خبر است همه و
3
00:00:03,929 –> 00:00:05,730
به ویدیوی دیگری خوش آمدید من واقعا برای این ویدیو هیجان زده هستم که
4
00:00:05,730 –> 00:00:07,350
امروز در آن می خواهیم
5
00:00:07,350 –> 00:00:09,030
مشکلات علم داده در دنیای واقعی را با
6
00:00:09,030 –> 00:00:11,160
پانداهای پایتون حل کنیم، بنابراین اساساً چگونه پیش
7
00:00:11,160 –> 00:00:13,440
می رود. برای گرفتن یک
8
00:00:13,440 –> 00:00:15,360
مجموعه داده، پردازش اولیه و
9
00:00:15,360 –> 00:00:16,949
تمیز کردن آن داده ها را انجام دهید و پس از آن
10
00:00:16,949 –> 00:00:18,210
که کمی بیشتر از یک
11
00:00:18,210 –> 00:00:19,800
مجموعه داده صیقلی داشته باشیم، شروع به کاوش در
12
00:00:19,800 –> 00:00:21,930
آن داده می کنیم و می دانید که واقعاً از
13
00:00:21,930 –> 00:00:23,910
pandas پایتون و matplotlib پایتون برای
14
00:00:23,910 –> 00:00:25,680
استخراج معنی استفاده می کنید. آن دادهها و
15
00:00:25,680 –> 00:00:27,210
در نهایت با همین
16
00:00:27,210 –> 00:00:28,920
معنای استخراجشده با آن تحلیل،
17
00:00:28,920 –> 00:00:30,539
ما میتوانیم به
18
00:00:30,539 –> 00:00:32,850
سؤالات نوع کسبوکار در دنیای واقعی از دادهها پاسخ دهیم، همانطور
19
00:00:32,850 –> 00:00:34,950
که یک دانشمند داده یا تحلیلگر داده
20
00:00:34,950 –> 00:00:36,809
قبل از شروع من میخواهم از شما تشکر کنم
21
00:00:36,809 –> 00:00:38,879
که این اتفاق افتاد. من با
22
00:00:38,879 –> 00:00:41,460
این ویدیو شروع کردم به عنوان چهار گزینه ای که شما
23
00:00:41,460 –> 00:00:43,440
بچه ها ظاهراً این گزینه را دوست دارید، این گزینه با
24
00:00:43,440 –> 00:00:45,780
بیشترین رأی رای داده شده بود و
25
00:00:45,780 –> 00:00:47,190
سپس این سؤال را پرسیدم که می دانید چه چیزی را
26
00:00:47,190 –> 00:00:48,600
باید در این ویدیو قرار دهم که شما
27
00:00:48,600 –> 00:00:49,800
به من داده اید. پاسخهای بسیار جالبی دارم،
28
00:00:49,800 –> 00:00:52,739
شما پاسخهای زیادی به من میدهید
29
00:00:52,739 –> 00:00:53,730
و من در واقع نمیتوانم
30
00:00:53,730 –> 00:00:56,460
همه آنچه را که بچهها پیشنهاد کردهاید انجام دهم
31
00:00:56,460 –> 00:00:57,930
را در این ویدیو قرار دهم، اما این را به
32
00:00:57,930 –> 00:00:59,489
صورت یک سری میسازم، بنابراین اگر متوجه شدید که این ویدیو را دوست دارید،
33
00:00:59,489 –> 00:01:01,109
بسازید. حتما مشترک می شوید تا
34
00:01:01,109 –> 00:01:03,329
سری آینده را از دست ندهید من می دانم که برخی
35
00:01:03,329 –> 00:01:05,010
از ایده های من برای نوع آینده
36
00:01:05,010 –> 00:01:07,229
مشکلات علم داده در دنیای واقعی
37
00:01:07,229 –> 00:01:09,479
تجزیه و تحلیل ورزشی خواهد بود، شاید
38
00:01:09,479 –> 00:01:12,030
تجزیه و تحلیل معاملات سهام
39
00:01:12,030 –> 00:01:13,979
40
00:01:13,979 –> 00:01:15,720
باشد. جالب است فکر می کنم این خواهد بود
41
00:01:15,720 –> 00:01:17,939
من فکر می کنم یک روش سرگرم کننده برای انجام یکسری
42
00:01:17,939 –> 00:01:19,259
ویدیوهای مختلف و یکسری
43
00:01:19,259 –> 00:01:21,060
چیزهای مختلف تجزیه و تحلیل داده های دنیای واقعی خواهد بود،
44
00:01:21,060 –> 00:01:23,100
بنابراین امیدوارم که بچه ها این ویدیو را دوست
45
00:01:23,100 –> 00:01:24,659
داشته باشید برای شروع با این آموزش به شما
46
00:01:24,659 –> 00:01:27,240
نیاز دارید. برای دانلود دادهها، بنابراین میتوانید این کار
47
00:01:27,240 –> 00:01:29,280
را با رفتن به صفحه github من انجام دهید که
48
00:01:29,280 –> 00:01:31,259
در توضیحات به آن پیوند
49
00:01:31,259 –> 00:01:33,060
داده شده است و دادهها در دادههای فروش تجزیه و تحلیل فروش یافت میشوند،
50
00:01:33,060 –> 00:01:35,549
بنابراین دادههای فروش 12 ماهه
51
00:01:35,549 –> 00:01:37,590
دقیقاً همانجا است، بنابراین به فهرست اصلی بازگردید.
52
00:01:37,590 –> 00:01:40,259
تی صفحه github و
53
00:01:40,259 –> 00:01:41,880
دو گزینه برای دریافت دادهها وجود دارد، بنابراین
54
00:01:41,880 –> 00:01:43,740
میتوانید اگر با git آشنا
55
00:01:43,740 –> 00:01:46,829
هستید، میتوانید این مخزن را فورک کنید، سپس
56
00:01:46,829 –> 00:01:49,290
آن را به صورت محلی کلون کنید و دستورالعملهایی در مورد
57
00:01:49,290 –> 00:01:51,479
نحوه انجام آن یا در تنظیم این
58
00:01:51,479 –> 00:01:54,659
مخزن و دیگری وجود دارد. گزینه این است که روی
59
00:01:54,659 –> 00:01:57,030
این دکمه سبز در اینجا کلیک کنید و
60
00:01:57,030 –> 00:02:02,329
فایل فشرده را دانلود کنید و سپس ادامه دهید و
61
00:02:02,329 –> 00:02:05,189
آن را در هر کجا که می خواهید
62
00:02:05,189 –> 00:02:07,909
روی کد کار کنید استخراج کنید، بنابراین
63
00:02:07,909 –> 00:02:10,128
64
00:02:10,128 –> 00:02:12,290
مخاطبان همیشه دوست دارند که حواسش را پرت کنند
65
00:02:12,290 –> 00:02:16,160
و بعد من شخصاً آن را مانند کد YouTube قرار دهید.
66
00:02:16,160 –> 00:02:17,810
مانند استفاده از نوتبوکهای مشتری برای انجام
67
00:02:17,810 –> 00:02:19,819
تجزیه و تحلیل، بنابراین من یک دفترچه یادداشت مشتری را باز
68
00:02:19,819 –> 00:02:29,420
میکنم و این کار را با رفتن
69
00:02:29,420 –> 00:02:31,430
انجام میدهم اگر نوتبوک مشتری ندارید،
70
00:02:31,430 –> 00:02:34,280
پیوندی برای تنظیم آن و نحوه انجام آن در توضیحات قرار خواهم داد.
71
00:02:34,280 –> 00:02:35,840
خوب پس آن را بررسی
72
00:02:35,840 –> 00:02:37,549
کنید و من دفترچه یادداشت مشتری را دوست دارم زیرا
73
00:02:37,549 –> 00:02:39,980
شما می توانید به نوعی کار خود را انجام دهید، می توانید
74
00:02:39,980 –> 00:02:41,780
کد خود را بنویسید و واقعاً مانند یک
75
00:02:41,780 –> 00:02:43,640
تجزیه و تحلیل خوب نشان دهید که می توانید مانند آن را
76
00:02:43,640 –> 00:02:45,560
به شخص دیگری در همان مکان
77
00:02:45,560 –> 00:02:47,299
بدون هیچ تلاش اضافی بدهید. چرا
78
00:02:47,299 –> 00:02:49,849
دوست دارم نوتبوکهای مشتری بسیار خوب است، بنابراین به
79
00:02:49,849 –> 00:02:53,150
این قسمت و تجزیه و تحلیل فروش بروید و همانطور که
80
00:02:53,150 –> 00:02:54,739
میبینید قبلاً یک نوتبوک کامل مشتری
81
00:02:54,739 –> 00:02:56,269
وجود دارد که مانند کد تکمیلشده
82
00:02:56,269 –> 00:02:58,430
است، میخواهیم یک نوتبوک جدید مشتری ایجاد کنیم
83
00:02:58,430 –> 00:02:59,829
تا فقط از ابتدا شروع شود
84
00:02:59,829 –> 00:03:03,940
و من آن را فقط مینامم. تجزیه و تحلیل
85
00:03:03,940 –> 00:03:05,629
در طول این ویدیو من قصد دارم
86
00:03:05,629 –> 00:03:07,760
انواع وظایف مشخصی را برای شما ارائه دهم
87
00:03:07,760 –> 00:03:09,829
تا سعی کنید راهی را که
88
00:03:09,829 –> 00:03:11,000
احتمالاً از این ویدیو حداکثر استفاده را دارید حل کنید
89
00:03:11,000 –> 00:03:12,500
، هر بار که یک کار جدید ارائه می دهم
90
00:03:12,500 –> 00:03:14,900
سعی کنید آن را بر روی شما حل کنید. خودتان و
91
00:03:14,900 –> 00:03:17,780
سپس اگر نمی توانید آن را بفهمید، ادامه دهید
92
00:03:17,780 –> 00:03:19,010
و ویدیو را پخش کنید و سپس من
93
00:03:19,010 –> 00:03:20,630
راه حل را بررسی خواهم کرد، لازم نیست این
94
00:03:20,630 –> 00:03:21,769
کار را انجام دهید، اما فقط فکر می کنم این
95
00:03:21,769 –> 00:03:23,389
توصیه خوبی برای به دست آوردن تجربه عملی واقعی
96
00:03:23,389 –> 00:03:25,370
است. خوب برای شروع، بیایید
97
00:03:25,370 –> 00:03:27,380
کتابخانههای لازم را وارد کنیم،
98
00:03:27,380 –> 00:03:29,930
بنابراین برای شروع، فقط پاندا خواهد بود
99
00:03:29,930 –> 00:03:32,060
و اگر پان را نصب نکردهاید،
100
00:03:32,060 –> 00:03:33,410
پیوندی در توضیحات برای
101
00:03:33,410 –> 00:03:36,769
نصب پانداها درست میگذارم، بنابراین اولین وظیفه ما چیست،
102
00:03:36,769 –> 00:03:39,290
بنابراین اولین وظیفه این است که
103
00:03:39,290 –> 00:03:43,910
ما i داشته باشیم در آن مخزن، ما همه
104
00:03:43,910 –> 00:03:46,250
آن دادههایی را داریم که به شما نشان دادم، بنابراین
105
00:03:46,250 –> 00:03:49,040
پوشه دادههای فروش را داریم و هر کدام از
106
00:03:49,040 –> 00:03:52,280
آنهایی که در این هستند، دادههای 12 ماهه دارند،
107
00:03:52,280 –> 00:03:56,739
بنابراین اولین کار این است که
108
00:03:56,739 –> 00:04:04,510
12 ماه دادههای فروش را در
109
00:04:04,510 –> 00:04:07,940
یک فایل ادغام کنیم. پس ادامه دهید و این
110
00:04:07,940 –> 00:04:09,319
را خودتان امتحان کنید و سپس من نحوه
111
00:04:09,319 –> 00:04:11,510
حل این مشکل را توضیح خواهم داد و ما می خواهیم این کار را انجام دهیم
112
00:04:11,510 –> 00:04:13,730
زیرا وقتی همه چیز را با هم ادغام کرده ایم
113
00:04:13,730 –> 00:04:15,889
انجام انواع تجزیه و تحلیل سالانه برای ما آسان تر خواهد بود.
114
00:04:15,889 –> 00:04:17,180
115
00:04:17,180 –> 00:04:20,870
برخلاف 12 فایل جداگانه
116
00:04:20,870 –> 00:04:23,340
که ما این کار را انجام خواهیم داد، میتوانم بگویم
117
00:04:23,340 –> 00:04:25,830
که شروع ساده است و برای شروع ساده،
118
00:04:25,830 –> 00:04:28,020
فقط سعی میکنیم یک ماه از دادهها را بخوانیم،
119
00:04:28,020 –> 00:04:30,750
بنابراین اگر دادههای ما را به خاطر دارید،
120
00:04:30,750 –> 00:04:32,850
ما در حال حاضر روی یک فایل تجزیه و تحلیل کار
121
00:04:32,850 –> 00:04:35,790
میکنیم. دادهها در دادههای فروش هستند و سپس
122
00:04:35,790 –> 00:04:38,040
فرض کنید میخواستیم فروش آوریل
123
00:04:38,040 –> 00:04:41,540
2019 نقطه CSV را دریافت کنیم، بنابراین میتوانیم این کار را با استفاده از
124
00:04:41,540 –> 00:04:49,110
DF برابر با نقطه PD
125
00:04:49,110 –> 00:04:50,430
126
00:04:50,430 –> 00:04:59,520
127
00:04:59,520 –> 00:05:02,220
انجام دهیم. باید فقط یک
128
00:05:02,220 –> 00:05:05,670
ماه از داده های ما را دریافت کند روی آن و سپس
129
00:05:05,670 –> 00:05:07,050
اگر میخواهید واقعاً ببینید که من
130
00:05:07,050 –> 00:05:09,030
با Shift + Enter تمام شدهام، بهطوریکه من این کار را سریع انجام دادم،
131
00:05:09,030 –> 00:05:12,930
سر نقطهای D پنج ردیف اول را به ما میدهد
132
00:05:12,930 –> 00:05:14,730
و همانطور که میبینید، به آن نگاه
133
00:05:14,730 –> 00:05:17,280
کنید که ما شما را با چند
134
00:05:17,280 –> 00:05:19,110
محصول آشنا کردیم. سفارش داده است تاریخ سفارش
135
00:05:19,110 –> 00:05:21,030
آدرس خرید ما داده های ما خوب است،
136
00:05:21,030 –> 00:05:23,610
بنابراین اکنون چگونه می توانیم آن را بگیریم و در
137
00:05:23,610 –> 00:05:26,850
واقع هر ماه آن را در یکی ادغام کنیم، بنابراین
138
00:05:26,850 –> 00:05:28,410
منظورم این است که هر زمان که چیزی
139
00:05:28,410 –> 00:05:30,660
شبیه به این را حل می کنم، معمولاً یکسری جستجوهای گوگل انجام می دهم
140
00:05:30,660 –> 00:05:34,590
بنابراین منظورم این است که Stack Overflow
141
00:05:34,590 –> 00:05:36,540
بزرگترین دوست ماست وقتی که
142
00:05:36,540 –> 00:05:37,830
این مشکلات علم داده را حل میکنیم،
143
00:05:37,830 –> 00:05:39,810
نیمی از چیزهایی را که احساس
144
00:05:39,810 –> 00:05:42,300
میکنم در نهایت استفاده میکنم به یاد نمیآورم، اما میتوانم بدانم به
145
00:05:42,300 –> 00:05:43,770
دنبال چه هستم و جستجو کنم.
146
00:05:43,770 –> 00:05:45,960
بنابراین می دانید که مانند یک پنجره گوگل باز می شوید
147
00:05:45,960 –> 00:05:48,570
و چیزی را تایپ می کنید مانند خواندن
148
00:05:48,570 –> 00:05:55,710
همه فایل ها از دایرکتوری Python چگونه
149
00:05:55,710 –> 00:05:57,240
همه فایل ها را در فهرست فهرست کنم،
150
00:05:57,240 –> 00:06:00,690
ببینیم چه می گوید OS شروع لیست فهرست
151
00:06:00,690 –> 00:06:01,830
همه چیزهایی را که در یک
152
00:06:01,830 –> 00:06:04,100
دایرکتوری است به شما می دهد. و به شما یک
153
00:06:04,100 –> 00:06:10,500
نگاه نمونه به آن s جالب می دهد o ما میتوانیم از فهرست فهرست استفاده کنیم
154
00:06:10,500 –> 00:06:12,930
، من آن را به این شکل وارد میکنم،
155
00:06:12,930 –> 00:06:15,570
آن را به اینجا وارد میکنم و دوباره آن را اجرا
156
00:06:15,570 –> 00:06:18,360
میکنم تا همه واردات خود را در آنجا دریافت کنیم و سپس
157
00:06:18,360 –> 00:06:23,220
کاری که میخواهیم انجام دهیم این است که فایلها را انجام میدهیم
158
00:06:23,220 –> 00:06:27,180
، مثلاً فایلها برابر است و ما در
159
00:06:27,180 –> 00:06:28,770
اینجا یک لیست را درک می کنیم،
160
00:06:28,770 –> 00:06:34,190
می گوییم فایل برای فایل در فهرست فهرست نقاط سیستم عامل
161
00:06:34,190 –> 00:06:36,360
و من معتقدم که می توانیم از
162
00:06:36,360 –> 00:06:40,940
مسیری در اینجا عبور کنیم، بنابراین داده های فروش را انجام خواهیم داد
163
00:06:40,940 –> 00:06:44,130
و امیدوارم که فایل ها همه چیز را در اختیار ما قرار دهند.
164
00:06:44,130 –> 00:06:45,479
ما به دنبال آن هستیم،
165
00:06:45,479 –> 00:06:51,030
حالا برای فایل و فایلها انجام میدهیم، میدانم که این چیزی نیست
166
00:06:51,030 –> 00:06:51,990
که من میخواستم، کپی
167
00:06:51,990 –> 00:06:55,950
میکنم، فقط میگویم فایل چاپی و ببینم چه میشود
168
00:06:55,950 –> 00:06:58,320
و من میخواهم از شر این
169
00:06:58,320 –> 00:07:01,320
DF خلاص شوم.
170
00:07:01,320 –> 00:07:03,240
داده های دوازده ماهه با انجام
171
00:07:03,240 –> 00:07:04,979
فایل برای فایل در دایرکتوری بدون فکر سیستم عامل
172
00:07:04,979 –> 00:07:06,539
، بنابراین اکنون ما فقط باید
173
00:07:06,539 –> 00:07:11,130
این فایل ها را برداریم و آنها را به هم متصل کنیم تا
174
00:07:11,130 –> 00:07:14,640
یک CSV واحد بسازیم، بنابراین چگونه می توانیم
175
00:07:14,640 –> 00:07:16,530
این کار را انجام دهیم و می دانید که من همین کار را انجام
176
00:07:16,530 –> 00:07:18,930
می دهم در پشت صحنه این است
177
00:07:18,930 –> 00:07:22,440
که می دانید من می گویم شما می دانید چگونه
178
00:07:22,440 –> 00:07:26,910
فریم های داده را به هم متصل می کنید یا می دانید
179
00:07:26,910 –> 00:07:27,870
شاید شما نمیدانید ردیف کار
180
00:07:27,870 –> 00:07:30,060
ممکن است بگوییم مانند ادغام یا
181
00:07:30,060 –> 00:07:31,110
چیزی شبیه به این که احتمالاً
182
00:07:31,110 –> 00:07:35,490
در پانداهای پاندا به همان پاسخ خواهید رسید
183
00:07:35,490 –> 00:07:37,710
184
00:07:37,710 –> 00:07:39,090
185
00:07:39,090 –> 00:07:41,130
. همه
186
00:07:41,130 –> 00:07:44,150
آنها را کاملاً در یک CSV منفرد الحاق
187
00:07:44,150 –> 00:07:47,070
می کنیم، بنابراین ما شروع می کنیم و
188
00:07:47,070 –> 00:07:50,430
من فقط چیزی شبیه به همه را می گویم قبل
189
00:07:50,430 –> 00:07:51,870
از اینکه وارد حلقه for شویم،
190
00:07:51,870 –> 00:07:54,630
احتمالاً یک قاب داده خالی را برای ذخیره کردن همه تعریف می کنیم.
191
00:07:54,630 –> 00:07:56,910
از دادههای ما،
192
00:07:56,910 –> 00:08:02,550
میخواهید بگویید که دادههای همه ماهها برابر با قاب داده PD
193
00:08:02,550 –> 00:08:05,669
است، بنابراین وقتی
194
00:08:05,669 –> 00:08:07,650
CSV را میخوانیم، آن را در فریم استات میخوانیم، بنابراین اگر
195
00:08:07,650 –> 00:08:09,180
میخواهیم یک قاب داده خالی ایجاد
196
00:08:09,180 –> 00:08:11,729
کنیم، کاری شبیه به این انجام میدهیم
197
00:08:11,729 –> 00:08:13,740
و اکنون آنچه را که میخواهیم انجام دهیم. هر
198
00:08:13,740 –> 00:08:15,360
بار که فایل جدیدی اضافه می کنیم، باید
199
00:08:15,360 –> 00:08:19,229
نام فایل را بخوانیم و به یاد داشته باشیم
200
00:08:19,229 –> 00:08:21,240
که آن را با این مسیر شروع می کنیم، بنابراین
201
00:08:21,240 –> 00:08:24,720
در نهایت چاپ را انجام می دهیم یا
202
00:08:24,720 –> 00:08:29,700
این CSV خوانده شده را منتقل می کنیم. در اینجا ما
203
00:08:29,700 –> 00:08:32,099
میخواهیم معادل DF را انجام دهیم و صادقانه میتوانیم
204
00:08:32,099 –> 00:08:34,669
این معادله کل خط
205
00:08:36,629 –> 00:08:39,519
DF را کپی کنیم هزینه رساله als PD uh و اکنون
206
00:08:39,519 –> 00:08:42,068
به جای این
207
00:08:42,068 –> 00:08:47,949
فایل اسلش داده های فروش را به اضافه فایل انجام می دهیم زیرا همین کار
208
00:08:47,949 –> 00:08:49,930
را به ما می دهد زیرا هر بار
209
00:08:49,930 –> 00:08:51,220
که این کار را انجام می دهیم نام فایل مناسب را دریافت می کنیم
210
00:08:51,220 –> 00:08:54,939
تا همه فریم های داده را بخواند.
211
00:08:54,939 –> 00:08:58,509
اما اکنون باید
212
00:08:58,509 –> 00:09:00,759
آنها را به دادههای تمام ماهها اضافه کنیم تا بتوانیم
213
00:09:00,759 –> 00:09:03,699
این کار را با انجام همه ماهها انجام دهیم و میدانید
214
00:09:03,699 –> 00:09:05,019
که ممکن است راههای متعددی برای انجام این کار وجود داشته باشد که
215
00:09:05,019 –> 00:09:09,519
این معادل PD concat است و ما
216
00:09:09,519 –> 00:09:13,499
دادههای تمام ماههای قبل
217
00:09:13,499 –> 00:09:17,439
و نتیجه را به هم متصل میکنیم. داده های فعلی ما بنابراین DF
218
00:09:17,439 –> 00:09:21,550
اینجا خوب است و پس از آن وقتی به
219
00:09:21,550 –> 00:09:23,290
پایان رسیدیم باید هر
220
00:09:23,290 –> 00:09:25,449
ماه به هم متصل می شد زیرا ما روی هر فایل تکرار
221
00:09:25,449 –> 00:09:31,809
کردیم و باید دریافت کنیم که می توانیم سر داده ماه ها را انجام دهیم
222
00:09:31,809 –> 00:09:36,430
و ببینیم که چه چیزی به دست می آوریم ببینیم اگر
223
00:09:36,430 –> 00:09:40,180
چیزی کار می کند. اجرا شد، بنابراین اکنون
224
00:09:40,180 –> 00:09:42,819
این مسئله مربوط به دادههای انجام شده در تمام ماهها است، آیا میتوانیم
225
00:09:42,819 –> 00:09:44,379
آن را ذخیره کنیم و آیا همه چیز دارد، بنابراین
226
00:09:44,379 –> 00:09:47,139
من میخواهم برای CSV یک
227
00:09:47,139 –> 00:09:52,509
داده تمام ماهها را به CSV انجام دهم و اگر
228
00:09:52,509 –> 00:09:53,949
با برخی از آنها آشنا نیستید از این دستورات،
229
00:09:53,949 –> 00:09:55,569
من قطعاً توصیه می کنم
230
00:09:55,569 –> 00:09:57,490
اولین ها را بررسی کنید ویدیویی که در پانداهای پایتون پست
231
00:09:57,490 –> 00:10:01,240
کردم، آن را بالای سرم باز میکنم و همه این موارد را پوشش میدهد،
232
00:10:01,240 –> 00:10:02,550
بنابراین همه
233
00:10:02,550 –> 00:10:07,029
دادهها را انجام میدهم، همه آنها را دادهها CSV
234
00:10:07,029 –> 00:10:10,180
مینامم و ایندکس برابر با نادرست است.
235
00:10:10,180 –> 00:10:13,170
چون نمیخواهم مقادیر این ستون اول را ذخیره کنم
236
00:10:13,170 –> 00:10:17,860
و بیایید ببینیم چه اتفاقی میافتد،
237
00:10:17,860 –> 00:10:23,529
بنابراین اجرا شد و آیا اکنون همه
238
00:10:23,529 –> 00:10:26,559
لحظههای درستی دادههایمان اوکی هستند، بنابراین میخواهم
239
00:10:26,559 –> 00:10:28,689
یک فهرست به عقب برگردم همه نقطه دادهها
240
00:10:28,689 –> 00:10:31,929
CSV بسیار خوب است که به نظر میرسد خوب است، پس من
241
00:10:31,929 –> 00:10:33,610
آن را سریع باز می کنم، خیلی
242
00:10:33,610 –> 00:10:41,550
خوب است، دانلود به تنهایی خوب است، بنابراین ما
243
00:10:41,550 –> 00:10:44,740
آوریل داریم، به نظر می رسد که چهار است، اما حالا
244
00:10:44,740 –> 00:10:46,060
اگر پایین اسکرول کنم آیا ماه های دیگر را داریم
245
00:10:46,060 –> 00:10:49,839
مونا شلیک کن اوه خدای من بارگذاری
246
00:10:49,839 –> 00:10:50,560
چرا اینقدر آهسته
247
00:10:50,560 –> 00:10:54,010
هستی من ببینید هشت بله، منظورم این است که ما
248
00:10:54,010 –> 00:10:55,810
ماههایی را در اینجا داریم که میتوانید برای
249
00:10:55,810 –> 00:10:57,430
بررسی مجدد آن را مرور کنید، اما به نظر میرسد
250
00:10:57,430 –> 00:10:59,620
همه چیز را اینجا داریم، بنابراین این
251
00:10:59,620 –> 00:11:01,779
نقطه شروع خوبی است و من به سرعت توصیه
252
00:11:01,779 –> 00:11:04,120
میکنم یک ستون برای خواندن در چارچوب دادههای بهروز شده اضافه کنید
253
00:11:04,120 –> 00:11:06,160
تا بتوانید لازم نیست
254
00:11:06,160 –> 00:11:08,529
هر بار که میخواهید آن فایل تمام دادهها را اجرا
255
00:11:08,529 –> 00:11:12,880
کنید، بنابراین ما میتوانیم این کار را فقط با انجام تمام da انجام دهیم
256
00:11:12,880 –> 00:11:15,880
ta برابر است با دادههای فیلد pdds و تمام
257
00:11:15,880 –> 00:11:18,269
سر دادهها پنج ردیف اول را به ما نشان میدهد
258
00:11:18,269 –> 00:11:21,390
و همانطور که میبینید ما همه چیز را در
259
00:11:21,390 –> 00:11:24,100
این همه دادهها داریم، بنابراین قاب داده بهروز شده
260
00:11:24,100 –> 00:11:26,649
است، بنابراین اکنون که
261
00:11:26,649 –> 00:11:28,630
همه دادهها را در یک مکان در یک قاب داده داریم.
262
00:11:28,630 –> 00:11:31,029
بیایید شروع به تجزیه و تحلیل کنیم،
263
00:11:31,029 –> 00:11:32,529
بنابراین اولین سوالی که میخواهم شما بچهها به آن
264
00:11:32,529 –> 00:11:36,160
پاسخ دهید این است که
265
00:11:36,160 –> 00:11:38,470
بهترین ماه برای فروش در تمام دادهها چه بوده است و
266
00:11:38,470 –> 00:11:40,240
شما میدانید که در آن ماه چقدر پول به دست آوردهاید
267
00:11:40,240 –> 00:11:41,769
و ما این را تجزیه میکنیم.
268
00:11:41,769 –> 00:11:43,329
قبل از اینکه این کار را انجام دهیم، می
269
00:11:43,329 –> 00:11:45,010
توانید سعی کنید این سوال کامل
270
00:11:45,010 –> 00:11:47,440
را به تنهایی حل کنید، اما من می خواهم
271
00:11:47,440 –> 00:11:49,240
این را به چند کار کوچکتر تقسیم کنم،
272
00:11:49,240 –> 00:11:52,540
بنابراین بیایید سلول های بیشتری را وارد کنیم،
273
00:11:52,540 –> 00:11:55,630
اساسا آنچه که من توصیه می کنم
274
00:11:55,630 –> 00:11:57,640
قبل از آن است. ما بهترین ماه را برای فروش انجام میدهیم،
275
00:11:57,640 –> 00:12:02,529
بیایید منظور اود این بود که دادهها را با ستونهای اضافی تخلیه کنیم،
276
00:12:02,529 –> 00:12:05,050
277
00:12:05,050 –> 00:12:06,760
زیرا در نهایت در تجزیه و تحلیل ما مفید خواهد بود،
278
00:12:06,760 –> 00:12:09,399
بنابراین اولین چیز این است که در
279
00:12:09,399 –> 00:12:11,079
اینجا تاریخ سفارش داریم، اما
280
00:12:11,079 –> 00:12:13,120
ماه را به راحتی نداریم. من فکر می کنم که ما می
281
00:12:13,120 –> 00:12:16,240
خواهیم برای اضافه کردن یک ستون خاص برای
282
00:12:16,240 –> 00:12:18,490
ماه، بنابراین من فقط این
283
00:12:18,490 –> 00:12:21,160
بخش کوچک را صدا می زنم که
284
00:12:21,160 –> 00:12:25,300
داده های تقویتی را با ستون های اضافی
285
00:12:25,300 –> 00:12:28,360
اضافه می کنیم و چند تای دیگر اضافه می کنیم، اوه
286
00:12:28,360 –> 00:12:30,339
سلام من فقط چند سلول اضافه می کنم.
287
00:12:30,339 –> 00:12:32,529
چون من کمی فضای اضافی برای
288
00:12:32,529 –> 00:12:35,470
کار کردن با Okay میخواهم، بنابراین میخواهیم
289
00:12:35,470 –> 00:12:37,600
دادهها را با چند ستون اضافی استدلال کنیم، این
290
00:12:37,600 –> 00:12:40,360
یکی از کارهایی است که میخواهیم انجام دهیم، بنابراین اولین
291
00:12:40,360 –> 00:12:42,210
ستونی که میخواهیم اضافه
292
00:12:42,210 –> 00:12:45,260
کنیم و به خوبی همه اینها را یک
293
00:12:45,260 –> 00:12:49,050
ماه یا بیشتر نشان دهیم. من حدس میزنم که این کار شبیه
294
00:12:49,050 –> 00:12:55,529
به کارهایی است که ستون ماه را اضافه میکنیم، خوب اضافه
295
00:12:55,529 –> 00:12:58,680
کردن ستون ماه، بنابراین با این
296
00:12:58,680 –> 00:13:00,570
و هر چیز دیگری در پانداهای پایتون و
297
00:13:00,570 –> 00:13:02,160
به طور کلی پایتون، راههای متعددی وجود دارد
298
00:13:02,160 –> 00:13:04,610
که چگونه یک ستون ماه را اضافه کنیم، این
299
00:13:04,610 –> 00:13:07,020
یک نوع تعادل است. سادهترین
300
00:13:07,020 –> 00:13:09,480
در مقایسه با سادهترین خواندن
301
00:13:09,480 –> 00:13:13,010
در مقابل شما میدانید چه چیزی مقیاسپذیرترین است و غیره،
302
00:13:13,010 –> 00:13:16,020
بنابراین به دنبال اینجا هستیم که در
303
00:13:16,020 –> 00:13:18,209
حال حاضر ماه را نداریم، اما برای
304
00:13:18,209 –> 00:13:21,200
هر یک از محصولاتمان تاریخهایی داریم که فروخته شدهاند و
305
00:13:21,200 –> 00:13:23,790
بهعنوان سادهترین ea به ذهن من میرسد.
306
00:13:23,790 –> 00:13:25,980
بهترین راه حل برای اضافه کردن یک
307
00:13:25,980 –> 00:13:28,020
ستون ماه این است که فقط
308
00:13:28,020 –> 00:13:32,760
دو رشته اول یا دو کاراکتر اول را در
309
00:13:32,760 –> 00:13:35,520
رشته تاریخ بگیرید و آن را به ستون ماه تبدیل
310
00:13:35,520 –> 00:13:37,470
کنید تا این همان چیزی باشد که ما شروع
311
00:13:37,470 –> 00:13:42,170
می کنیم.
312
00:13:42,170 –> 00:13:45,570
میدانید که اگر حداقل یک
313
00:13:45,570 –> 00:13:47,670
رویکرد دارید و دوست دارید بدانید که چه
314
00:13:47,670 –> 00:13:49,680
کاری میخواهید انجام دهید، معمولاً میتوانید از Google
315
00:13:49,680 –> 00:13:51,240
به نفع خود استفاده کنید و دقیقاً مانند جستجوی
316
00:13:51,240 –> 00:13:53,600
چگونگی انجام جزئیات آن رویکرد،
317
00:13:53,600 –> 00:13:56,670
بنابراین برای اضافه کردن ستون جدید، میتوانیم همه دادهها را انجام دهیم.
318
00:13:56,670 –> 00:13:59,520
ماه فقط
319
00:13:59,520 –> 00:14:02,430
برای شروع درست چیزی شبیه به سه بگویید اگر میخواهیم فقط
320
00:14:02,430 –> 00:14:05,160
نشان دهیم که میتوانیم به راحتی یک ستون جدید
321
00:14:05,160 –> 00:14:07,070
مانند آن اضافه کنیم،
322
00:14:07,070 –> 00:14:09,360
همانطور که میبینید ماه
323
00:14:09,360 –> 00:14:11,070
همه چیز در حال حاضر سه است، بنابراین
324
00:14:11,070 –> 00:14:13,170
درست است که فقط یک عدد را اضافه کنیم، اما
325
00:14:13,170 –> 00:14:15,480
میخواهیم تاریخ مناسب را اضافه کنیم. از
326
00:14:15,480 –> 00:14:17,970
ستون تاریخ سفارش میخوانیم، بنابراین
327
00:14:17,970 –> 00:14:21,600
میتوانیم همه دادهها را انجام دهیم
328
00:14:21,600 –> 00:14:24,450
و سپس تاریخ سفارش را میگیریم و زمانی که
329
00:14:24,450 –> 00:14:27,089
میخواهیم آن را به یک رشته تبدیل کنیم،
330
00:14:27,089 –> 00:14:29,130
میتوانیم یا مانند ویژگیهای رشته
331
00:14:29,130 –> 00:14:32,100
این سلول و اینها باشیم. کل این ستون
332
00:14:32,100 –> 00:14:34,470
که در آن می توانید نقطه نقطه را انجام دهید و سپس
333
00:14:34,470 –> 00:14:36,860
میتوانیم به آن دسترسی داشته باشیم، درست مثل اینکه میتوانیم به یک رشته معمولی پایتون دسترسی داشته باشیم،
334
00:14:36,860 –> 00:14:39,810
بنابراین من میتوانم
335
00:14:39,810 –> 00:14:41,640
صفر تا دو را انجام دهم و این
336
00:14:41,640 –> 00:14:45,450
دو کاراکتر اول را میگیرد و صادقانه بگویم، فکر میکنم این
337
00:14:45,450 –> 00:14:48,839
باید خوب باشد، بنابراین بیایید ببینیم چه شکلی است
338
00:14:48,839 –> 00:14:49,910
و
339
00:14:49,910 –> 00:14:55,130
همه سر داده به آن نگاه کنید، بنابراین به
340
00:14:55,130 –> 00:14:57,949
نظر می رسد ما در همه جا چهارمین ماه را داریم
341
00:14:57,949 –> 00:15:00,259
، تنها چیزی که من در
342
00:15:00,259 –> 00:15:02,089
حال حاضر با آن مشکل دارم این است که قطعاً
343
00:15:02,089 –> 00:15:04,730
یک رشته در اینجا وجود دارد و من فکر می کنم که یک ماه
344
00:15:04,730 –> 00:15:07,579
احتمالاً باید یک مقدار عددی باشد، بنابراین
345
00:15:07,579 –> 00:15:10,449
می توانیم این کار را انجام دهیم.
346
00:15:10,449 –> 00:15:14,089
انجام برخی تبدیلها بسیار ساده است، بنابراین
347
00:15:14,089 –> 00:15:15,800
من میروم و از روش as
348
00:15:15,800 –> 00:15:20,690
type در پانداها استفاده
349
00:15:20,690 –> 00:15:22,399
میکنم، طوری که به نظر میرسد من همان ستونی را که داریم
350
00:15:22,399 –> 00:15:24,440
انتخاب میکنم و اساساً
351
00:15:24,440 –> 00:15:27,500
فقط روی چیزی که ذخیره کردهایم دستکاری میکنم.
352
00:15:27,500 –> 00:15:30,230
بنابراین صفر برای آن ما داریم و من می
353
00:15:30,230 –> 00:15:34,399
خواهم تمام داده های یک ماه را به صورت نقطه
354
00:15:34,399 –> 00:15:35,329
انجام دهم و واقعاً مهم نیست که از چه نوع
355
00:15:35,329 –> 00:15:38,060
عدد صحیح استفاده می کنیم زیرا ماه ها فقط
356
00:15:38,060 –> 00:15:39,620
از 1 تا 12 هستند اما من فقط در 32 می گویم.
357
00:15:39,620 –> 00:15:43,120
و بنابراین اکنون باید آن را به
358
00:15:43,120 –> 00:15:47,170
مقادیر عددی تبدیل کنیم ببینید آیا کار میکند
359
00:15:47,170 –> 00:15:50,480
، نه کار نمیکند و چرا
360
00:15:50,480 –> 00:15:53,959
درست کار نمیکند، بیایید ببینیم نمیتوان
361
00:15:53,959 –> 00:15:57,589
float n a n را به funfun عدد صحیح تبدیل کرد، بنابراین
362
00:15:57,589 –> 00:15:59,329
به نظر میرسد که ما در دادههایمان انتهای NA
363
00:15:59,329 –> 00:16:01,220
داریم و باید آن را پاک
364
00:16:01,220 –> 00:16:03,139
کنیم تا بعد قبل از اینکه
365
00:16:03,139 –> 00:16:05,420
این کار 2 را به پایان برسانیم، اجازه دهید شروع به تمیز کردن دادههای خود کنیم،
366
00:16:05,420 –> 00:16:07,069
پس بیایید فقط یک
367
00:16:07,069 –> 00:16:11,360
بخش جدید در دفترچه یادداشت کوچک مشتری
368
00:16:11,360 –> 00:16:15,279
369
00:16:17,889 –> 00:16:20,360
370
00:16:20,360 –> 00:16:22,189
خود ایجاد کنیم. اولین چیزی که در اینجا
371
00:16:22,189 –> 00:16:27,110
نکته اصلی برای پاک کردن داده ها بود خوب است،
372
00:16:27,110 –> 00:16:28,970
بنابراین اولین چیزی که می خواستیم پاک
373
00:16:28,970 –> 00:16:31,790
کنیم این بود که ما در نهایت ردیف هایی داشتیم که
374
00:16:31,790 –> 00:16:34,370
در جایی مقدار نهایی وجود داشت و بیایید
375
00:16:34,370 –> 00:16:36,199
ببینیم آیا می توانیم بفهمیم کجاست
376
00:16:36,199 –> 00:16:39,199
تا آن را انجام ندهیم. هر چیزی را در اینجا ببینیم اما کاری که
377
00:16:39,199 –> 00:16:40,880
میتوانیم انجام دهیم این است که ممکن است دادههای بیشتری را نمایش دهیم،
378
00:16:40,880 –> 00:16:41,389
379
00:16:41,389 –> 00:16:44,870
شاید 50 نقطه نمایش داده شود و
380
00:16:44,870 –> 00:16:46,779
ببینیم آیا چیزی در آنجا میبینیم، من
381
00:16:46,779 –> 00:16:50,630
هنوز آن را نمیبینم، شاید به 100 برویم، بسیار
382
00:16:50,630 –> 00:16:55,480
خوب، این را نشان نمیدهد
383
00:16:55,480 –> 00:16:59,230
کاری که میتوانیم انجام دهیم اشکالی ندارد،
384
00:17:00,470 –> 00:17:03,320
بنابراین نمیتوانیم آن را با انجام این کار ببینیم
385
00:17:03,320 –> 00:17:05,089
و شما k در حال حاضر گاهی اوقات شما
386
00:17:05,089 –> 00:17:09,199
فقط یک یا دو عدد دارید و نه یک عدد در
387
00:17:09,199 –> 00:17:12,319
ده ها هزار ردیف، بنابراین حتی
388
00:17:12,319 –> 00:17:15,050
اگر نمی توانید بلافاصله آن را ببینید، مانند
389
00:17:15,050 –> 00:17:16,910
کاری که ممکن است انجام دهید در اکسل
390
00:17:16,910 –> 00:17:18,410
یا چیزی است که داده ها را مرتب کنید و ببینید.
391
00:17:18,410 –> 00:17:20,689
ما همچنین از پانداها استفاده میکنیم تا بفهمیم
392
00:17:20,689 –> 00:17:23,240
دقیقاً چند انتها داریم و در ردیفها چگونه
393
00:17:23,240 –> 00:17:24,829
به نظر میرسند.
394
00:17:24,829 –> 00:17:29,150
395
00:17:29,150 –> 00:17:31,850
396
00:17:31,850 –> 00:17:36,020
برای انجام این کار،
397
00:17:36,020 –> 00:17:40,670
اجازه دهید ابتدا بفهمیم که آیا میدانید
398
00:17:40,670 –> 00:17:43,700
که انتهای na ما کجاست، بنابراین من
399
00:17:43,700 –> 00:17:45,980
فقط چیزی را فریم داده na n صدا
400
00:17:45,980 –> 00:17:48,170
میکنم و فقط از آن
401
00:17:48,170 –> 00:17:50,780
برای فیلتر کردن و دریافت تمام na استفاده میکنیم.
402
00:17:50,780 –> 00:17:55,100
ردیفهای انتهایی که داریم و
403
00:17:55,100 –> 00:17:56,600
دقیقاً نمیدانیم کجا
404
00:17:56,600 –> 00:17:59,330
پیام میدهم یا نه، بنابراین فکر
405
00:17:59,330 –> 00:18:03,440
میکنم به این دلیل است که
406
00:18:03,440 –> 00:18:06,710
این ماه را به int تبدیل میکنیم
407
00:18:06,710 –> 00:18:08,090
که در ستون ماه قرار میگیرد. اما شاید
408
00:18:08,090 –> 00:18:12,650
جاهای دیگر هم باشد، پس چگونه می
409
00:18:12,650 –> 00:18:14,960
توانیم اعدادی را به دست آوریم که می توانیم یک جستجوی مفید در
410
00:18:14,960 –> 00:18:19,810
گوگل انجام دهیم و بیایید ببینیم بیایید بگوییم
411
00:18:19,810 –> 00:18:30,560
پیدا کردن گل رز با na و پاندا چگونه
412
00:18:30,560 –> 00:18:32,060
مانند گل رز با یکی از null های ما از
413
00:18:32,060 –> 00:18:34,100
فریم داده پاندا خوب است
414
00:18:34,100 –> 00:18:38,480
، اگر به ما بگویم ببینیم که آن را به ما بگویم،
415
00:18:38,480 –> 00:18:43,940
ببینم کسل کننده است یا شاید
416
00:18:43,940 –> 00:18:49,100
به جای انتخاب بگویم، سریعاً Stack Overflow خواهد بود. گل رز با آن به نظر می
417
00:18:49,100 –> 00:18:50,300
رسد قبلاً روی این یک نمایشگر کلیک کرده اید
418
00:18:50,300 –> 00:18:53,210
با یک یا چند مقدار هر n و
419
00:18:53,210 –> 00:18:55,880
قاب داده پاندا می توانید از قاب داده پان
420
00:18:55,880 –> 00:18:57,530
در مورد هر کدام با محور پارامتر
421
00:18:57,530 –> 00:19:00,770
برابر با یک استفاده کنید این احتمالاً برای
422
00:19:00,770 –> 00:19:07,280
من خوب به نظر می رسد.
423
00:19:07,280 –> 00:19:08,990
دستوری که گفتم میخواهیم آن را na
424
00:19:08,990 –> 00:19:10,429
NDF بنامیم، بنابراین من فقط این
425
00:19:10,429 –> 00:19:13,520
قسمت تحت اللفظی را حذف میکنم و فریم دادههای ما به
426
00:19:13,520 –> 00:19:16,730
نام قاب دادهای نامیده نمیشود یا DF
427
00:19:16,730 –> 00:19:20,270
نامش همه دادهها است، بنابراین میتوانیم آن را
428
00:19:20,270 –> 00:19:23,540
با تمام دادهها جایگزین کنیم و امیدوارم این را جایگزین کنیم.
429
00:19:23,540 –> 00:19:26,660
پست Stack Overflow به ما کمک می کند و اگر ما
430
00:19:26,660 –> 00:19:31,070
یک n D F انجام دهیم، می توانیم سر نقطه را ببینیم، می توانیم ببینیم
431
00:19:31,070 –> 00:19:34,220
که انتهای NA ما چگونه به نظر می رسد و به این نگاه
432
00:19:34,220 –> 00:19:37,450
کنیم که آنها یک ردیف کامل از هر انتهایی هستند، بنابراین
433
00:19:37,450 –> 00:19:39,770
اساساً اینطور نیست که ما فقط
434
00:19:39,770 –> 00:19:43,070
نیاز به پر کردن مجدد داشته باشیم. ارزش تاریخ سفارش
435
00:19:43,070 –> 00:19:45,530
مثل اینکه ما آن را از دست داده ایم ما سطرهایی داریم
436
00:19:45,530 –> 00:19:47,240
که کاملا خالی هستند، پس بیایید
437
00:19:47,240 –> 00:19:48,980
سعی کنیم تمام این سطرها را رها کنیم
438
00:19:48,980 –> 00:19:54,350
تا این کار را انجام دهیم که می توانیم از دستوری
439
00:19:54,350 –> 00:19:56,750
به نام drop na استفاده کنیم و همانطور که من
440
00:19:56,750 –> 00:19:58,400
این دستور را پیدا کردم، می توانید در
441
00:19:58,400 –> 00:20:01,190
گوگل جستجو کنید و متوجه شوید. نحوه رها
442
00:20:01,190 –> 00:20:05,420
کردن NA به پایان می رسد بنابراین بیایید ببینیم که همه
443
00:20:05,420 –> 00:20:08,120
داده هایی را داریم که می خواهیم بگوییم یا این فقط بله
444
00:20:08,120 –> 00:20:12,790
همه داده ها برابر با همه داده ها هستند و می توانیم
445
00:20:12,790 –> 00:20:16,070
این دستور را انجام دهیم
446
00:20:16,070 –> 00:20:18,500
و اگر مستندات را برای
447
00:20:18,500 –> 00:20:21,410
drop in جستجو کنید. دو دره وجود دارد یا
448
00:20:21,410 –> 00:20:23,570
یک برتری به نام زوزه وجود دارد و شما می توانید
449
00:20:23,570 –> 00:20:27,320
هر کاری انجام دهید که اگر
450
00:20:27,320 –> 00:20:30,500
فقط یک n داشته باشد یک ردیف می اندازد اما شاید همه
451
00:20:30,500 –> 00:20:32,900
اینها را به عنوان مقادیر عادی داشته باشد که پر شده است،
452
00:20:32,900 –> 00:20:35,240
اما در مورد ما یک دسته پیدا کردیم از
453
00:20:35,240 –> 00:20:38,780
این سطرها با تمام مقادیری که هر
454
00:20:38,780 –> 00:20:41,750
انتهایی دارند، بنابراین به جای انجام drop در هر
455
00:20:41,750 –> 00:20:45,290
، همه را انجام می دهیم و ببینیم چه
456
00:20:45,290 –> 00:20:47,900
اتفاقی می افتد اگر همه داده ها را روی این مقدار تنظیم کنیم
457
00:20:47,900 –> 00:20:50,570
و من فقط تعطیلات
458
00:20:50,570 –> 00:20:54,800
انجام دهم ببینید آیا خوب به نظر می رسد، اما
459
00:20:54,800 –> 00:20:58,520
آزمون واقعی ما این خواهد بود که این را اجرا کنیم و
460
00:20:58,520 –> 00:21:00,920
سعی کنیم آن را تقلب کنیم ماه را به
461
00:21:00,920 –> 00:21:03,940
اعداد صحیح تبدیل کنید آیا این به ما می دهد که همان
462
00:21:03,940 –> 00:21:06,950
نمی تواند float هر انتهایی را به عدد صحیح تبدیل
463
00:21:06,950 –> 00:21:10,870
کند و این لحظه حقیقت است
464
00:21:10,870 –> 00:21:13,210
بله ما هنوز یک خطا دریافت می کنیم لطفاً
465
00:21:13,210 –> 00:21:16,450
همان خطا را نداشته باشید ‘invalid oh به آن
466
00:21:16,450 –> 00:21:18,940
خطای متفاوت نگاه کنید ‘invalid literal چهار
467
00:21:18,940 –> 00:21:21,640
اینچ با پایه 10 یا بیشتر، اکنون باید
468
00:21:21,640 –> 00:21:23,260
بفهمیم که برای رفع این مشکل چه چیزی را باید پاک
469
00:21:23,260 –> 00:21:26,110
کنیم، پس این
470
00:21:26,110 –> 00:21:27,880
مشکل را داریم و بنابراین بیایید سعی کنیم
471
00:21:27,880 –> 00:21:31,090
بفهمیم چه چیزی باعث این مشکل می شود یا زمانی
472
00:21:31,090 –> 00:21:34,740
که می خواهیم ظاهر شود. به یک اینچ تبدیل کنید، بنابراین
473
00:21:34,740 –> 00:21:38,620
بیایید این کار را در بخش تمیز کردن خود انجام دهیم، بنابراین
474
00:21:38,620 –> 00:21:39,970
ابتدا بیایید به این فکر کنیم
475
00:21:39,970 –> 00:21:44,830
که چه چیزی باعث این اتفاق میشود یا به
476
00:21:44,830 –> 00:21:47,350
نوعی نامشخص است که چرا این اتفاق میافتد، اما
477
00:21:47,350 –> 00:21:51,040
در نهایت چیزی که من به آن فکر میکنم این است که شما
478
00:21:51,040 –> 00:21:52,960
میدانید که ما اولین مورد را میگیریم. دو کاراکتر
479
00:21:52,960 –> 00:21:56,200
و ما آنها را در اینجا
480
00:21:56,200 –> 00:21:58,990
میچسبانیم تا احساس دلپذیری من درست باشد، به دلایلی که
481
00:21:58,990 –> 00:22:03,270
اوه، حروف O R در دو مقدار اول
482
00:22:03,270 –> 00:22:06,190
در اینجا قرار دارند، بنابراین بیایید سعی
483
00:22:06,190 –> 00:22:10,060
کنیم بفهمیم که کجا انجام میشود و
484
00:22:10,060 –> 00:22:16,000
میتوانیم از آن استفاده کنیم. تابعی
485
00:22:16,000 –> 00:22:22,210
که برای گرفتن آن استفاده می کنیم دو مقدار رشته اول
486
00:22:22,210 –> 00:22:25,050
ما میتوانیم کاری مشابه برای
487
00:22:25,050 –> 00:22:28,630
فیلتر کردن همه دادهها انجام دهیم، بنابراین من فقط
488
00:22:28,630 –> 00:22:34,380
میخواهم بگویم temp DF فعلاً برابر است با همه دادهها و
489
00:22:34,380 –> 00:22:36,850
سپس این را فیلتر میکنیم تا بتوانید این کار
490
00:22:36,850 –> 00:22:38,290
را انجام دهید یا فکر میکنم
491
00:22:38,290 –> 00:22:42,640
مکان نیز این کار را انجام دهید. اینجا کار کنید، اما ما
492
00:22:42,640 –> 00:22:45,550
اساساً سعی میکنیم همه دادهها را بر
493
00:22:45,550 –> 00:22:47,230
اساس یک شرایط خاص فهرستبندی کنیم، بنابراین
494
00:22:47,230 –> 00:22:51,220
در اینجا از یک وضعیت عبور میکنیم و شرطی که
495
00:22:51,220 –> 00:22:53,500
میخواهیم این است که دو کاراکتر اول
496
00:22:53,500 –> 00:22:56,860
این تاریخ سفارش برابر با o R باشد، زیرا
497
00:22:56,860 –> 00:22:58,210
این همان چیزی است که باعث مشکل ما میشود. و
498
00:22:58,210 –> 00:22:59,830
این همان چیزی است که میخواهیم پاکسازی کنیم، بنابراین
499
00:22:59,830 –> 00:23:00,910
میخواهیم کاری شبیه به
500
00:23:00,910 –> 00:23:07,720
این ترتیب رشته تاریخ صفر تا دو را
501
00:23:07,720 –> 00:23:10,360
انجام دهیم، درست مانند زمانی که ماه را دریافت میکنیم
502
00:23:10,360 –> 00:23:16,020
و سپس میخواهیم برابر باشد
503
00:23:16,020 –> 00:23:18,370
یا فقط من میخواهیم ببینیم کجا
504
00:23:18,370 –> 00:23:20,240
اتفاق میافتد و سپس میتوانیم آن را
505
00:23:20,240 –> 00:23:28,500
حذف کنیم، خوب به این نگاه کنید، بنابراین
506
00:23:28,500 –> 00:23:30,240
به هر دلیلی مشکل خود را
507
00:23:30,240 –> 00:23:32,549
ببینیم که ستونهای اینجا در سرتاسر قاب دادهمان تکرار میشوند،
508
00:23:32,549 –> 00:23:34,860
بنابراین در نهایت
509
00:23:34,860 –> 00:23:36,450
اگر بتوانیم همه این نوع
510
00:23:36,450 –> 00:23:39,419
ردیفها را رها کنیم، امیدواریم بتوانیم پس از آن هیچ خطایی وجود ندارد
511
00:23:39,419 –> 00:23:42,690
t بنابراین تمام داده ها را با
512
00:23:42,690 –> 00:23:45,480
مقادیری که مساوی یا خوب است فیلتر می کنیم تا
513
00:23:45,480 –> 00:23:48,450
مقادیری را که با آنها برابر نیستند به دست آوریم یا
514
00:23:48,450 –> 00:23:51,179
فقط می توانیم این مساوی را به یک غیر
515
00:23:51,179 –> 00:23:53,669
مساوی تغییر دهیم و به جای اینکه
516
00:23:53,669 –> 00:23:56,519
داده های این الگو را بسازیم، فقط آن را به حالت اولیه بازنشانی می کنیم.
517
00:23:56,519 –> 00:24:00,840
همه دادهها، بنابراین اگر این کار را انجام دهیم،
518
00:24:00,840 –> 00:24:04,980
همه دادههای جدید دریافت میکنیم و اگر خوش شانس باشیم این
519
00:24:04,980 –> 00:24:08,519
همه دادههای جدید که اکنون n
520
00:24:08,519 –> 00:24:12,659
A را حذف کردهاند و از شر
521
00:24:12,659 –> 00:24:14,279
سرصفحههای ستون تکراری که در سراسر داده پراکنده شده بودند خلاص میشویم.
522
00:24:14,279 –> 00:24:15,990
امیدواریم اکنون
523
00:24:15,990 –> 00:24:17,820
بتوانیم ستون ماه خود را اضافه کنیم و
524
00:24:17,820 –> 00:24:22,500
بدون هیچ مشکلی آن را به int تبدیل کنیم، خوب این کار را انجام دادیم،
525
00:24:22,500 –> 00:24:24,510
اما خوب است، بنابراین اکنون که ستون ماه را اضافه کرده ایم،
526
00:24:24,510 –> 00:24:27,120
اجازه دهید دوباره به این سوال
527
00:24:27,120 –> 00:24:29,100
که در تلاش بودیم به آن پاسخ
528
00:24:29,100 –> 00:24:31,529
دهیم بهترین ماه برای کدام ماه است، نگاه کنیم. فروش و
529
00:24:31,529 –> 00:24:34,980
میزان درآمد در آن ماه، بنابراین می دانید که
530
00:24:34,980 –> 00:24:36,870
ما اکنون چیزی به دست آورده ایم که
531
00:24:36,870 –> 00:24:39,179
به ما امکان می دهد به راحتی ماهانه فیلتر کنیم،
532
00:24:39,179 –> 00:24:41,429
اما بزرگترین سوال دیگری که در
533
00:24:41,429 –> 00:24:43,289
این سوال می بینم که سعی داریم به آن پاسخ دهیم،
534
00:24:43,289 –> 00:24:46,529
فروش است و در حالی که داریم مانند
535
00:24:46,529 –> 00:24:48,500
مقدار سفارش داده شده و قیمت هر کدام
536
00:24:48,500 –> 00:24:51,299
در نهایت به مقادیر فروش را که میخواهیم دوست داشته باشیم،
537
00:24:51,299 –> 00:24:53,970
در
538
00:24:53,970 –> 00:24:56,190
قیمت هر کدام ضرب میکنیم و چیزی شبیه به
539
00:24:56,190 –> 00:24:59,549
ارزش فروش در هر سفارش میشود، بنابراین بیایید ستون دیگری اضافه کنیم،
540
00:24:59,549 –> 00:25:03,260
بنابراین من این کار را انجام میدهم 3
541
00:25:03,260 –> 00:25:08,610
یک ستون فروش اضافه کنم تا
542
00:25:08,610 –> 00:25:10,559
در نهایت به ما کمک کنید تا
543
00:25:10,559 –> 00:25:13,169
واقعاً به این سؤال پاسخ دهیم، بنابراین
544
00:25:13,169 –> 00:25:16,110
یک ستون فروش اضافه کنید خوب چگونه میتوانیم این کار را انجام
545
00:25:16,110 –> 00:25:18,029
دهیم که باید
546
00:25:18,029 –> 00:25:21,389
نسبتاً ساده باشد همانطور که گفتم
547
00:25:21,389 –> 00:25:23,130
میدانید مقدار زمان سفارش داده شده قیمت هر کدام
548
00:25:23,130 –> 00:25:25,169
به فروش ما میدهد، بنابراین ما فقط همه
549
00:25:25,169 –> 00:25:29,990
فروش های داده را انجام دهیم، می توانیم بگوییم که این معادل
550
00:25:29,990 –> 00:25:32,710
تمام
551
00:25:32,710 –> 00:25:37,940
مقدار داده های سفارش شده است و می توانیم این کار را انجام دهیم
552
00:25:37,940 –> 00:25:39,890
، در اینجا یک نحو زیبا وجود دارد که در آن
553
00:25:39,890 –> 00:25:41,960
فقط می توانیم یک نماد ضرب
554
00:25:41,960 –> 00:25:47,270
انجام دهیم و سپس تمام قیمت داده ها را انجام دهیم و اگر
555
00:25:47,270 –> 00:25:51,730
قاب داده هایمان را چاپ کنیم چگونه به نظر می رسد.
556
00:25:51,730 –> 00:25:56,690
آنچه BEC خوب است نمی تواند دنباله را در
557
00:25:56,690 –> 00:25:59,420
nan int رشته نوع ضرب کند، بنابراین به نظر می رسد
558
00:25:59,420 –> 00:26:00,740
که ما در واقع کمی
559
00:26:00,740 –> 00:26:04,850
تمیز کردن بیشتر برای انجام آن داریم، فقط به نظر می رسد که شما می
560
00:26:04,850 –> 00:26:06,169
دانید دلیل اینکه ما احتمالاً
561
00:26:06,169 –> 00:26:08,480
رشته هایی داریم این است که حتی اگر اینها
562
00:26:08,480 –> 00:26:10,160
شبیه اعداد هستند آنها’ در واقع مجدداً به صورت رشتهها کدگذاری شدهاند،
563
00:26:10,160 –> 00:26:10,820
564
00:26:10,820 –> 00:26:16,370
بنابراین به عنوان یک چیز اضافی، اجازه دهید
565
00:26:16,370 –> 00:26:23,780
ستونها را به نوع صحیح تبدیل
566
00:26:23,780 –> 00:26:25,370
کنیم، بنابراین با دو موردی که میخواستیم با آنها مقابله کنیم، شروع میکنیم،
567
00:26:25,370 –> 00:26:27,440
بنابراین
568
00:26:27,440 –> 00:26:34,880
میخواهیم تمام کمیت دادههای سفارشداده شده را که
569
00:26:34,880 –> 00:26:39,799
میخواهیم آن را یک نوع کنیم. از int بنابراین int کنید
570
00:26:39,799 –> 00:26:45,770
و سپس میخواهیم قیمت هر کدام را
571
00:26:45,770 –> 00:26:48,260
همانطور که در اینجا میبینیم انجام دهیم، میخواهیم آن را یک
572
00:26:48,260 –> 00:26:51,980
شناور کنیم، بنابراین قیمت هر کدام را میخواهیم
573
00:26:51,980 –> 00:26:57,350
این را تبدیل به شناور کنیم،
574
00:26:57,350 –> 00:27:00,740
بنابراین قبل از اینکه یک مقدار صحیح ایجاد کردیم،
575
00:27:00,740 –> 00:27:05,510
کجا انجام دادم که ما این کار را انجام دادیم بله، فراموش کردم
576
00:27:05,510 –> 00:27:06,020
که آن را کجا گذاشتم و
577
00:27:06,020 –> 00:27:08,660
به عنوان تایپ انجام دادیم، در واقع یک راه دیگر وجود دارد
578
00:27:08,660 –> 00:27:11,059
که می توانیم
579
00:27:11,059 –> 00:27:14,390
مقادیر عددی را در پانداها بسازیم و آن را PD dot
580
00:27:14,390 –> 00:27:17,360
two numeric می نامند و کمی
581
00:27:17,360 –> 00:27:18,590
بیشتر کار می کند زیرا لازم نیست خوب دوست داشته باشید.
582
00:27:18,590 –> 00:27:21,260
– دانه دانه بگویید که می خواهید در 32
583
00:27:21,260 –> 00:27:22,820
نوع درستی
584
00:27:22,820 –> 00:27:25,880
که باید آن را به آن تبدیل کنید چه نوع درستی است، بنابراین
585
00:27:25,880 –> 00:27:28,820
ما از آن در اینجا برای
586
00:27:28,820 –> 00:27:30,380
تبدیل ستون های خود به نوع صحیح استفاده می کنیم، بنابراین
587
00:27:30,380 –> 00:27:35,330
فقط PD را انجام می دهیم. به عددی و واقعاً
588
00:27:35,330 –> 00:27:38,390
من این را تکرار می کنم اما زمانی که
589
00:27:38,390 –> 00:27:40,340
y شما در حال انجام این تجزیه و تحلیل هستید تا زمانی
590
00:27:40,340 –> 00:27:44,090
که ایده ای در ذهن داشته باشید که چه کاری می
591
00:27:44,090 –> 00:27:46,010
خواهید انجام دهید، داده ها را در اینجا انتخاب کنید، ما
592
00:27:46,010 –> 00:27:49,160
می خواهیم آن را به صورت عددی تبدیل کنیم
593
00:27:49,160 –> 00:27:51,350
اگر از Google برای کشف
594
00:27:51,350 –> 00:27:52,970
روش دقیق استفاده می کنید. که شما معمولاً
595
00:27:52,970 –> 00:27:54,680
شانس خواهید داشت، بنابراین واقعاً فقط
596
00:27:54,680 –> 00:27:56,450
مهم است که بتوانید تفکر منطقی داشته باشید
597
00:27:56,450 –> 00:27:58,520
تا دوست داشته باشید بدانید
598
00:27:58,520 –> 00:28:00,470
میخواهید با دادهها چه کاری انجام دهید، زیرا یافتن
599
00:28:00,470 –> 00:28:03,080
نحو معمولاً از
600
00:28:03,080 –> 00:28:07,430
طریق اینترنت بزرگ قدیمی بسیار قابل دسترسی است. 2 عددی
601
00:28:07,430 –> 00:28:11,350
و سپس ما به تمام
602
00:28:11,350 –> 00:28:16,400
کمیت داده های سفارش داده شده منتقل می کنیم. فکر می کنم این باید
603
00:28:16,400 –> 00:28:18,680
همان نحوی باشد که ما می خواهیم و ما همین
604
00:28:18,680 –> 00:28:28,400
کار را با قیمت هر سال انجام خواهیم داد، خوب بیایید آن را
605
00:28:28,400 –> 00:28:30,290
اجرا کنیم و ببینیم چه اتفاقی می افتد
606
00:28:30,290 –> 00:28:34,760
خوب ما هیچ نداریم خطاها اجازه دهید فقط
607
00:28:34,760 –> 00:28:38,420
سرمان را چاپ کنیم خوب به
608
00:28:38,420 –> 00:28:40,030
نظر می رسد مانند قبل
609
00:28:40,030 –> 00:28:43,250
610
00:28:43,250 –> 00:28:46,430
611
00:28:46,430 –> 00:28:48,560
612
00:28:48,560 –> 00:28:51,070
613
00:28:51,070 –> 00:28:55,820
23 90 2 ضربدر 11 95 است، بنابراین به نظر می رسد
614
00:28:55,820 –> 00:28:58,010
ما به آنچه شما می خواهید رسیده ایم میخواهم
615
00:28:58,010 –> 00:29:00,440
میتوانید این ستون را در اینجا بر
616
00:29:00,440 –> 00:29:02,660
اساس تعداد سفارشدادهشده و قیمت هر کدام را دوباره سفارش دهید.
617
00:29:02,660 –> 00:29:04,700
من نمیخواهم
618
00:29:04,700 –> 00:29:06,710
در اینجا نحوه انجام این کار را توضیح دهم، اما
619
00:29:06,710 –> 00:29:08,600
در ویدیوی قبلی خود درباره پانداها توضیح دادم تا بتوانید
620
00:29:08,600 –> 00:29:10,070
آن را بررسی کنید. واقعاً
621
00:29:10,070 –> 00:29:12,110
کنجکاو هستم و در نهایت اهمیتی ندارد
622
00:29:12,110 –> 00:29:13,760
که ستونهای ما در کجا قرار میگیرند
623
00:29:13,760 –> 00:29:15,650
وقتی ما در حال انجام آنالیز هستیم، بنابراین
624
00:29:15,650 –> 00:29:17,570
من خوب نیستم آن را در اینجا در
625
00:29:17,570 –> 00:29:21,200
سمت راست بگذارم در حال حاضر که ما
626
00:29:21,200 –> 00:29:22,940
با موفقیت میدانیم ماه خود را اضافه کردهایم.
627
00:29:22,940 –> 00:29:24,890
از ستون فروش خود خارج شوید، بیایید در
628
00:29:24,890 –> 00:29:27,110
نهایت به این سوال پاسخ دهیم
629
00:29:27,110 –> 00:29:29,450
که بهترین ماه برای فروش کدام ماه بوده است و
630
00:29:29,450 –> 00:29:31,910
چقدر در آن ماه درآمد کسب کرده ایم، ما می
631
00:29:31,910 –> 00:29:35,150
توانیم این کار را به راحتی با یک گروه بر اساس
632
00:29:35,150 –> 00:29:38,660
تابع انجام دهیم، بنابراین همه داده هایی را
633
00:29:38,660 –> 00:29:42,710
که گروه بر اساس می گیریم، می گیریم. خوب، میخواهیم
634
00:29:42,710 –> 00:29:44,990
بفهمیم بهترین ماه کدام است، بنابراین میتوانیم فقط
635
00:29:44,990 –> 00:29:48,680
بر اساس ستون ماه گروهبندی کنیم و سپس کاری
636
00:29:48,680 –> 00:29:53,750
که میخواهیم انجام دهیم این است که مقادیر را
637
00:29:53,750 –> 00:29:56,180
جمعبندی کنیم، بنابراین بر اساس ماه گروهبندی میکنیم و سپس جمعبندی
638
00:29:56,180 –> 00:29:59,320
میکنیم تا ببینیم اگر انجام دهیم چه اتفاقی میافتد. که
639
00:29:59,320 –> 00:30:03,710
این کار را انجام داد، ما 12 ماه می گیریم s و
640
00:30:03,710 –> 00:30:05,720
ما ارزش های فروش را در اینجا دریافت می کنیم و اگر
641
00:30:05,720 –> 00:30:07,400
فقط می خواستیم به ارزش های فروش نگاه
642
00:30:07,400 –> 00:30:11,150
کنیم، می توانیم فروش را در اینجا تایپ کنیم و همانطور
643
00:30:11,150 –> 00:30:12,560
که می بینید من در واقع آنقدرها را دوست ندارم،
644
00:30:12,560 –> 00:30:14,810
بیایید اکنون به عقب برگردیم، می توانیم
645
00:30:14,810 –> 00:30:16,790
به سوال خود پاسخ دهیم. و بنابراین بهترین
646
00:30:16,790 –> 00:30:19,640
ماه برای فروش چه بوده است، همانطور که در اینجا می توانید ببینید،
647
00:30:19,640 –> 00:30:21,560
دسامبر بهترین ماه برای فروش
648
00:30:21,560 –> 00:30:24,710
با تقریباً چهار میلیون
649
00:30:24,710 –> 00:30:26,810
و ششصد یا ششصد و
650
00:30:26,810 –> 00:30:28,970
سیزده هزار دلار فروش در آن
651
00:30:28,970 –> 00:30:31,550
ماه بود و سپس بدترین ماه ژانویه
652
00:30:31,550 –> 00:30:35,360
با 1.8 میلیون دلار بود. دلار در فروش بود و
653
00:30:35,360 –> 00:30:36,950
اگر بخواهیم میتوانیم این را نیز ترسیم کنیم،
654
00:30:36,950 –> 00:30:39,080
زیرا من فکر میکنم طرحریزی اغلب اوقات
655
00:30:39,080 –> 00:30:42,140
راه خوبی برای تجسم این نتایج
656
00:30:42,140 –> 00:30:43,700
و دیدن روندهای ماهانه در ماه است
657
00:30:43,700 –> 00:30:45,950
و شاید تحلیل بیشتری در مورد
658
00:30:45,950 –> 00:30:48,110
اینکه چرا ماههای خاص بالاتر از
659
00:30:48,110 –> 00:30:49,730
سایرین و دیدن آن آسان تر است
660
00:30:49,730 –> 00:30:53,630
در این نمودار، بنابراین ما می توانیم
661
00:30:53,630 –> 00:30:59,930
matplotlib را وارد کنیم اما مقدار لوله را به عنوان PLT انجام دهیم و من
662
00:30:59,930 –> 00:31:01,400
ممکن است کمی سریع از طریق
663
00:31:01,400 –> 00:31:03,470
این نمودار عبور کنم، اما اگر می خواهید
664
00:31:03,470 –> 00:31:05,480
در مورد matplotlib اطلاعات بیشتری کسب کنید، می توانید بررسی کنید.
665
00:31:05,480 –> 00:31:07,160
از دو ویدیویی که در کتابخانه پست کردهام،
666
00:31:07,160 –> 00:31:08,810
احتمالاً باید همه چیز را به شما نشان دهند،
667
00:31:08,810 –> 00:31:11,600
اما ما میخواهیم نمودار میلهای انجام دهیم،
668
00:31:11,600 –> 00:31:13,610
فکر میکنم برای
669
00:31:13,610 –> 00:31:18,590
این دادهها خوب است زیرا مقدار x ما در تمام
670
00:31:18,590 –> 00:31:21,770
ماهها میخواهیم تا بتوانم ماهها را دریافت کنم.
671
00:31:21,770 –> 00:31:24,040
به چند روش بازی کنید، اما من فقط می خواهم
672
00:31:24,040 –> 00:31:29,750
ماه ها را برابر با محدوده 1 تا 13 انجام دهم، این 13
673
00:31:29,750 –> 00:31:32,000
منحصر به فرد است، بنابراین در واقع به من 1
674
00:31:32,000 –> 00:31:33,650
تا 12 می رسد، این همان چیزی است که ما می خواهیم، بنابراین من ما
675
00:31:33,650 –> 00:31:36,860
ها را به عنوان مقدار x خود در Y ما ارسال می کنم. مق
676
00:31:36,860 –> 00:31:39,410
خوب این مقدار مقداری خواهد بود،
677
00:31:39,410 –> 00:31:42,650
بنابراین شاید ما فقط بگوییم که نتایج برابر است با تمام
678
00:31:42,650 –> 00:31:47,300
دادههای گروهبندی شده توسط مقداری که اجرا میشود و سپس
679
00:31:47,300 –> 00:31:52,130
نتایج را بهعنوان مقدار Y منتقل
680
00:31:52,130 –> 00:31:55,610
میکنیم و ما همه نتایج را
681
00:31:55,610 –> 00:31:58,670
نمیخواهیم که فقط فروش را میخواهیم. ستون به عنوان Y ما است، بنابراین
682
00:31:58,670 –> 00:32:01,220
من قصد دارم فروش نتایج را انجام دهم، زیرا
683
00:32:01,220 –> 00:32:03,200
ما آن را به عنوان قاب داده ای که قبلاً دیدید ذخیره کرده
684
00:32:03,200 –> 00:32:11,680
ایم و بیایید ببینیم چه اتفاقی می افتد
685
00:32:11,740 –> 00:32:15,370
که باید انجام دهیم نمایش لمسی نمودار به این موضوع نگاه کنید
686
00:32:15,370 –> 00:32:18,640
که ما تمام ماه های خود را در
687
00:32:18,640 –> 00:32:20,290
عدد دریافت کردیم. از نظر فروش، ممکن است
688
00:32:20,290 –> 00:32:22,570
بخواهیم این نمودار را کمی زیباتر کنیم تا
689
00:32:22,570 –> 00:32:23,890
بتوانیم کارهای متفاوتی انجام دهیم ما میتوانیم
690
00:32:23,890 –> 00:32:26,560
اولین تیکهای طرح X را انجام دهیم که میخواهم
691
00:32:26,560 –> 00:32:28,180
هر ماه اینجا ببینم،
692
00:32:28,180 –> 00:32:30,040
فکر میکنم تجسم کردن آن سادهتر خواهد بود.
693
00:32:30,040 –> 00:32:33,250
694
00:32:33,250 –> 00:32:35,830
یک برچسب y و
695
00:32:35,830 –> 00:32:38,740
یک برچسب X بنابراین برچسب Y این مقادیر
696
00:32:38,740 –> 00:32:43,240
در اینجا هستند، بنابراین فروش در ایالات متحده است.
697
00:32:43,240 –> 00:32:50,920
دلار و برچسب X ما برچسب ماه
698
00:32:50,920 –> 00:32:53,410
یا مقدار ماه است، بنابراین من فقط
699
00:32:53,410 –> 00:32:57,730
می توانم چیزی مانند شماره ماه بگویم و
700
00:32:57,730 –> 00:32:59,500
اگر واقعاً می خواهید به این موضوع علاقه مند شوید
701
00:32:59,500 –> 00:33:01,840
، کتابخانه تاریخ/زمان در پایتون وجود دارد
702
00:33:01,840 –> 00:33:03,220
که می توانید این
703
00:33:03,220 –> 00:33:06,130
اعداد ماه را به نام واقعی آنها تبدیل کنید. ماه
704
00:33:06,130 –> 00:33:08,410
اما فکر نمیکنم فعلاً لازم باشد این
705
00:33:08,410 –> 00:33:10,600
را نشان دهم، اما به آن نگاه کنید،
706
00:33:10,600 –> 00:33:12,100
بنابراین ما شماره ماه خود را دریافت کردیم،
707
00:33:12,100 –> 00:33:14,980
فروش و دلار آمریکا را گرفتیم، این برچسبها را دریافت کردیم
708
00:33:14,980 –> 00:33:16,900
و میتوانید ببینید که بدترین چیز
709
00:33:16,900 –> 00:33:20,140
در ژانویه بالا میرود. سپس نزول ها
710
00:33:20,140 –> 00:33:22,570
بالا می رود و به عنوان یک دانشمند داده با
711
00:33:22,570 –> 00:33:24,370
نتایجی مانند این، سعی می کنم دوست داشته
712
00:33:24,370 –> 00:33:26,650
باشم بفهمم که چرا ما
713
00:33:26,650 –> 00:33:28,450
ماه های خاصی بهتر از ماه های دیگر هستیم مانند شما می دانید چه
714
00:33:28,450 –> 00:33:31,780
زمانی در ماه چهارم آوریل
715
00:33:31,780 –> 00:33:33,700
ممکن است پول بیشتری برای این موضوع خرج کنیم. تبلیغات من
716
00:33:33,700 –> 00:33:35,500
سعی میکنم به دنبال همبستگیهایی
717
00:33:35,500 –> 00:33:40,000
باشم که میدانید احتمالاً منجر به این نتایج بهتر شده است،
718
00:33:40,000 –> 00:33:42,760
بنابراین اگر در ماه دسامبر به
719
00:33:42,760 –> 00:33:44,530
آن فکر میکنم، چرا
720
00:33:44,530 –> 00:33:47,950
در دسامبر خیلی بهتر عمل میکنیم، اما اگر به
721
00:33:47,950 –> 00:33:49,180
نوعی به ایالات متحده فکر میکنید.
722
00:33:49,180 –> 00:33:50,020
تعطیلات
723
00:33:50,020 –> 00:33:52,180
یعنی در سطح ملی منظورم این است که آنها
724
00:33:52,180 –> 00:33:54,070
تعطیلات بین المللی هستند، اما مانند
725
00:33:54,070 –> 00:33:58,660
چیز مهم در دسامبر کریسمس است، همه
726
00:33:58,660 –> 00:34:00,460
شما می دانید که همه تعطیلات مردم
727
00:34:00,460 –> 00:34:02,290
برای یکدیگر هدایای زیادی می خرند، بنابراین
728
00:34:02,290 –> 00:34:04,780
منطقی است که دسامبر
729
00:34:04,780 –> 00:34:07,210
بیشترین تعداد فروش را دارد. مثل این است
730
00:34:07,210 –> 00:34:10,150
که شما میدانید که قطعاً
731
00:34:10,150 –> 00:34:12,010
برای من چک میکنم و شاید
732
00:34:12,010 –> 00:34:14,440
همه تا ژانویه پول خرج کردهاند، بنابراین
733
00:34:14,440 –> 00:34:15,820
این نوع چیزها مانند
734
00:34:15,820 –> 00:34:17,570
فهمیدن از روز ما
735
00:34:17,570 –> 00:34:20,179
خوب بود، بنابراین اکنون که به سؤال اول پاسخ دادیم،
736
00:34:20,179 –> 00:34:22,429
اجازه دهید سؤال دیگری بپرسیم. و
737
00:34:22,429 –> 00:34:25,040
من فقط یک سری سلول درست می کنم تا
738
00:34:25,040 –> 00:34:27,080
بتوانیم از نو شروع کنیم و
739
00:34:27,080 –> 00:34:28,790
هر بار که یک سلول جدید می سازم، shift-enter را انجام می دهم،
740
00:34:28,790 –> 00:34:30,469
شما همچنین می توانید ctrl enter را انجام دهید و این باعث
741
00:34:30,469 –> 00:34:32,149
می شود که شما کد را اجرا کند و نگه می دارد. شما
742
00:34:32,149 –> 00:34:35,480
در همان سلول چیزهای خوبی برای دانستن دارید، اما
743
00:34:35,480 –> 00:34:37,610
خوب است، بنابراین سوال ما چیست
744
00:34:37,610 –> 00:34:40,070
و من می خواهم بگویم سوال این
745
00:34:40,070 –> 00:34:44,270
است که شما می دانید کدام شهر کدام شهر ایالات متحده
746
00:34:44,270 –> 00:34:51,050
بیشترین تعداد فروش را داشته است، بنابراین
747
00:34:51,050 –> 00:34:52,100
این بسیار شبیه است به
748
00:34:52,100 –> 00:34:55,190
سوال اول بنابراین شاید بتوانید سعی کنید به
749
00:34:55,190 –> 00:34:58,790
تنهایی به این یکی پاسخ دهید و به عنوان یک اشاره
750
00:34:58,790 –> 00:35:00,260
باید اطلاعات خود را افزایش دهید، من
751
00:35:00,260 –> 00:35:02,090
توصیه می کنم حداقل
752
00:35:02,090 –> 00:35:04,610
داده های خود را با یک ستون شهر افزایش دهید، بنابراین باید
753
00:35:04,610 –> 00:35:07,310
بفهمید که چگونه این کار را انجام دهید، اما چه شهری
754
00:35:07,310 –> 00:35:09,260
داشته است. بیشترین تعداد فروش
755
00:35:09,260 –> 00:35:10,880
که سوالی است که من در حال بررسی آن
756
00:35:10,880 –> 00:35:19,220
هستم پرسیده شد، خب، بله، اولین گام در
757
00:35:19,220 –> 00:35:21,680
حل این مشکل، افزایش داده ها است، بنابراین
758
00:35:21,680 –> 00:35:23,240
ما به چیزهای داده های تقویتی خود برمی گردیم
759
00:35:23,240 –> 00:35:26,510
که من دارم اجرا می کنم.
760
00:35:26,510 –> 00:35:29,180
این اعداد تست را فراموش می کنم، اما خوب، من می گویم
761
00:35:29,180 –> 00:35:36,080
که این کار چهارم است، وظیفه چهارم، یک
762
00:35:36,080 –> 00:35:40,280
ستون شهر را اضافه کنید خوب است و ما باید یک ستون دیگر را وارد
763
00:35:40,280 –> 00:35:41,690
کنیم،
764
00:35:41,690 –> 00:35:46,070
بنابراین، یک ستون شهر اضافه کنید، بنابراین چگونه می
765
00:35:46,070 –> 00:35:48,740
توانیم این کار را به خوبی انجام دهیم، شهر خود را از کجا می گیریم
766
00:35:48,740 –> 00:35:51,440
از خوب، اگر به دادههای خود نگاه
767
00:35:51,440 –> 00:35:54,950
کنیم، یک آدرس خرید داریم و دقیقاً
768
00:35:54,950 –> 00:35:56,930
در وسط قرار دارد، مشخص نیست که چگونه میتوان آن را
769
00:35:56,930 –> 00:36:00,770
دقیقاً نام شهر ما به دست آورد، بنابراین اگر بخواهیم
770
00:36:00,770 –> 00:36:04,610
بر اساس شهر جمعبندی کنیم، باید به
771
00:36:04,610 –> 00:36:09,110
نحوی این مقدار را استخراج کنیم. پس چگونه میخواهیم این
772
00:36:09,110 –> 00:36:11,960
کار را انجام دهیم، راهحل من برای گرفتن
773
00:36:11,960 –> 00:36:15,620
ستون شهر، انجام یکی از این موارد است مانند
774
00:36:15,620 –> 00:36:17,510
یکی از مفیدترین
775
00:36:17,510 –> 00:36:20,300
توابع و پانداها و آن هم
776
00:36:20,300 –> 00:36:25,310
روش اعمال است، بنابراین بیایید از روش نقطهای استفاده
777
00:36:25,310 –> 00:36:28,010
کنیم و اساساً کاری که این
778
00:36:28,010 –> 00:36:30,320
روش اعمال نقطه انجام میدهد این است که به ما اجازه میدهد هر
779
00:36:30,320 –> 00:36:31,440
تابع
780
00:36:31,440 –> 00:36:33,450
Dayna فریم را اجرا کنیم و من به شما نشان خواهم داد که منظورم این است
781
00:36:33,450 –> 00:36:36,150
که در یک ثانیه، اما خوب است، بنابراین هر زمان
782
00:36:36,150 –> 00:36:37,859
که ما یک ستون جدید می سازیم، معمولاً می
783
00:36:37,859 –> 00:36:40,410
توانیم با انجام تمام داده ها یا
784
00:36:40,410 –> 00:36:41,849
هر چیزی که فریم داده ما نامیده می شود شروع کنیم و
785
00:36:41,849 –> 00:36:44,099
سپس فقط نام ستون جدید را ایجاد کنیم و
786
00:36:44,099 –> 00:36:47,400
بگوییم که برابر است با آنچه که به خوبی برابر است.
787
00:36:47,400 –> 00:36:50,160
این تا حدودی به آدرس خرید مربوط می شود
788
00:36:50,160 –> 00:36:52,530
، بنابراین اگر ما ادامه دهیم و
789
00:36:52,530 –> 00:36:54,930
آدرس خرید داده را انجام دهیم،
790
00:36:54,930 –> 00:36:56,569
شروع
791
00:36:56,569 –> 00:36:59,190
خوبی است، بنابراین چه چیزی باید از لباس خرید به دست آوریم،
792
00:36:59,190 –> 00:37:01,020
بیایید
793
00:37:01,020 –> 00:37:03,000
ساختار اینها را بررسی کنیم و سعی کنیم
794
00:37:03,000 –> 00:37:05,970
در مورد آن بسیار برنامه ریزی شده باشیم. خوب پس ما
795
00:37:05,970 –> 00:37:08,849
داریم شما این لباس را می شناسید یک چیزی که من
796
00:37:08,849 –> 00:37:11,300
بلافاصله می بینم این است که دالاس
797
00:37:11,300 –> 00:37:15,390
بین دو کاما است، بنابراین کاری که می توانیم انجام دهیم این
798
00:37:15,390 –> 00:37:20,160
است که روی کاماها تقسیم کنیم و سپس
799
00:37:20,160 –> 00:37:23,430
دالاس را خیلی راحت تر می کنیم، بنابراین می خواهیم
800
00:37:23,430 –> 00:37:28,109
هر یک از این ها را تقسیم کنیم. رشته ها بنابراین
801
00:37:28,109 –> 00:37:29,730
اساساً تابعی را انجام می دهیم که می
802
00:37:29,730 –> 00:37:33,300
خواهیم یک تابع بنویسیم، فرض کنیم و
803
00:37:33,300 –> 00:37:35,280
آن را تقسیم کنیم و دالاس را که درست
804
00:37:35,280 –> 00:37:37,800
در وسط است، بنویسیم، بنابراین برای نوشتن این
805
00:37:37,800 –> 00:37:39,450
روش مشابه که توضیح
806
00:37:39,450 –> 00:37:44,160
دادم، از متد اعمال استفاده می کنیم و اساساً
807
00:37:44,160 –> 00:37:46,140
این به ما اجازه می دهد. دوست داشتن اعمال یک نوع
808
00:37:46,140 –> 00:37:49,770
تابع دلخواه بر روی کل ستون
809
00:37:49,770 –> 00:37:51,869
یا روی چندین ستون در یک قاب داده را می شناسید،
810
00:37:51,869 –> 00:37:54,599
بنابراین اعمال کنید من لامبدا X را انجام می دهم
811
00:37:54,599 –> 00:38:01,829
و می خواهم بگویم فقط برای
812
00:38:01,829 –> 00:38:08,220
شروع می خواهم X dot را انجام دهم با کاما تقسیم کنید
813
00:38:08,220 –> 00:38:13,800
و آن را بگیرید، حدس میزنم اگر
814
00:38:13,800 –> 00:38:18,750
آن را روی کاما تقسیم کنیم، ایندکس 0 را
815
00:38:18,750 –> 00:38:20,579
نمیخواهیم، بلکه اولین ایندکس را میخواهیم، زیرا به این تر
816
00:38:20,579 –> 00:38:23,369
یب او پایتون را شمارش میکند، بنابراین من میخواهم فقط به
817
00:38:23,369 –> 00:38:24,900
شما نشان دهم وقتی این کار را انجام میدهم چه اتفاقی میافتد، در واق
818
00:38:24,900 –> 00:38:27,650
819
00:38:28,790 –> 00:38:36,380
این کار را انجام خواهم داد. خوب ن
820
00:38:36,380 –> 00:38:40,940
کنید که ما در حال حاضر شهرهای خود را
821
00:38:40,940 –> 00:38:44,060
در اینجا داریم و کاری که این کار انجام می دهد این است
822
00:38:44,060 –> 00:38:46,850
که برای هر مقدار مشابه X می گوید، بنابراین وقتی
823
00:38:46,850 –> 00:38:49,940
اعمال می کنیم می توانیم از این لامبدا X استفاده کنیم و
824
00:38:49,940 –> 00:38:52,700
اساساً مقدار x در اینجا
825
00:38:52,700 –> 00:38:54,950
محتوای سلول است بنابراین ما می گوییم برای هر یک از
826
00:38:54,950 –> 00:38:57,740
این محتویات سلول می خواهیم تقسیم کنیم آن را
827
00:38:57,740 –> 00:39:00,350
با کاما و سپس اولین شاخص را
828
00:39:00,350 –> 00:39:03,530
در یک چیز که واقعاً خوب است این است که
829
00:39:03,530 –> 00:39:07,610
می توانیم تابعی مانند get city تعریف
830
00:39:07,610 –> 00:39:11,630
کنیم که مقداری آدرس
831
00:39:11,630 –> 00:39:15,770
را می گیرد و می توانیم اساساً همان
832
00:39:15,770 –> 00:39:17,300
کاری را که با این تابع لامبدا انجام دادیم برگردانیم.
833
00:39:17,300 –> 00:39:22,310
آدرس نقطه تقسیم نقطه کاما یا
834
00:39:22,310 –> 00:39:25,130
مانند با کاما و سپس
835
00:39:25,130 –> 00:39:31,190
اولین شاخص آن را گرفتیم و این همان کاری است که ما
836
00:39:31,190 –> 00:39:33,830
در اینجا انجام دادیم اما می توانم آن را
837
00:39:33,830 –> 00:39:38,720
با دریافت شهر X جایگزین کنم و اکنون می
838
00:39:38,720 –> 00:39:40,520
توانیم هر تابعی را که می خواهیم با این
839
00:39:40,520 –> 00:39:43,190
متد اعمال تعریف کنیم و در نهایت آن را
840
00:39:43,190 –> 00:39:45,590
در چارچوب داده خود روی یک ستون اجرا کنید تا
841
00:39:45,590 –> 00:39:47,540
بتوانیم انواع کارهای واقعاً دیوانه کننده را انجام دهیم، مانند اینکه
842
00:39:47,540 –> 00:39:49,460
می توانیم با این تابع فوق العاده دیوانه
843
00:39:49,460 –> 00:39:51,430
شویم و هر کاری را که می خواهیم در آن انجام دهیم
844
00:39:51,430 –> 00:39:56,030
و از application استفاده کنیم تا اساساً
845
00:39:56,030 –> 00:39:58,340
آن را در قاب داده خود بگنجانیم و من فکر می کنم
846
00:39:58,340 –> 00:39:59,210
یکی از نکاتی
847
00:39:59,210 –> 00:40:00,620
که میدانید منتقدان ممکن است در مورد
848
00:40:00,620 –> 00:40:02,420
این روش کاربردی داشته باشند این است که کارآمدترین روشی نیست که
849
00:40:02,420 –> 00:40:04,510
میدانید،
850
00:40:04,510 –> 00:40:06,980
زیرا این یک تابع سفارشی است و
851
00:40:06,980 –> 00:40:09,440
نمیتواند عملکرد فوقالعاده بالایی داشته باشد،
852
00:40:09,440 –> 00:40:12,230
اما صادقانه میگوید: در بیشتر موارد تا زمانی
853
00:40:12,230 –> 00:40:13,760
که با آنها سروکار ندارید
854
00:40:13,760 –> 00:40:16,430
صدها و هزاران
855
00:40:16,430 –> 00:40:19,880
ترابایت داده مانند بسیاری از شما می دانید که
856
00:40:19,880 –> 00:40:22,550
دلیل علم داده های روزمره مانند موارد استفاده
857
00:40:22,550 –> 00:40:24,860
من مشکلی با استفاده از این روش کاربردی
858
00:40:24,860 –> 00:40:27,590
و با سرعت یا هر چیز دیگری ندارم بنابراین من
859
00:40:27,590 –> 00:40:32,300
این را دوباره اجرا میکنیم و به شما نشان میدهیم که
860
00:40:32,300 –> 00:40:36,140
هنوز به درستی کار میکند و
861
00:40:36,140 –> 00:40:38,420
دلیل اینکه ما لامبدا X را انجام میدهیم این
862
00:40:38,420 –> 00:40:40,220
است که هر زمان که لامبدا X را انجام میدهیم،
863
00:40:40,220 –> 00:40:42,020
این کار به ما امکان میدهد تا
864
00:40:42,020 –> 00:40:44,000
محتویات سلول را بگیریم، میتوانیم
865
00:40:44,000 –> 00:40:45,800
توابع دیگری را در اینجا اعمال کنیم.
866
00:40:45,800 –> 00:40:47,540
بدون استفاده از تابع لامبدا به محتویات سلول بستگی دارد،
867
00:40:47,540 –> 00:40:49,280
اما هر کاری که
868
00:40:49,280 –> 00:40:51,830
واقعاً برای انجام کاری روی محتوای سلول نیاز
869
00:40:51,830 –> 00:40:54,920
داریم، از این لامبدا X یک نماد
870
00:40:54,920 –> 00:40:57,020
و سریع استفاده میکند.
871
00:40:57,020 –> 00:40:58,910
872
00:40:58,910 –> 00:41:01,910
C و اوه نه، اکنون من
873
00:41:01,910 –> 00:41:05,870
ستون و شهر دارم، میتوانیم آن ستون
874
00:41:05,870 –> 00:41:09,320
به نام ستون را با انجام یکسان کردن همه ستونهای رها کردن داده
875
00:41:09,320 –> 00:41:13,250
و سپس ستونی که میخواهیم حذف کنیم، رها کنیم،
876
00:41:13,250 –> 00:41:15,440
بنابراین فقط ستون است و حالا
877
00:41:15,440 –> 00:41:18,800
اگر این کار را انجام دهیم و سپس این
878
00:41:18,800 –> 00:41:20,360
کار را انجام خواهیم داد. من در یک نقطه جداگانه، بنابراین اگر
879
00:41:20,360 –> 00:41:23,090
میخواهیم آن را روی همه دادهها تنظیم کنیم، میتوانیم این کار
880
00:41:23,090 –> 00:41:26,290
را انجام دهیم یا میتوانی آن را به این صورت انجام دهیم،
881
00:41:26,290 –> 00:41:30,130
بنابراین من اجرا میکنم تا کار کند، من همچنین میتوانستم
882
00:41:30,130 –> 00:41:34,250
یک کلمه کلیدی را در جای خود بگذارم و این
883
00:41:34,250 –> 00:41:35,800
درست است و این کار را بدون
884
00:41:35,800 –> 00:41:40,280
تنظیم کردن در آنجا انجام دادهایم، اما خوب، اکنون
885
00:41:40,280 –> 00:41:42,830
ما فقط شهر خود را داریم که میخواستیم به
886
00:41:42,830 –> 00:41:46,490
جلو حرکت کنیم، من یک سوال از شما دارم و
887
00:41:46,490 –> 00:41:48,440
فکر میکنم این یک سوال بسیار مشکل است،
888
00:41:48,440 –> 00:41:49,700
بنابراین من واقعاً انتظار ندارم که آن را دریافت کنید،
889
00:41:49,700 –> 00:41:51,830
اما اگر میتوانید بدون اینکه من
890
00:41:51,830 –> 00:41:54,470
راهنمایی های بیشتری به شما بدهم مانند ستاره بزرگ طلایی
891
00:41:54,470 –> 00:41:59,690
که شما بچه ها دریافت می کنید، دریافت کنید، اما آیا مشکلی وجود دارد
892
00:41:59,690 –> 00:42:03,680
که فقط شهر را در اینجا فهرست کنید، بنابراین ما
893
00:42:03,680 –> 00:42:05,770
می خواهیم کل کل شهر و فروش را جمع آوری کنیم
894
00:42:05,770 –> 00:42:09,260
و من این سوال را می پرسم که
895
00:42:09,260 –> 00:42:11,060
می دانید آیا ما داریم؟ هر مشکلی فقط با
896
00:42:11,060 –> 00:42:13,580
انجام دادن این کار چگون