در این مطلب، ویدئو جدال داده با پایتون و پاندا – کارگاه با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 2:48:11
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,799 –> 00:00:03,280
باشه به سومی خوش اومدی
2
00:00:03,280 –> 00:00:05,520
و آخرین کارگاه جدال داده ها
3
00:00:05,520 –> 00:00:08,080
اوه این یکی روی پایتون و
4
00:00:08,080 –> 00:00:09,760
پانداها به من اجازه بده
5
00:00:09,760 –> 00:00:11,679
در صورت تمایل لینکی به اسلایدها بگذارید
6
00:00:11,679 –> 00:00:13,920
برای دنبال کردن همراه با آنها
7
00:00:13,920 –> 00:00:16,960
در جایی که آنها می روند من فقط بستم
8
00:00:16,960 –> 00:00:20,400
آنها به موقع چگونه در مورد آن
9
00:00:20,400 –> 00:00:22,880
ما میرویم آنجا
10
00:00:27,279 –> 00:00:29,279
به آنجا می رویم که این اسلایدهایی است که من خواهم گذاشت
11
00:00:29,279 –> 00:00:31,760
همچنین یک لینک به
12
00:00:31,760 –> 00:00:34,800
github با چند نمونه uh فایل uh
13
00:00:34,800 –> 00:00:35,920
که ما کار خواهیم کرد
14
00:00:35,920 –> 00:00:45,840
همراه با در پایان
15
00:00:51,600 –> 00:00:53,920
اوه
16
00:00:56,840 –> 00:00:59,840
باشه
17
00:01:12,080 –> 00:01:14,000
خیلی خوب پس قبل از شروع من این کار را خواهم کرد
18
00:01:14,000 –> 00:01:16,080
به شما هشدار می دهم پس دو کارگاه گذشته
19
00:01:16,080 –> 00:01:16,479
شده است
20
00:01:16,479 –> 00:01:18,400
در uh r با آیه مرتب و r با
21
00:01:18,400 –> 00:01:20,080
جدول داده ها
22
00:01:20,080 –> 00:01:22,000
پاندا از سه که ما انجام می دهیم است
23
00:01:22,000 –> 00:01:23,119
تا حد زیادی یکی که من کمترین
24
00:01:23,119 –> 00:01:24,159
تجربه در
25
00:01:24,159 –> 00:01:26,799
اوه پس اوه من مطمئنم بله
26
00:01:26,799 –> 00:01:28,159
من قبل از شما مطالب زیادی دارم
27
00:01:28,159 –> 00:01:29,520
میدونی که من باهاش کار کردم
28
00:01:29,520 –> 00:01:31,840
پانداها، اما من به هیچ وجه جادوگر نیستم
29
00:01:31,840 –> 00:01:33,840
با آن که من با آن دو دیگر هستم
30
00:01:33,840 –> 00:01:36,880
اوه نزدیک می شود آه پس آه
31
00:01:36,880 –> 00:01:38,720
من به سوالاتی که می توانم پاسخ خواهم داد
32
00:01:38,720 –> 00:01:40,320
و آه کارگاه
33
00:01:40,320 –> 00:01:41,600
نمونه راهنما در پایان خواهد بود
34
00:01:41,600 –> 00:01:42,880
جالب باشد زیرا خواهم بود
35
00:01:42,880 –> 00:01:43,920
در حال مبارزه با آن
36
00:01:43,920 –> 00:01:45,680
اوه به عنوان شما به دلیل بسیاری از من
37
00:01:45,680 –> 00:01:46,799
رویکرد به اما من در واقع کار می کنم
38
00:01:46,799 –> 00:01:47,520
با پانداها
39
00:01:47,520 –> 00:01:48,960
آیا من هنوز در مرحله ای هستم که سعی می کنم؟
40
00:01:48,960 –> 00:01:50,560
چیزی که کار نمی کند و سپس من
41
00:01:50,560 –> 00:01:51,280
چیزی را گوگل کنید
42
00:01:51,280 –> 00:01:53,360
اوه و این یک راه خوب برای یادگیری مطالب است
43
00:01:53,360 –> 00:01:55,119
اینجوری میشه با uh با a
44
00:01:55,119 –> 00:01:56,719
زبان مثل این
45
00:01:56,719 –> 00:01:59,680
خوب اوه پس داده در حال اجرا با پرداخت
46
00:01:59,680 –> 00:02:00,880
در این مورد کمکی داشتم
47
00:02:00,880 –> 00:02:02,640
تبدیل این اسلایدها از روی
48
00:02:02,640 –> 00:02:04,880
نسخه های r با از اندرو هورنسترا
49
00:02:04,880 –> 00:02:08,239
بنابراین در این کارگاه از او تشکر می کنم
50
00:02:08,239 –> 00:02:09,520
ما چند کار را انجام خواهیم داد
51
00:02:09,520 –> 00:02:10,800
اول ما در مورد اوه صحبت می کنیم
52
00:02:10,800 –> 00:02:12,000
چه دعوای داده ای
53
00:02:12,000 –> 00:02:14,640
این چیزی است که ما سعی داریم با آن انجام دهیم
54
00:02:14,640 –> 00:02:15,920
و ما همچنین صحبت خواهیم کرد
55
00:02:15,920 –> 00:02:17,520
چند نکته فنی برای انجام داده
56
00:02:17,520 –> 00:02:19,920
دعوا در پایتون با استفاده از پانداها
57
00:02:19,920 –> 00:02:21,520
بسته و سپس ما یک پیاده روی از طریق
58
00:02:21,520 –> 00:02:24,400
مثال در پایان
59
00:02:24,400 –> 00:02:26,319
اوه پس من فرض می کنم که شما دارید
60
00:02:26,319 –> 00:02:27,760
آشنایی کلی با پایتون
61
00:02:27,760 –> 00:02:28,800
ما قرار نیست از آن شروع کنیم
62
00:02:28,800 –> 00:02:30,000
نقطه شروع
63
00:02:30,000 –> 00:02:32,640
اوه اما اوه می دانید که من چنین انتظاری ندارم
64
00:02:32,640 –> 00:02:33,360
شما لزوما
65
00:02:33,360 –> 00:02:35,280
همه مهارت ها را در اینجا دارم، منظورم این است که اگر
66
00:02:35,280 –> 00:02:36,560
تو این کارو کردی لازم نیست اینجا باشی
67
00:02:36,560 –> 00:02:37,840
مقام اول
68
00:02:37,840 –> 00:02:40,720
اوم و اوه من وارد نمی شوم
69
00:02:40,720 –> 00:02:41,440
فوق العاده فوق العاده
70
00:02:41,440 –> 00:02:43,519
جزئیات فنی در تمام دستورات i
71
00:02:43,519 –> 00:02:44,640
فکر کن که اوه
72
00:02:44,640 –> 00:02:46,160
آنچه واقعاً می توانید از یک کارگاه دریافت کنید
73
00:02:46,160 –> 00:02:48,080
مانند این چند نکته برای
74
00:02:48,080 –> 00:02:48,959
عازم
75
00:02:48,959 –> 00:02:51,120
اما پس از آن شما فقط می دانید
76
00:02:51,120 –> 00:02:52,080
چه چیزی وجود دارد
77
00:02:52,080 –> 00:02:54,959
در دنیا درست است تا بدانید چه زمانی
78
00:02:54,959 –> 00:02:56,000
شما باید کاری انجام دهید
79
00:02:56,000 –> 00:02:57,200
چه ابزاری است که شما نیاز دارید
80
00:02:57,200 –> 00:02:59,440
ممکن است نیاز به بررسی داشته باشید
81
00:02:59,440 –> 00:03:01,920
اوه اسناد برای آن ابزار در
82
00:03:01,920 –> 00:03:02,959
زمانی که واقعاً می خواهید از آن استفاده کنید
83
00:03:02,959 –> 00:03:03,200
آی تی
84
00:03:03,200 –> 00:03:04,800
اما اینطور نیست که بتوانم به شما بگویم
85
00:03:04,800 –> 00:03:06,400
مستندات است و سپس آن را داشته باشید
86
00:03:06,400 –> 00:03:07,519
به هر حال به مغزت بچسب
87
00:03:07,519 –> 00:03:08,560
شما باید به یک نقطه برسید
88
00:03:08,560 –> 00:03:10,560
جایی که باید بهترین استفاده از آن را داشته باشید
89
00:03:10,560 –> 00:03:12,239
توصیه ای که برای هر کسی دارم
90
00:03:12,239 –> 00:03:13,680
تلاش برای یادگیری یک زبان یا یک زبان جدید
91
00:03:13,680 –> 00:03:15,680
ابزار کامپیوتری به طور کلی دادن است
92
00:03:15,680 –> 00:03:16,400
خودت
93
00:03:16,400 –> 00:03:18,800
یک پروژه شاید نمونه آن باشد
94
00:03:18,800 –> 00:03:20,239
که در پایان این کارگاه داریم
95
00:03:20,239 –> 00:03:21,760
شاید چیز دیگری است اما فقط
96
00:03:21,760 –> 00:03:23,760
به خودتان یک پروژه بدهید تا کار کنید
97
00:03:23,760 –> 00:03:26,000
اوه و اولین بار وحشتناک خواهد بود
98
00:03:26,000 –> 00:03:27,519
که شما آن را انجام می دهید اما تا آن زمان
99
00:03:27,519 –> 00:03:29,599
شما تمام شده اید، بسیار قوی تر خواهید بود
100
00:03:29,599 –> 00:03:32,959
آه در آن زبان آه
101
00:03:32,959 –> 00:03:34,480
در سراسر من از پی دی به عنوان استفاده خواهم کرد
102
00:03:34,480 –> 00:03:36,159
مختصر پانداها
103
00:03:36,159 –> 00:03:37,599
چون من می توانی این را تصور کنی
104
00:03:37,599 –> 00:03:38,879
در همان ابتدای همه این کد i
105
00:03:38,879 –> 00:03:40,959
پانداها را به صورت PD وارد کرد
106
00:03:40,959 –> 00:03:43,360
اوه و من از df به عنوان مختصر استفاده خواهم کرد
107
00:03:43,360 –> 00:03:45,200
برای شی قاب داده آشکارا داده است
108
00:03:45,200 –> 00:03:47,040
فریم ها به نوعی صفحه گسترده هستند
109
00:03:47,040 –> 00:03:48,000
اشیاء
110
00:03:48,000 –> 00:03:50,080
که پانداها دارد راهش است
111
00:03:50,080 –> 00:03:51,040
سازماندهی
112
00:03:51,040 –> 00:03:53,920
داده آه و آه من هستم شما می توانید مرتب کنید
113
00:03:53,920 –> 00:03:55,599
فرض کنید من یک چارچوب داده ایجاد کرده ام
114
00:03:55,599 –> 00:03:56,080
تماس گرفت
115
00:03:56,080 –> 00:03:57,760
df و این همان کاری است که ما انجام می دهیم
116
00:03:57,760 –> 00:04:01,280
برخی از عملیات ما در
117
00:04:01,280 –> 00:04:03,840
بنابراین چه داده است آه متاسفم و همچنین
118
00:04:03,840 –> 00:04:05,120
هر وقت خواستی حرفم را قطع کن
119
00:04:05,120 –> 00:04:05,840
سوالات
120
00:04:05,840 –> 00:04:08,560
اوه من خوشحالم که به آنها پاسخ دهم
121
00:04:08,560 –> 00:04:10,000
اوه و اگر در دوره قبلی بوده اید
122
00:04:10,000 –> 00:04:11,360
هر کدام از نسخه های قبلی این
123
00:04:11,360 –> 00:04:12,159
کارگاه شما خواهد شد
124
00:04:12,159 –> 00:04:13,360
برخی از مطالب را از
125
00:04:13,360 –> 00:04:15,040
قبل از اینکه بیشتر چیزهایی که قرار است جدید باشند، هستند
126
00:04:15,040 –> 00:04:16,478
فقط فنی
127
00:04:16,478 –> 00:04:18,959
مواد بسیار خوب است پس داده چیست
128
00:04:18,959 –> 00:04:19,519
دعوا کردن
129
00:04:19,519 –> 00:04:21,199
جدال داده زمانی است که شما داده ای دارید اما
130
00:04:21,199 –> 00:04:23,360
هنوز برای استفاده شما آماده نیست
131
00:04:23,360 –> 00:04:25,040
و بنابراین می خواهید آن را برای خود آماده کنید
132
00:04:25,040 –> 00:04:26,960
برای استفاده از آن این است که داده ها
133
00:04:26,960 –> 00:04:28,720
مشاجره تا زمانی است که داده های شما وجود ندارد
134
00:04:28,720 –> 00:04:30,479
با این حال به شکلی که شما نیاز دارید
135
00:04:30,479 –> 00:04:31,759
شما باید آن را در فرمت که در آن
136
00:04:31,759 –> 00:04:33,280
شما به آن نیاز دارید و این خواهد بود
137
00:04:33,280 –> 00:04:34,800
گریس آرنج یعنی
138
00:04:34,800 –> 00:04:38,000
دعوای داده چند نکته مهم
139
00:04:38,000 –> 00:04:39,840
برای زمانی که در حال انجام جدال داده ها هستید
140
00:04:39,840 –> 00:04:41,199
و بیشتر اوقات وقتی دارم کمک می کنم
141
00:04:41,199 –> 00:04:42,639
مردم با داده های خود درگیر آن هستند
142
00:04:42,639 –> 00:04:44,080
زیرا آنها یکی از آنها را دنبال نمی کنند
143
00:04:44,080 –> 00:04:44,960
این نکات
144
00:04:44,960 –> 00:04:46,400
بیشتر از داشتن هر نوع
145
00:04:46,400 –> 00:04:48,800
مشکل با کد یا زبان
146
00:04:48,800 –> 00:04:51,040
مانند آن
147
00:04:51,040 –> 00:04:53,680
نگاه کردن به داده ها همیشه بسیار خوب است
148
00:04:53,680 –> 00:04:55,280
به طور مستقیم به داده های خود نگاه کنید تا بدانید
149
00:04:55,280 –> 00:04:56,240
به نظر می رسد
150
00:04:56,240 –> 00:04:58,720
شما می توانید داده های خود را فقط توسط خودتان چاپ کنید
151
00:04:58,720 –> 00:04:59,759
دانستن
152
00:04:59,759 –> 00:05:02,960
نام مجموعه داده را درست تایپ کنید
153
00:05:02,960 –> 00:05:04,639
در اینجا این مجموعه داده است که من آن را منتشر کردم
154
00:05:04,639 –> 00:05:06,080
نام و آن را برای من و من چاپ کرد
155
00:05:06,080 –> 00:05:07,520
می تواند به طور مستقیم به آن نگاه کند
156
00:05:07,520 –> 00:05:09,360
من از این چاه به چه چیزی می رسم
157
00:05:09,360 –> 00:05:11,120
بدانید که داده ها چگونه به نظر می رسند
158
00:05:11,120 –> 00:05:12,639
جدال داده ها همه چیز در مورد آماده سازی است
159
00:05:12,639 –> 00:05:14,240
داده های شما در قالبی باشد که شما
160
00:05:14,240 –> 00:05:15,199
لازم است که باشد
161
00:05:15,199 –> 00:05:17,360
بنابراین احتمالاً باید بدانید کجاست
162
00:05:17,360 –> 00:05:18,240
تا بتوانید بدانید
163
00:05:18,240 –> 00:05:19,680
برای رسیدن به آنجا چه کاری باید انجام دهید
164
00:05:19,680 –> 00:05:21,199
درست است پس با مشاهده این داده ها می توانم
165
00:05:21,199 –> 00:05:22,080
توجه داشته باشید خوب
166
00:05:22,080 –> 00:05:24,240
من چگونه می دانم که این داده ها حاوی است
167
00:05:24,240 –> 00:05:26,080
سه ماهه و نرخ
168
00:05:26,080 –> 00:05:28,400
اما چگونه حالت شامل دو است
169
00:05:28,400 –> 00:05:30,320
رقم مخفف آن دو حرف است
170
00:05:30,320 –> 00:05:31,919
آن را به عنوان تمام نام در اینجا اگر آن است
171
00:05:31,919 –> 00:05:33,120
آیا آن نام با حروف بزرگ یا
172
00:05:33,120 –> 00:05:34,080
بدون حروف بزرگ
173
00:05:34,080 –> 00:05:36,240
با نگاه کردن به داده ها اکنون می دانم
174
00:05:36,240 –> 00:05:38,400
اوه چگونه در مورد یک چهارم است که واقعی است
175
00:05:38,400 –> 00:05:38,800
تاریخ
176
00:05:38,800 –> 00:05:41,280
شیء no به صورت رشته ای نوشته می شود
177
00:05:41,280 –> 00:05:42,240
عدد q
178
00:05:42,240 –> 00:05:44,479
به دنبال آن یک سال چهار رقمی uh و
179
00:05:44,479 –> 00:05:46,479
نرخ از صفر تا یک در مقابل است
180
00:05:46,479 –> 00:05:46,880
گفتن
181
00:05:46,880 –> 00:05:48,720
صفر تا صد درسته تازه یاد میگیرم
182
00:05:48,720 –> 00:05:49,919
همه این چیزها فقط با نگاه کردن به
183
00:05:49,919 –> 00:05:50,479
داده ها
184
00:05:50,479 –> 00:05:51,919
بدون نیاز به انجام هر نوع خیالبافی
185
00:05:51,919 –> 00:05:54,160
کد و اوه فقط به داده های خود نگاه کنید
186
00:05:54,160 –> 00:05:56,880
لطفا یک بار که نگاه کردید از شما خواهش می کنم
187
00:05:56,880 –> 00:05:58,319
در داده های شما
188
00:05:58,319 –> 00:05:59,520
و شما می خواهید به آنچه که دارید فکر کنید
189
00:05:59,520 –> 00:06:01,440
می خواهید داده های شما شبیه زمانی که هستید به نظر برسد
190
00:06:01,440 –> 00:06:02,639
درست انجام دادی
191
00:06:02,639 –> 00:06:03,919
به این منظور این کار را انجام می دهند
192
00:06:03,919 –> 00:06:05,919
در حال اجرا نوعی از تجزیه و تحلیل بنابراین داشتن
193
00:06:05,919 –> 00:06:07,600
ایده ای از آنچه که آن تحلیل در حال انجام است
194
00:06:07,600 –> 00:06:08,160
بودن
195
00:06:08,160 –> 00:06:09,600
یا حداقل به چه فرمتی نیاز دارید
196
00:06:09,600 –> 00:06:12,160
داده ها مکان بسیار خوبی برای بودن است
197
00:06:12,160 –> 00:06:13,440
زیرا به شما کمک می کند تا بفهمید
198
00:06:13,440 –> 00:06:16,000
کاری که شما انجام می دهید تحلیل شماست
199
00:06:16,000 –> 00:06:16,880
خواهد شد
200
00:06:16,880 –> 00:06:19,199
که در آن یک مشاهده یک سال است
201
00:06:19,199 –> 00:06:20,560
یک حالت ممکن است
202
00:06:20,560 –> 00:06:22,080
برای آن داده هایی که من به شما نشان دادم یا
203
00:06:22,080 –> 00:06:24,319
یک چهارم برای یک ایالت
204
00:06:24,319 –> 00:06:26,720
یا برای یک شرکت برای یک روز
205
00:06:26,720 –> 00:06:27,919
درست است که می خواهید فکر کنید
206
00:06:27,919 –> 00:06:29,520
با چه فرمتی می خواهم آن را در چه قالبی دریافت کنم
207
00:06:29,520 –> 00:06:31,280
انواع متغیرهایی که می خواهم باشم
208
00:06:31,280 –> 00:06:33,520
در آن داده های نهایی، بنابراین شما می دانید آنچه شما
209
00:06:33,520 –> 00:06:35,120
هدف این است که شما به داده های خود نگاه کنید
210
00:06:35,120 –> 00:06:36,000
بداند کجاست
211
00:06:36,000 –> 00:06:37,120
میخوای فکر کنی کجایی
212
00:06:37,120 –> 00:06:38,639
می خواهید آن را به شما می دانید هدف خود را و
213
00:06:38,639 –> 00:06:40,000
سپس باید به این فکر کنید که چگونه هستید
214
00:06:40,000 –> 00:06:41,039
می تواند آن را در آنجا دریافت کند
215
00:06:41,039 –> 00:06:42,639
بحث و جدل داده همه چیز در مورد گرفتن است
216
00:06:42,639 –> 00:06:44,319
اطلاعات از جایی که در حال حاضر است
217
00:06:44,319 –> 00:06:46,319
است و آن را در جایی که می خواهید قرار دهید
218
00:06:46,319 –> 00:06:48,720
باشد و این اساساً کل کار است
219
00:06:48,720 –> 00:06:50,479
از جدال داده ها اطلاعات در آن است
220
00:06:50,479 –> 00:06:52,080
در آنجا بحث و جدل داده بسیار نادر است
221
00:06:52,080 –> 00:06:54,000
در مورد ایجاد اطلاعات بیشتر
222
00:06:54,000 –> 00:06:55,360
این فقط در مورد قرار دادن اطلاعات است
223
00:06:55,360 –> 00:06:57,440
که در یک قابل استفاده وجود دارد
224
00:06:57,440 –> 00:06:59,759
فرمت پس فکر کنید که کجاست و
225
00:06:59,759 –> 00:07:02,240
مثلاً جایی که میخواهید باشد
226
00:07:02,240 –> 00:07:04,240
با بازگشت به این داده ها، ممکن است بگویم خوب است
227
00:07:04,240 –> 00:07:05,919
من می خواهم یک متغیر برای سال و a داشته باشم
228
00:07:05,919 –> 00:07:07,120
متغیر برای یک چهارم
229
00:07:07,120 –> 00:07:08,400
تاریخ کجاست کجاست
230
00:07:08,400 –> 00:07:09,680
این اطلاعات به خوبی اینجاست
231
00:07:09,680 –> 00:07:11,120
اطلاعات اینجا سال است
232
00:07:11,120 –> 00:07:12,639
آن چهار رقم و سپس اینجاست
233
00:07:12,639 –> 00:07:14,319
یک چهارم این یکی همین جاست
234
00:07:14,319 –> 00:07:16,000
من باید به این فکر کنم که چگونه می توانم حمل کنم
235
00:07:16,000 –> 00:07:17,919
اطلاعات از
236
00:07:17,919 –> 00:07:19,840
داخل این متغیر چهارم در اینجا
237
00:07:19,840 –> 00:07:22,479
و آن را در یک متغیر سال مشخص کنید
238
00:07:22,479 –> 00:07:24,080
به خودی خود چگونه می توانم اطلاعات را دریافت کنم
239
00:07:24,080 –> 00:07:26,720
از جایی که هست
240
00:07:26,720 –> 00:07:30,080
به جایی که می خواهم اینجا باشد
241
00:07:30,080 –> 00:07:32,400
آخرین نکته مهم این است که به داده های خود نگاه کنید
242
00:07:32,400 –> 00:07:33,360
از نو
243
00:07:33,360 –> 00:07:34,960
پس از انجام هر مرحله از داده های خود
244
00:07:34,960 –> 00:07:36,800
روند مشاجره به آنچه دارید نگاه کنید
245
00:07:36,800 –> 00:07:37,120
انجام شده
246
00:07:37,120 –> 00:07:39,039
نتایج کاری را که انجام داده اید ببینید
247
00:07:39,039 –> 00:07:40,479
مطمئن شوید که واقعاً کاری را که شما انجام داده اید انجام داده است
248
00:07:40,479 –> 00:07:41,840
انتظار داشت که انجام دهد
249
00:07:41,840 –> 00:07:43,440
این مرحله ای است که مردم تمایل دارند از آن بگذرند
250
00:07:43,440 –> 00:07:44,720
خیلی زیاد اما با اینکه بوده ام
251
00:07:44,720 –> 00:07:46,000
انجام جدال داده برای
252
00:07:46,000 –> 00:07:49,360
الان 12 سال است که بیشتر آن را انجام می دهم
253
00:07:49,360 –> 00:07:50,080
مقدار زیادی
254
00:07:50,080 –> 00:07:53,280
من هنوز هر بار که یک کد را انجام می دهم
255
00:07:53,280 –> 00:07:55,039
تقریباً هر بار که به چه چیزی نگاه خواهم کرد
256
00:07:55,039 –> 00:07:56,319
اتفاق افتاد من فقط به آن نگاه خواهم کرد
257
00:07:56,319 –> 00:07:58,160
دوباره داده تا مطمئن شوید که کار می کند
258
00:07:58,160 –> 00:08:00,000
به درستی چون همه چیز در مورد
259
00:08:00,000 –> 00:08:01,599
جدال داده ها این است که می دانید اگر آن را دارید
260
00:08:01,599 –> 00:08:03,199
قرار دادن داده ها در قالب آسان بود
261
00:08:03,199 –> 00:08:03,919
که تو می خواستی
262
00:08:03,919 –> 00:08:05,120
فقط یک فرمان وجود دارد که شما
263
00:08:05,120 –> 00:08:06,319
می تواند یک دکمه را فشار دهد و این کار را انجام می دهد
264
00:08:06,319 –> 00:08:07,039
برای شما
265
00:08:07,039 –> 00:08:08,960
اما مشکل این است که تعداد زیادی وجود دارد
266
00:08:08,960 –> 00:08:10,800
جزئیات در آنجا وجود دارد که فقط شما می دانید چیست
267
00:08:10,800 –> 00:08:12,160
دقیقاً این است که شما می روید
268
00:08:12,160 –> 00:08:14,319
برای این و بسیاری از کد واقعا است
269
00:08:14,319 –> 00:08:16,080
گیج کننده و دارای موارد گوشه ای و
270
00:08:16,080 –> 00:08:18,560
گاهی اوقات کار می کند و گاهی اوقات نه
271
00:08:18,560 –> 00:08:20,240
به آنچه انجام داده اید نگاه کنید تا ببینید
272
00:08:20,240 –> 00:08:22,160
آیا آن را منطقی و آنچه شما انجام داد
273
00:08:22,160 –> 00:08:22,639
تحت تعقیب
274
00:08:22,639 –> 00:08:24,400
ایده بسیار خوبی است پس همیشه نگاه کنید
275
00:08:24,400 –> 00:08:26,400
داده های خود را دوباره بین هر مرحله
276
00:08:26,400 –> 00:08:27,599
در غیر این صورت شما به پایان خواهید رسید
277
00:08:27,599 –> 00:08:29,680
می دانید که یک ساعت بعد با نوشتن یک
278
00:08:29,680 –> 00:08:30,720
دسته ای از کدها
279
00:08:30,720 –> 00:08:32,159
با استفاده از آنچه فکر می کردید داده ها به نظر می رسند
280
00:08:32,159 –> 00:08:34,080
مثل زمانی که در واقع چیز دیگری بود
281
00:08:34,080 –> 00:08:34,559
چون تو
282
00:08:34,559 –> 00:08:36,719
دستوری اشتباه نوشت پس اینها من هستند
283
00:08:36,719 –> 00:08:40,080
چهار نکته بزرگ برای جدال داده ها
284
00:08:40,080 –> 00:08:41,039
ما می خواهیم به داده های خود نگاه کنیم
285
00:08:41,039 –> 00:08:42,399
اشاره کرد که چند بار چگونه می تواند
286
00:08:42,399 –> 00:08:43,679
شما فقط می توانید انجام دهید
287
00:08:43,679 –> 00:08:45,200
به معنای واقعی کلمه قاب داده ای را که وجود دارد چاپ کنید
288
00:08:45,200 –> 00:08:47,120
همچنین جداول آمار را خلاصه کنید تا بتوانیم
289
00:08:47,120 –> 00:08:48,160
مثلا بگیر
290
00:08:48,160 –> 00:08:49,600
اوه این کد همینجا و ببینید چیه
291
00:08:49,600 –> 00:08:51,600
یک نوع آمار خلاصه که ما داریم
292
00:08:51,600 –> 00:08:56,000
برای داده های ما، بنابراین به جای df، od است
293
00:08:56,000 –> 00:08:57,120
و به ما نشان خواهد داد که شما آن را می شناسید
294
00:08:57,120 –> 00:08:59,440
متغیرهای مختلفی که در داده های ما هستند
295
00:08:59,440 –> 00:09:01,600
و اوه نوع توزیع آنها
296
00:09:01,600 –> 00:09:02,959
این می تواند مفید باشد زیرا اجازه خواهد داد
297
00:09:02,959 –> 00:09:03,279
شما
298
00:09:03,279 –> 00:09:05,519
شما می دانید چیزهایی مانند اوه اوه هی
299
00:09:05,519 –> 00:09:07,040
یک چهارم عدد نیست
300
00:09:07,040 –> 00:09:08,399
درست است بنابراین من نمی توانم این خلاصه را دریافت کنم
301
00:09:08,399 –> 00:09:09,680
آمار چون عددی نیست اگر
302
00:09:09,680 –> 00:09:10,800
شما انتظار داشتید یک چهارم باشد
303
00:09:10,800 –> 00:09:11,360
عدد
304
00:09:11,360 –> 00:09:13,040
اکنون می دانید که چیزهایی را به شما خواهد گفت
305
00:09:13,040 –> 00:09:14,640
مانند توزیع این بسیار مفید است
306
00:09:14,640 –> 00:09:15,839
برای نگاه کردن
307
00:09:15,839 –> 00:09:19,120
زیرا اغلب برای مثال در داده هایی که
308
00:09:19,120 –> 00:09:20,640
تو دست
309
00:09:20,640 –> 00:09:22,880
ممکن است ارزش ها آن چیزی نباشند که شما انتظار دارید
310
00:09:22,880 –> 00:09:24,320
اوه، برای مثال اگر قرار بود
311
00:09:24,320 –> 00:09:26,640
یک قطعه از داده های سرشماری را دانلود کنید
312
00:09:26,640 –> 00:09:28,240
شما ممکن است به این توزیع نگاه کنید
313
00:09:28,240 –> 00:09:29,600
تعداد بچه های شما را فرض کنید
314
00:09:29,600 –> 00:09:30,640
و مثل وای باش
315
00:09:30,640 –> 00:09:33,040
بسیاری از مردم مطمئناً 99 فرزند دارند
316
00:09:33,040 –> 00:09:34,399
این عجیب است من فکر نمی کنم کسی
317
00:09:34,399 –> 00:09:36,320
واقعا انقدر بچه داره
318
00:09:36,320 –> 00:09:37,760
و سپس این شما را وادار می کند که
319
00:09:37,760 –> 00:09:39,600
متوجه شوید که oh 99 فقط کد آنهاست
320
00:09:39,600 –> 00:09:40,480
داده های از دست رفته
321
00:09:40,480 –> 00:09:41,839
درست و نگاه کردن به توزیع مانند
322
00:09:41,839 –> 00:09:43,360
این به شما کمک می کند زمانی که عجیب و غریب است را انتخاب کنید
323
00:09:43,360 –> 00:09:44,880
چنین چیزهایی در حال وقوع است
324
00:09:44,880 –> 00:09:47,440
به آن نگاه کن به آن نگاه کن
325
00:09:47,440 –> 00:09:48,880
بررسی تمام مقادیر آن چیزی
326
00:09:48,880 –> 00:09:51,040
طول می کشد خوب است بنابراین انجام منحصر به فرد
327
00:09:51,040 –> 00:09:52,000
عملکرد
328
00:09:52,000 –> 00:09:54,399
روی یک متغیر فردی می تواند در آنجا کمک کند
329
00:09:54,399 –> 00:09:56,480
در این مورد
330
00:09:56,480 –> 00:09:57,920
بیایید بگوییم که می خواهیم بدانیم هی این کار را می کند
331
00:09:57,920 –> 00:09:59,519
مجاورت را جمع بندی کن
332
00:09:59,519 –> 00:10:00,800
آیا این شامل تمام 50 ایالت است
333
00:10:00,800 –> 00:10:02,399
حق پیوسته اول از همه می توانم بگویم
334
00:10:02,399 –> 00:10:04,160
شما هی نگاه می کنید هاوایی در آنجا است پس آن را
335
00:10:04,160 –> 00:10:05,519
فقط شامل همه آنها نمی شود بلکه من
336
00:10:05,519 –> 00:10:07,120
همچنین می تواند از پی دی منحصر به فرد استفاده کند
337
00:10:07,120 –> 00:10:10,640
اوه حالت خوبه و اینطور میشه
338
00:10:10,640 –> 00:10:12,079
به من بگو چه ارزش هایی می گیرد
339
00:10:12,079 –> 00:10:13,920
یا شاید حتی یک چهارم بهتر تا بتوانم
340
00:10:13,920 –> 00:10:15,680
محدوده را بدانید
341
00:10:15,680 –> 00:10:17,440
از داده ها چه بخش هایی انجام می دهد
342
00:10:17,440 –> 00:10:19,040
پوشش سمت راست
343
00:10:19,040 –> 00:10:20,640
بنابراین این از سه ماهه 4 سال 2010 به
344
00:10:20,640 –> 00:10:23,680
سه ماهه اول 2012
345
00:10:27,839 –> 00:10:29,519
آه نگاه کردن به داده های شما نیز خواهد گفت
346
00:10:29,519 –> 00:10:30,959
شما چه نوع مشاهداتی از دست رفته است
347
00:10:30,959 –> 00:10:31,600
شما دارید
348
00:10:31,600 –> 00:10:33,440
داده های زیادی به خصوص اگر شما نباشید
349
00:10:33,440 –> 00:10:35,440
می دانم که برای استفاده در کلاس درس طراحی شده است
350
00:10:35,440 –> 00:10:36,959
بسیاری از داده های از دست رفته در آن و غیره
351
00:10:36,959 –> 00:10:38,880
دانستن اینکه چقدر داده از دست رفته دارید
352
00:10:38,880 –> 00:10:41,120
بسیار مهم است زیرا اغلب
353
00:10:41,120 –> 00:10:42,720
وجود داده های از دست رفته نحوه تغییر را تغییر می دهد
354
00:10:42,720 –> 00:10:44,000
شما باید رسیدگی کنید
355
00:10:44,000 –> 00:10:47,600
این داده ها همه درست است
356
00:10:47,600 –> 00:10:49,519
اوه اینها نکات کلی ما هستند حالا اجازه دهید
357
00:10:49,519 –> 00:10:50,959
به این فکر کنید که قرار است چه کاری انجام دهیم
358
00:10:50,959 –> 00:10:52,560
برای ریل گذاری داده ها چه مراحلی وجود دارد
359
00:10:52,560 –> 00:10:54,000
جدال داده ها برای رفتن از چیزی که
360
00:10:54,000 –> 00:10:54,880
بسیار خام است
361
00:10:54,880 –> 00:10:56,800
به چیزی که برای شما آماده شده است
362
00:10:56,800 –> 00:10:58,640
استفاده کنید و سه مرحله اصلی وجود دارد که
363
00:10:58,640 –> 00:10:59,519
من در مورد فکر می کنم
364
00:10:59,519 –> 00:11:01,040
اوه گاهی اوقات می توانید یکی از آنها را نادیده بگیرید اگر
365
00:11:01,040 –> 00:11:02,720
داده های شما در حال حاضر به نوعی آماده است
366
00:11:02,720 –> 00:11:03,200
شما اما
367
00:11:03,200 –> 00:11:05,200
مرحله اول رفتن از رکورد به
368
00:11:05,200 –> 00:11:06,240
داده ها
369
00:11:06,240 –> 00:11:08,160
دوم رفتن از داده به مرتب
370
00:11:08,160 –> 00:11:09,920
داده ها و سپس سومین از
371
00:11:09,920 –> 00:11:12,320
داده های مرتب به داده ها برای داده های تجزیه و تحلیل شما
372
00:11:12,320 –> 00:11:13,600
که می توانید استفاده کنید
373
00:11:13,600 –> 00:11:15,839
برای هر کاری که قرار است از آن استفاده کنید
374
00:11:15,839 –> 00:11:17,279
پس بیایید با رفتن از رکوردها شروع کنیم
375
00:11:17,279 –> 00:11:19,200
به داده ها پس منظور من از این چیست
376
00:11:19,200 –> 00:11:21,760
سوابق هر نوع اطلاعاتی هستند که
377
00:11:21,760 –> 00:11:23,040
بیرون وجود دارد
378
00:11:23,040 –> 00:11:25,279
در قالبی که بتوانید به درستی به آن دسترسی داشته باشید
379
00:11:25,279 –> 00:11:27,519
ممکن است در قالب داده خوبی نباشد
380
00:11:27,519 –> 00:11:28,720
بنابراین برای مثال این می تواند در مورد
381
00:11:28,720 –> 00:11:30,079
جمع آوری داده ها ممکن است کسی باشد
382
00:11:30,079 –> 00:11:31,120
به سمت شما می آید و می گوید سلام
383
00:11:31,120 –> 00:11:32,959
میدونی برو ترندهای گوگل رو بررسی کن
384
00:11:32,959 –> 00:11:34,800
کلمات کلیدی بازاریابی ما بسیار خوب است
385
00:11:34,800 –> 00:11:35,920
آن داده ها را جمع آوری کند
386
00:11:35,920 –> 00:11:37,839
و سپس آن را روشن کنید که این رکوردها است
387
00:11:37,839 –> 00:11:39,040
در آنجا می توانید آن را به داده تبدیل کنید
388
00:11:39,040 –> 00:11:42,160
اینجا یک پی دی اف است، این پی دی اف از را بگیرید
389
00:11:42,160 –> 00:11:44,480
uh از اطلاعات مالیاتی و تبدیل آن به یک
390
00:11:44,480 –> 00:11:45,680
جدولی که می توانم بخوانم
391
00:11:45,680 –> 00:11:47,920
این وظیفه ای است که من همیشه انجام می دهم
392
00:11:47,920 –> 00:11:49,040
مردم برای انجام آن به من پول می دهند
393
00:11:49,040 –> 00:11:50,320
درست است این یک مهارت خوب است که می توانید
394
00:11:50,320 –> 00:11:52,480
دارند زیرا اطلاعات زیادی دارند
395
00:11:52,480 –> 00:11:53,120
بخصوص
396
00:11:53,120 –> 00:11:55,120
برای شرکت های قدیمی بیشتر در ذخیره می شود
397
00:11:55,120 –> 00:11:57,200
این پی دی اف هایی که همیشه داخل نیستند
398
00:11:57,200 –> 00:11:59,600
فرمت صفحه گسترده خوب اینجاست
399
00:11:59,600 –> 00:12:00,880
دسته ای از دست نوشته های دکتر به نوبه خود
400
00:12:00,880 –> 00:12:02,639
آن را به داده ها در اینجا یک وب سایت خراش دادن است
401
00:12:02,639 –> 00:12:04,720
وب سایت و پیدا کردن اطلاعات در مورد آن
402
00:12:04,720 –> 00:12:06,720
برو یک نظرسنجی انجام بده، داده ها را جمع آوری کن
403
00:12:06,720 –> 00:12:08,320
آیا اطلاعاتی وجود دارد و شما؟
404
00:12:08,320 –> 00:12:09,200
در حال رفتن به
405
00:12:09,200 –> 00:12:11,360
آن را در یک داده مانند جمع آوری کنید
406
00:12:11,360 –> 00:12:13,360
قالب
407
00:12:13,360 –> 00:12:14,880
من قصد ندارم خیلی عمیق به آن بروم
408
00:12:14,880 –> 00:12:16,800
رکوردها به مرحله داده چون وجود دارد
409
00:12:16,800 –> 00:12:18,880
بسیاری از اشکال مختلف رکورد و
410
00:12:18,880 –> 00:12:20,320
همه آنها نیاز خود را دارند
411
00:12:20,320 –> 00:12:22,560
ابزارها همپوشانی زیادی ندارند
412
00:12:22,560 –> 00:12:24,000
یا چیزهای کلی که
413
00:12:24,000 –> 00:12:25,600
در اینجا اعمال کنید شما ابزارهایی را که می شناسید
414
00:12:25,600 –> 00:12:27,920
برای خراش دادن یک وب سایت 100 مورد استفاده قرار می گیرد
415
00:12:27,920 –> 00:12:28,880
متفاوت از ابزارهایی که شما می خواهید
416
00:12:28,880 –> 00:12:29,360
استفاده کنید
417
00:12:29,360 –> 00:12:31,920
برای خواندن داده ها از یک pdf یا دریافت
418
00:12:31,920 –> 00:12:33,279
اطلاعات از روندهای گوگل
419
00:12:33,279 –> 00:12:35,519
یا هر چیزی که درست است، بنابراین من نمی روم
420
00:12:35,519 –> 00:12:36,720
به آن بروید
421
00:12:36,720 –> 00:12:38,240
زیرا استفاده خوبی از زمان ما نیست
422
00:12:38,240 –> 00:12:39,600
اما همانطور که این کار را انجام می دهید به آن نگاه کنید
423
00:12:39,600 –> 00:12:41,360
داده های زیادی که یک نکته کلی است
424
00:12:41,360 –> 00:12:43,760
در همه جا اعمال می شود به داده های خود نگاه کنید
425
00:12:43,760 –> 00:12:44,880
اوه انجامش بده
426
00:12:44,880 –> 00:12:47,760
اوم دوم آه اگر شما هستید به طور کلی
427
00:12:47,760 –> 00:12:48,079
را
428
00:12:48,079 –> 00:12:49,279
فرآیندی که از آن استفاده خواهید کرد
429
00:12:49,279 –> 00:12:51,519
در تلاش است تا ساختاری در آن پیدا کند
430
00:12:51,519 –> 00:12:52,560
داده های خام
431
00:12:52,560 –> 00:12:54,320
تا بتوانید از آن بهره ببرید
432
00:12:54,320 –> 00:12:55,760
وقتی در حال خواندن آن هستید
433
00:12:55,760 –> 00:12:58,880
به عنوان مثال، شما در حال مطالعه در آن هستید
434
00:12:58,880 –> 00:13:00,880
اوه یک وب سایت ممکن است شما در حال خراشیدن یک
435
00:13:00,880 –> 00:13:02,160
وب سایت درست است
436
00:13:02,160 –> 00:13:04,160
و شما را با چشمان انسانی خود می شناسید
437
00:13:04,160 –> 00:13:05,519
می تواند به یک وب سایت نگاه کند و بفهمد
438
00:13:05,519 –> 00:13:06,959
جایی که اطلاعات است فرض کنید اجازه دهید
439
00:13:06,959 –> 00:13:07,760
برو به
440
00:13:07,760 –> 00:13:11,760
بیایید یک جستجوی اینترنتی انجام دهیم آه بستنی
441
00:13:12,639 –> 00:13:14,560
درست است، من جستجوی خود را برای یخ انجام دادم
442
00:13:14,560 –> 00:13:16,000
کرم من برای بریرس کار می کنم یا
443
00:13:16,000 –> 00:13:16,880
یه چیزی شبیه اون
444
00:13:16,880 –> 00:13:19,040
و من می خواهم بدانم شما می دانید خوب چیست
445
00:13:19,040 –> 00:13:21,040
برندهایی هستند که بیشتر به آنها اشاره می شود
446
00:13:21,040 –> 00:13:21,760
غالبا
447
00:13:21,760 –> 00:13:24,160
در بالای این نتایج جستجو سمت راست
448
00:13:24,160 –> 00:13:26,160
خوب من می خواهم این وب سایت را پاک کنم
449
00:13:26,160 –> 00:13:27,360
من سعی می کنم از آن استفاده کنم
450
00:13:27,360 –> 00:13:28,959
ساختاری که می توانم ببینم اما به آن نیاز دارم
451
00:13:28,959 –> 00:13:30,480
برای اینکه کامپیوتری این را بفهمد
452
00:13:30,480 –> 00:13:31,040
ساختار
453
00:13:31,040 –> 00:13:33,760
درست است پس اول می گویم باشه
454
00:13:33,760 –> 00:13:34,639
از همه چگونه می توانم
455
00:13:34,639 –> 00:13:37,279
عناوین نتایج جستجو را پیدا کنید
456
00:13:37,279 –> 00:13:38,000
درست شاید من
457
00:13:38,000 –> 00:13:39,760
فقط عناوین را می خواهم پس باید تمرین کنم
458
00:13:39,760 –> 00:13:41,040
کامپیوتر من بگو هی دنبال اینها بگرد
459
00:13:41,040 –> 00:13:43,519
این پیوندهای آبی اینجا اوه و همه را بکشید
460
00:13:43,519 –> 00:13:44,399
کسانی که بیرون
461
00:13:44,399 –> 00:13:45,920
و سپس باید بفهمم که چگونه می توانم
462
00:13:45,920 –> 00:13:47,519
به یک کامپیوتر بگویید به دنبال نام های تجاری بگردد
463
00:13:47,519 –> 00:13:48,480
درست
464
00:13:48,480 –> 00:13:49,760
شما سعی می کنید از آن استفاده کنید
465
00:13:49,760 –> 00:13:51,519
ساختار، بنابراین شما ممکن است بگویید خوب است
466
00:13:51,519 –> 00:13:52,800
بدانید که اگر به آن نگاه کنم
467
00:13:52,800 –> 00:13:54,240
کد این صفحه باید وجود داشته باشد
468
00:13:54,240 –> 00:13:56,880
کدی که این لینک ها را آبی می کند
469
00:13:56,880 –> 00:13:58,800
یا آنها را به پیوند تبدیل می کند شاید و غیره
470
00:13:58,800 –> 00:14:00,079
من می خواهم به آن بگویم که به دنبال پیوندها بگردد
471
00:14:00,079 –> 00:14:01,360
زیرا این ساختاری است که من می توانم
472
00:14:01,360 –> 00:14:03,440
ببینید و من از آن استفاده می کنم
473
00:14:03,440 –> 00:14:05,360
این یک نمونه خراش دادن وب است اما این
474
00:14:05,360 –> 00:14:07,440
در هر زمانی که هستید، همین ایده اعمال می شود
475
00:14:07,440 –> 00:14:08,560
تلاش برای گرفتن رکورد
476
00:14:08,560 –> 00:14:10,000
و تبدیل آنها به داده هایی که دارید
477
00:14:10,000 –> 00:14:12,240
پی دی اف از متن های قدیمی مانند فرم های خوب خوب چگونه
478
00:14:12,240 –> 00:14:13,760
بهش میگی تشخیص بده
479
00:14:13,760 –> 00:14:15,760
وقتی اسم کسی هست و میدونی هست
480
00:14:15,760 –> 00:14:17,440
این خط است اینجا این گویاست
481
00:14:17,440 –> 00:14:18,880
نام کسی یا آدرس اوست
482
00:14:18,880 –> 00:14:20,160
آیا شماره تامین اجتماعی آنها این است؟
483
00:14:20,160 –> 00:14:21,760
تلفن همراه آنها
484
00:14:21,760 –> 00:14:23,839
من نمی دانم کامپیوتر شما نمی داند
485
00:14:23,839 –> 00:14:25,279
شما باید به آن بگویید چگونه تشخیص دهد
486
00:14:25,279 –> 00:14:26,480
آن اطلاعات
487
00:14:26,480 –> 00:14:28,000
و بنابراین تلاش برای یافتن ساختار در
488
00:14:28,000 –> 00:14:29,920
وجود دارد و استفاده از آن واقعا است
489
00:14:29,920 –> 00:14:30,560
بزرگترین شما
490
00:14:30,560 –> 00:14:34,240
وظیفه خواندن در رکوردها
491
00:14:34,240 –> 00:14:35,680
بنابراین شما سعی می کنید بپرسید چگونه می توانم یک را بگویم
492
00:14:35,680 –> 00:14:37,279
کامپیوتر چگونه محل واقعی را تشخیص دهد
493
00:14:37,279 –> 00:14:38,240
داده است
494
00:14:38,240 –> 00:14:40,079
به طوری که شما می توانید به همان اندازه با دست انجام دهید
495
00:14:40,079 –> 00:14:41,920
ممکن است بخواهید از انجام داده ها اجتناب کنید
496
00:14:41,920 –> 00:14:43,760
ورود با دست اگر می توانید اصلاً از آن اجتناب کنید
497
00:14:43,760 –> 00:14:44,800
هزینه ها
498
00:14:44,800 –> 00:14:46,399
نه تنها به این دلیل که خسته کننده و زیاد است
499
00:14:46,399 –> 00:14:48,639
از زمان بلکه به این دلیل که شما بسیار
500
00:14:48,639 –> 00:14:50,480
به احتمال زیاد اشتباه می کند
501
00:14:50,480 –> 00:14:51,920
اگر تا به حال هر نوع داده ای را انجام داده اید
502
00:14:51,920 –> 00:14:54,079
ورود به جایی که دو نفر متفاوت هستند
503
00:14:54,079 –> 00:14:55,600
وارد کردن همان داده ها برای استحکام
504
00:14:55,600 –> 00:14:56,399
شما خواهید دانست
505
00:14:56,399 –> 00:14:58,160
هر چند وقت یکبار آن دو نفر وارد می شوند
506
00:14:58,160 –> 00:15:00,000
چیزهای مختلف به طور تصادفی
507
00:15:00,000 –> 00:15:02,320
درست است که ما انسان هستیم پس بیایید
508
00:15:02,320 –> 00:15:03,760
اگر وجود دارد از چیزهای انسانی اجتناب کنید
509
00:15:03,760 –> 00:15:04,959
ساختار در اینجا ما از مزیت استفاده خواهیم کرد
510
00:15:04,959 –> 00:15:07,519
ساختار به صورت خودکار
511
00:15:07,519 –> 00:15:10,880
خوب یک بار یک چیز رایج
512
00:15:10,880 –> 00:15:12,320
من در مورد یک شکل خاص صحبت خواهم کرد
513
00:15:12,320 –> 00:15:14,000
خواندن و ثبت در داده هایی که می آید
514
00:15:14,000 –> 00:15:14,959
زیاد بالا
515
00:15:14,959 –> 00:15:16,560
بنابراین من در مورد برخی از ابزارها صحبت خواهم کرد
516
00:15:16,560 –> 00:15:18,320
یکی این است که شما داده هایی دارید که همینطور است
517
00:15:18,320 –> 00:15:20,480
تقسیم در چندین فایل
518
00:15:20,480 –> 00:15:21,760
اوه که ممکن است لازم باشد آنها را پردازش کنید
519
00:15:21,760 –> 00:15:24,079
فایل های جداگانه چگونه می توانید
520
00:15:24,079 –> 00:15:26,399
پیدا کردن و خواندن در چندین فایل و
521
00:15:26,399 –> 00:15:28,079
سپس همه آنها را با هم کامپایل کنید
522
00:15:28,079 –> 00:15:30,079
بنابراین اولین قدم استفاده از grob است
523
00:15:30,079 –> 00:15:32,800
بسته ای که عملکرد چنگ زدن دارد
524
00:15:32,800 –> 00:15:34,800
که بردار بایگانی را تولید می کند
525
00:15:34,800 –> 00:15:36,000
می توانید از grab to استفاده کنید
526
00:15:36,000 –> 00:15:38,480
می گوییم بیایید بگوییم تمام csv یا را جستجو کنید
527
00:15:38,480 –> 00:15:40,240
فایل های اکسل در یک پوشه
528
00:15:40,240 –> 00:15:42,399
بنابراین اگر شما یک پوشه با
529
00:15:42,399 –> 00:15:44,959
شما 300 گزارش فروش از هر یک می دانید
530
00:15:44,959 –> 00:15:45,759
آخرین
531
00:15:45,759 –> 00:15:47,440
شما می دانید با این حال چندین سال از ماه های
532
00:15:47,440 –> 00:15:48,880
داده های فروش
533
00:15:48,880 –> 00:15:50,880
می توانید از grab برای ایجاد لیست استفاده کنید
534
00:15:50,880 –> 00:15:52,639
آن نام فایل ها به طوری که شما می توانید سپس
535
00:15:52,639 –> 00:15:54,000
از یک حلقه for استفاده کنید
536
00:15:54,000 –> 00:15:56,320
همانطور که اگر استفاده کرده باشید، در این کار خواهید کرد
537
00:15:56,320 –> 00:15:57,920
python قبل از اینکه از حلقه های i استفاده کنید
538
00:15:57,920 –> 00:15:59,199
لازم نیست در مورد آنها به شما بگویم
539
00:15:59,199 –> 00:16:01,360
برای خواندن بر روی آن بردار تکرار کنید
540
00:16:01,360 –> 00:16:03,680
کسانی که در یک زمان
541
00:16:03,680 –> 00:16:05,920
اوه شما همچنین می توانید در حلقه for خود را ارسال کنید
542
00:16:05,920 –> 00:16:07,279
هر یک از فایل هایی که در آنها می خوانید
543
00:16:07,279 –> 00:16:09,120
به نوعی تابعی که پردازش می کند
544
00:16:09,120 –> 00:16:11,120
آنها را برای پردازش آسان
545
00:16:11,120 –> 00:16:14,240
هنگامی که لیست فایل های خود را دارید
546
00:16:14,240 –> 00:16:15,120
که در آن خوانده اید
547
00:16:15,120 –> 00:16:17,519
می توانید همه آنها را با یک سیلی بزنید
548
00:16:17,519 –> 00:16:19,759
df.pen
549
00:16:19,759 –> 00:16:21,600
که فقط می گیرد و چه چیزی اضافه می شود
550
00:16:21,600 –> 00:16:23,440
انجام می دهد این است که یک مجموعه داده را می گیرد
551
00:16:23,440 –> 00:16:25,040
و به نوعی آن را روی دیگری قرار می دهد
552
00:16:25,040 –> 00:16:27,120
یکی که تمام ردیف های یکسانی دارد
553
00:16:27,120 –> 00:16:30,000
اوه کاری که انجام می دهد در اینجا یک مثال است
554
00:16:30,000 –> 00:16:31,199
بنابراین همانطور که اشاره کردم شما 200 ماهانه دارید
555
00:16:31,199 –> 00:16:32,880
گزارش های فروش فروش همه در اکسل ذخیره می شوند
556
00:16:32,880 –> 00:16:33,519
فایل ها
557
00:16:33,519 –> 00:16:35,600
اوه شما می خواهید بیرون بکشید فقط شما را بفروشم
558
00:16:35,600 –> 00:16:37,759
از هر کدام دو متغیر می خواهید
559
00:16:37,759 –> 00:16:39,759
گزارش هایی که می خواهید کل فروش را برای آن به دست آورید
560
00:16:39,759 –> 00:16:40,720
آن ماه و شما می خواهید آن را دریافت کنید
561
00:16:40,720 –> 00:16:41,680
کارمند منتخب ماه
562
00:16:41,680 –> 00:16:44,000
که هر کدام در یک سلول قرار دارند
563
00:16:44,000 –> 00:16:45,519
زمان درست همان چیزی است که در مورد آن اشاره کردم
564
00:16:45,519 –> 00:16:48,000
یافتن ساختار در این فایل ها بنابراین اگر i
565
00:16:48,000 –> 00:16:49,360
می خواستم کل فروش و کارمند را بدست بیاورم
566
00:16:49,360 –> 00:16:50,560
در ماه من باید فکر کنم خوب است
567
00:16:50,560 –> 00:16:51,759
چگونه می توانم به کامپیوتر بگویم
568
00:16:51,759 –> 00:16:54,000
برای قرار دادن کل فروش و کارمند
569
00:16:54,000 –> 00:16:56,000
ماه شاید شما خوش شانس باشید و آن یک
570
00:16:56,000 –> 00:16:57,600
قالبی مانند این که در آن همیشه وجود دارد
571
00:16:57,600 –> 00:16:58,720
همان موقعیت سلول
572
00:16:58,720 –> 00:17:00,240
هر بار گفتن یک کامپیوتر آسان است
573
00:17:00,240 –> 00:17:02,160
برای نگاه کردن به یک سلول خاص
574
00:17:02,160 –> 00:17:03,440
شاید آنها در مکان های مختلف هستند
575
00:17:03,440 –> 00:17:04,480
شما باید کمی کاری انجام دهید
576
00:17:04,480 –> 00:17:05,760
گفتن سلام، مشکل تر است
577
00:17:05,760 –> 00:17:07,679
به دنبال کلمات فروش کل بگردید و سپس
578
00:17:07,679 –> 00:17:08,799
یک سلول را نگاه کنید
579
00:17:08,799 –> 00:17:10,240
و سپس به دنبال کلمات staff of بگردید
580
00:17:10,240 –> 00:17:11,520
ماه و سپس یک بار همه جا را نگاه کنید
581
00:17:11,520 –> 00:17:13,119
و سپس امیدوارم هر ماه
582
00:17:13,119 –> 00:17:14,000
همیشه آن را املا می کند
583
00:17:14,000 –> 00:17:17,520
به همین ترتیب درست است، پس چگونه انجام دهیم
584
00:17:17,520 –> 00:17:19,119
این بنابراین ابتدا ما می خواهیم گلوب را وارد کنیم
585
00:17:19,119 –> 00:17:20,400
ما سیستم عامل را وارد می کنیم زیرا نیاز داریم
586
00:17:20,400 –> 00:17:21,199
تعامل با
587
00:17:21,199 –> 00:17:23,679
سیستم عامل برای خواندن در فایل ها ما
588
00:17:23,679 –> 00:17:25,119
لیست ما را ایجاد می کند
589
00:17:25,119 –> 00:17:26,720
مسیرهای فایل نسبی الف
590
00:17:26,720 –> 00:17:28,799
مسیر فایل نسبی یکی است که است
591
00:17:28,799 –> 00:17:30,960
نسبت به دایرکتوری کاری
592
00:17:30,960 –> 00:17:32,720
در حالی که مسیر فایل مطلق یک است
593
00:17:32,720 –> 00:17:34,480
که از پایه فایل شروع می شود
594
00:17:34,480 –> 00:17:36,000
سیستم بنابراین من قطعا اگر شما هستید
595
00:17:36,000 –> 00:17:37,679
در ویندوز به عنوان مثال یک فایل مطلق
596
00:17:37,679 –> 00:17:38,559
مسیر مانند خواهد بود
597
00:17:38,559 –> 00:17:42,880
ج دو نقطه اسلش اسناد اسلش کاربر
598
00:17:42,880 –> 00:17:45,120
در حالی که یک مسیر فایل نسبی اوه شما می دانید
599
00:17:45,120 –> 00:17:46,320
اگر از محل کار می روید
600
00:17:46,320 –> 00:17:47,039
فهرست راهنما
601
00:17:47,039 –> 00:17:49,440
ممکن است فقط بگوید اوه شما می دانید که من در من هستم
602
00:17:49,440 –> 00:17:50,880
پوشه ای از داده ها که در آن کار می کنم
603
00:17:50,880 –> 00:17:51,840
دایرکتوری است
604
00:17:51,840 –> 00:17:53,679
به دنبال پوشه گزارش های ماهانه باشید
605
00:17:53,679 –> 00:17:54,559
درست است و آن را فقط به دنبال
606
00:17:54,559 –> 00:17:56,240
پوشه گزارش های ماهانه در آن کار می کند
607
00:17:56,240 –> 00:17:58,000
فهرست راهنما
608
00:17:58,000 –> 00:18:00,080
دو نقطه در اینجا به معنای حرکت به سمت بالا است
609
00:18:00,080 –> 00:18:01,440
پوشه پس این است
610
00:18:01,440 –> 00:18:02,799
کاری که من انجام میدهم این است که بگوییم من در آن بودم
611
00:18:02,799 –> 00:18:04,960
پوشه کد من و گزارش های ماهانه من
612
00:18:04,960 –> 00:18:05,919
در نوعی بودند
613
00:18:05,919 –> 00:18:08,799
دایرکتوری پروژه مادر بیش از یک در
614
00:18:08,799 –> 00:18:10,320
پوشه گزارش های ماهانه و همین
615
00:18:10,320 –> 00:18:11,120
من دارم نگاه میکنم
616
00:18:11,120 –> 00:18:13,280
و سپس ستاره فروش به معنای نگاه است
617
00:18:13,280 –> 00:18:14,799
برای هر فایلی که دارای کلمه است
618
00:18:14,799 –> 00:18:18,160
فروش در عناوین خود خوب است، بنابراین در حال حاضر ما
619
00:18:18,160 –> 00:18:19,520
مسیرهای فایل جزئی خود را که می خواهیم داشته باشیم
620
00:18:19,520 –> 00:18:21,039
آنها را به مسیرهای فایل مطلق تبدیل کنیم تا ما
621
00:18:21,039 –> 00:18:22,640
می تواند بداند چه چیزی در آن خوانده می شود
622
00:18:22,640 –> 00:18:26,320
اوه برای آن ما فقط می توانیم um را اضافه کنیم
623
00:18:26,320 –> 00:18:29,840
مسیر مطلق از OS
624
00:18:30,160 –> 00:18:32,240
اوه زمانی که ما آن را داشته باشیم، پس می توانیم
625
00:18:32,240 –> 00:18:34,559
آنها را با دقت بخوانید تا بتوانیم از pd.read استفاده کنیم
626
00:18:34,559 –> 00:18:35,200
برتری داشتن
627
00:18:35,200 –> 00:18:36,880
برای خواندن در این برگه های اکسل که ما
628
00:18:36,880 –> 00:18:38,799
ام و سپس
629
00:18:38,799 –> 00:18:41,679
آه هرچی که می تونیم نگاه کنیم باشیم
630
00:18:41,679 –> 00:18:43,360
آن برگه های اکسل که در آنها خوانده ایم
631
00:18:43,360 –> 00:18:44,240
دریافت کنید
632
00:18:44,240 –> 00:18:46,000
سلول هایی که کل فروش و کارمند دارند
633
00:18:46,000 –> 00:18:47,440
ماه و سپس همه آنها را بچسبانید
634
00:18:47,440 –> 00:18:49,039
همراه با df.pen بیایید ببینیم چگونه است
635
00:18:49,039 –> 00:18:49,919
آثار
636
00:18:49,919 –> 00:18:52,640
بنابراین در اینجا یک حلقه for است که ما چنین داریم
637
00:18:52,640 –> 00:18:53,840
من قصد دارم فقط با یک نوع شروع کنم
638
00:18:53,840 –> 00:18:55,360
قاب داده خالی که فقط دارای
639
00:18:55,360 –> 00:18:57,440
نام ستون ها در آن وجود دارد، بنابراین هیچ ردیفی در آن وجود ندارد
640
00:18:57,440 –> 00:18:59,200
آن قاب داده آن را فقط
641
00:18:59,200 –> 00:19:01,280
ستون ها و سپس من می خواهم به حلقه
642
00:19:01,280 –> 00:19:02,799
از طریق لیست فایلی که من ایجاد کردم
643
00:19:02,799 –> 00:19:04,880
با چنگ زدن و سپس به با
644
00:19:04,880 –> 00:19:06,320
مسیر فایل
645
00:19:06,320 –> 00:19:08,000
و سپس من در این حلقه ای هستم که می روم
646
00:19:08,000 –> 00:19:09,600
برای خواندن در فایل اکسل که من هستم
647
00:19:09,600 –> 00:19:10,000
نگاه کردن
648
00:19:10,000 –> 00:19:12,799
در من می خواهم داده های فروش را پیدا کنم
649
00:19:12,799 –> 00:19:13,679
که بر روی
650
00:19:13,679 –> 00:19:16,320
سطر اول ستون سوم را جستجو کنید
651
00:19:16,320 –> 00:19:17,360
کارمند ماه که در
652
00:19:17,360 –> 00:19:19,520
ردیف 42 ستون اول
653
00:19:19,520 –> 00:19:22,080
و سپس من می خواهم با هم اضافه کنم
654
00:19:22,080 –> 00:19:22,880
چیزی که من دارم
655
00:19:22,880 –> 00:19:24,320
من قصد دارم اعدادی را که i
656
00:19:24,320 –> 00:19:25,600
من به تازگی فروش و استخدام کردم
657
00:19:25,600 –> 00:19:27,120
آن را به یک قاب داده تبدیل کنید
658
00:19:27,120 –> 00:19:29,280
به تنهایی و من قصد دارم آن را به آن اضافه کنم
659
00:19:29,280 –> 00:19:31,600
قاب داده df که قبلا ساخته بودم
660
00:19:31,600 –> 00:19:33,919
در اینجا، بنابراین فایل به فایل پیش می رود
661
00:19:33,919 –> 00:19:35,679
هر بار اضافه شدن به
662
00:19:35,679 –> 00:19:37,760
یک ردیف جدید به این مجموعه داده که من دارم
663
00:19:37,760 –> 00:19:38,960
در اینجا این به نوعی جمع آوری است
664
00:19:38,960 –> 00:19:41,520
با ورود آنها نتیجه می گیرد
665
00:19:41,520 –> 00:19:43,120
خوب این پایان رکوردهاست
666
00:19:43,120 –> 00:19:46,000
به بخش داده هر گونه سوال در این مورد
667
00:19:46,000 –> 00:19:51,120
تا الان یک سوال سریع دارم
668
00:19:51,120 –> 00:19:54,080
اوم پس اگر اوه ام فروش
669
00:19:54,080 –> 00:19:55,039
کارمندان
670
00:19:55,039 –> 00:19:57,919
مانند چگونه در یک موقعیت تصادفی هستند
671
00:19:57,919 –> 00:19:59,760
آیا به او می گویید
672
00:19:59,760 –> 00:20:02,960
پانداها برای دستیابی به این اطلاعات
673
00:20:02,960 –> 00:20:05,120
به جای استفاده در چارچوب داده
674
00:20:05,120 –> 00:20:06,640
a-log
675
00:20:06,640 –> 00:20:08,880
بنابراین بله، بنابراین شما باید برخی را پیدا کنید
676
00:20:08,880 –> 00:20:10,559
ساختاری که می توانید آن را با آن مکان یابی کنید
677
00:20:10,559 –> 00:20:11,280
پس بیایید
678
00:20:11,280 –> 00:20:13,360
بیایید یک وانمود کننده بسازیم
679
00:20:13,360 –> 00:20:14,720
ما اینجا یک برگه اکسل داریم
680
00:20:14,720 –> 00:20:17,840
اوم و هر کدام در حال حاضر متفاوت است پس اگر
681
00:20:17,840 –> 00:20:18,960
همه آنها یکسان هستند
682
00:20:18,960 –> 00:20:20,480
درست است که آسان است، اما اگر آنها هستند
683
00:20:20,480 –> 00:20:22,159
متفاوت است، بنابراین شاید داده های ما به نظر برسد
684
00:20:22,159 –> 00:20:23,360
مثل این کل
685
00:20:23,360 –> 00:20:26,960
فروش دو سه و سپس کارمند
686
00:20:26,960 –> 00:20:30,640
از ماه جارد است
687
00:20:30,640 –> 00:20:33,600
بسیار خوب پس اگر این یک ورق باشد و سپس
688
00:20:33,600 –> 00:20:35,200
ورق دیگری آن را مانند اینجا دارد
689
00:20:35,200 –> 00:20:38,400
کل فروش هفت و
690
00:20:38,400 –> 00:20:42,799
کارمند ماه اوه
691
00:20:42,799 –> 00:20:45,600
مریم ام پس ما به آن نگاه کنیم
692
00:20:45,600 –> 00:20:46,880
برگه های مختلف و بگویید خوب چیست
693
00:20:46,880 –> 00:20:48,000
ساختار اینجا چگونه می تواند
694
00:20:48,000 –> 00:20:50,720
من به روشی رویه ای پیدا می کنم که در آن
695
00:20:50,720 –> 00:20:52,480
اطلاعات است
696
00:20:52,480 –> 00:20:54,080
و در این مورد شما می گویید خوب است
697
00:20:54,080 –> 00:20:56,159
متوجه شد که هر جا کارمند از
698
00:20:56,159 –> 00:20:56,640
ماه
699
00:20:56,640 –> 00:20:59,360
آیا فقط در سمت راست کلمات است
700
00:20:59,360 –> 00:21:00,400
کارمند منتخب ماه
701
00:21:00,400 –> 00:21:02,799
یا فروش کل درست در کنار کل است
702
00:21:02,799 –> 00:21:04,320
فروش و این در سراسر من سازگار است
703
00:21:04,320 –> 00:21:05,280
ورق های مختلفی که به دنبال آن هستید
704
00:21:05,280 –> 00:21:06,159
ثبات
705
00:21:06,159 –> 00:21:08,159
جایی که پس از آن می توانید آن را پیدا کنید
706
00:21:08,159 –> 00:21:10,159
سازگاری و سپس می توانید آن را بگویید
707
00:21:10,159 –> 00:21:12,960
چگونه به اوم چگونه در مورد آن در
708
00:21:12,960 –> 00:21:14,480
این مثال
709
00:21:14,480 –> 00:21:17,679
ما در فایل می خوانیم
710
00:21:17,679 –> 00:21:20,880
ما در میان ستون ها جستجو می کنیم
711
00:21:20,880 –> 00:21:22,880
برای مقدار یا ما جستجو می کنیم
712
00:21:22,880 –> 00:21:24,080
همه همه آه
713
00:21:24,080 –> 00:21:25,360
ورودی هایی که برای هر ستون جستجو کردیم و
714
00:21:25,360 –> 00:21:27,440
سپس هر ردیف برای پیدا کردن کلمات
715
00:21:27,440 –> 00:21:30,000
وقتی متوجه شدیم کارمند ماه
716
00:21:30,000 –> 00:21:32,000
ما مکان آن را ذخیره می کنیم
717
00:21:32,000 –> 00:21:34,720
از آن سلول روی یک ستون می رویم
718
00:21:34,720 –> 00:21:36,080
و سپس ما آن را به عنوان خوانده شده در
719
00:21:36,080 –> 00:21:36,720
ارزش
720
00:21:36,720 –> 00:21:38,640
کارمند همان کار با فروش من
721
00:21:38,640 –> 00:21:40,080
از طریق تمام ستون ها و همه
722
00:21:40,080 –> 00:21:41,200
ردیف هایی برای کلمه
723
00:21:41,200 –> 00:21:44,480
کل فروش متوجه می شود که مکان افزایش می یابد
724
00:21:44,480 –> 00:21:46,080
ستون به یک و آن را داشته باشید
725
00:21:46,080 –> 00:21:48,320
حراجی
726
00:21:48,320 –> 00:21:51,200
عالی، از شما متشکرم
727
00:21:52,320 –> 00:21:55,760
هر سوال دیگری بله می خواهید
728
00:21:55,760 –> 00:21:58,080
مانند پردازش زبان طبیعی استفاده کنید
729
00:21:58,080 –> 00:21:58,799
مثل اوه
730
00:21:58,799 –> 00:22:00,799
منظورم این است که من فقط می توانم به چیزهای پایتون فکر کنم
731
00:22:00,799 –> 00:22:02,320
بنابراین مانند یک فضایی
732
00:22:02,320 –> 00:22:05,280
بسته به like موجودیت ها را به عنوان تفسیر کنید
733
00:22:05,280 –> 00:22:07,360
خوب یا بیشتر فقط الگو است
734
00:22:07,360 –> 00:22:08,080
و مانند
735
00:22:08,080 –> 00:22:12,000
تشخیص نوع um
736
00:22:12,000 –> 00:22:13,360
منظورم هر چیزی است که به شما اجازه تشخیص دهد
737
00:22:13,360 –> 00:22:17,200
یک الگو می تواند به درستی کمک کند
738
00:22:17,840 –> 00:22:19,120
بله شما می توانید کاملا طبیعی استفاده کنید
739
00:22:19,120 –> 00:22:21,039
پردازش زبان تا زمانی که اینطور باشد
740
00:22:21,039 –> 00:22:22,080
ساختاری که در آن قرار دارد
741
00:22:22,080 –> 00:22:25,120
درست است و بخشی از آن بستگی به چگونگی آن دارد
742
00:22:25,120 –> 00:22:27,039
مطمئن هستید که می خواهید آن را بیرون بکشید
743
00:22:27,039 –> 00:22:28,799
درست است اگر شما یک
744
00:22:28,799 –> 00:22:30,559
اگر یک میلیون رکورد دارید و شما
745
00:22:30,559 –> 00:22:31,840
فرآیندی داشته باشید که می تواند شما را به دست آورد
746
00:22:31,840 –> 00:22:32,720
عدد درست
747
00:22:32,720 –> 00:22:34,799
سال 97 احتمالاً خوب است
748
00:22:34,799 –> 00:22:36,799
درسته ام
749
00:22:36,799 –> 00:22:38,320
اما اگر می خواهید اگر 100 رکورد دارید
750
00:22:38,320 –> 00:22:39,360
شما می خواهید مطمئن شوید که هر یک
751
00:22:39,360 –> 00:22:40,559
یکی دقیق است
752
00:22:40,559 –> 00:22:41,840
سپس می خواهید مطمئن شوید که اینطور است
753
00:22:41,840 –> 00:22:43,200
چیزی که در آن احتمالی نیست
754
00:22:43,200 –> 00:22:43,919
همه
755
00:22:43,919 –> 00:22:46,880
امم اما چیزهایی مانند عبارات منظم اوه
756
00:22:46,880 –> 00:22:48,400
جستجو در متن
757
00:22:48,400 –> 00:22:50,320
برای الگوها قطعا چیزی برای
758
00:22:50,320 –> 00:22:52,080
این خیلی آره من واقعاً به آن فکر می کردم
759
00:22:52,080 –> 00:22:53,280
عبارات منظم نیز
760
00:22:53,280 –> 00:22:54,720
بله متشکرم و در مورد معمول صحبت خواهیم کرد
761
00:22:54,720 –> 00:22:57,600
عبارات کمی بعد
762
00:22:58,880 –> 00:23:01,600
سوال دیگه ای هست
763
00:23:06,000 –> 00:23:08,320
بسیار خوب، بنابراین ما داده هایمان را که خوانده ایم داریم
764
00:23:08,320 –> 00:23:10,240
در برگه های اکسل ما یا هر چیزی که هست
765
00:23:10,240 –> 00:23:12,960
و ما می خواهیم ابتدا این داده ها را مرتب کنیم
766
00:23:12,960 –> 00:23:13,760
از همه آنچه هست
767
00:23:13,760 –> 00:23:16,559
دادههای مرتب، بنابراین دادهها قبل از مرتب کردن شروع میشوند
768
00:23:16,559 –> 00:23:16,960
داده ها
769
00:23:16,960 –> 00:23:18,559
داده ها در هر زمانی است که سوابق خود را در آن دارید
770
00:23:18,559 –> 00:23:20,159
نوعی فرمت ساختار یافته درست است
771
00:23:20,159 –> 00:23:22,240
نوعی فرمت ساختار یافته
772
00:23:22,240 –> 00:23:23,600
امم طوری که بعد بتوانید الف را بگویید
773
00:23:23,600 –> 00:23:25,520
کامپیوتر چگونه از طریق آن نگاه کنید با این حال
774
00:23:25,520 –> 00:23:27,679
ساختارهای زیادی از این دست وجود دارد
775
00:23:27,679 –> 00:23:29,200
اوه می تواند یک دسته متفاوت وجود داشته باشد
776
00:23:29,200 –> 00:23:30,960
جداول می تواند یک صفحه گسترده باشد
777
00:23:30,960 –> 00:23:32,400
که در آن متغیرها به نوعی در
778
00:23:32,400 –> 00:23:33,679
نقاط تصادفی
779
00:23:33,679 –> 00:23:36,320
اوه می تواند یک جدول در هر مشاهده باشد
780
00:23:36,320 –> 00:23:36,880
ام
781
00:23:36,880 –> 00:23:38,480
و به خصوص بسیاری از این ساختارها
782
00:23:38,480 –> 00:23:39,919
در دنیای تجارت طراحی شده اند
783
00:23:39,919 –> 00:23:42,559
تا جستجوی درست ارزش ها آسان شود
784
00:23:42,559 –> 00:23:44,400
اگر می خواهید بگویید
785
00:23:44,400 –> 00:23:47,279
بدانید درآمد ناخالص تعدیل شده شما چقدر بوده است
786
00:23:47,279 –> 00:23:47,760
که در
787
00:23:47,760 –> 00:23:50,640
2012 شما فایل 2012 را جستجو می کنید
788
00:23:50,640 –> 00:23:52,799
به ردیف درآمد تعدیل شده پایین می آید
789
00:23:52,799 –> 00:23:54,400
و شماره خود را درست پیدا می کنید
790
00:23:54,400 –> 00:23:56,240
این یک راه بسیار آسان برای جستجوی یک است
791
00:23:56,240 –> 00:23:57,440
ارزش خاص
792
00:23:57,440 –> 00:24:00,080
خوب با این حال این داده خوبی نیست
793
00:24:00,080 –> 00:24:02,159
ساختاری برای انجام درست تحلیل
794
00:24:02,159 –> 00:24:04,400
اگه میخوای بدونی خوب من چیه
795
00:24:04,400 –> 00:24:05,679
میانگین من چند است
796
00:24:05,679 –> 00:24:07,919
متوسط درآمد ناخالص تعدیل شده به پایان رسیده است
797
00:24:07,919 –> 00:24:09,200
20 سال گذشته
798
00:24:09,200 –> 00:24:10,480
خوب برای پاسخ به این سوال شما باید
799
00:24:10,480 –> 00:24:12,159
هر فایلی را که باید بارگذاری کنید مرور کنید
800
00:24:12,159 –> 00:24:13,840
در هر فایلی که باید آن ردیف را پیدا کنید
801
00:24:13,840 –> 00:24:15,120
هر فایل باید شماره آن را جستجو کنید
802
00:24:15,120 –> 00:24:16,240
در هر فایل و سپس باید قرار دهید
803
00:24:16,240 –> 00:24:17,120
همه آنها با هم درست است
804
00:24:17,120 –> 00:24:18,960
این یک فرآیند بسیار عالی برای آن نیست
805
00:24:18,960 –> 00:24:21,039
انجام هر نوع تحلیل
806
00:24:21,039 –> 00:24:24,000
حتی تجزیه و تحلیل نماد واقعا ساده است
807
00:24:24,000 –> 00:24:24,960
کاری که قرار است انجام دهیم این است که ما هستیم
808
00:24:24,960 –> 00:24:26,400
قصد داریم داده های خود را در آن قرار دهیم
809
00:24:26,400 –> 00:24:28,080
ما در برخی از ساختار
810
00:24:28,080 –> 00:24:29,600
به یک ساختار خاص که است
811
00:24:29,600 –> 00:24:32,080
داده های مرتب نامیده می شود که برای آن بسیار مفید است
812
00:24:32,080 –> 00:24:32,799
انجام بیشتر
813
00:24:32,799 –> 00:24:34,880
انواع تحلیل وجود دارد
814
00:24:34,880 –> 00:24:36,159
اشکال تجزیه و تحلیل که
815
00:24:36,159 –> 00:24:37,520
احتمالاً نمی خواهید از مرتب استفاده کنید
816
00:24:37,520 –> 00:24:39,200
داده اما
817
00:24:39,200 –> 00:24:40,880
در بیشتر موارد شما می خواهید
818
00:24:40,880 –> 00:24:42,320
چیزی مثل این
819
00:24:42,320 –> 00:24:43,679
همچنین یک راهپیمایی اضافی وجود دارد
820
00:24:43,679 –> 00:24:46,240
برای چیزهای بیشتر اینجا لینک شده است
821
00:24:46,240 –> 00:24:48,799
بنابراین داده های مرتب در داده های مرتب چیست
822
00:24:48,799 –> 00:24:50,720
متغیر یک ستون را تشکیل می دهد
823
00:24:50,720 –> 00:24:53,600
هر مشاهده یک ردیف و
824
00:24:53,600 –> 00:24:54,000
سوم
825
00:24:54,000 –> 00:24:55,919
و اختیاری تر از اینها این است که هر کدام
826
00:24:55,919 –> 00:24:58,400
نوع واحد مشاهده ای یک جدول را تشکیل می دهد
827
00:24:58,400 –> 00:24:59,520
و من در مورد چه مشاهده ای صحبت خواهم کرد
828
00:24:59,520 –> 00:25:01,440
واحد در یک ثانیه است
829
00:25:01,440 –> 00:25:03,760
پس ما اینجا چه داریم
830
00:25:03,760 –> 00:25:05,360
هر کشور و تجارت و تعادل آنها
831
00:25:05,360 –> 00:25:06,559
و جمعیت آنها
832
00:25:06,559 –> 00:25:09,120
هر متغیر اوه چیزی که متفاوت است
833
00:25:09,120 –> 00:25:10,559
در سراسر اندازه گیری های مختلف است
834
00:25:10,559 –> 00:25:11,520
ستون مختلف
835
00:25:11,520 –> 00:25:12,960
درست است که من تجارت را اندازه گرفته ام
836
00:25:12,960 –> 00:25:14,799
عدم تعادل برای هر کشور و بنابراین همه
837
00:25:14,799 –> 00:25:16,880
ارزش های عدم تعادل تجاری در الف
838
00:25:16,880 –> 00:25:17,600
تنها
839
00:25:17,600 –> 00:25:20,480
ستون uh هر سطر یک مشاهده است
840
00:25:20,480 –> 00:25:22,240
هر اندازه گیری متفاوتی که من دارم
841
00:25:22,240 –> 00:25:23,279
گرفته شده
842
00:25:23,279 –> 00:25:25,679
یک ردیف است و بنابراین آرژانتین یک
843
00:25:25,679 –> 00:25:27,039
کشور من همه را اندازه گیری کرده ام
844
00:25:27,039 –> 00:25:29,200
چیزهای مختلف برای آرژانتین بنابراین من دارم
845
00:25:29,200 –> 00:25:30,720
تجارت و تعادل و جمعیت برای
846
00:25:30,720 –> 00:25:32,480
آرژانتین همه یکسان است
847
00:25:32,480 –> 00:25:35,679
سطر آن همه یک ردیف درست در آنجا هر کدام است
848
00:25:35,679 –> 00:25:37,520
واحد مشاهده یک جدول را تشکیل می دهد
849
00:25:37,520 –> 00:25:41,200
به این معنی که شما یک میز واحد دارید
850
00:25:41,200 –> 00:25:42,159
هر ارزشی که باشد
851
00:25:42,159 –> 00:25:43,520
هر سطحی که باشد چیزی
852
00:25:43,520 –> 00:25:44,640
اندازه گیری شده در شما یک میز دارید
853
00:25:44,640 –> 00:25:46,559
به طور خاص برای آن سطح
854
00:25:46,559 –> 00:25:49,600
اوه و من اجازه می دهم آن را در یک ثانیه دریافت کنم
855
00:25:49,600 –> 00:25:51,760
اوم پس اوه این کمی باعث می شود
856
00:25:51,760 –> 00:25:53,600
روشن تر متغیرها در داده های فشرده می آیند
857
00:25:53,600 –> 00:25:55,120
در دو نوع مختلف یکی را می نامند
858
00:25:55,120 –> 00:25:56,480
شناسایی متغیرها یا
859
00:25:56,480 –> 00:25:58,320
کلید اینها ستونهایی هستند که شما
860
00:25:58,320 –> 00:26:00,080
برای جستجوی یک مورد خاص استفاده می شود
861
00:26:00,080 –> 00:26:02,159
مشاهده درست است، بنابراین قبلاً ذکر کردم
862
00:26:02,159 –> 00:26:03,440
من می خواهم درآمد ناخالص تعدیل شده خود را بدانم
863
00:26:03,440 –> 00:26:06,000
در سال 2012 من فایل 2012 را جستجو کردم
864
00:26:06,000 –> 00:26:07,279
و سپس من به سمت تنظیم شده می روم
865
00:26:07,279 –> 00:26:08,320
درآمد ناخالص
866
00:26:08,320 –> 00:26:11,360
ردیف خوب پس در این مورد من چیست
867
00:26:11,360 –> 00:26:12,640
اندازه گیری ها و من چیست
868
00:26:12,640 –> 00:26:14,240
متغیرها خوب متغیرهای من هستند
869
00:26:14,240 –> 00:26:15,360
تمام متغیرهای مختلف که می تواند
870
00:26:15,360 –> 00:26:16,880
در فرم مالیات باشد
871
00:26:16,880 –> 00:26:18,080
که یکی از آنها فقط ناخالص خواهد بود
872
00:26:18,080 –> 00:26:19,919
درآمد و بنابراین من یک ستون از
873
00:26:19,919 –> 00:26:21,760
درآمد ناخالص تعدیل شده
874
00:26:21,760 –> 00:26:24,080
کلید من چیزی است که من از آن استفاده می کنم
875
00:26:24,080 –> 00:26:25,520
آن مقدار را جستجو کنید
876
00:26:25,520 –> 00:26:27,760
سالی است که مالیات در آن سال است
877
00:26:27,760 –> 00:26:28,559
من نگاه میکنم
878
00:26:28,559 –> 00:26:30,480
درست در آن زمان آن سال خواهد بود پس من هستم
879
00:26:30,480 –> 00:26:33,279
به دنبال مالیات های سال 2012 خود هستم
880
00:26:33,279 –> 00:26:35,279
و بنابراین متغیر یا کلید شناسایی
881
00:26:35,279 –> 00:26:36,640
2012 خواهد بود
882
00:26:36,640 –> 00:26:38,240
اگر بخواهم ناخالص تعدیل شده خود را جستجو کنم
883
00:26:38,240 –> 00:26:40,240
درآمد من می گویم خوب به من نگاه کنید
884
00:26:40,240 –> 00:26:42,799
ستون 2012 نقش شناسایی من است
885
00:26:42,799 –> 00:26:43,679
یک بار پیدا کردم
886
00:26:43,679 –> 00:26:46,799
2012 من می خواهم سپس به آن نگاه کنم
887
00:26:46,799 –> 00:26:48,159
ستونی که دارای ناخالص تنظیم شده است
888
00:26:48,159 –> 00:26:49,200
درآمد و این به من خواهد رسید
889
00:26:49,200 –> 00:26:50,880
تعدیل درآمد ناخالص در آن به درستی
890
00:26:50,880 –> 00:26:52,559
بنابراین من از متغیرهای شناسایی استفاده می کنم
891
00:26:52,559 –> 00:26:55,279
داده ها و سپس مقادیر واقعی را جستجو کنید
892
00:26:55,279 –> 00:26:56,799
و اقدامات در اینجا در دیگری است
893
00:26:56,799 –> 00:26:57,760
انواع متغیرها را داریم
894
00:26:57,760 –> 00:26:59,200
شناسایی متغیرها و کلیدهایی که شما
895
00:26:59,200 –> 00:27:00,799
ممکن است برای جستجوی یک ردیف استفاده شود
896
00:27:00,799 –> 00:27:02,880
هنگامی که آن ردیف اندازه گیری ها را پیدا کردید
897
00:27:02,880 –> 00:27:04,960
و مقادیر روی آن ردیف به شما خواهد گفت
898
00:27:04,960 –> 00:27:07,200
آنچه شما به دنبال آن هستید در اینجا تعدادی است
899
00:27:07,200 –> 00:27:08,320
داده های نمونه
900
00:27:08,320 –> 00:27:10,159
بنابراین در اینجا ما دو نفر متفاوت داریم
901
00:27:10,159 –> 00:27:11,440
دو سال مختلف و تعداد
902
00:27:11,440 –> 00:27:12,559
امتیازهایی که آنها مقدار آن را به دست آورده اند
903
00:27:12,559 –> 00:27:14,400
میگوهایی که خورده اند
904
00:27:14,400 –> 00:27:16,559
بنابراین در اینجا متغیرهای شناسایی ما هستند
905
00:27:16,559 –> 00:27:18,159
و کلیدها شخص و سال خواهند بود اگر من
906
00:27:18,159 –> 00:27:20,000
می خواستم بدانم النور چقدر میگو است
907
00:27:20,000 –> 00:27:20,480
خورده بود
908
00:27:20,480 –> 00:27:23,600
در سال 2017 من شخص و سال را جستجو می کنم
909
00:27:23,600 –> 00:27:24,720
درست است بنابراین من می خواهم به پایین نگاه کنم
910
00:27:24,720 –> 00:27:27,279
من و النور می خواهیم به سال 2017 نگاه کنیم.
911
00:27:27,279 –> 00:27:28,480
اینها هویت من هستند
912
00:27:28,480 –> 00:27:30,320
متغیرهایی که اکنون ردیف را پیدا کرده ام
913
00:27:30,320 –> 00:27:32,320
که الان که پیدا کردم دنبالش می گردم
914
00:27:32,320 –> 00:27:34,399
در این ردیف می توانم مقادیر را در آن جستجو کنم
915
00:27:34,399 –> 00:27:35,440
مخصوصا میخوام بدونم چقدر
916
00:27:35,440 –> 00:27:38,640
میگوی او خورد که 238 بود
917
00:27:38,640 –> 00:27:41,679
و این ایده اصلی در اینجا است
918
00:27:41,679 –> 00:27:42,240
راه
919
00:27:42,240 –> 00:27:45,039
وجود ندارد فقط یک ردیف در هر وجود دارد
920
00:27:45,039 –> 00:27:47,520
ترکیبی از متغیرهای شناسایی
921
00:27:47,520 –> 00:27:48,960
و بیشتر اوقات این همان چیزی است که شما
922
00:27:48,960 –> 00:27:50,559
می خواهم داشته باشم پس برای مثال وجود ندارد
923
00:27:50,559 –> 00:27:51,200
یک لحظه
924
00:27:51,200 –> 00:27:54,399
ردیف که آن هم eleanor 2017 است
925
00:27:54,399 –> 00:27:55,760
درست فقط یک ردیف برای النور وجود دارد
926
00:27:55,760 –> 00:27:57,600
در سال 2017 اوه
927
00:27:57,600 –> 00:27:59,440
و اگر نگاه کنم آیا به شما یک مورد خاص می دهم
928
00:27:59,440 –> 00:28:01,360
ترکیبی از
929
00:28:01,360 –> 00:28:03,440
نام افراد و سالهایی که باید بیایید
930
00:28:03,440 –> 00:28:05,360
تنها با یک ردیف برای نگاه کردن به عقب
931
00:28:05,360 –> 00:28:07,200
درست است که ما به طور منحصر به فرد آن را شناسایی کرده ایم
932
00:28:07,200 –> 00:28:09,279
داده های مبتنی بر آن
933
00:28:09,279 –> 00:28:11,440
و منظور من از هرکدام همین است
934
00:28:11,440 –> 00:28:12,640
برای هر کدام یک جدول متفاوت وجود دارد
935
00:28:12,640 –> 00:28:13,679
سطح مشاهده
936
00:28:13,679 –> 00:28:15,760
در اینجا ما داده هایی داریم که متفاوت است
937
00:28:15,760 –> 00:28:17,600
هم توسط شخص و هم توسط سال
938
00:28:17,600 –> 00:28:19,679
درست است که یک فرد می تواند یک غذای متفاوت بخورد
939
00:28:19,679 –> 00:28:21,200
افراد مختلف در یک سال متفاوت می توانند
940
00:28:21,200 –> 00:28:22,559
مقدار متفاوتی میگو بخورید
941
00:28:22,559 –> 00:28:24,399
خوب پس من مصرف میگو را روی آن اندازه گیری می کنم
942
00:28:24,399 –> 00:28:26,240
سطح سال فرد
943
00:28:26,240 –> 00:28:28,399
با این حال برخی از چیزها فقط در افراد مختلف متفاوت است
944
00:28:28,399 –> 00:28:30,080
به عنوان مثال محل تولد محل تولد شما
945
00:28:30,080 –> 00:28:30,880
نیست
946
00:28:30,880 –> 00:28:33,600
هر سالی که باشد تغییر دهید پس اینجا یک است
947
00:28:33,600 –> 00:28:35,279
یک میز مرتب اینجا میز
948
00:28:35,279 –> 00:28:37,039
که دارای داده های فرد و سال است
949
00:28:37,039 –> 00:28:39,039
کلیدها شخص و سال هستند و می توانم نگاه کنم
950
00:28:39,039 –> 00:28:40,960
اطلاعات سال فرد
951
00:28:40,960 –> 00:28:42,559
من ممکن است یک جدول جداگانه داشته باشم
952
00:28:42,559 –> 00:28:44,720
فقط یک نفر درست است که فقط یک نفر را داشته باشد
953
00:28:44,720 –> 00:28:45,679
ردیف به ازای هر نفر
954
00:28:45,679 –> 00:28:47,120
من آن شخص را با نگاه کردن جستجو می کنم
955
00:28:47,120 –> 00:28:48,960
برای ردیفی که آن شخص در آن است
956
00:28:48,960 –> 00:28:50,159
و پس از آن چیزهایی مانند آنها خواهد داشت
957
00:28:50,159 –> 00:28:52,000
زادگاه
958
00:28:52,000 –> 00:28:53,679
این یک مشاهده متفاوت خواهد بود
959
00:28:53,679 –> 00:28:56,000
مرحله
960
00:28:56,320 –> 00:28:58,000
بنابراین شخص شما متغیرها را شناسایی می کنید
961
00:28:58,000 –> 00:28:59,600
اینجا اوه ترکیبی از افراد در اینجا
962
00:28:59,600 –> 00:29:01,039
به طور منحصر به فرد یک ردیف را شناسایی می کند
963
00:29:01,039 –> 00:29:02,720
سطح مشاهده ما اساسا است
964
00:29:02,720 –> 00:29:04,399
مجموعه ای از متغیرهای شناسایی که
965
00:29:04,399 –> 00:29:05,679
شناسه ی منحصر به فرد
966
00:29:05,679 –> 00:29:07,440
یک ردیف تنها یک ردیف با آن وجود دارد
967
00:29:07,440 –> 00:29:10,080
ترکیب خاص
968
00:29:10,080 –> 00:29:14,240
اوم بله هر سوالی در مورد چی مرتبه
969
00:29:14,240 –> 00:29:26,240
داده است
970
00:29:26,240 –> 00:29:29,760
بسیار خوب، بنابراین ما می دانیم چه داده های مرتبی است
971
00:29:29,760 –> 00:29:30,159
است
972
00:29:30,159 –> 00:29:31,919
چگونه می توانیم این کار را انجام دهیم چگونه می توانیم داده های خود را بدست آوریم
973
00:29:31,919 –> 00:29:34,159
به یک قالب مرتب آه بنابراین اولین
974
00:29:34,159 –> 00:29:35,360
تمام آنچه ما نیاز داریم به این فکر کنیم که چه فرمت هایی
975
00:29:35,360 –> 00:29:37,440
ممکن است قبل از اینکه بخواهیم آن را مرتب کنیم وارد شود
976
00:29:37,440 –> 00:29:39,120
در اینجا یک مثال رایج وجود دارد که به آن a می گویند
977
00:29:39,120 –> 00:29:41,440
جدول شمارش آه اینجا چه خبر است
978
00:29:41,440 –> 00:29:41,679
آی تی
979
00:29:41,679 –> 00:29:43,120
مقداری داده دارد و تعداد زیادی داده دارد
980
00:29:43,120 –> 00:29:44,320
مذاهب مختلف و یک دسته است
981
00:29:44,320 –> 00:29:45,200
از درآمدهای مختلف
982
00:29:45,200 –> 00:29:47,679
bins و در هر سلول ما تعداد را داریم
983
00:29:47,679 –> 00:29:49,279
از چند نفر در این
984
00:29:49,279 –> 00:29:51,440
جدول بندی خاص بنابراین
985
00:29:51,440 –> 00:29:53,919
در این داده ها 1116 کاتولیک وجود دارد
986
00:29:53,919 –> 00:29:55,600
که بین 50 تا 75 هزار درآمد دارند
987
00:29:55,600 –> 00:29:56,240
دلار
988
00:29:56,240 –> 00:29:58,880
یک سال است که ما می دانیم که این گره خورده نیست
989
00:29:58,880 –> 00:30:00,480
در داده ها این عنوان در اینجا نیست
990
00:30:00,480 –> 00:30:01,840
در اینجا می توانم به شما بگویم که گره خورده نیست
991
00:30:01,840 –> 00:30:04,159
به داده ها خوب اگر می خواستم جستجو کنم
992
00:30:04,159 –> 00:30:06,000
یک چیز خاص که ممکن است بگویم خوب است
993
00:30:06,000 –> 00:30:08,000
من می خواهم بدانم چند نفر اوه اوه
994
00:30:08,000 –> 00:30:09,840
چند بودایی صدتا درآمد دارند
995
00:30:09,840 –> 00:30:11,279
هزار دلار یا بیشتر
996
00:30:11,279 –> 00:30:13,120
خوب، چگونه می توانم آن را جستجو کنم
997
00:30:13,120 –> 00:30:14,720
اطلاعات من می گویم خوب است
998
00:30:14,720 –> 00:30:16,720
اوه من می خواهم به دنبال بودایی باشم خوب
999
00:30:16,720 –> 00:30:18,159
بنابراین میخواهم دین را بررسی کنم
1000
00:30:18,159 –> 00:30:18,960
اینجا دین است
1001
00:30:18,960 –> 00:30:20,480
جالب است و سپس می خواهم آن را جستجو کنم
1002
00:30:20,480 –> 00:30:22,080
سطل درآمد، بنابراین من می خواهم به دنبال خود بگردم
1003
00:30:22,080 –> 00:30:23,840
ستون درآمد که دارای همه متفاوت است
1004
00:30:23,840 –> 00:30:25,919
سطل ها در آن اما اوه نه این یک ستون نیست
1005
00:30:25,919 –> 00:30:27,520
روی دسته ای از ستون ها پخش شده است
1006
00:30:27,520 –> 00:30:30,960
درست است بنابراین من یک ستون برای هر ستون ندارم
1007
00:30:30,960 –> 00:30:32,720
متغیر
1008
00:30:32,720 –> 00:30:34,720
من در عوض یک متغیر دارم که تقسیم شده است
1009
00:30:34,720 –> 00:30:36,799
در میان دسته ای از ستون ها
1010
00:30:36,799 –> 00:30:38,640
و سپس من نیز یک ردیف در هر
1011
00:30:38,640 –> 00:30:40,320
مشاهده چون من به نوعی
1012
00:30:40,320 –> 00:30:41,919
تمام مشاهدات را با هم له کرد
1013
00:30:41,919 –> 00:30:42,880
که در این خاص هستند
1014
00:30:42,880 –> 00:30:43,679
ترکیبات
1015
00:30:43,679 –> 00:30:47,200
درست است، بنابراین ما داده های غیر مرتبی در اینجا داریم
1016
00:30:47,200 –> 00:30:49,360
در اینجا یک مثال دیگر وجود دارد
1017
00:30:49,360 –> 00:30:51,600
داده های برخی از نمودارهای بیلبورد
1018
00:30:51,600 –> 00:30:53,039
به موقعیت نمودار نگاه می کنیم
1019
00:30:53,039 –> 00:30:55,679
آهنگ های مختلف آه پس ما چه داریم
1020
00:30:55,679 –> 00:30:58,000
ما برخی از متغیرهای شناسایی را داریم
1021
00:30:58,000 –> 00:30:58,960
آه هنرمند
1022
00:30:58,960 –> 00:31:00,559
اگر بخواهم آهنگ و تاریخ را وارد کنم
1023
00:31:00,559 –> 00:31:02,240
به بالا نگاه کن ممکن است حدس بزنم که ممکن است
1024
00:31:02,240 –> 00:31:03,840
شاید به جای آن، این را به عنوان یک مقدار در نظر بگیرید
1025
00:31:03,840 –> 00:31:05,360
یک متغیر شناسایی
1026
00:31:05,360 –> 00:31:07,200
اما اگر بخواهم نمودار را جستجو کنم
1027
00:31:07,200 –> 00:31:08,880
موقعیت های آهنگ کریپتونیت i may
1028
00:31:08,880 –> 00:31:10,159
بگو خوب اینجا هنرمند سه دری است
1029
00:31:10,159 –> 00:31:11,039
این پایین مسیر است
1030
00:31:11,039 –> 00:31:13,120
کریپتونیت اوه اما ممکن است بخواهم
1031
00:31:13,120 –> 00:31:14,880
نگاه کن خوب چه موقعیتی داشت
1032
00:31:14,880 –> 00:31:16,399
در هفته اول آن در نمودار یا
1033
00:31:16,399 –> 00:31:18,080
دوم یا سوم یا بلا بله بله
1034
00:31:18,080 –> 00:31:21,120
درست است اما به جای ضعیف آه در
1035
00:31:21,120 –> 00:31:22,720
نمودارها متغیر خودش هستند
1036
00:31:22,720 –> 00:31:24,399
آن را دوباره در چندین پخش شده است
1037
00:31:24,399 –> 00:31:26,320
متغیرها خوبه
1038
00:31:26,320 –> 00:31:29,600
این یک جدول شمارش نیست، فقط یک جدول است
1039
00:31:29,600 –> 00:31:31,840
جدولی که به آن فرمت عریض می گویند
1040
00:31:31,840 –> 00:31:33,120
همان مقدار
1041
00:31:33,120 –> 00:31:35,120
در سراسر ستون برای چند تکرار می شود
1042
00:31:35,120 –> 00:31:36,399
مشاهدات در مقابل
1043
00:31:36,399 –> 00:31:38,799
در ردیفها تکرار میشود، بنابراین در اینجا یک داریم
1044
00:31:38,799 –> 00:31:41,519
مشاهده مکرر موقعیت نمودار
1045
00:31:41,519 –> 00:31:43,120
اما به جای داشتن یک ردیف برای هفته
1046
00:31:43,120 –> 00:31:44,720
یک ردیف دوم برای هفته دوم و سوم
1047
00:31:44,720 –> 00:31:46,000
ردیف برای یک هفته سه ردیف چهارم برای
1048
00:31:46,000 –> 00:31:47,279
هفته چهارم چه نامیده می شود
1049
00:31:47,279 –> 00:31:49,360
داده های طولانی در جایی که داریم داده های گسترده ای داریم
1050
00:31:49,360 –> 00:31:50,720
یک ستون برای هفته اول در ستون برای
1051
00:31:50,720 –> 00:31:52,080
هفته دو یک ستون برای هفته سوم
1052
00:31:52,080 –> 00:31:54,000
و غیره این فرمت خاص
1053
00:31:54,000 –> 00:31:55,200
داده بسیار رایج است
1054
00:31:55,200 –> 00:31:57,039
در حسابداری نیز نسبتاً خوب است
1055
00:31:57,039 –> 00:31:58,399
رایج در امور مالی
1056
00:31:58,399 –> 00:32:00,720
اوه فقط برای برنامه های آنها
1057
00:32:00,720 –> 00:32:01,600
ولی
1058
00:32:01,600 –> 00:32:03,519
اغلب انجام انواع مختلفی از آن آسان تر است
1059
00:32:03,519 –> 00:32:04,640
تجزیه و تحلیل اگر شما
1060
00:32:04,640 –> 00:32:05,919
اگر دارید آن را به این شکل نداشته باشید
1061
00:32:05,919 –> 00:32:09,440
در قالب بلند مرتب
1062
00:32:09,760 –> 00:32:11,279
پس چگونه این نوع داده ها را دریافت کنیم
1063
00:32:11,279 –> 00:32:13,360
تنظیم کرده و آنها را به داده های مرتب تبدیل می کند
1064
00:32:13,360 –> 00:32:14,559
تعدادی ابزار برای انجام وجود دارد
1065
00:32:14,559 –> 00:32:16,480
این و خوشبختانه انعطاف پذیر هستند
1066
00:32:16,480 –> 00:32:17,840
زیرا فرمت های مختلفی وجود دارد
1067
00:32:17,840 –> 00:32:19,760
که داده های غیر مرتب وارد می شوند
1068
00:32:19,760 –> 00:32:20,880
اما اولین ابزار بزرگی است که می خواهیم
1069
00:32:20,880 –> 00:32:22,960
نگاه کنید محور است پس چه محوری
1070
00:32:22,960 –> 00:32:23,440
میکند
1071
00:32:23,440 –> 00:32:25,360
آیا یک ردیف با تعداد زیادی طول می کشد
1072
00:32:25,360 –> 00:32:28,159
ستون هایی که آشنا به نظر می رسد
1073
00:32:28,159 –> 00:32:30,080
آن را به یک Uh واحد به بسیاری تبدیل می کند
1074
00:32:30,080 –> 00:32:32,320
سطرهای زیادی با یک ستون سمت راست
1075
00:32:32,320 –> 00:32:33,519
نوعی ایده است
1076
00:32:33,519 –> 00:32:35,519
ما میخواهیم این را درست در اینجا
1077
00:32:35,519 –> 00:32:37,279
آن ردیف مشاهدات و فقط مرتب کردن
1078
00:32:37,279 –> 00:32:38,399
از
1079
00:32:38,399 –> 00:32:41,440
آن را به سمت راست بچرخانیم، کاری است که ما انجام خواهیم داد و
1080
00:32:41,440 –> 00:32:42,559
ما قصد داریم از این شناسایی استفاده کنیم
1081
00:32:42,559 –> 00:32:43,679
متغیرهایی برای پیگیری
1082
00:32:43,679 –> 00:32:44,960
چیزهایی بنابراین وقتی آن را می چرخانیم ما به آن می رویم
1083
00:32:44,960 –> 00:32:45,919
در نهایت با
1084
00:32:45,919 –> 00:32:48,240
اوه یک دو سه چهار پنج شش هفت ما
1085
00:32:48,240 –> 00:32:50,240
دارای هفت ردیف است که توپاک توپاک دو است
1086
00:32:50,240 –> 00:32:51,440
قسمت دوم قابلمه دو قابلمه
1087
00:32:51,440 –> 00:32:54,480
مردم دو هزار و دو گریه نمی کنند
1088
00:32:54,480 –> 00:32:55,440
هزار هزار دلار
1089
00:32:55,440 –> 00:32:57,440
راست و بعد هشتاد و هفت هشتاد و دو
1090
00:32:57,440 –> 00:32:58,640
هفتاد و دو هفتاد و هفت
1091
00:32:58,640 –> 00:32:59,760
هشتاد و هفت درست است
1092
00:32:59,760 –> 00:33:02,080
اساساً اوه ما همه چیز را ردیف می کنیم
1093
00:33:02,080 –> 00:33:03,600
توسط کسانی که متغیرها را شناسایی می کنند
1094
00:33:03,600 –> 00:33:04,799
و سپس ما مقادیر را می گیریم
1095
00:33:04,799 –> 00:33:06,640
که در چندین ستون پخش شده اند
1096
00:33:06,640 –> 00:33:09,919
آنها را به یک ستون تبدیل کنید پس این است
1097
00:33:09,919 –> 00:33:11,600
رفتن از داده های گسترده به طولانی نامیده می شود
1098
00:33:11,600 –> 00:33:13,120
همچنین طولانی به عریض است که ما آن را خواهیم داشت
1099
00:33:13,120 –> 00:33:14,000
صحبت در مورد
1100
00:33:14,000 –> 00:33:16,159
در یک بیت من به شما هشدار می دهم که در زیبا
1101
00:33:16,159 –> 00:33:17,919
بیشتر هر بسته آماری محوری است
1102
00:33:17,919 –> 00:33:19,840
استفاده از توابع بسیار دشوار است
1103
00:33:19,840 –> 00:33:21,200
به دلایلی من نمی دانم چرا هیچ کس نیست
1104
00:33:21,200 –> 00:33:22,559
یک رابط عالی برای
1105
00:33:22,559 –> 00:33:24,399
هنوز با آنها کار می کند
1106
00:33:24,399 –> 00:33:27,120
اما انجام یک پیوت که بسیار آسان است
1107
00:33:27,120 –> 00:33:29,120
آنطور که شما در نظر داشتید کار نمی کند
1108
00:33:29,120 –> 00:33:30,559
همیشه حتما فایل راهنما را بخوانید و
1109
00:33:30,559 –> 00:33:32,399
دو برابر فوق العاده مطمئن باشید
1110
00:33:32,399 –> 00:33:33,919
برای مشاهده داده های خود پس از انجام یک
1111
00:33:33,919 –> 00:33:35,679
چرخش کنید تا مطمئن شوید که واقعاً انجام شده است
1112
00:33:35,679 –> 00:33:37,919
چه فکر می کنید که اگر آن را انجام دهد
1113
00:33:37,919 –> 00:33:39,279
بار اول کار نمی کند
1114
00:33:39,279 –> 00:33:40,720
کمی آزمون و خطا انجام دهید سعی کنید کمانچه بازی کنید
1115
00:33:40,720 –> 00:33:42,399
اطراف با چیزها
1116
00:33:42,399 –> 00:33:44,159
خوب پس بدانیم که می خواهیم
1117
00:33:44,159 –> 00:33:45,760
برای طولانی کردن این داده ها، اجازه دهید ما را بررسی کنیم
1118
00:33:45,760 –> 00:33:46,960
مراحلی که در مورد آنها صحبت کردیم
1119
00:33:46,960 –> 00:33:48,399
ما مستقیماً به داده ها نگاه کردیم
1120
00:33:48,399 –> 00:33:50,159
خوب بود ما به این فکر کردیم که چگونه هستیم
1121
00:33:50,159 –> 00:33:51,760
می خواستیم داده هایی به نظر برسد که می خواهیم داشته باشیم
1122
00:33:51,760 –> 00:33:52,080
یکی
1123
00:33:52,080 –> 00:33:55,600
ردیف در هر ام اوه
1124
00:33:55,600 –> 00:33:57,039
ما می خواهیم برای هر هنرمند چندین ردیف داشته باشیم
1125
00:33:57,039 –> 00:33:59,039
آهنگ و هفته یا با عرض پوزش یک ردیف برای
1126
00:33:59,039 –> 00:34:00,960
آهنگ هنرمند و هفته به آنجا می رویم
1127
00:34:00,960 –> 00:34:02,799
زیرا این سطح مشاهده ما است
1128
00:34:02,799 –> 00:34:04,320
برای هر کدام اندازه گیری متفاوتی داشته باشید
1129
00:34:04,320 –> 00:34:06,640
آهنگ هنرمند و ترکیب هفته
1130
00:34:06,640 –> 00:34:07,919
و فقط باید یک نمودار وجود داشته باشد
1131
00:34:07,919 –> 00:34:09,679
موقعیت برای ردیابی هنرمند معین
1132
00:34:09,679 –> 00:34:11,760
ترکیب هفته
1133
00:34:11,760 –> 00:34:13,520
اوه ما همچنین می خواهیم در مورد ستونی نظر بدهیم
1134
00:34:13,520 –> 00:34:16,000
در آن هفته موقعیت دارد
1135
00:34:16,000 –> 00:34:18,239
و همچنین تاریخ را وارد کنید پس چگونه می توانیم
1136
00:34:18,239 –> 00:34:19,359
حمل اطلاعات از کجا
1137
00:34:19,359 –> 00:34:20,960
آن جایی است که ما می خواهیم به آن برود
1138
00:34:20,960 –> 00:34:22,800
از یک محوری استفاده می کنیم که از آن خارج می شود
1139
00:34:22,800 –> 00:34:24,639
عریض تا طولانی و سپس بعد از اتمام کار
1140
00:34:24,639 –> 00:34:26,320
ما به نتایج خود به صورت زیر نگاه خواهیم کرد
1141
00:34:26,320 –> 00:34:27,599
همون نکاتی که دادم
1142
00:34:27,599 –> 00:34:30,159
قبل از مراحلی که باید دنبال کنید، بیایید
1143
00:34:30,159 –> 00:34:31,839
در واقع محور ما را در پانداها انجام می دهیم
1144
00:34:31,839 –> 00:34:33,440
توابع محوری هستند
1145
00:34:33,440 –> 00:34:35,440
pd گسترده به طولانی و pd طولانی به وجود دارد
1146
00:34:35,440 –> 00:34:36,639
گسترده نیز وجود دارد
1147
00:34:36,639 –> 00:34:39,119
um pd melt و pd pivot table که انجام می دهند
1148
00:34:39,119 –> 00:34:39,918
همان چیز
1149
00:34:39,918 –> 00:34:41,520
کار با سینتکس کمی سخت تر است
1150
00:34:41,520 –> 00:34:43,040
اما آنها کمی قدرتمندتر هستند
1151
00:34:43,040 –> 00:34:44,079
من نمی دانم چرا آنها آن را چنین می کنند
1152
00:34:44,079 –> 00:34:45,839
اگر نسخه قدرتمندتری دارید
1153
00:34:45,839 –> 00:34:47,199
فقط نسخه ساده تر را بسازید
1154
00:34:47,199 –> 00:34:49,520
یک لفاف برای آن به هر حال نمی دانم
1155
00:34:49,520 –> 00:34:51,280
اما چرا بلند و بلند سفید است
1156
00:34:51,280 –> 00:34:52,960
استفاده راحت تر
1157
00:34:52,960 –> 00:34:54,320
در اینجا ما گسترده تا طولانی می خواهیم پس می رویم
1158
00:34:54,320 –> 00:34:56,639
برای استفاده از PD dot عریض طولانی
1159
00:34:56,639 –> 00:34:58,240
این مجموعه داده ای را که شما هستید می خواهد
1160
00:34:58,240 –> 00:34:59,839
کار با آن چیزی که نامیده می شود را می پرسد
1161
00:34:59,839 –> 00:35:00,400
این خرد
1162
00:35:00,400 –> 00:35:02,720
وقتی شما هستید، نامها بسیار رایج است
1163
00:35:02,720 –> 00:35:04,480
کار با داده های گسترده
1164
00:35:04,480 –> 00:35:06,800
این است که اندازه گیری های مختلف از
1165
00:35:06,800 –> 00:35:08,000
همان متغیر
1166
00:35:08,000 –> 00:35:09,920
شروع می شود سپس نام متغیرها شروع می شود
1167
00:35:09,920 –> 00:35:11,280
با همان حروف شروع کنید، بنابراین ما اینجا هستیم
1168
00:35:11,280 –> 00:35:14,960
هفته هفتگی هفته هفته داشته باشید
1169
00:35:14,960 –> 00:35:17,200
درسته پس معلوم میشه چیه
1170
00:35:17,200 –> 00:35:19,040
متغیرها همه با هم هستند
1171
00:35:19,040 –> 00:35:21,599
با گرفتن آن خرد، این خرد هفته است
1172
00:35:21,599 –> 00:35:23,200
زیرا نام هر متغیری همانطور که در حال حاضر است
1173
00:35:23,200 –> 00:35:24,400
هفته است
1174
00:35:24,400 –> 00:35:27,440
به علاوه یک چیز خرد به علاوه یک عدد خوب است
1175
00:35:27,440 –> 00:35:29,599
و می تواند چندین مجموعه درست وجود داشته باشد
1176
00:35:29,599 –> 00:35:31,200
ممکن است وجود نداشته باشد
1177
00:35:31,200 –> 00:35:33,760
فقط یک ستون در هفته اما شاید
1178
00:35:33,760 –> 00:35:35,119
مقدار متفاوتی در آنجا وجود دارد
1179
00:35:35,119 –> 00:35:36,000
خوب درست است شاید نموداری وجود داشته باشد
1180
00:35:36,000 –> 00:35:37,760
موقعیت اما جای دیگری مانند ما داریم
1181
00:35:37,760 –> 00:35:38,560
اوه
1182
00:35:38,560 –> 00:35:40,160
من چیز دیگری در مورد آن نمی دانم
1183
00:35:40,160 –> 00:35:42,160
آهنگ در آن هفته در مجموعه ای متفاوت از
1184
00:35:42,160 –> 00:35:43,440
52
1185
00:35:43,440 –> 00:35:44,720
متغیرهایی که ممکن است بخواهیم این کار را انجام دهیم
1186
00:35:44,720 –> 00:35:46,000
نام های خرد متعددی به آن می دهد
1187
00:35:46,000 –> 00:35:48,480
آن پرونده
1188
00:35:50,160 –> 00:35:51,839
بنابراین ما باید نام های خرد و
1189
00:35:51,839 –> 00:35:52,800
سپس ما نیز باید به آن بدهیم
1190
00:35:52,800 –> 00:35:54,800
متغیرهای شناسایی موجود در i
1191
00:35:54,800 –> 00:35:56,480
استدلال و سپس ما نیاز به
1192
00:35:56,480 –> 00:35:58,000
یک متغیر شناسایی جدید اضافه کنید
1193
00:35:58,000 –> 00:36:00,960
درست است زیرا در داده های ما در حال حاضر
1194
00:36:00,960 –> 00:36:01,520
دارند
1195
00:36:01,520 –> 00:36:04,960
یک ردیف برای هر آهنگ هنرمند یا صنعتگر
1196
00:36:04,960 –> 00:36:05,599
مسیر
1197
00:36:05,599 –> 00:36:07,119
درست است اما به زودی یکی خواهیم داشت
1198
00:36:07,119 –> 00:36:09,119
ردیف در هر آهنگ هنرمند و هفته بنابراین ما نیاز داریم
1199
00:36:09,119 –> 00:36:10,880
یک متغیر شناسایی جدید برای آن هفته
1200
00:36:10,880 –> 00:36:12,480
بنابراین می دانیم که در چه هفته ای هستیم
1201
00:36:12,480 –> 00:36:14,240
درست باید یک دو سه باشد
1202
00:36:14,240 –> 00:36:16,560
یکی دو سه چهار پنج و بعد همه
1203
00:36:16,560 –> 00:36:17,599
مقادیر در یک ردیف قرار می گیرند، بنابراین ما نیاز داریم
1204
00:36:17,599 –> 00:36:19,119
تا یک متغیر شناسایی جدید به آن بدهید
1205
00:36:19,119 –> 00:36:19,760
اضافه کردن
1206
00:36:19,760 –> 00:36:22,720
این در آرگومان j است
1207
00:36:22,720 –> 00:36:23,280
داده ها
1208
00:36:23,280 –> 00:36:25,839
اوه اینجا همان wk است که اشاره کردم
1209
00:36:25,839 –> 00:36:27,920
در اینجا متغیرهای شناسایی قدیمی هستند
1210
00:36:27,920 –> 00:36:29,280
من قبل از تاریخ وارد شده ذکر کردم
1211
00:36:29,280 –> 00:36:30,480
می تواند یک شناسایی در نظر گرفته شود
1212
00:36:30,480 –> 00:36:31,599
متغیر است یا نه
1213
00:36:31,599 –> 00:36:33,599
ام در اینجا من آن را به عنوان یکی از آنها گنجانده ام
1214
00:36:33,599 –> 00:36:35,200
مطمئن شوید که اطلاعات را حفظ می کند
1215
00:36:35,200 –> 00:36:36,880
وقتی این کار را انجام می دهد
1216
00:36:36,880 –> 00:36:38,720
محور و سپس شناسایی جدید
1217
00:36:38,720 –> 00:36:40,079
متغیری که من قصد دارم با آن تماس بگیرم
1218
00:36:40,079 –> 00:36:42,640
ضعیف است، وقتی این کار را انجام دهم، نام آن را تغییر خواهم داد
1219
00:36:42,640 –> 00:36:43,599
آن را به
1220
00:36:43,599 –> 00:36:46,720
مقدار موقعیت نمودار را در a ذخیره کنید
1221
00:36:46,720 –> 00:36:47,680
متغیر نامیده می شود
1222
00:36:47,680 –> 00:36:50,400
wk که من قصد دارم نام آن را به نمودار تغییر دهم
1223
00:36:50,400 –> 00:36:52,800
موقعیت
1224
00:36:53,200 –> 00:36:54,640
و سپس تمام موارد گم شده را حذف خواهم کرد
1225
00:36:54,640 –> 00:36:56,560
اوه از دست دادن با قطره
1226
00:36:56,560 –> 00:36:58,320
n a یک کار معمولی است که ممکن است انجام دهید
1227
00:36:58,320 –> 00:37:00,560
پس از یک چرخش عریض به طولانی
1228
00:37:00,560 –> 00:37:03,839
چون اگر مشاهداتی وجود داشته باشد
1229
00:37:03,839 –> 00:37:05,599
که تمام ستون ها را پر نمی کند
1230
00:37:05,599 –> 00:37:06,560
خالی خواهد ماند
1231
00:37:06,560 –> 00:37:09,839
درست است پس بیایید به عنوان مثال در اینجا بگوییم
1232
00:37:09,839 –> 00:37:12,720
اوه اوه این آهنگ اوه فقط در
1233
00:37:12,720 –> 00:37:14,880
نمودارها برای هفت هفته درست نه هشت
1234
00:37:14,880 –> 00:37:17,440
بنابراین اگر من یک Pivot انجام دهم یک ردیف به من می دهد
1235
00:37:17,440 –> 00:37:18,880
برای هفته یک دو سه پنج شش پنج
1236
00:37:18,880 –> 00:37:20,400
پنج شش هفت و سپس برای
1237
00:37:20,400 –> 00:37:21,280
هشت نه ده
1238
00:37:21,280 –> 00:37:23,200
و غیره اگر من همه آنها را نمی خواهم
1239
00:37:23,200 –> 00:37:25,040
اگر این تنها داده واقعی باشد، از دست می رود
1240
00:37:25,040 –> 00:37:25,599
به هر حال
1241
00:37:25,599 –> 00:37:27,119
می توانم به آن بگویم که ناس و آن را رها کند
1242
00:37:27,119 –> 00:37:28,720
خوشبختانه همه اینها را رها خواهد کرد
1243
00:37:28,720 –> 00:37:29,440
خواهد شد
1244
00:37:29,440 –> 00:37:31,359
در غیر این صورت ردیف های خود را اشغال می کند
1245
00:37:31,359 –> 00:37:34,000
دسته ای از فضا
1246
00:37:35,359 –> 00:37:37,520
در اینجا میرویم که دادههایی که به دست میآیند
1247
00:37:37,520 –> 00:37:38,560
اوه و
1248
00:37:38,560 –> 00:37:42,240
اوه که همه dnas را حذف نکرد
1249
00:37:42,240 –> 00:37:46,960
من نمی دانم این چه چیز عجیبی است
1250
00:37:46,960 –> 00:37:48,400
اوه می دانید من تعجب می کنم که آیا وجود دارد
1251
00:37:48,400 –> 00:37:49,760
یک کد زیرین پنهان وجود دارد که
1252
00:37:49,760 –> 00:37:51,200
شاید n a در آن نباشد
1253
00:37:51,200 –> 00:37:54,000
اوه اما آره پس اوه پانداها شما می دانید
1254
00:37:54,000 –> 00:37:54,320
نگاه داشتن
1255
00:37:54,320 –> 00:37:55,839
شناسایی متغیرها در اینجا انجام می شود
1256
00:37:55,839 –> 00:37:57,680
پرینت آنها را اذیت نمی کند
1257
00:37:57,680 –> 00:37:58,640
و دوباره
1258
00:37:58,640 –> 00:37:59,839
اوه اما هفته دیگری است
1259
00:37:59,839 –> 00:38:01,280
شناسایی متغیری که تغییر می کند
1260
00:38:01,280 –> 00:38:02,480
هر ردیف و سپس نمودار را داریم
1261
00:38:02,480 –> 00:38:02,960
موقعیت
1262
00:38:02,960 –> 00:38:06,079
در آن آهنگ هنرمند تاریخ وارد شده هفته است
1263
00:38:06,079 –> 00:38:08,720
ترکیبی
1264
00:38:09,839 –> 00:38:13,760
هر گونه سوال در مورد چرخش از y به
1265
00:38:16,839 –> 00:38:19,839
طولانی
1266
00:38:22,079 –> 00:38:25,200
um هنگامی که شما انجام می دهید محور برابر با یک قوطی است
1267
00:38:25,200 –> 00:38:28,240
شما توضیح دهید که چه کاری انجام می دهد
1268
00:38:28,240 –> 00:38:30,480
ام
1269
00:38:31,440 –> 00:38:34,160
بنابراین من آن خط خاص را ننوشتم
1270
00:38:34,160 –> 00:38:34,960
اندرو انجام داد
1271
00:38:34,960 –> 00:38:36,800
اما من کاملاً مطمئن هستم که کاری که انجام می دهد همین است
1272
00:38:36,800 –> 00:38:38,160
اوم پس
1273
00:38:38,160 –> 00:38:40,320
فریم های داده مجموعه داده پانداها پانداها
1274
00:38:40,320 –> 00:38:41,760
می تواند نام ردیف داشته باشد
1275
00:38:41,760 –> 00:38:44,160
و همچنین جایی که خود ردیف ها دارند
1276
00:38:44,160 –> 00:38:46,079
um را نام می برد و بنابراین دسترسی برابر با یک i است
1277
00:38:46,079 –> 00:38:47,040
باور دارد می گوید
1278
00:38:47,040 –> 00:38:49,359
تغییر نام یک ستون بر خلاف تغییر نام a
1279
00:38:49,359 –> 00:38:53,040
ردیف من فکر می کنم چیزی است که در آنجا اتفاق می افتد
1280
00:38:53,359 –> 00:38:55,839
متشکرم
1281
00:38:59,040 –> 00:39:01,839
سوال دیگه ای هست
1282
00:39:04,960 –> 00:39:06,960
بسیار خوب پس ممکن است ما نیز بخواهیم برویم
1283
00:39:06,960 –> 00:39:08,079
از اوه
1284
00:39:08,079 –> 00:39:11,119
از do a pivot from a pivot wide uh so
1285
00:39:11,119 –> 00:39:12,240
این محور عریض تر است
1286
00:39:12,240 –> 00:39:13,920
اوه این یک کد r است
1287
00:39:13,920 –> 00:39:15,920
که باید بگوید pivot wide to
1288
00:39:15,920 –> 00:39:19,200
بلند به عریض و اوه df ضمیمه
1289
00:39:19,200 –> 00:39:22,480
در اینجا ام خیلی رایج است
1290
00:39:22,480 –> 00:39:24,400
فرمت غیر مرتبی که ممکن است به دست آورید
1291
00:39:24,400 –> 00:39:25,520
چیزی که به نظر می رسد این است که در آن
1292
00:39:25,520 –> 00:39:26,640
مانند فرم مالیات است
1293
00:39:26,640 –> 00:39:29,200
برای هر مقدار در ردیف خودش این است
1294
00:39:29,200 –> 00:39:30,800
درست نیست اینجا متغیرها هستند
1295
00:39:30,800 –> 00:39:32,320
که ممکن است شخصاً علاقه مند شویم
1296
00:39:32,320 –> 00:39:33,920
درآمد قابل کسر Agi
1297
00:39:33,920 –> 00:39:36,400
اما برخلاف آن در ردیف هایی ذخیره می شوند
1298
00:39:36,400 –> 00:39:37,520
ستون ها
1299
00:39:37,520 –> 00:39:41,200
بنابراین ما می خواهیم این را تغییر دهیم
1300
00:39:41,200 –> 00:39:44,160
اوه بنابراین محور دیگری است که ما به آن می رویم
1301
00:39:44,160 –> 00:39:45,839
جهت دیگر محور عریض Uh طولانی به
1302
00:39:45,839 –> 00:39:46,880
گسترده اوه ما نیاز داریم
1303
00:39:46,880 –> 00:39:48,400
اطلاعات مشابه مشابه قبلی
1304
00:39:48,400 –> 00:39:50,160
ما به آن یک چارچوب داده می دهیم
1305
00:39:50,160 –> 00:39:52,079
شاخصی که در حال حاضر دارد
1306
00:39:52,079 –> 00:39:53,920
اوه که در این مورد وجود ندارد
1307
00:39:53,920 –> 00:39:55,520
واقعا یه شاخصه
1308
00:39:55,520 –> 00:39:57,359
من می خواهم همه چیز را بردارم و آن را به این شکل برگردانم
1309
00:39:57,359 –> 00:39:58,800
من واقعاً نیازی به ردیف کردن چیزی ندارم
1310
00:39:58,800 –> 00:39:59,839
که من معمولاً با آن انجام می دهم
1311
00:39:59,839 –> 00:40:00,640
یک شاخص
1312
00:40:00,640 –> 00:40:02,000
بنابراین من در واقع یک متغیر در اینجا ایجاد کرده ام
1313
00:40:02,000 –> 00:40:03,680
به نام ایندکس که برای همه صفر است
1314
00:40:03,680 –> 00:40:05,280
بنابراین من می توانم چیزی برای تغذیه به آن داشته باشم
1315
00:40:05,280 –> 00:40:06,400
عملکرد
1316
00:40:06,400 –> 00:40:07,599
اما واقعاً کار زیادی انجام نخواهد داد
1317
00:40:07,599 –> 00:40:10,240
با آن آه من باید به آن بگویم که چیست
1318
00:40:10,240 –> 00:40:11,440
ستون های جدید قرار است باشند
1319
00:40:11,440 –> 00:40:13,760
چه ستونی حاوی اطلاعات است
1320
00:40:13,760 –> 00:40:15,119
از ستون جدید، بنابراین من می خواهم یک
1321
00:40:15,119 –> 00:40:16,079
ستون برای شخص
1322
00:40:16,079 –> 00:40:17,359
یک ستون برای درآمد یک ستون برای
1323
00:40:17,359 –> 00:40:18,720
فرانشیز من آنها را برای agi صدا می کنم پس من هستم
1324
00:40:18,720 –> 00:40:19,920
به آن می گویم که از این استفاده کند
1325
00:40:19,920 –> 00:40:22,960
متغیر در اینجا برای مکان یابی ستون ها
1326
00:40:22,960 –> 00:40:24,480
و سپس در اینجا مقادیری هستند که من هستم
1327
00:40:24,480 –> 00:40:27,119
قرار است آن را در اینجا در ردیف فرم متن قرار دهیم
1328
00:40:27,119 –> 00:40:30,079
وقتی این کار را انجام می دهم شاخص محوری درست است
1329
00:40:30,079 –> 00:40:31,680
ستون های شاخص مقدار هستند
1330
00:40:31,680 –> 00:40:34,160
مقادیر ردیف فرم و من را دریافت می کنم
1331
00:40:34,160 –> 00:40:35,520
دقیقا همان چیزی است که من از آن می خواهم، بنابراین آن را دارد
1332
00:40:35,520 –> 00:40:35,760
یک
1333
00:40:35,760 –> 00:40:37,680
متغیر index در اینجا که صفر است
1334
00:40:37,680 –> 00:40:39,040
بی فایده است من احتمالا پس از آن فقط می اندازم
1335
00:40:39,040 –> 00:40:40,000
که
1336
00:40:40,000 –> 00:40:42,240
و سپس متغیرهایی که من دارم
1337
00:40:42,240 –> 00:40:43,599
و همچنین ارزش هایی که با آنها همراه است
1338
00:40:43,599 –> 00:40:44,000
آنها
1339
00:40:44,000 –> 00:40:48,079
که از y به یا طولانی به y می رود
1340
00:40:49,040 –> 00:40:51,440
وقتی این کار را انجام دادیم می توانیم دوباره استفاده کنیم
1341
00:40:51,440 –> 00:40:52,400
df ضمیمه
1342
00:40:52,400 –> 00:40:54,240
برای چیدن مجموعه های داده در بالای آن
1343
00:40:54,240 –> 00:40:56,000
همدیگر را تصور کنید که می دانید من داشتم
1344
00:40:56,000 –> 00:40:57,839
این مجموعه داده برای شروع
1345
00:40:57,839 –> 00:41:00,240
اوه شاید من شخص دیگری دارم که
1346
00:41:00,240 –> 00:41:01,839
همه من فرم مالیات دیگری از یک دارم
1347
00:41:01,839 –> 00:41:03,520
شخص متفاوتی که شبیه این است
1348
00:41:03,520 –> 00:41:05,520
من میخواهم هر دوی آنها را طوری بچرخانم
1349
00:41:05,520 –> 00:41:06,720
آنها متغیرهای یکسانی دارند و سپس i
1350
00:41:06,720 –> 00:41:08,880
می توانید از df append برای چسباندن آنها استفاده کنید
1351
00:41:08,880 –> 00:41:10,240
با هم درست است، بنابراین این فقط داده های مالیاتی است
1352
00:41:10,240 –> 00:41:12,160
2 که شبیه داده های مالیاتی است 1.
1353
00:41:12,160 –> 00:41:14,560
همان پیوت را روی آن انجام دهید و سپس بچسبانید
1354
00:41:14,560 –> 00:41:15,280
آنها را با هم
1355
00:41:15,280 –> 00:41:16,319
اگر من یک دسته از آنها را داشتم، خواهم داشت
1356
00:41:16,319 –> 00:41:17,920
احتمالاً از یک حلقه for برای چرخش هر کدام استفاده کنید
1357
00:41:17,920 –> 00:41:19,119
یکی از آنها به صورت جداگانه
1358
00:41:19,119 –> 00:41:22,640
و سپس همه آنها را با هم اضافه کنید
1359
00:41:24,000 –> 00:41:26,000
خوب کار دیگری برای گرفتن داده است
1360
00:41:26,000 –> 00:41:28,240
و تبدیل آن به داده های مرتب در حال ادغام است
1361
00:41:28,240 –> 00:41:30,079
بسیار رایج است که نیاز به پیوند دو وجود دارد
1362
00:41:30,079 –> 00:41:32,079
مجموعه داده ها با هم بر اساس برخی به اشتراک گذاشته شده است
1363
00:41:32,079 –> 00:41:32,800
کلیدها
1364
00:41:32,800 –> 00:41:34,720
بنابراین قبلاً ذکر کردم که ممکن است مقداری داشته باشیم
1365
00:41:34,720 –> 00:41:36,000
داده هایی که در مورد شخص است
1366
00:41:36,000 –> 00:41:37,680
سطح سال و برخی داده های دیگر است
1367
00:41:37,680 –> 00:41:39,839
فقط در سطح شخص
1368
00:41:39,839 –> 00:41:41,440
در اینجا چند نمونه از آن وجود دارد، بنابراین در اینجا آمده است
1369
00:41:41,440 –> 00:41:43,599
برخی از داده ها ما یک شخص
1370
00:41:43,599 –> 00:41:45,440
ما هر فرد را دو بار در دو بار مشاهده می کنیم
1371
00:41:45,440 –> 00:41:47,359
سال های مختلف 2014 2015
1372
00:41:47,359 –> 00:41:48,640
و در آن دو سال متفاوت که
1373
00:41:48,640 –> 00:41:51,200
فرد دو درآمد متفاوت دارد
1374
00:41:51,200 –> 00:41:53,040
ما ممکن است یک مجموعه داده دوم را در آنجا داشته باشیم
1375
00:41:53,040 –> 00:41:54,480
زادگاهشان را بگوییم
1376
00:41:54,480 –> 00:41:56,319
که در طول زندگی شما تغییر نمی کند
1377
00:41:56,319 –> 00:41:57,920
بنابراین ما فقط یک میز داریم که روی آن قرار دارد
1378
00:41:57,920 –> 00:41:58,720
سطح فرد
1379
00:41:58,720 –> 00:42:00,079
بنابراین یک شخص تنها عامل شناسایی است
1380
00:42:00,079 –> 00:42:01,520
متغیر اینجا و اینجا آنها هستند
1381
00:42:01,520 –> 00:42:03,839
زادگاه
1382
00:42:03,839 –> 00:42:05,599
ادغام داده ها با ادغام
1383
00:42:05,599 –> 00:42:07,359
روش من دقیقا این کار را انجام خواهم داد
1384
00:42:07,359 –> 00:42:09,760
اوه چند گزینه در آن وجود دارد
1385
00:42:09,760 –> 00:42:11,119
مهم است به فکر کردن در مورد وجود دارد
1386
00:42:11,119 –> 00:42:12,640
چگونه استدلال
1387
00:42:12,640 –> 00:42:16,000
در تابع ادغام و چگونه
1388
00:42:16,000 –> 00:42:17,440
انجام می دهد این است که تعیین می کند چه زمانی اتفاق می افتد
1389
00:42:17,440 –> 00:42:19,200
شما مسابقه ای ندارید که بسیار است
1390
00:42:19,200 –> 00:42:20,480
مهم است که به آن فکر کنید زیرا زیاد است
1391
00:42:20,480 –> 00:42:22,079
زمان کار با داده های واقعی
1392
00:42:22,079 –> 00:42:23,760
برخی از مقادیر در یک مجموعه داده هستند
1393
00:42:23,760 –> 00:42:25,359
قرار نیست مسابقه ای در دیگری داشته باشیم
1394
00:42:25,359 –> 00:42:26,160
مجموعه داده
1395
00:42:26,160 –> 00:42:27,920
پس وقتی که ندارید چه می کنید
1396
00:42:27,920 –> 00:42:29,520
منطبق بر کاری که ما در حال انجام آن هستیم
1397
00:42:29,520 –> 00:42:30,560
اینجا
1398
00:42:30,560 –> 00:42:31,680
ما سعی می کنیم این دو چیز را به هم مرتبط کنیم
1399
00:42:31,680 –> 00:42:33,760
با هم درست می خواهم به این نگاه کنم
1400
00:42:33,760 –> 00:42:34,960
مجموعه داده و ستون دیگری در اینجا داشته باشید
1401
00:42:34,960 –> 00:42:36,319
به نام زادگاه
1402
00:42:36,319 –> 00:42:38,560
که می گوید خوب اوه رامش متولد شد
1403
00:42:38,560 –> 00:42:39,680
کرالی و ویتنی متولد شد
1404
00:42:39,680 –> 00:42:41,280
واشنگتن دی سی پس او گفت کراولی
1405
00:42:41,280 –> 00:42:42,720
کرالی واشینگتون دی سی
1406
00:42:42,720 –> 00:42:45,280
واشنگتن دی سی اوه اوه دیوید در این نیست
1407
00:42:45,280 –> 00:42:46,240
مجموعه داده
1408
00:42:46,240 –> 00:42:47,440
با دیوید او چه کنیم
1409
00:42:47,440 –> 00:42:48,960
حق منطبق برای کشف کردن ندارد
1410
00:42:48,960 –> 00:42:50,000
با دیوید چه کنیم
1411
00:42:50,000 –> 00:42:51,760
نیاز به تعیین چگونگی
1412
00:42:51,760 –> 00:42:54,640
آرگومان اوه تنظیم نحوه ترک وجود دارد
1413
00:42:54,640 –> 00:42:56,240
اساساً دو مجموعه داده هر چه شما دارید
1414
00:42:56,240 –> 00:42:58,240
بدانید df نقطه ادغام df سمت چپ خواهد بود
1415
00:42:58,240 –> 00:42:58,960
مجموعه داده
1416
00:42:58,960 –> 00:43:01,200
هر آنچه در فرمول ادغام می رود آن را
1417
00:43:01,200 –> 00:43:03,359
مجموعه داده های مناسبی خواهد بود
1418
00:43:03,359 –> 00:43:05,839
اوه نحوه خروج را تنظیم کنید ما هر کدام را نگه می داریم
1419
00:43:05,839 –> 00:43:07,760
مشاهداتی که در داده های سمت چپ هستند
1420
00:43:07,760 –> 00:43:09,839
تنظیم شده اما در سمت راست نیست
1421
00:43:09,839 –> 00:43:11,119
آنها را نگه می دارد و فقط پر می شود
1422
00:43:11,119 –> 00:43:13,040
در مقادیر غیر منطبق با
1423
00:43:13,040 –> 00:43:13,920
گم شده
1424
00:43:13,920 –> 00:43:16,160
درست است چیزهایی که هستند را حفظ می کند
1425
00:43:16,160 –> 00:43:17,359
سمت راست
1426
00:43:17,359 –> 00:43:19,040
مجموعه داده اما نه اراده بیرونی چپ
1427
00:43:19,040 –> 00:43:20,960
نگه داشتن چیزها از هر دو درونی حفظ خواهد شد
1428
00:43:20,960 –> 00:43:21,520
مسابقات
1429
00:43:21,520 –> 00:43:23,040
فقط چیزهایی که در واقع مطابقت دارند و سقوط می کنند
1430
00:43:23,040 –> 00:43:26,160
هر چیزی که اصلا مطابقت ندارد
1431
00:43:26,160 –> 00:43:27,440
شما همچنین می توانید با مختلف مقابله کنید
1432
00:43:27,440 –> 00:43:28,800
نام متغیرها در دو داده متفاوت
1433
00:43:28,800 –> 00:43:29,680
با استفاده از
1434
00:43:29,680 –> 00:43:31,440
اوه در ما باید متغیرها را مشخص کنیم
1435
00:43:31,440 –> 00:43:32,960
که ما در حال ادغام با آن هستیم
1436
00:43:32,960 –> 00:43:34,400
اما شما می توانید آنها را نامگذاری کنید
1437
00:43:34,400 –> 00:43:36,400
با چپ و راست روشن متفاوت است
1438
00:43:36,400 –> 00:43:37,920
بنابراین بیایید یک مثال در اینجا که داریم
1439
00:43:37,920 –> 00:43:40,319
داده های سال شخص که بود
1440
00:43:40,319 –> 00:43:42,800
درآمد سالیانه فرد در اینجا ما هستیم
1441
00:43:42,800 –> 00:43:44,240
قرار است آن را با داده های شخص ادغام کنیم
1442
00:43:44,240 –> 00:43:45,920
که زادگاهش بود
1443
00:43:45,920 –> 00:43:47,599
در اینجا می خواهم نحوه ترک کردن را تنظیم کنم
1444
00:43:47,599 –> 00:43:48,720
چه اتفاقی می افتد به یاد داشته باشید که ما داریم
1445
00:43:48,720 –> 00:43:49,359
دیوید
1446
00:43:49,359 –> 00:43:51,200
که اطلاعات محل تولد ندارد
1447
00:43:51,200 –> 00:43:53,280
اطلاعات در آنجا وجود دارد، بنابراین این یک سمت چپ است
1448
00:43:53,280 –> 00:43:54,000
ادغام که به معنی
1449
00:43:54,000 –> 00:43:56,400
که اگر شما شخصا اطلاعات خود را اما
1450
00:43:56,400 –> 00:43:57,760
داده های شخصی نیست
1451
00:43:57,760 –> 00:44:00,240
ما شما را خوب نگه می داریم اوه ما هستیم
1452
00:44:00,240 –> 00:44:01,839
ادغام در شخص زیرا این است
1453
00:44:01,839 –> 00:44:03,760
کلید مشترک که شناسایی است
1454
00:44:03,760 –> 00:44:05,760
متغیری که در هر دو مجموعه داده است
1455
00:44:05,760 –> 00:44:08,079
بنابراین من از آن برای ردیف کردن مردم استفاده خواهم کرد
1456
00:44:08,079 –> 00:44:09,440
و من هر کسی را که داخل است نگه خواهم داشت
1457
00:44:09,440 –> 00:44:10,560
داده های خود را شخص کنید
1458
00:44:10,560 –> 00:44:14,400
و نه در یک تاریخ شخص به طوری که ما داریم
1459
00:44:14,400 –> 00:44:15,839
رامش ویتنی و دیوید همگی هستند
1460
00:44:15,839 –> 00:44:18,240
در اینجا حتی اگر دیوید a ندارد
1461
00:44:18,240 –> 00:44:19,200
زادگاه
1462
00:44:19,200 –> 00:44:20,960
چون ما یک ادغام سمت چپ انجام دادیم، خط زدیم
1463
00:44:20,960 –> 00:44:22,720
آنها را با متغیر شخص قرار دهید
1464
00:44:22,720 –> 00:44:25,200
مثل آن اوه ما همچنین می توانیم یک کار درست انجام دهیم
1465
00:44:25,200 –> 00:44:25,760
ادغام
1466
00:44:25,760 –> 00:44:27,760
و به نظر می رسد که از صفحه افتاده است
1467
00:44:27,760 –> 00:44:28,800
اینجا
1468
00:44:28,800 –> 00:44:30,960
اوم اما اوه این بار کارم را درست انجام می دهم
1469
00:44:30,960 –> 00:44:32,160
ادغام به این معنی است که من می خواهم اوه من می خواهم
1470
00:44:32,160 –> 00:44:33,599
هر چیزی را که مطابقت دارد نگه دارید
1471
00:44:33,599 –> 00:44:35,359
مسابقات خوب هستند و من هم می روم
1472
00:44:35,359 –> 00:44:36,960
هر چیزی را که مطابقت پیدا نمی کند نگه دارید
1473
00:44:36,960 –> 00:44:38,000
که در سمت راست بود
1474
00:44:38,000 –> 00:44:41,440
مجموعه داده uh و در این مورد uh the
1475
00:44:41,440 –> 00:44:43,040
دیوید در مجموعه داده سمت چپ نیست
1476
00:44:43,040 –> 00:44:44,560
یک مسابقه پیدا کنید تا او در این مورد رها شود
1477
00:44:44,560 –> 00:44:45,040
یکی
1478
00:44:45,040 –> 00:44:46,720
بنابراین این داده ها درست این ادغام را درست تنظیم می کند
1479
00:44:46,720 –> 00:44:49,119
اینجا شبیه این ردیف ها خواهد بود
1480
00:44:49,119 –> 00:44:51,680
اما دیوید خواهد رفت زیرا او بود
1481
00:44:51,680 –> 00:44:52,160
بود
1482
00:44:52,160 –> 00:44:54,160
او مسابقه ای پیدا نکرد و ما فقط هستیم
1483
00:44:54,160 –> 00:44:55,920
عدم تطابق از داده های مناسب
1484
00:44:55,920 –> 00:44:57,839
تنظیم شد اما دیوید در سمت چپ بود
1485
00:44:57,839 –> 00:45:01,920
مجموعه داده ها چیز مهمی برای حفظ کردن است
1486
00:45:01,920 –> 00:45:02,480
در فکر
1487
00:45:02,480 –> 00:45:04,000
وقتی با یک ادغام کار می کنید این است
1488
00:45:04,000 –> 00:45:05,599
مهم است که مطمئن شوید
1489
00:45:05,599 –> 00:45:06,880
سطح مشاهده شما
1490
00:45:06,880 –> 00:45:08,960
یا اینکه شما که متغیرهایی که
1491
00:45:08,960 –> 00:45:10,560
شما در حال ادغام هستید
1492
00:45:10,560 –> 00:45:12,400
سطح دقیق مشاهده در در است
1493
00:45:12,400 –> 00:45:14,319
حداقل یکی از مجموعه داده ها
1494
00:45:14,319 –> 00:45:16,720
باشه میخوای همینطور باشه
1495
00:45:16,720 –> 00:45:17,920
منظور من از این به یاد داشته باشید
1496
00:45:17,920 –> 00:45:19,359
سطح مشاهده ترکیبی از
1497
00:45:19,359 –> 00:45:20,720
شناسایی متغیرها
1498
00:45:20,720 –> 00:45:22,400
که به طور منحصر به فرد یک ردیف را در آنجا شناسایی می کند
1499
00:45:22,400 –> 00:45:24,079
نباید ردیف دوم باشد
1500
00:45:24,079 –> 00:45:26,319
با همان ترکیبی از متغیرها بنابراین در
1501
00:45:26,319 –> 00:45:27,119
این داده ها
1502
00:45:27,119 –> 00:45:30,880
شخص سال ما چند ردیف نداریم
1503
00:45:30,880 –> 00:45:32,880
در هر ترکیب از فرد و سال
1504
00:45:32,880 –> 00:45:34,720
سطح مشاهده در اینجا شخص است
1505
00:45:34,720 –> 00:45:37,040
و سال سطح مشاهده در اینجا است
1506
00:45:37,040 –> 00:45:39,040
شخصی که روی شخص ادغام کردیم
1507
00:45:39,040 –> 00:45:41,280
که سطح مشاهده برای این است
1508
00:45:41,280 –> 00:45:42,079
مجموعه داده
1509
00:45:42,079 –> 00:45:44,079
و ما می خواهیم که آن را مشاهده کنند
1510
00:45:44,079 –> 00:45:45,520
سطح مشاهده حداقل
1511
00:45:45,520 –> 00:45:48,079
یک مجموعه داده بنابراین اتفاقی که می افتد خوب است
1512
00:45:48,079 –> 00:45:50,079
اگر آن را نداریم
1513
00:45:50,079 –> 00:45:51,839
اگر چندین مشاهدات در هر
1514
00:45:51,839 –> 00:45:53,599
ترکیبی از متغیرهای on در هر دو
1515
00:45:53,599 –> 00:45:54,400
مجموعه های داده
1516
00:45:54,400 –> 00:45:55,839
این یک مشکل است زیرا کاری که انجام خواهد داد
1517
00:45:55,839 –> 00:45:58,000
این است که آن را به شما هر آنچه ممکن است
1518
00:45:58,000 –> 00:45:59,280
ترکیبی از این دو
1519
00:45:59,280 –> 00:46:00,880
که شاید شما آن را نمی خواهید
1520
00:46:00,880 –> 00:46:02,480
گاهی اوقات شما انجام می دهید اما احتمالا این کار را نمی کنید
1521
00:46:02,480 –> 00:46:03,520
بیشتر اوقات
1522
00:46:03,520 –> 00:46:06,079
در اینجا یک مثال است، بنابراین در اینجا برخی از داده ها وجود دارد
1523
00:46:06,079 –> 00:46:07,520
ما در اینجا دو داده دو متغیر داریم
1524
00:46:07,520 –> 00:46:08,560
اولین مجموعه داده
1525
00:46:08,560 –> 00:46:11,839
اوه نام aa است پس سال قبل از میلاد 2014 است
1526
00:46:11,839 –> 00:46:13,040
2015 و 2014
1527
00:46:13,040 –> 00:46:14,560
بنابراین شما آن نام و سال را متوجه خواهید شد
1528
00:46:14,560 –> 00:46:16,319
ترکیب با هم مشاهده است
1529
00:46:16,319 –> 00:46:17,680
سطح این مجموعه داده
1530
00:46:17,680 –> 00:46:19,440
اگر ترکیبی از نام و
1531
00:46:19,440 –> 00:46:21,440
سال من فقط یک ردیف پیدا خواهم کرد
1532
00:46:21,440 –> 00:46:23,680
با آن ترکیب در اینجا در
1533
00:46:23,680 –> 00:46:26,880
درست است که نام من aabcc است
1534
00:46:26,880 –> 00:46:29,599
و سپس مشخصه در حال حاضر مشترک
1535
00:46:29,599 –> 00:46:31,599
متغیر در اینجا نام است
1536
00:46:31,599 –> 00:46:34,319
اما توجه کنید که این نام به خودی خود نیست
1537
00:46:34,319 –> 00:46:35,119
شناسه
1538
00:46:35,119 –> 00:46:37,119
برای شناسایی یک ردیف بیش از حد کافی نیست
1539
00:46:37,119 –> 00:46:38,160
اینجا در یک
1540
00:46:38,160 –> 00:46:40,400
نام و سال درست فقط با نام است
1541
00:46:40,400 –> 00:46:42,160
خود به این دلیل نیست که دو ردیف وجود دارد
1542
00:46:42,160 –> 00:46:45,920
با اینجا در سمت راست آه
1543
00:46:45,920 –> 00:46:48,079
نام آن مشترک است
1544
00:46:48,079 –> 00:46:49,280
منحصر به فرد شناسایی نمی کند
1545
00:46:49,280 –> 00:46:50,720
سطرهای سمت راست آن دو تا است
1546
00:46:50,720 –> 00:46:52,640
همچنین دو c دارد پس چه می شود
1547
00:46:52,640 –> 00:46:55,040
وقتی اینها را با هم ادغام می کنم اتفاق می افتد
1548
00:46:55,040 –> 00:46:57,359
به نام خوب من می خواهم در نهایت با چهار
1549
00:46:57,359 –> 00:46:58,880
درست است من با دو حرف تمام شروع کردم
1550
00:46:58,880 –> 00:47:00,079
اینجا در دو در اینجا
1551
00:47:00,079 –> 00:47:01,839
دو برابر دو برابر چهار درست است
1552
00:47:01,839 –> 00:47:04,160
تا هر ترکیب ممکن را به من بدهد
1553
00:47:04,160 –> 00:47:07,440
بنابراین در اینجا من یک 2014 و 2015 داشتم حدس می زنم یک
1554
00:47:07,440 –> 00:47:11,200
2014 1 تا 20 15 2
1555
00:47:11,200 –> 00:47:12,800
و سپس اینجا در سمت راست من یک
1556
00:47:12,800 –> 00:47:15,040
بالا و پایین پس من می روم
1557
00:47:15,040 –> 00:47:18,240
a 2014 1 up a
1558
00:47:18,240 –> 00:47:21,839
2014 یک کاهش نسبت به 2015
1559
00:47:21,839 –> 00:47:25,680
2 تا 2015 دو تا پایین تر
1560
00:47:25,680 –> 00:47:27,200
ترکیبی که می توانستم داشته باشم
1561
00:47:27,200 –> 00:47:29,359
بنابراین ما در اینجا چهار ردیف داریم که این است
1562
00:47:29,359 –> 00:47:30,960
به طور کلی آن چیزی که ما می خواهیم نیست
1563
00:47:30,960 –> 00:47:32,240
این ایده خوبی است برای بررسی آنچه شما
1564
00:47:32,240 –> 00:47:33,760
سطح مشاهده قبل از انجام یک است
1565
00:47:33,760 –> 00:47:34,400
ادغام
1566
00:47:34,400 –> 00:47:35,920
تا مطمئن شوید که حداقل یکی از شما
1567
00:47:35,920 –> 00:47:38,079
مجموعه داده ها آن را به عنوان مشاهده دارند
1568
00:47:38,079 –> 00:47:38,720
مرحله
1569
00:47:38,720 –> 00:47:40,480
چگونه می توانید این را بررسی کنید می توانید از آن استفاده کنید
1570
00:47:40,480 –> 00:47:42,319
تابع تکراری
1571
00:47:42,319 –> 00:47:45,359
اوه پس اومتو بگیر
1572
00:47:45,359 –> 00:47:48,079
مجموعه دادههای خود را بررسی کنید که آیا a
1573
00:47:48,079 –> 00:47:50,000
ستون یا مجموعه ای از ستون های خاص دارد
1574
00:47:50,000 –> 00:47:51,680
هر گونه تکراری در آن
1575
00:47:51,680 –> 00:47:53,760
و سپس از max استفاده کنید تا بررسی کنید که آیا وجود دارد یا خیر
1576
00:47:53,760 –> 00:47:54,960
ردیف ها تکراری هستند
1577
00:47:54,960 –> 00:47:58,240
اگر این درست نشان می دهد اوه پس شما پس
1578
00:47:58,240 –> 00:48:00,240
شما یک نسخه تکراری در آنجا دارید
1579
00:48:00,240 –> 00:48:02,319
زیرا کاری که این کار انجام می دهد به شما می دهد
1580
00:48:02,319 –> 00:48:04,319
آیا یک ردیف خاص تکراری است
1581
00:48:04,319 –> 00:48:06,079
و max بررسی می کند که آیا هر یک از ردیف ها وجود دارد
1582
00:48:06,079 –> 00:48:09,200
اگر موارد تکراری دارید، تکراری هستند
1583
00:48:09,200 –> 00:48:10,480
سپس در هر دو مجموعه داده خود می توانید
1584
00:48:10,480 –> 00:48:11,520
نحوه ادامه دادن را دریابید
1585
00:48:11,520 –> 00:48:13,440
شاید شما آن ترکیب کامل را می خواهید
1586
00:48:13,440 –> 00:48:15,280
چیزی که شاید بتوانید مقداری را رها کنید
1587
00:48:15,280 –> 00:48:17,040
مشاهدات برای بازیابی
1588
00:48:17,040 –> 00:48:19,359
سطح مشاهده شاید وجود داشته باشد
1589
00:48:19,359 –> 00:48:21,040
فقط مثل یک ردیف در آنجا که است
1590
00:48:21,040 –> 00:48:22,480
تکراری است و فقط یک اشتباه است و
1591
00:48:22,480 –> 00:48:23,680
شما می توانید آن یکی را رها کنید
1592
00:48:23,680 –> 00:48:25,040
کارهای مختلفی که می توانید انجام دهید
1593
00:48:25,040 –> 00:48:26,800
همچنین می تواند چیزها را به پایین جمع کند
1594
00:48:26,800 –> 00:48:30,400
سطح منحصر به فرد را درست کنید
1595
00:48:30,400 –> 00:48:33,119
که از داده ها به داده های مرتب می رود
1596
00:48:33,119 –> 00:48:34,079
هر گونه سوال وجود دارد
1597
00:48:34,079 –> 00:48:49,839
روی این چیزها
1598
00:48:55,599 –> 00:48:58,079
در مرحله بعد ما داده های مرتبی داریم که باید آنها را دریافت کنیم
1599
00:48:58,079 –> 00:49:00,160
آماده برای تجزیه و تحلیل ما زمانی که ما مرتب شد
1600
00:49:00,160 –> 00:49:01,839
داده هایی که معمولاً پایان کار نیستند
1601
00:49:01,839 –> 00:49:03,599
هنوز هم معمولاً مقدار کمی وجود دارد
1602
00:49:03,599 –> 00:49:04,160
کار کردن
1603
00:49:04,160 –> 00:49:07,520
برای رفتن پس آه ما بعدی خود را داریم
1604
00:49:07,520 –> 00:49:08,960
مجموعه داده های مرتب با یک ستون در هر
1605
00:49:08,960 –> 00:49:10,559
متغیر یک ردیف برای مشاهده ما می دانیم
1606
00:49:10,559 –> 00:49:12,000
سطح مشاهده ما چقدر است
1607
00:49:12,000 –> 00:49:13,359
ادغام در هر چیزی که ما نیاز به ادغام داشته باشیم
1608
00:49:13,359 –> 00:49:15,040
ما هر آنچه را که نیاز داریم روی هم چیده ایم
1609
00:49:15,040 –> 00:49:16,800
اما هنوز باید همه چیز را آماده کنیم
1610
00:49:16,800 –> 00:49:18,240
برای تحلیل ما
1611
00:49:18,240 –> 00:49:20,880
چه کاری می توانیم انجام دهیم اینقدر چیزهایی که ما
1612
00:49:20,880 –> 00:49:21,920
می تواند اولین کار را انجام دهد
1613
00:49:21,920 –> 00:49:23,920
ما می توانیم در مورد انجام فیلتر کردن فکر کنیم
1614
00:49:23,920 –> 00:49:25,760
فیلتر کردن فرآیند چیدن است
1615
00:49:25,760 –> 00:49:27,119
ردیف های خاص
1616
00:49:27,119 –> 00:49:28,640
از داده های شما فقط ممکن است بخواهید
1617
00:49:28,640 –> 00:49:30,640
تجزیه و تحلیل خود را بر روی یک زیر مجموعه انجام دهید
1618
00:49:30,640 –> 00:49:32,400
از داده های شما و بنابراین فیلتر کردن خوب است
1619
00:49:32,400 –> 00:49:34,079
راهی برای انجام آن
1620
00:49:34,079 –> 00:49:36,160
بنابراین برای مثال اگر از شرط استفاده کنید
1621
00:49:36,160 –> 00:49:38,000
درآمد بالای 100000
1622
00:49:38,000 –> 00:49:40,160
اوه این برای هر کسی که صادق خواهد بود
1623
00:49:40,160 –> 00:49:41,839
درآمد بالای 100000 است و بنابراین من توانستم
1624
00:49:41,839 –> 00:49:44,720
فیلتر درآمد بالای 100000
1625
00:49:44,720 –> 00:49:47,440
تا یک مجموعه داده جدید به ما بدهد که فقط
1626
00:49:47,440 –> 00:49:48,720
افرادی با آن بالا دارد
1627
00:49:48,720 –> 00:49:50,800
درآمد دو راه اصلی وجود دارد
1628
00:49:50,800 –> 00:49:51,839
تعداد راه های مختلف برای انجام این کار
1629
00:49:51,839 –> 00:49:52,880
دو راه اصلی برای انجام این کار وجود دارد
1630
00:49:52,880 –> 00:49:55,280
pandas one query و یکی loc است
1631
00:49:55,280 –> 00:49:58,480
اوم خیلی آه پس اینجا من با هم ادغام شدم
1632
00:49:58,480 –> 00:49:59,599
آن اطلاعات کامل شخص
1633
00:49:59,599 –> 00:50:01,119
در اینجا درست این همان ادغام است
1634
00:50:01,119 –> 00:50:03,520
قبلا داشتیم ولی من میخوام فیلترش کنم
1635
00:50:03,520 –> 00:50:04,960
فقط داشتن افرادی با درآمد بالاتر از الف
1636
00:50:04,960 –> 00:50:05,839
صدهزار
1637
00:50:05,839 –> 00:50:08,319
بنابراین من می خواهم از پرس و جو نقطه ای با من استفاده کنم
1638
00:50:08,319 –> 00:50:09,119
مجموعه داده
1639
00:50:09,119 –> 00:50:11,040
و من درآمد پرس و جو را به آن می دهم
1640
00:50:11,040 –> 00:50:12,240
بالای صد هزار است
1641
00:50:12,240 –> 00:50:13,760
درست است، بنابراین این یکی از راه هایی است که می توانید انجام دهید
1642
00:50:13,760 –> 00:50:15,200
چیزهایی که من فقط آن را در شرایط تغذیه می کنم
1643
00:50:15,200 –> 00:50:16,400
که من به دنبال آن هستم
1644
00:50:16,400 –> 00:50:18,800
و آن را به من پس خواهد داد
1645
00:50:18,800 –> 00:50:19,680
ردیف درست است
1646
00:50:19,680 –> 00:50:21,119
اوه رامش اگر به یاد داشته باشید فقط داشت
1647
00:50:21,119 –> 00:50:22,640
درآمد در حدود 80000 چیزی شبیه به
1648
00:50:22,640 –> 00:50:23,200
که
1649
00:50:23,200 –> 00:50:26,480
رامش دیگر اینجا نیست
1650
00:50:26,480 –> 00:50:29,760
اوه، آیا من یک مشاهده محلی ندارم
1651
00:50:29,760 –> 00:50:33,520
به عنوان مثال چه اتفاقی برای کم آه این
1652
00:50:33,520 –> 00:50:34,880
قبلا دو اسلاید بود اما شد
1653
00:50:34,880 –> 00:50:38,160
شما می توانید به همین ترتیب این کار را انجام دهید
1654
00:50:38,160 –> 00:50:38,960
با loc
1655
00:50:38,960 –> 00:50:40,720
اوه جایی که شما فقط شرایط را تغذیه می کنید
1656
00:50:40,720 –> 00:50:42,960
به محل
1657
00:50:42,960 –> 00:50:46,880
براکت وجود دارد این به ما متکی است
1658
00:50:46,880 –> 00:50:48,880
قادر به ساختن شرایط منطقی
1659
00:50:48,880 –> 00:50:50,160
همه چیز در مورد فیلترینگ است
1660
00:50:50,160 –> 00:50:52,319
بررسی اینکه آیا ردیف بالا را می شناسید
1661
00:50:52,319 –> 00:50:53,760
برخی از شرایط را برآورده می کند و سپس
1662
00:50:53,760 –> 00:50:55,520
نگه داشتن آن بر این اساس
1663
00:50:55,520 –> 00:50:58,160
اوه می دانید پایتون به طور کلی مبتنی است
1664
00:50:58,160 –> 00:50:59,200
اطراف
1665
00:50:59,200 –> 00:51:00,559
با فرض این که اولین راهی که شما هستید
1666
00:51:00,559 –> 00:51:02,480
شما می خواهید یک داده را فیلتر کنید
1667
00:51:02,480 –> 00:51:03,280
قطعی دادن به آن
1668
00:51:03,280 –> 00:51:06,800
اعداد شاخص ام که اغلب در داده ها هستند
1669
00:51:06,800 –> 00:51:08,240
تجزیه و تحلیل نیست
1670
00:51:08,240 –> 00:51:09,440
راهی که شما کارها را درست انجام می دهید
1671
00:51:09,440 –> 00:51:11,040
در تجزیه و تحلیل داده ها به ندرت چنین است
1672
00:51:11,040 –> 00:51:12,559
خوب من می خواهم تحلیل خود را روی ردیف ها انجام دهم
1673
00:51:12,559 –> 00:51:14,319
200 تا 300 درسته
1674
00:51:14,319 –> 00:51:15,760
به طور کلی داده ها فقط اینطور نیستند
1675
00:51:15,760 –> 00:51:17,760
در عوض ساختاری دارد
1676
00:51:17,760 –> 00:51:19,040
به شرطی
1677
00:51:19,040 –> 00:51:20,960
اوم پس می خواهید بدانید که چگونه بسازید
1678
00:51:20,960 –> 00:51:22,800
آن شرایط در پایتون
1679
00:51:22,800 –> 00:51:24,400
شما می توانید به آن یک شرط منطقی بدهید اگر
1680
00:51:24,400 –> 00:51:26,319
درست است که حقیقت را به شما می دهد
1681
00:51:26,319 –> 00:51:27,839
که آن هم یکی است اگر بخواهید یک
1682
00:51:27,839 –> 00:51:29,280
اگر نادرست است با آن محاسبه کنید
1683
00:51:29,280 –> 00:51:30,400
به شما کاذب می دهد یا
1684
00:51:30,400 –> 00:51:32,559
صفر تعدادی نکته برای آن وجود دارد
1685
00:51:32,559 –> 00:51:34,480
ساختن شرایط منطقی
1686
00:51:34,480 –> 00:51:35,760
اگر دو عدد دارید که می خواهید
1687
00:51:35,760 –> 00:51:37,359
درست مقایسه کنید احتمالا این کار را کرده اید
1688
00:51:37,359 –> 00:51:38,079
قبل از
1689
00:51:38,079 –> 00:51:40,079
راست بررسی کنید که آیا a بزرگتر از b یا است
1690
00:51:40,079 –> 00:51:42,079
بزرگتر یا مساوی یا کمتر از یا
1691
00:51:42,079 –> 00:51:43,440
کمتر یا مساوی
1692
00:51:43,440 –> 00:51:44,720
می توانید از علامت مساوی دو برابر استفاده کنید
1693
00:51:44,720 –> 00:51:46,640
بررسی کنید که آیا آنها برابر هستند
1694
00:51:46,640 –> 00:51:48,319
در پایتون مانند بسیاری از برنامه نویسی ها
1695
00:51:48,319 –> 00:51:50,960
زبانها علامت مساوی دوتایی بررسی میشود
1696
00:51:50,960 –> 00:51:51,920
اگر چیزی هست
1697
00:51:51,920 –> 00:51:53,920
برابر در حالی که یک علامت مساوی واحد خواهد بود
1698
00:51:53,920 –> 00:51:54,960
برای تخصیص استفاده شود
1699
00:51:54,960 –> 00:51:56,319
چیزی درست است، بنابراین اگر می دانید که هستید
1700
00:51:56,319 –> 00:51:58,880
در حال انجام دادن
1701
00:51:58,880 –> 00:52:00,079
خدایا این نوار زوم مانع می شود
1702
00:52:00,079 –> 00:52:02,480
اینطور نیست
1703
00:52:02,559 –> 00:52:05,040
شما می دانید uh a برابر است با یک درست این است
1704
00:52:05,040 –> 00:52:05,599
اراده
1705
00:52:05,599 –> 00:52:08,319
شیء a برابر با یک a ایجاد کنید
1706
00:52:08,319 –> 00:52:10,240
دو برابر یک است، بررسی می کنیم که آیا a
1707
00:52:10,240 –> 00:52:11,520
در واقع برابر است با یکی که هست
1708
00:52:11,520 –> 00:52:15,200
چون من فقط آن را برابر یک کردم
1709
00:52:16,880 –> 00:52:18,880
من همچنین می توانم از علامت تعجب uh استفاده کنم
1710
00:52:18,880 –> 00:52:20,880
برای بررسی اینکه آیا چیزها درست نیستند یک است
1711
00:52:20,880 –> 00:52:23,359
نه مساوی با یک نه چون مساوی است
1712
00:52:23,359 –> 00:52:24,400
به یکی پس اینطور نیست
1713
00:52:24,400 –> 00:52:28,240
برابر با یک اوه شما همچنین نمی توانید انجام دهید
1714
00:52:28,240 –> 00:52:31,760
یک برابر که ما هم همین کار را خواهیم کرد
1715
00:52:31,760 –> 00:52:33,280
چیز
1716
00:52:33,280 –> 00:52:34,880
گره کمی انعطاف پذیرتر است زیرا شما
1717
00:52:34,880 –> 00:52:36,720
می توانید از آن برای چیزهایی که نیست استفاده کنید
1718
00:52:36,720 –> 00:52:37,920
دو برابر درست است این فقط اگر را بررسی می کند
1719
00:52:37,920 –> 00:52:39,599
چیزی برابر نیست اما شما نیز می توانید
1720
00:52:39,599 –> 00:52:40,480
کاری شبیه است انجام دهید
1721
00:52:40,480 –> 00:52:43,920
یک اوه بزرگتر از سه می دانم که این است
1722
00:52:43,920 –> 00:52:45,200
بیشتر از سه نیست
1723
00:52:45,200 –> 00:52:48,480
درست است پس این باید نادرست باشد که
1724
00:52:48,480 –> 00:52:49,440
باعث نمی شود این
1725
00:52:49,440 –> 00:52:52,800
درست است و ما درست پیش می رویم
1726
00:52:52,800 –> 00:52:53,760
بنابراین فکر کردن از طریق آن نوع
1727
00:52:53,760 –> 00:52:56,960
شرایط منطقی مفید است
1728
00:52:56,960 –> 00:52:59,440
راه های خوب به راه های خوب دیگر می تواند
1729
00:52:59,440 –> 00:53:00,640
شرایط منطقی که
1730
00:53:00,640 –> 00:53:02,079
معمولاً هنگام انجام داده ها ظاهر می شود
1731
00:53:02,079 –> 00:53:04,480
تجزیه و تحلیل بررسی اینکه آیا چیزی در آن وجود دارد یا خیر
1732
00:53:04,480 –> 00:53:07,040
یک لیست اوه که مقداری r باقیمانده است
1733
00:53:07,040 –> 00:53:07,839
کد نیز
1734
00:53:07,839 –> 00:53:09,760
این باید فقط یک براکت معمولی باشد
1735
00:53:09,760 –> 00:53:12,559
سبک پایتون
1736
00:53:12,720 –> 00:53:14,960
شما می توانید بررسی کنید که آیا a در مجموعه ای از وجود دارد یا خیر
1737
00:53:14,960 –> 00:53:17,440
ارزش های
1738
00:53:17,760 –> 00:53:20,800
همینطور یک in
1739
00:53:20,800 –> 00:53:24,240
اوه یک دو سه چهار پنج
1740
00:53:24,240 –> 00:53:25,920
بله به این دلیل است که یکی است و آن در است
1741
00:53:25,920 –> 00:53:28,319
آن لیست در آن است
1742
00:53:28,319 –> 00:53:31,440
دو سه چهار پنج شماره
1743
00:53:31,440 –> 00:53:33,599
این می تواند مفید باشد و برای آن نیز کار می کند
1744
00:53:33,599 –> 00:53:35,119
چیزهایی مانند رشته
1745
00:53:35,119 –> 00:53:38,480
حرف a در a است
1746
00:53:38,480 –> 00:53:43,839
b c بله همینطور است
1747
00:53:46,960 –> 00:53:50,319
اوم آره ام
1748
00:53:50,319 –> 00:53:51,440
می توانید یک not را در مقابل a قرار دهید
1749
00:53:51,440 –> 00:53:53,119
شرط معکوس کردن آن تا دو به علاوه دو
1750
00:53:53,119 –> 00:53:54,800
دو برابر چهار درست است اما
1751
00:53:54,800 –> 00:53:56,880
این دروغ نیست، شما همچنین می توانید زنجیر کنید
1752
00:53:56,880 –> 00:53:58,240
شرایط متعدد با هم که است
1753
00:53:58,240 –> 00:53:59,200
مفید است اگر چیزی دارید می دانید
1754
00:53:59,200 –> 00:54:01,119
که بر اساس متغیرهای متعدد است
1755
00:54:01,119 –> 00:54:03,760
در مجموعه داده های شما با استفاده از و یا یا به عنوان
1756
00:54:03,760 –> 00:54:04,880
شما انتظار دارید
1757
00:54:04,880 –> 00:54:06,079
اگر قرار است چندتایی را زنجیره کنید
1758
00:54:06,079 –> 00:54:07,440
شرایط را با هم توصیه می کنم
1759
00:54:07,440 –> 00:54:09,040
همه چیز را در پرانتز به
1760
00:54:09,040 –> 00:54:10,000
اجتناب کردن
1761
00:54:10,000 –> 00:54:13,280
خطاها برای مثال می دانید
1762
00:54:13,280 –> 00:54:17,200
من می خواهم بررسی کنم که آیا a در این uh و وجود دارد
1763
00:54:17,200 –> 00:54:19,680
من همچنین می خواهم بررسی کنم که آیا عدد a است یا خیر
1764
00:54:19,680 –> 00:54:20,800
که در
1765
00:54:20,800 –> 00:54:23,440
2 3 4 درست است اگر من این کار را انجام می دهم
1766
00:54:23,440 –> 00:54:25,040
احتمالاً می خواهید هر دوی آنها را در آن بپیچید
1767
00:54:25,040 –> 00:54:26,559
پرانتز فقط برای اطمینان از آن
1768
00:54:26,559 –> 00:54:28,400
همه چیز را به درستی اشتباه نمی گیرد
1769
00:54:28,400 –> 00:54:29,680
شما می دانید در این مورد آن را نمی خواهد
1770
00:54:29,680 –> 00:54:31,680
گیج شد خوب بود
1771
00:54:31,680 –> 00:54:35,680
اما بیایید بگوییم که من انجام می دادم اوه می دانید
1772
00:54:35,680 –> 00:54:37,119
نمی دانم راه های خاصی وجود دارد
1773
00:54:37,119 –> 00:54:38,880
که می توانید در نهایت آن را گیج کنید
1774
00:54:38,880 –> 00:54:39,599
و در نهایت مانند
1775
00:54:39,599 –> 00:54:41,760
این بخش به عنوان بخشی از بررسی می شود
1776
00:54:41,760 –> 00:54:42,960
این شرایط
1777
00:54:42,960 –> 00:54:44,799
شما می خواهید از آن اجتناب کنید فقط واضح است
1778
00:54:44,799 –> 00:54:46,799
بدانید از پرانتز استفاده کنید تا همه چیز تمام شود
1779
00:54:46,799 –> 00:54:49,680
خیلی خوبه که بریم
1780
00:54:51,200 –> 00:54:53,359
خوب است که در حال بررسی ردیف ها است
1781
00:54:53,359 –> 00:54:55,040
یک شرط منطقی بسازید
1782
00:54:55,040 –> 00:54:57,599
آن را در یک پرس و جو یا یک loc قرار دهید و آن را انجام خواهد داد
1783
00:54:57,599 –> 00:54:59,520
فقط ردیف هایی را که رضایت می دهد به ما برگردانید
1784
00:54:59,520 –> 00:55:00,559
آن شرط
1785
00:55:00,559 –> 00:55:03,119
همچنین ممکن است بخواهیم ستون ها را انتخاب کنیم
1786
00:55:03,119 –> 00:55:05,040
راه های زیادی برای انتخاب فقط یک زیر مجموعه از
1787
00:55:05,040 –> 00:55:06,880
ستون ها چرا ممکن است بخواهیم این کار را انجام دهیم
1788
00:55:06,880 –> 00:55:08,319
خوب شاید ما فقط از نگاه کردن خسته شده ایم
1789
00:55:08,319 –> 00:55:10,000
در آن اگر می خواهید مقداری فضا ذخیره کنید
1790
00:55:10,000 –> 00:55:11,520
شاید به معنای واقعی کلمه بی فایده باشد
1791
00:55:11,520 –> 00:55:13,119
این نقطه را می خواهید از شر آن خلاص شوید
1792
00:55:13,119 –> 00:55:15,119
می توانید از نمایه سازی استفاده کنید که می توانید از آن نیز استفاده کنید
1793
00:55:15,119 –> 00:55:16,720
تابع drop
1794
00:55:16,720 –> 00:55:19,680
برای خلاص شدن از شر ستون ها می توانید
1795
00:55:19,680 –> 00:55:20,000
همچنین
1796
00:55:20,000 –> 00:55:22,960
این کار را با شماره ستون با iloke for انجام دهید
1797
00:55:22,960 –> 00:55:23,520
ستون ها
1798
00:55:23,520 –> 00:55:25,280
و فقط ستون های خاصی را انتخاب می کند
1799
00:55:25,280 –> 00:55:27,599
داده ها برای شما
1800
00:55:27,599 –> 00:55:28,960
شما می توانید از drop استفاده کنید تا برخی را انتخاب نکنید
1801
00:55:28,960 –> 00:55:30,480
ستون هایی که صادقانه احتمالاً بیشتر است
1802
00:55:30,480 –> 00:55:31,839
به هر حال رایج است
1803
00:55:31,839 –> 00:55:33,520
اگر با یک مجموعه داده بزرگ کار می کنید
1804
00:55:33,520 –> 00:55:34,799
شما می دانید که می خواهید رها کنید
1805
00:55:34,799 –> 00:55:37,040
یک یا دو ستون نه
1806
00:55:37,040 –> 00:55:38,319
تمام ستون هایی را که می خواهید فهرست کنید
1807
00:55:38,319 –> 00:55:40,480
نگه دارید زیرا این لیست بسیار طولانی خواهد بود
1808
00:55:40,480 –> 00:55:42,079
بنابراین در اینجا یک مثال دیگر است بنابراین ما باید
1809
00:55:42,079 –> 00:55:43,680
داده های سال شخص ما
1810
00:55:43,680 –> 00:55:46,799
و من استفاده میکنم
1811
00:55:46,880 –> 00:55:48,400
دسته ای از روش های مختلف چیدن
1812
00:55:48,400 –> 00:55:50,480
فقط متغیرهای فرد و سال
1813
00:55:50,480 –> 00:55:52,079
خارج از مجموعه داده ای که سال شخص دارد
1814
00:55:52,079 –> 00:55:53,839
و درآمد، بنابراین یک کاری که می توانم انجام دهم این است
1815
00:55:53,839 –> 00:55:55,280
می توان از نام متغیرها استفاده کرد، بنابراین من اینجا هستم
1816
00:55:55,280 –> 00:55:56,160
تماس گرفت
1817
00:55:56,160 –> 00:55:58,640
آرایه ای از نام ستون هایی که من می گذرانم
1818
00:55:58,640 –> 00:55:59,280
که به
1819
00:55:59,280 –> 00:56:00,960
چارچوب داده من و آن را به من بدهد
1820
00:56:00,960 –> 00:56:02,640
فقط آن نام ستون ها را برگردانید
1821
00:56:02,640 –> 00:56:05,200
بعد عالی شاید سعی کنم
1822
00:56:05,200 –> 00:56:06,799
به جای اینکه شخص را در سالی که هستم نگه دارم
1823
00:56:06,799 –> 00:56:07,520
رها کردن
1824
00:56:07,520 –> 00:56:10,640
درآمد، بنابراین می توانم از drop برای کاهش درآمد استفاده کنم
1825
00:56:10,640 –> 00:56:14,079
در امتداد آن محور ستون می توانم از i نیز استفاده کنم
1826
00:56:14,079 –> 00:56:15,520
فقط نگاه کنید
1827
00:56:15,520 –> 00:56:18,079
ستون اول و دوم که از
1828
00:56:18,079 –> 00:56:19,839
دوره در این موقعیت های صفر و یک
1829
00:56:19,839 –> 00:56:21,119
بنابراین من آن را به من نگاه می کنم
1830
00:56:21,119 –> 00:56:22,559
فقط برای حفظ آن ستون هایی که می توانند
1831
00:56:22,559 –> 00:56:24,720
از شر سومی که درآمد است خلاص شوید
1832
00:56:24,720 –> 00:56:25,839
هر سه اینها متفاوت خواهند بود
1833
00:56:25,839 –> 00:56:30,079
روش های انتخاب ستون ها
1834
00:56:30,079 –> 00:56:32,400
یک چیز مفید دیگر مرتب کردن مقادیر است
1835
00:56:32,400 –> 00:56:34,960
uh sort values داده ها را مرتب می کند
1836
00:56:34,960 –> 00:56:36,319
این چیزی است که آن را با برخی از
1837
00:56:36,319 –> 00:56:37,520
نام ستون ها بر اساس آن ها مرتب می شود
1838
00:56:37,520 –> 00:56:38,160
ستون ها
1839
00:56:38,160 –> 00:56:39,440
اوه این می تواند در یک زوج مفید باشد
1840
00:56:39,440 –> 00:56:40,960
مکان های مختلف اغلب شما می خواهید
1841
00:56:40,960 –> 00:56:42,640
قبل از اینکه داده ها را ذخیره کنید، داده ها را مرتب کنید
1842
00:56:42,640 –> 00:56:44,400
کس دیگری برای نگاه کردن آن را آسان تر می کند
1843
00:56:44,400 –> 00:56:45,440
برای پیمایش
1844
00:56:45,440 –> 00:56:47,040
برخی از دستکاری داده ها نیز وجود دارد
1845
00:56:47,040 –> 00:56:48,160
ترفندهایی که در ادامه درباره آنها صحبت خواهیم کرد
1846
00:56:48,160 –> 00:56:49,280
که تکیه می کنند
1847
00:56:49,280 –> 00:56:51,599
دانستن اینکه کجا در داده ها به طور خاص است
1848
00:56:51,599 –> 00:56:52,400
ردیف ها هستند
1849
00:56:52,400 –> 00:56:54,240
بنابراین می توانید از مقادیر مرتب سازی برای قرار دادن آنها استفاده کنید
1850
00:56:54,240 –> 00:56:58,640
ردیف هایی که می خواهید در آن قرار بگیرند
1851
00:56:58,640 –> 00:57:00,079
هر گونه سوال در مورد آن چیزهای اول
1852
00:57:00,079 –> 00:57:12,000
قبل از اینکه به تخصیص متغیرها بپردازیم
1853
00:57:12,000 –> 00:57:15,040
خیلی خوب در داده ها خیلی خوب است
1854
00:57:15,040 –> 00:57:17,280
تجزیه و تحلیل ما می خواهیم برای تخصیص جدید
1855
00:57:17,280 –> 00:57:20,079
نام ستون یا متغیر uh یا رونویسی کنید
1856
00:57:20,079 –> 00:57:21,680
آنهایی که قبلاً داریم
1857
00:57:21,680 –> 00:57:23,920
اوه این خیلی ساده است درست است
1858
00:57:23,920 –> 00:57:25,839
بنابراین من می توانم یک متغیر جدید ایجاد کنم
1859
00:57:25,839 –> 00:57:26,960
مجموعه داده های من
1860
00:57:26,960 –> 00:57:28,480
متغیر جدید من را بساز فقط آن را به آن اضافه کن
1861
00:57:28,480 –> 00:57:30,079
در داخل پرانتز بگو که من چه می خواهم
1862
00:57:30,079 –> 00:57:31,200
بودن
1863
00:57:31,200 –> 00:57:33,119
و سپس آن را به هر چیزی که من اختصاص دهید
1864
00:57:33,119 –> 00:57:34,799
می خواستم اینجا سال بعد است
1865
00:57:34,799 –> 00:57:36,319
من فقط یک سال را می گیرم و یکی را اضافه می کنم
1866
00:57:36,319 –> 00:57:37,200
به آن
1867
00:57:37,200 –> 00:57:40,000
easy در اینجا یک متغیر است که آن را بررسی می کند
1868
00:57:40,000 –> 00:57:40,400
است
1869
00:57:40,400 –> 00:57:41,920
به جای فیلتر کردن اینکه آیا کسی
1870
00:57:41,920 –> 00:57:43,440
درآمد بالای صد هزار دارد
1871
00:57:43,440 –> 00:57:44,640
من فقط قصد دارم یک متغیر ایجاد کنم که
1872
00:57:44,640 –> 00:57:47,040
نشان می دهد که آیا آنها چنین هستند
1873
00:57:47,040 –> 00:57:48,799
در اینجا شرایط منطقی من است که می خواهم
1874
00:57:48,799 –> 00:57:50,079
درآمد هر فرد را بررسی کنید تا ببینید آیا
1875
00:57:50,079 –> 00:57:51,200
بالای 100000 هست
1876
00:57:51,200 –> 00:57:53,359
و سپس آن اطلاعات را به عنوان جدید ذخیره کنید
1877
00:57:53,359 –> 00:57:54,880
ردیف سمت راست، بنابراین من تمام اطلاعات خود را دارم
1878
00:57:54,880 –> 00:57:55,599
اینجا
1879
00:57:55,599 –> 00:57:58,319
آن بخش به اندازه کافی ساده است
1880
00:57:58,319 –> 00:57:59,839
یه سری چیزا هست که سخت میشه
1881
00:57:59,839 –> 00:58:01,440
اوه زمانی که شما در حال انجام برخی از داده ها هستید
1882
00:58:01,440 –> 00:58:03,200
در حال تلاش برای اختصاص ستون های جدید
1883
00:58:03,200 –> 00:58:04,880
اوه یکی زمانی است که می خواهید یک را ایجاد کنید
1884
00:58:04,880 –> 00:58:06,400
متغیر طبقه بندی به عنوان مثال
1885
00:58:06,400 –> 00:58:08,880
شاید شما می خواهید به یک مداوم
1886
00:58:08,880 –> 00:58:09,839
متغیری که دارای مقدار زیادی از
1887
00:58:09,839 –> 00:58:10,559
ارزش های مختلف
1888
00:58:10,559 –> 00:58:12,480
و سپس به نوعی آن را در مقداری مخزن کنید
1889
00:58:12,480 –> 00:58:14,160
دسته بندی ها
1890
00:58:14,160 –> 00:58:16,880
شما می توانید از loc برای به روز رسانی برخی از ردیف ها استفاده کنید
1891
00:58:16,880 –> 00:58:18,400
از داده های خود که می توانید از آنها استفاده کنید
1892
00:58:18,400 –> 00:58:20,000
متغیر طبقه بندی خود را ایجاد کنید
1893
00:58:20,000 –> 00:58:22,799
بر اساس برخی شرایط این است
1894
00:58:22,799 –> 00:58:24,720
به نام ماسک بولی جایی که ما هستیم
1895
00:58:24,720 –> 00:58:27,520
با استفاده از یک شرط منطقی یا یک بولی
1896
00:58:27,520 –> 00:58:29,359
فقط روی برخی از ردیف ها تأثیر بگذارد
1897
00:58:29,359 –> 00:58:33,119
در یک زمان ام، بنابراین من قصد دارم از بین استفاده کنم
1898
00:58:33,119 –> 00:58:34,720
برای بررسی اینکه آیا یک متغیر a را می گیرد یا خیر
1899
00:58:34,720 –> 00:58:35,680
مقدار معینی بین
1900
00:58:35,680 –> 00:58:37,440
مقادیر معینی و من می خواهم a را اختصاص دهم
1901
00:58:37,440 –> 00:58:38,960
متغیر طبقه بندی بر اساس آن
1902
00:58:38,960 –> 00:58:40,240
بر اساس درآمد، پس من چه کار می کنم
1903
00:58:40,240 –> 00:58:42,319
در اینجا بنابراین من می خواهم شروع کنم
1904
00:58:42,319 –> 00:58:43,760
من قصد دارم یک گروه درآمد ایجاد کنم
1905
00:58:43,760 –> 00:58:45,599
متغیر بر اساس درآمد
1906
00:58:45,599 –> 00:58:46,640
من می خواهم با اختصاص دادن شروع کنم
1907
00:58:46,640 –> 00:58:48,480
همه زیر 50 هزار باشند درست است
1908
00:58:48,480 –> 00:58:49,440
فقط شروع
1909
00:58:49,440 –> 00:58:50,960
اساس درست وجود دارد و سپس ما می خواهیم
1910
00:58:50,960 –> 00:58:52,799
همانطور که آن افراد را می یابیم، آن را اصلاح کنیم
1911
00:58:52,799 –> 00:58:55,359
در واقع درآمدهای بالای 50 هزار نفر دارند
1912
00:58:55,359 –> 00:58:56,240
اولین کاری که قرار است انجام دهم
1913
00:58:56,240 –> 00:58:58,400
آیا من از loc برای تغییر استفاده خواهم کرد
1914
00:58:58,400 –> 00:58:59,599
درآمد
1915
00:58:59,599 –> 00:59:01,680
متغیر دسته درآمدی برای افراد دارند
1916
00:59:01,680 –> 00:59:03,040
درآمد بین 500
1917
00:59:03,040 –> 00:59:06,720
500 50 000 1 و 100 000. بنابراین اینجاست
1918
00:59:06,720 –> 00:59:08,160
شرطی که من می خواهم از این استفاده کنم
1919
00:59:08,160 –> 00:59:10,240
بین شرط بررسی می کند که آیا هر کدام
1920
00:59:10,240 –> 00:59:13,119
مشاهده درآمد درست در اینجا است
1921
00:59:13,119 –> 00:59:14,079
داده
1922
00:59:14,079 –> 00:59:16,079
اگر این متغیر درآمد را بررسی کنید
1923
00:59:16,079 –> 00:59:17,440
متغیر بین است
1924
00:59:17,440 –> 00:59:19,760
این دو عدد را اگر درست است به من بدهید
1925
00:59:19,760 –> 00:59:21,760
اگر آن را به من دروغ است
1926
00:59:21,760 –> 00:59:23,280
من درست و نادرست را می گذرانم
1927
00:59:23,280 –> 00:59:25,119
مکان یابی
1928
00:59:25,119 –> 00:59:27,599
که پس از آن فقط به من پس خواهد داد
1929
00:59:27,599 –> 00:59:29,280
حقایق پس به عبارت دیگر درست خواهد بود
1930
00:59:29,280 –> 00:59:31,040
درآمدهای بین من را پس بده
1931
00:59:31,040 –> 00:59:34,240
اوه 550 50 000 1 و 100 000 و خواهد شد
1932
00:59:34,240 –> 00:59:35,680
به طور خاص روی درآمد کار کنید
1933
00:59:35,680 –> 00:59:37,040
متغیر براکتی که قرار است اختصاص دهم
1934
00:59:37,040 –> 00:59:38,799
که بین 50 تا 100 باشد
1935
00:59:38,799 –> 00:59:41,040
دسته من هم همین کار را خواهم کرد
1936
00:59:41,040 –> 00:59:42,559
چهارصد هزار صد
1937
00:59:42,559 –> 00:59:44,720
صد هزار و دویست
1938
00:59:44,720 –> 00:59:47,200
بیست نفر دقیقاً همین کار را می کنند
1939
00:59:47,200 –> 00:59:50,480
اوه و بعد به جای اینکه مجبور بشی
1940
00:59:50,480 –> 00:59:51,520
استفاده از بین من فقط می خواهم بررسی کنم که آیا
1941
00:59:51,520 –> 00:59:53,359
شما بالای 120000 هستید
1942
00:59:53,359 –> 00:59:54,880
اوه اگر شما هستید من درآمد شما را می گیرم
1943
00:59:54,880 –> 00:59:56,240
متغیر براکت و آن را روی بالاتر قرار دهید
1944
00:59:56,240 –> 00:59:57,280
120000.
1945
00:59:57,280 –> 00:59:59,680
خیلی خوب پس من به این موضوع رفتم
1946
00:59:59,680 –> 01:00:00,400
مورد
1947
01:00:00,400 –> 01:00:02,079
و من ردیف هایی را که تنظیم کرده ام
1948
01:00:02,079 –> 01:00:04,079
برای پر کردن آنها در هر مورد اعمال می شود
1949
01:00:04,079 –> 01:00:05,119
با دسته
1950
01:00:05,119 –> 01:00:08,319
که من می خواهم آنها را به آنها اختصاص دهم
1951
01:00:08,319 –> 01:00:10,400
و ما در نهایت به آه پرانتز خود می رسیم
1952
01:00:10,400 –> 01:00:15,119
متغیر درآمد وجود دارد
1953
01:00:15,119 –> 01:00:16,960
اوم می توانید متوجه شوید که اینطور نیست
1954
01:00:16,960 –> 01:00:18,480
لزوما باید یک ارزش باشد پس چه
1955
01:00:18,480 –> 01:00:19,520
متوجه خواهید شد که ما چه بودیم
1956
01:00:19,520 –> 01:00:21,119
انجام این است که ما مورد به مورد پیش می رفتیم و
1957
01:00:21,119 –> 01:00:22,720
سپس یک مقدار را اختصاص دهید
1958
01:00:22,720 –> 01:00:24,799
به یک ستون سمت راست، لازم نیست که باشد
1959
01:00:24,799 –> 01:00:26,240
یک مقدار نیز می تواند یک محاسبه باشد
1960
01:00:26,240 –> 01:00:27,680
شاید بخواهید یک مورد خاص را محاسبه کنید
1961
01:00:27,680 –> 01:00:28,079
متغیر
1962
01:00:28,079 –> 01:00:29,839
متفاوت برای افراد مختلف در
1963
01:00:29,839 –> 01:00:33,520
داده ها، به عنوان مثال، فرض کنید می خواهم
1964
01:00:33,520 –> 01:00:36,160
تورم اعداد درآمد من را به خوبی تنظیم می کند
1965
01:00:36,160 –> 01:00:37,119
من می خواهم
1966
01:00:37,119 –> 01:00:40,559
درآمد را تنظیم کنید اما فقط برای سال 2014
1967
01:00:40,559 –> 01:00:42,720
مشاهدات درست است اگر من برای 2015 بروم
1968
01:00:42,720 –> 01:00:44,960
دلار آن تاریخ در حال حاضر خوب است
1969
01:00:44,960 –> 01:00:46,799
اوه پس من فقط می توانم آن را همانطور که هستم بگذارم
1970
01:00:46,799 –> 01:00:48,559
می خواهید محاسبه را تنظیم کنید
1971
01:00:48,559 –> 01:00:50,799
برای سال 2014. بنابراین من می خواهم از آن استفاده کنم
1972
01:00:50,799 –> 01:00:52,400
همان رویکرد ماسک بولی
1973
01:00:52,400 –> 01:00:54,480
من می خواهم بررسی کنم که آیا سال شما 2014 است یا خیر.
1974
01:00:54,480 –> 01:00:56,400
اگر قرار است بگیرم، می روم
1975
01:00:56,400 –> 01:00:58,240
روی درآمد تعدیل شده با تورم خود کار کنید
1976
01:00:58,240 –> 01:01:00,559
و سپس ستاره در اینجا برابر است
1977
01:01:00,559 –> 01:01:02,960
که در حال گرفتن مقدار اصلی و
1978
01:01:02,960 –> 01:01:04,920
ضرب آن در 0.00
1979
01:01:04,920 –> 01:01:10,319
1.001 به تعدیل تورم
1980
01:01:10,319 –> 01:01:11,520
همچنین می توانید هر زمان که بخواهید از آن استفاده کنید
1981
01:01:11,520 –> 01:01:13,599
فقط برای تنظیم برخی از مشاهدات
1982
01:01:13,599 –> 01:01:15,920
در آنجا
1983
01:01:16,799 –> 01:01:18,400
بسیار خوب چیز بعدی که وارد می شود
1984
01:01:18,400 –> 01:01:20,720
هنگام ایجاد متغیرهای جدید مفید است
1985
01:01:20,720 –> 01:01:23,839
گروه بر حسب تابع کاری است که این کار انجام می دهد
1986
01:01:23,839 –> 01:01:25,760
این است که داده ها را به داده های گروه بندی شده تبدیل می کند
1987
01:01:25,760 –> 01:01:26,319
تنظیم
1988
01:01:26,319 –> 01:01:28,079
کاری که این به طور موثر انجام می دهد همان است
1989
01:01:28,079 –> 01:01:29,680
می گوید خوب ما یک مجموعه داده داریم
1990
01:01:29,680 –> 01:01:30,880
و یک دسته از گروه های مختلف وجود دارد
1991
01:01:30,880 –> 01:01:32,960
در آن و هر آنچه که شما می خواهید
1992
01:01:32,960 –> 01:01:34,960
یک محاسبه انجام دهید که می گویند خلاصه می کند
1993
01:01:34,960 –> 01:01:36,799
برخی از داده های این گروه
1994
01:01:36,799 –> 01:01:38,640
من می خواهم آن را به طور جداگانه برای هر یک انجام دهم
1995
01:01:38,640 –> 01:01:40,240
گروه این چیزی است که من می خواهم انجام دهم
1996
01:01:40,240 –> 01:01:42,400
من قصد دارم طوری رفتار کنم که انگار اینطور است
1997
01:01:42,400 –> 01:01:43,920
مجموعه داده ها تقسیم شده است
1998
01:01:43,920 –> 01:01:46,079
به یک دسته از مجموعه داده های مختلف یکی
1999
01:01:46,079 –> 01:01:47,839
برای هر ترکیبی از متغیرهای موجود در
2000
01:01:47,839 –> 01:01:48,400
گروه
2001
01:01:48,400 –> 01:01:51,680
توسط آرگومان یا گروه بر اساس تابع
2002
01:01:51,680 –> 01:01:53,520
اوه زمانی که ما داده های گروه بندی شده خود را داریم
2003
01:01:53,520 –> 01:01:55,119
یک زن و شوهر از توابع مختلف که
2004
01:01:55,119 –> 01:01:56,720
به کار می آید یکی دیگر را تبدیل می کند
2005
01:01:56,720 –> 01:01:58,000
یکی اضافه کردن است که ما در مورد آن صحبت خواهیم کرد
2006
01:01:58,000 –> 01:01:58,799
دومین
2007
01:01:58,799 –> 01:02:01,520
اوه که اساسا به شما اجازه می دهد
2008
01:02:01,520 –> 01:02:04,319
اینها را در محاسبات گروهی انجام دهید
2009
01:02:04,319 –> 01:02:05,839
بر اساس داده های گروه بندی شده، بنابراین در اینجا یک
2010
01:02:05,839 –> 01:02:08,000
به عنوان مثال، بیایید بگوییم من می خواهم بفهمم
2011
01:02:08,000 –> 01:02:08,720
بیرون باشه
2012
01:02:08,720 –> 01:02:10,480
من می دانم درآمد شما چقدر است و می خواهم
2013
01:02:10,480 –> 01:02:12,480
بدانید که آیا این درآمد را کم یا زیاد می کنید؟
2014
01:02:12,480 –> 01:02:14,160
سالی که شما معمولا انجام می دهید، بنابراین من می خواهم
2015
01:02:14,160 –> 01:02:15,200
درآمد خود را محاسبه کنید
2016
01:02:15,200 –> 01:02:18,079
نسبت به درآمد متوسط شما، بنابراین من نمی توانم
2017
01:02:18,079 –> 01:02:19,520
فقط درآمد خود را بردارید و از آن کم کنید
2018
01:02:19,520 –> 01:02:20,720
میانگین درآمد
2019
01:02:20,720 –> 01:02:23,119
چون اینطوری میشه
2020
01:02:23,119 –> 01:02:24,720
نسبت به میانگین همه
2021
01:02:24,720 –> 01:02:26,160
درست است و من آن را نمی خواهم که فقط می خواهم
2022
01:02:26,160 –> 01:02:28,160
نسبت به میانگین شما پس اگر بخواهم
2023
01:02:28,160 –> 01:02:29,760
میانگین خود را بدست آورید
2024
01:02:29,760 –> 01:02:32,799
من باید داده هایم را بگیرم و آنها را بر اساس گروه بندی کنم
2025
01:02:32,799 –> 01:02:34,480
شخص درست است بنابراین اینجا من یک نفر را دارم
2026
01:02:34,480 –> 01:02:36,400
داده های شما را به صورت شخصی گروه بندی می کنم
2027
01:02:36,400 –> 01:02:37,760
حالا که من یک محاسبه انجام می دهم، آن را انجام می دهد
2028
01:02:37,760 –> 01:02:38,319
برای انجام این
2029
01:02:38,319 –> 01:02:40,319
درون هر فردی که قرار است باشم
2030
01:02:40,319 –> 01:02:42,000
کار بر روی متغیر درآمد
2031
01:02:42,000 –> 01:02:43,599
من می خواهم از یک تبدیل متوسط استفاده کنم
2032
01:02:43,599 –> 01:02:45,599
برای محاسبه میانگین درآمد
2033
01:02:45,599 –> 01:02:47,839
برای هر فرد و من می روم
2034
01:02:47,839 –> 01:02:49,359
این را از درآمد اصلی کم کنید
2035
01:02:49,359 –> 01:02:51,200
متغیر تا بتوانم درآمد شما را بدست بیاورم
2036
01:02:51,200 –> 01:02:53,680
نسبت به میانگین درآمد شما در هر کدام
2037
01:02:53,680 –> 01:02:54,319
سال
2038
01:02:54,319 –> 01:02:57,760
باشه و می تونی از transform like استفاده کنی
2039
01:02:57,760 –> 01:02:58,559
این حق به
2040
01:02:58,559 –> 01:03:00,319
می دانید استفاده از تبدیل در اینجا است
2041
01:03:00,319 –> 01:03:01,920
مهم است زیرا به این معنی است که ما هنوز
2042
01:03:01,920 –> 01:03:02,799
اوه را داشته باش
2043
01:03:02,799 –> 01:03:05,039
به نوعی به درستی با
2044
01:03:05,039 –> 01:03:05,920
داده های اصلی
2045
01:03:05,920 –> 01:03:08,720
که ما می خواهیم و من فقط آن را دارم
2046
01:03:08,720 –> 01:03:10,160
تابعی که من آن را پاس می کنم در آن است
2047
01:03:10,160 –> 01:03:12,720
نقل قول در اینجا
2048
01:03:12,880 –> 01:03:15,839
پس چرا گروه توسط خوب مفید است اگر شما
2049
01:03:15,839 –> 01:03:16,240
انجام دادن
2050
01:03:16,240 –> 01:03:17,599
اگر شما بودید می تواند یک چیز باشد
2051
01:03:17,599 –> 01:03:18,640
تلاش برای انجام این نوع سطح گروهی
2052
01:03:18,640 –> 01:03:20,079
محاسباتی که من در قبلی بودم
2053
01:03:20,079 –> 01:03:21,839
اسلاید یکی از راه های واضحی است که می توانید از آن استفاده کنید
2054
01:03:21,839 –> 01:03:22,160
آی تی
2055
01:03:22,160 –> 01:03:23,599
اما به طور کلی می خواهید به کجا نگاه کنید
2056
01:03:23,599 –> 01:03:24,799
اطلاعات وجود دارد و در مورد آن فکر کنید
2057
01:03:24,799 –> 01:03:25,520
باید باشد
2058
01:03:25,520 –> 01:03:27,359
درست و هر زمان که بخواهید بگیرید
2059
01:03:27,359 –> 01:03:29,440
اطلاعات یک قسمت از یک شخص
2060
01:03:29,440 –> 01:03:31,039
داده و انتقال آن به دیگری
2061
01:03:31,039 –> 01:03:32,400
گروه بر اساس مهم خواهد بود
2062
01:03:32,400 –> 01:03:33,920
مطمئن شوید که فقط آن را جابجا می کنید
2063
01:03:33,920 –> 01:03:35,200
در درون آن شخص
2064
01:03:35,200 –> 01:03:38,720
بسیار خوب، همچنین می توان از گروه توسط استفاده کرد
2065
01:03:38,720 –> 01:03:40,400
سطح مشاهده را تغییر دهید
2066
01:03:40,400 –> 01:03:43,039
با add ag که مخفف aggregate است
2067
01:03:43,039 –> 01:03:43,440
اوه
2068
01:03:43,440 –> 01:03:45,520
فرآیندی برای گرفتن هر یک از آن ها است
2069
01:03:45,520 –> 01:03:46,559
مجموعه های داده فرض کنید
2070
01:03:46,559 –> 01:03:49,039
ما آن را به صورت شخصی انجام دادیم اما به جای
2071
01:03:49,039 –> 01:03:50,640
تلاش برای حفظ اصل
2072
01:03:50,640 –> 01:03:51,760
سطح مشاهده
2073
01:03:51,760 –> 01:03:54,160
همانطور که ما در آنجا بودیم، زمانی که این کار را انجام دادیم
2074
01:03:54,160 –> 01:03:56,000
درآمد شما نسبت به درآمد متوسط
2075
01:03:56,000 –> 01:03:57,920
ما هنوز یک مشاهده می خواستیم
2076
01:03:57,920 –> 01:03:59,200
فرد در سال
2077
01:03:59,200 –> 01:04:00,480
اما اگر بخواهم آن شخص را بگیرم چه می شود
2078
01:04:00,480 –> 01:04:02,240
داده های شما و تبدیل آن به یک شخص
2079
01:04:02,240 –> 01:04:02,960
مجموعه داده
2080
01:04:02,960 –> 01:04:05,039
درست است من می توانم از ag برای انجام آن گروه بندی استفاده کنم
2081
01:04:05,039 –> 01:04:07,200
توسط شخص و سپس انجام نوعی
2082
01:04:07,200 –> 01:04:09,680
اوه خلاصه آه محاسبه که به من می دهد
2083
01:04:09,680 –> 01:04:11,599
یک مشاهده برای هر نفر
2084
01:04:11,599 –> 01:04:13,280
من در نهایت با یک مجموعه داده که فقط
2085
01:04:13,280 –> 01:04:15,359
به ازای هر نفر من یک مشاهده دارد
2086
01:04:15,359 –> 01:04:17,119
سطح مشاهده را تغییر داد
2087
01:04:17,119 –> 01:04:20,400
از یک سال به یک نفر دیگر
2088
01:04:20,400 –> 01:04:22,319
اگر به هر حال یا یا هر کدام از آنها ag انجام می دهید
2089
01:04:22,319 –> 01:04:23,680
تعداد این تحولات به شما می دهد
2090
01:04:23,680 –> 01:04:24,960
تعداد سطرها در هر کدام
2091
01:04:24,960 –> 01:04:27,280
گروهی که اغلب مفید است
2092
01:04:27,280 –> 01:04:30,559
در اینجا یک مثال از ag در عمل آمده است
2093
01:04:30,559 –> 01:04:33,599
و بنابراین اوه یک ردیف در هر گروه بله خوب است
2094
01:04:33,599 –> 01:04:34,720
به هر فردی که در داده های شماست می روم
2095
01:04:34,720 –> 01:04:36,079
آن را به صورت شخصی گروه بندی کنید
2096
01:04:36,079 –> 01:04:37,680
من می خواهم به جمع آوری در اینجا است
2097
01:04:37,680 –> 01:04:39,039
تجمیع هایی که می خواهم انجام دهم
2098
01:04:39,039 –> 01:04:40,240
شما برای من یک متغیر به نام ایجاد کنید
2099
01:04:40,240 –> 01:04:42,240
درآمد که میانگین درآمد همه است
2100
01:04:42,240 –> 01:04:43,920
درست است من از شما می خواهم که درآمد من را بگیرید
2101
01:04:43,920 –> 01:04:44,640
متغیر
2102
01:04:44,640 –> 01:04:46,480
و به معنای آن را بگیرید بنابراین من می روم
2103
01:04:46,480 –> 01:04:47,839
میانگین هر یک را دریافت کنید
2104
01:04:47,839 –> 01:04:50,480
درآمد افراد در تمام سال ها
2105
01:04:50,480 –> 01:04:51,200
سپس
2106
01:04:51,200 –> 01:04:53,440
من فقط می خواهم بگویم شما چند بار
2107
01:04:53,440 –> 01:04:54,640
این شخص را ببینید
2108
01:04:54,640 –> 01:04:56,880
اوه فقط آنها را بشمار و چند تا
2109
01:04:56,880 –> 01:04:58,400
ردیف هایی که برای هر نفر داریم
2110
01:04:58,400 –> 01:05:00,480
اوه و سپس آه که به من هم می گوید
2111
01:05:00,480 –> 01:05:01,920
چیزی و من نام شخص را به آن تغییر می دهم
2112
01:05:01,920 –> 01:05:03,440
آهنگ های سال اکنون می دانم که چیست
2113
01:05:03,440 –> 01:05:04,880
متوسط درآمد هر فرد
2114
01:05:04,880 –> 01:05:06,240
و چند سال باید تماشا کنم
2115
01:05:06,240 –> 01:05:09,839
آنها این میانگین را به دست آورند
2116
01:05:11,280 –> 01:05:13,359
بسیار خوب این اصول اولیه رفتن است
2117
01:05:13,359 –> 01:05:16,240
از داده های مرتب گرفته تا داده های تجزیه و تحلیل ما
2118
01:05:16,240 –> 01:05:18,880
هر سوالی در این مورد وجود دارد
2119
01:05:18,880 –> 01:05:19,839
چیزهای بیشتری در معامله خواهد بود
2120
01:05:19,839 –> 01:05:21,280
با انواع متغیرهای خاص
2121
01:05:21,280 –> 01:05:22,880
در یک ثانیه اما این به نوعی است
2122
01:05:22,880 –> 01:05:24,160
اصول اولیه یا اینها ابزارهایی هستند که ما داریم
2123
01:05:24,160 –> 01:05:26,000
می تواند بسیار انعطاف پذیر استفاده کند
2124
01:05:26,000 –> 01:05:27,039
تقریباً هر چیز دیگری که می رویم
2125
01:05:27,039 –> 01:05:28,640
انجام جزئیات این است
2126
01:05:28,640 –> 01:05:29,920
ساختار کلی چیزی که می روید
2127
01:05:29,920 –> 01:05:37,839
تلاش برای انجام دادن
2128
01:05:49,920 –> 01:05:53,599
باشه پس همینه
2129
01:05:53,599 –> 01:05:54,640
ساختار کلی آنچه که خواهیم بود
2130
01:05:54,640 –> 01:05:56,160
تلاش می کنیم انجام دهیم که چگونه می توانیم واقعاً آن را انجام دهیم
2131
01:05:56,160 –> 01:05:57,599
دو متغیر خاص چگونه می توانیم
2132
01:05:57,599 –> 01:06:00,319
پاک کردن متغیرهای خاص
2133
01:06:00,319 –> 01:06:03,359
اوه خیلی ام
2134
01:06:03,359 –> 01:06:04,559
چگونه می توانیم متغیری را که هست بگیریم
2135
01:06:04,559 –> 01:06:06,480
در حال حاضر در یک مجموعه داده مرتب و شاید
2136
01:06:06,480 –> 01:06:07,839
حتی تقریباً در قالبی که ما نیاز داشتیم
2137
01:06:07,839 –> 01:06:09,119
برای تجزیه و تحلیل اما آن را به چیزی تبدیل کنید
2138
01:06:09,119 –> 01:06:10,720
ما در واقع می توانیم استفاده کنیم
2139
01:06:10,720 –> 01:06:11,839
تعداد زیادی متغیر مختلف وجود دارد
2140
01:06:11,839 –> 01:06:14,319
انواع مختلف عددی وجود دارد
2141
01:06:14,319 –> 01:06:15,680
انواع متغیرهای عددی مختلف
2142
01:06:15,680 –> 01:06:16,960
اوه متغیرهای رشته ای وجود دارد
2143
01:06:16,960 –> 01:06:18,079
متغیرهای طبقه بندی تاریخ وجود دارد
2144
01:06:18,079 –> 01:06:18,799
متغیرها
2145
01:06:18,799 –> 01:06:21,119
همه اینها کمی ظاهر می شوند و شما خواهید آمد
2146
01:06:21,119 –> 01:06:22,480
احتمالا با آنها برخورد کنید
2147
01:06:22,480 –> 01:06:23,920
کار با برخی از آنها سخت تر است
2148
01:06:23,920 –> 01:06:25,599
نسبت به دیگران
2149
01:06:25,599 –> 01:06:26,720
مهم این است که بتوانیم بفهمیم
2150
01:06:26,720 –> 01:06:28,880
متغیرهای شما گاهی اوقات چه نوع هایی هستند
2151
01:06:28,880 –> 01:06:30,160
متغیرهای شما آن نوع نیستند
2152
01:06:30,160 –> 01:06:31,039
انتظار دارید
2153
01:06:31,039 –> 01:06:33,280
برای مثال ممکن است در اکسل بخوانید
2154
01:06:33,280 –> 01:06:35,599
فایل و فکر کنید آه این داده های عددی است
2155
01:06:35,599 –> 01:06:37,200
و سپس سعی کنید یک محاسبه روی آن انجام دهید
2156
01:06:37,200 –> 01:06:38,559
و کار نمی کند زیرا معلوم می شود
2157
01:06:38,559 –> 01:06:39,599
آن را در همه خوانده شده است
2158
01:06:39,599 –> 01:06:41,200
داده به عنوان یک متغیر کاراکتر برای برخی
2159
01:06:41,200 –> 01:06:42,960
دلیل درست است
2160
01:06:42,960 –> 01:06:45,119
چگونه می توانیم انواع را بررسی کنیم
2161
01:06:45,119 –> 01:06:46,799
متغیرهایی که در اختیار داریم از d استفاده می کنیم
2162
01:06:46,799 –> 01:06:49,359
تایپ کنید اگر فقط تایپ های df.d انجام دهید این کار انجام می شود
2163
01:06:49,359 –> 01:06:50,319
انواع را به شما بگویم
2164
01:06:50,319 –> 01:06:51,839
از تمام متغیرهایی که شما نیز می توانید
2165
01:06:51,839 –> 01:06:53,680
آنها را تبدیل کنید اگر شما اگر آن را در
2166
01:06:53,680 –> 01:06:55,520
فرمت قابل تبدیل
2167
01:06:55,520 –> 01:06:58,960
با استفاده از تایپ، در اینجا این مالیات است
2168
01:06:58,960 –> 01:07:00,799
داده هایی که قبلا داشتیم
2169
01:07:00,799 –> 01:07:02,559
چیزی در مورد آن داده های مالیاتی زمانی که آن را
2170
01:07:02,559 –> 01:07:05,280
وارد شدیم ما یک ستون برای آن داشتیم
2171
01:07:05,280 –> 01:07:06,720
نام ردیف هایی که می شناسید تنظیم شد
2172
01:07:06,720 –> 01:07:09,359
درآمد ناخالص مقدار مالیات و غیره
2173
01:07:09,359 –> 01:07:11,839
و سپس ما نام آن شخص را داشتیم
2174
01:07:11,839 –> 01:07:12,480
نام
2175
01:07:12,480 –> 01:07:13,839
و سپس ارزش آنها کاهش می یابد
2176
01:07:13,839 –> 01:07:15,760
همینطور در سمت راست این ستون وجود دارد
2177
01:07:15,760 –> 01:07:17,359
اینجا که داده ها را در خود داشت و داشت
2178
01:07:17,359 –> 01:07:18,400
ارزش های
2179
01:07:18,400 –> 01:07:20,079
با نام آنها شروع شد
2180
01:07:20,079 –> 01:07:22,559
رشته ای که به نوعی همه را مجبور کرد
2181
01:07:22,559 –> 01:07:23,119
دیگر
2182
01:07:23,119 –> 01:07:25,359
uh سطرها در آن ستون نیز باشد
2183
01:07:25,359 –> 01:07:26,319
رشته های
2184
01:07:26,319 –> 01:07:28,880
بنابراین وقتی پیوت را انجام دادیم، همه آنها بودند
2185
01:07:28,880 –> 01:07:30,000
هنوز رشته ها
2186
01:07:30,000 –> 01:07:31,200
و ما احتمالاً آن وقت می خواهیم
2187
01:07:31,200 –> 01:07:33,520
آنها را تبدیل کنیم که ما می توانیم با آن به عنوان
2188
01:07:33,520 –> 01:07:34,079
نوع
2189
01:07:34,079 –> 01:07:35,599
بنابراین اکنون که ما آن را محور قرار داده ایم، آنها هستند
2190
01:07:35,599 –> 01:07:37,839
آماده تبدیل شدن است تا بتوانیم
2191
01:07:37,839 –> 01:07:39,119
با تابع as type که می خواهم انجام دهید
2192
01:07:39,119 –> 01:07:40,880
آن را به agi تبدیل کنید
2193
01:07:40,880 –> 01:07:44,240
float 64 که یک متغیر عددی است uh
2194
01:07:44,240 –> 01:07:45,280
انواع مختلف متغیرهای عددی
2195
01:07:45,280 –> 01:07:46,880
شناور وجود دارد دو برابر وجود دارد
2196
01:07:46,880 –> 01:07:48,079
همه جور چیز
2197
01:07:48,079 –> 01:07:49,119
این فقط به میزان بستگی دارد
2198
01:07:49,119 –> 01:07:51,599
با دقت چند رقم را ذخیره می کند
2199
01:07:51,599 –> 01:07:52,880
بیرون می رود
2200
01:07:52,880 –> 01:07:54,559
می دانید عدد صحیح به جایی نمی رسد
2201
01:07:54,559 –> 01:07:56,480
از رقم اعشار گذشته اوه می دانید
2202
01:07:56,480 –> 01:07:57,680
انواع مختلف وجود دارد
2203
01:07:57,680 –> 01:07:59,599
اوه پس ما میخواهیم کسر آگی کنیم
2204
01:07:59,599 –> 01:08:01,359
و درآمد به اعداد اوه و ما هستیم
2205
01:08:01,359 –> 01:08:02,720
شخص را به متغیر تبدیل می کنیم
2206
01:08:02,720 –> 01:08:04,160
دسته بندی که می توانستیم آن را یک رشته نگه داریم
2207
01:08:04,160 –> 01:08:05,599
اما ما تصمیم گرفتیم یک طبقه بندی کنیم
2208
01:08:05,599 –> 01:08:08,160
متغیر در اینجا
2209
01:08:08,720 –> 01:08:10,160
بنابراین در مورد داده های عددی به عنوان i
2210
01:08:10,160 –> 01:08:11,920
اشاره کرد که در قالب های متعددی ارائه می شود
2211
01:08:11,920 –> 01:08:13,520
بسته به سطح دقت که
2212
01:08:13,520 –> 01:08:15,280
در شناور داده های خود می خواهید
2213
01:08:15,280 –> 01:08:18,000
int و غیره به طور کلی توابعی وجود دارد
2214
01:08:18,000 –> 01:08:19,520
فقط نام آن نوع
2215
01:08:19,520 –> 01:08:21,120
که به شما امکان تبدیل بین انواع را می دهد
2216
01:08:21,120 –> 01:08:22,319
بنابراین اگر می خواهید یک نوبت عدد صحیح بگیرید
2217
01:08:22,319 –> 01:08:24,399
آن را به یک شناور شما می توانید این کار را انجام دهید
2218
01:08:24,399 –> 01:08:26,000
تابع آن به یک ترجمه می شود
2219
01:08:26,000 –> 01:08:28,238
عدد صحیح می توانید از آن در تابع استفاده کنید
2220
01:08:28,238 –> 01:08:30,000
اوه یک مشکل رایج که باید مراقب آن بود
2221
01:08:30,000 –> 01:08:31,279
در جدال داده ها
2222
01:08:31,279 –> 01:08:33,600
اوه این است که بسیاری از زمان ها آه بسیاری از
2223
01:08:33,600 –> 01:08:35,120
مجموعه داده ها دارای شماره شناسه خواهند بود
2224
01:08:35,120 –> 01:08:36,640
و این شماره های شناسه بسیار طولانی خواهند بود
2225
01:08:36,640 –> 01:08:38,479
اعداد باشه
2226
01:08:38,479 –> 01:08:40,238
بنابراین برای مثال شاید شما مانند 16 داشته باشید
2227
01:08:40,238 –> 01:08:42,158
شماره شناسه رقمی
2228
01:08:42,158 –> 01:08:45,279
برای مشتریان شما در داده های شما خوب است
2229
01:08:45,279 –> 01:08:46,880
وقتی آن داده ها را می خوانید چه اتفاقی می افتد
2230
01:08:46,880 –> 01:08:49,439
در پایتون گاهی اوقات کار می کند
2231
01:08:49,439 –> 01:08:51,359
و تشخیص می دهد که من باید همه را داشته باشم
2232
01:08:51,359 –> 01:08:52,960
این اطلاعات در اینجا من یک 16 دارم
2233
01:08:52,960 –> 01:08:54,880
عدد رقمی که میخواهم 16 را ذخیره کنم
2234
01:08:54,880 –> 01:08:56,158
عدد رقمی
2235
01:08:56,158 –> 01:08:57,920
اما گاهی اوقات نخواهد گفت
2236
01:08:57,920 –> 01:08:59,679
خوب 16 رقمی خوب
2237
01:08:59,679 –> 01:09:03,439
میدونی ام شاید اوه شاید دوست داشته باشی
2238
01:09:03,439 –> 01:09:04,880
12 اول و به همین اندازه
2239
01:09:04,880 –> 01:09:06,319
دقت به عنوان شما نیاز دارید، زیرا
2240
01:09:06,319 –> 01:09:07,839
انواع متغیرهای مختلف متفاوت است
2241
01:09:07,839 –> 01:09:09,198
سطوح دقت
2242
01:09:09,198 –> 01:09:12,000
بنابراین اگر آن را به عنوان معین به عنوان خوانده شده است
2243
01:09:12,000 –> 01:09:13,839
به عنوان نوعی که فضای کافی ندارد
2244
01:09:13,839 –> 01:09:15,120
برای تمام اطلاعاتی که قرار است
2245
01:09:15,120 –> 01:09:16,479
برخی از مشاهده ها را رها کنید
2246
01:09:16,479 –> 01:09:17,600
ارقام در پایان
2247
01:09:17,600 –> 01:09:18,799
و شما بسیار گیج خواهید شد
2248
01:09:18,799 –> 01:09:20,158
وقتی به نظر می رسد که 18 مورد متفاوت دارید
2249
01:09:20,158 –> 01:09:22,158
مشتریان همه با یک شناسه
2250
01:09:22,158 –> 01:09:23,279
بنابراین زمانی که شما هستید بسیار مهم است
2251
01:09:23,279 –> 01:09:24,880
خواندن در داده ها به خصوص اگر داشته باشد
2252
01:09:24,880 –> 01:09:26,479
این کدهای شناسه طولانی
2253
01:09:26,479 –> 01:09:28,799
برای تعیین انواع متغیرهایی که
2254
01:09:28,799 –> 01:09:29,759
در حال گرفتن
2255
01:09:29,759 –> 01:09:32,080
بنابراین می توانید از آرگومان انواع تماس استفاده کنید
2256
01:09:32,080 –> 01:09:33,920
در بیشتر مواقع
2257
01:09:33,920 –> 01:09:37,198
عملکردهای خواندن اطلاعات پانداها
2258
01:09:37,198 –> 01:09:38,719
اوه اغلب اگر چیزی شبیه الف دارید
2259
01:09:38,719 –> 01:09:40,399
کد آیدی بسیار طولانی
2260
01:09:40,399 –> 01:09:41,600
داشتن آن به نفع شماست
2261
01:09:41,600 –> 01:09:43,120
به عنوان یک متغیر رشته ای بخوانید زیرا
2262
01:09:43,120 –> 01:09:46,719
سپس حتی سعی نخواهد کرد آن را به هم بچسباند
2263
01:09:47,279 –> 01:09:49,679
خوب پس numerix من قصد ندارم صحبت کنم
2264
01:09:49,679 –> 01:09:50,479
خیلی در مورد چون شما احتمالا
2265
01:09:50,479 –> 01:09:51,600
تجربه زیادی با آنها داشته باشید
2266
01:09:51,600 –> 01:09:52,319
به هر حال
2267
01:09:52,319 –> 01:09:54,000
uh متغیرهای کاراکتر خواهد آمد
2268
01:09:54,000 –> 01:09:55,920
زمانی که شما در حال تمیز کردن داده ها هستید نه فقط
2269
01:09:55,920 –> 01:09:57,199
وقتی با متن کار می کنید
2270
01:09:57,199 –> 01:09:59,679
اطلاعات بلکه گاهی اوقات اعداد
2271
01:09:59,679 –> 01:10:01,280
فقط به عنوان رشته خوانده می شود
2272
01:10:01,280 –> 01:10:03,199
یا اطلاعات به صورت رشته ای به شما می رسد
2273
01:10:03,199 –> 01:10:04,480
فرمت و باید آن را به آن تبدیل کنید
2274
01:10:04,480 –> 01:10:05,440
شماره
2275
01:10:05,440 –> 01:10:07,679
اوه بنابراین در پایتون uh نقل قول های دوگانه i هستند
2276
01:10:07,679 –> 01:10:09,199
معتقدند که در حال حاضر برای ساخت ترجیح داده شده است
2277
01:10:09,199 –> 01:10:11,440
رشته ها اما نقل قول های تک نیز مشکلی ندارند
2278
01:10:11,440 –> 01:10:12,800
به خصوص شما باید یک نقل قول داشته باشید
2279
01:10:12,800 –> 01:10:14,960
خود رشته شما می توانید رشته ها را بچسبانید
2280
01:10:14,960 –> 01:10:16,000
همراه با پلاس
2281
01:10:16,000 –> 01:10:17,920
یا اگر بردار رشته ای دارید
2282
01:10:17,920 –> 01:10:19,040
می توانید از join استفاده کنید
2283
01:10:19,040 –> 01:10:22,239
بنابراین h به علاوه lo می شود سلام آه
2284
01:10:22,239 –> 01:10:24,880
با استفاده از یک کاراکتر و سپس نقطه
2285
01:10:24,880 –> 01:10:26,560
join به هر چیزی ملحق خواهد شد
2286
01:10:26,560 –> 01:10:28,080
چیزهایی که آن را در وکتور با آنها می دهید
2287
01:10:28,080 –> 01:10:30,400
شخصیتی که بهش دادی
2288
01:10:30,400 –> 01:10:31,679
مهم است که به این آشفتگی توجه کنید
2289
01:10:31,679 –> 01:10:33,679
داده ها اغلب به صورت پیش فرض به کاراکتر for تبدیل می شوند
2290
01:10:33,679 –> 01:10:35,120
به عنوان مثال اگر در یک مجموعه داده مطالعه می کنید
2291
01:10:35,120 –> 01:10:37,040
از یک دسته اعداد بزرگ
2292
01:10:37,040 –> 01:10:39,120
ممکن است ورودی یک کاما داشته باشد
2293
01:10:39,120 –> 01:10:40,880
صفر صفر صفر کاما صفر صفر صفر
2294
01:10:40,880 –> 01:10:42,960
ما می دانیم که این عدد یک میلیون است اما
2295
01:10:42,960 –> 01:10:44,480
گاهی اوقات پانداها این کار را نمی کنند
2296
01:10:44,480 –> 01:10:45,520
تبدیل
2297
01:10:45,520 –> 01:10:46,880
و فقط آن را به عنوان خوانده می شود
2298
01:10:46,880 –> 01:10:48,880
رشته یک کاما صفر صفر صفر کاما
2299
01:10:48,880 –> 01:10:50,560
صفر صفر صفر
2300
01:10:50,560 –> 01:10:51,920
و شما باید آن را تبدیل کنید
2301
01:10:51,920 –> 01:10:53,520
در قالبی که بتواند آن را تشخیص دهد
2302
01:10:53,520 –> 01:10:56,159
به عنوان یک عدد
2303
01:10:56,239 –> 01:10:57,679
من به کسانی که با آنها کار می کنند باز خواهم گشت
2304
01:10:57,679 –> 01:10:59,120
رشته ها در یک ثانیه اوه نیز وجود دارد
2305
01:10:59,120 –