در این مطلب، ویدئو دادههای صادراتی واردات پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:41:31
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:01,199 –> 00:00:03,840
این یک آموزش در مورد نحوه وارد کردن و
2
00:00:03,840 –> 00:00:05,920
صادرات داده ها در پایتون
3
00:00:05,920 –> 00:00:07,839
برای کد منبع کامل برای این
4
00:00:07,839 –> 00:00:10,639
آموزش است، به این آدرس مراجعه کنید،
5
00:00:10,639 –> 00:00:13,200
همچنین در توضیحات قرار خواهم داد و
6
00:00:13,200 –> 00:00:16,079
می توانید تمام کدهای نمونه
7
00:00:16,079 –> 00:00:18,720
و نمونه های آن را مشاهده کنید. نحوه وارد کردن و صادرات
8
00:00:18,720 –> 00:00:21,840
دادهها با چیزهایی مانند pandas
9
00:00:21,840 –> 00:00:25,599
numpy و بستههای دیگر،
10
00:00:25,599 –> 00:00:27,199
بنابراین بیایید شروع کنیم،
11
00:00:27,199 –> 00:00:29,359
اول از همه
12
00:00:29,359 –> 00:00:32,640
میخواهیم دادههایی تولید کنیم که بتوانیم از آنها برای کار کردن با
13
00:00:32,640 –> 00:00:36,719
همه چیز استفاده
14
00:00:36,719 –> 00:00:38,559
کنیم.
15
00:00:38,559 –> 00:00:41,840
پانداهای وارداتی را به صورت pd مرتب کنید، بنابراین این دو
16
00:00:41,840 –> 00:00:44,079
بسته هستند که ما از آنها
17
00:00:44,079 –> 00:00:47,920
برای این آموزش استفاده خواهیم کرد.
18
00:00:47,920 –> 00:00:49,760
19
00:00:49,760 –> 00:00:52,000
20
00:00:52,000 –> 00:00:55,199
21
00:00:55,199 –> 00:00:56,960
و بیایید جلوتر برویم و
22
00:00:56,960 –> 00:00:59,039
آنها را چاپ کنیم تا آرایه
23
00:00:59,039 –> 00:01:01,600
مقادیر بین 0 و 1 را ببینیم.
24
00:01:01,600 –> 00:01:05,119
و اجازه دهید برخی از مقادیر x را
25
00:01:05,119 –> 00:01:06,960
در اینجا ایجاد کنیم،
26
00:01:06,960 –> 00:01:08,560
من می خواهم
27
00:01:08,560 –> 00:01:09,680
28
00:01:09,680 –> 00:01:11,520
کسینوس نقطه
29
00:01:11,520 –> 00:01:14,880
ناقص این مقادیر tx را درست صدا بزنم و سپس ما
30
00:01:14,880 –> 00:01:16,000
31
00:01:16,000 –> 00:01:18,560
مقدار کسینوس در اینجا وجود دارد که
32
00:01:18,560 –> 00:01:21,360
از مقادیر زمانی
33
00:01:21,360 –> 00:01:23,520
که اجازه دهید تولید می شوند ادامه دهید و اکنون فقط یک قاب داده ایجاد کنید
34
00:01:23,520 –> 00:01:24,960
35
00:01:24,960 –> 00:01:27,360
و این یک قاب داده پاندا خواهد بود،
36
00:01:27,360 –> 00:01:28,320
37
00:01:28,320 –> 00:01:31,680
ما از تابع قاب داده استفاده می
38
00:01:31,680 –> 00:01:32,799
کنیم
39
00:01:32,799 –> 00:01:36,000
و شما به این براکت های فرفری
40
00:01:36,000 –> 00:01:38,000
در اینجا نیاز دارید و ما اولین
41
00:01:38,000 –> 00:01:40,880
ستون خود را زمان و زمان خواهیم داشت
42
00:01:40,880 –> 00:01:43,600
و من آن را به عنوان tx قرار میدهم و سپس
43
00:01:43,600 –> 00:01:45,040
دومی
44
00:01:45,040 –> 00:01:49,840
را به عنوان x نام میگذاریم و سپس فقط
45
00:01:49,840 –> 00:01:52,640
به سر آن فریم داده
46
00:01:52,640 –> 00:01:55,520
نگاه میکنیم تا بتوانید ببینید که ما اینها را سازماندهی کردهایم
47
00:01:55,520 –> 00:01:58,079
و میتوانید ببینید که نمایه درست
48
00:01:58,079 –> 00:02:02,719
در اینجا است. اگر بخواهم ایندکس را برای این تنظیم
49
00:02:02,719 –> 00:02:06,479
کنم، میتوانم بگویم ایندکس را تنظیم کنم و سپس
50
00:02:06,479 –> 00:02:08,720
بگویم که
51
00:02:08,720 –> 00:02:10,800
زمان آن فرا رسیده است و
52
00:02:10,800 –> 00:02:13,520
ایندکس فعلی را حذف میکنم،
53
00:02:13,520 –> 00:02:16,879
بنابراین باید آن را
54
00:02:16,879 –> 00:02:19,280
به عنوان dx برابر تنظیم کنم
55
00:02:19,280 –> 00:02:20,239
و
56
00:02:20,239 –> 00:02:23,120
به روش دیگری میتوانم این کار را انجام دهم. در جای خود
57
00:02:23,120 –> 00:02:26,000
برابر true است
58
00:02:29,120 –> 00:02:31,599
و پس من نیازی به dx برابر ندارم،
59
00:02:31,599 –> 00:02:32,800
فقط می
60
00:02:32,800 –> 00:02:36,480
داند که من می خواهم dx را با
61
00:02:36,480 –> 00:02:39,200
این شاخص جدید از مقادیر دوباره تخصیص
62
00:02:39,200 –> 00:02:40,879
بدهم، بنابراین
63
00:02:40,879 –> 00:02:42,800
اگر بخواهم فقط شاخص را تنظیم کنم به جای اینکه بخواهم شاخص را تنظیم کنم، یک
64
00:02:42,800 –> 00:02:44,959
شاخص وجود دارد. پیشفرض یا
65
00:02:44,959 –> 00:02:46,480
میتوانم آن را
66
00:02:46,480 –> 00:02:49,440
بهعنوان پیشفرض در اینجا
67
00:02:49,440 –> 00:02:51,519
با 0
68
00:02:51,519 –> 00:02:53,599
تا 7 بگذارم، همانطور که میتوانید در اینجا ببینید اگر
69
00:02:53,599 –> 00:02:56,080
آن را سر کنید فقط پنج مورد اول
70
00:02:56,080 –> 00:02:58,239
درست است، اجازه دهید ادامه دهیم و فقط
71
00:02:58,239 –> 00:02:59,360
این را اکنون
72
00:02:59,360 –> 00:03:02,000
به یک فایل csv صادر کنیم
73
00:03:02,000 –> 00:03:04,959
و من از دو csv استفاده می
74
00:03:04,959 –> 00:03:08,640
کنم و این را dx.csv صدا می زنم
75
00:03:08,640 –> 00:03:12,239
و می گویم ایندکس برابر با نادرست است، بنابراین نمی
76
00:03:12,239 –> 00:03:14,959
خواهم آن را اضافه کنم. ایندکس در این
77
00:03:14,959 –> 00:03:16,239
و سپس
78
00:03:16,239 –> 00:03:17,840
بیایید برویم و فقط ببینیم این چه چیزی
79
00:03:17,840 –> 00:03:19,120
تولید می کند،
80
00:03:19,120 –> 00:03:21,200
بنابراین من می خواهم این را
81
00:03:21,200 –> 00:03:23,120
کمی به کناری منتقل کنم تا بتوانم فایل
82
00:03:23,120 –> 00:03:25,519
هایی را که در اینجا تولید می شوند ببینم و در اینجا می
83
00:03:25,519 –> 00:03:28,799
توانید فایل csv را که با آن تولید شده است ببینید.
84
00:03:28,799 –> 00:03:33,200
زمان و مقادیر x
85
00:03:33,200 –> 00:03:36,480
و همچنین میتوانیم آن را با اکسل باز کنیم،
86
00:03:36,480 –> 00:03:39,200
اگر فقط روی آن دوبار کلیک کنم،
87
00:03:39,200 –> 00:03:42,400
به طور پیشفرض از Excel برای باز کردن آن استفاده میشود
88
00:03:42,400 –> 00:03:43,920
یا ممکن است برنامه صفحه گسترده دیگری وجود داشته باشد
89
00:03:43,920 –> 00:03:45,120
90
00:03:45,120 –> 00:03:47,200
و در آنجا
91
00:03:47,200 –> 00:03:51,920
میتوانید زمان و مقادیر x را ببینید.
92
00:03:52,159 –> 00:03:53,840
درست شد، حالا
93
00:03:53,840 –> 00:03:55,760
که این را داریم به سراغ بعدی برویم،
94
00:03:55,760 –> 00:03:58,480
میتوانیم
95
00:03:58,480 –> 00:04:02,319
آن را از منبع دیگری نیز وارد کنیم، خوب، بنابراین
96
00:04:02,319 –> 00:04:05,760
فرض کنید این را بهعنوان یک فایل نوشته
97
00:04:05,760 –> 00:04:08,080
بودیم و میخواهیم بتوانیم آن را
98
00:04:08,080 –> 00:04:09,360
به پایتون بازگردانیم
99
00:04:09,360 –> 00:04:11,810
تا بتوانم بگویم pd.خواندن
100
00:04:11,810 –> 00:04:12,959
[موسیقی]
101
00:04:12,959 –> 00:04:17,358
csv و این dx dot csv خواهد بود، بنابراین
102
00:04:17,358 –> 00:04:18,399
پانداها
103
00:04:18,399 –> 00:04:22,240
قبلاً h از نظر خواندن فایلهای csv،
104
00:04:22,240 –> 00:04:24,800
این فایلهای ارزشی با کاما از هم جدا شدهاند
105
00:04:24,800 –> 00:04:27,600
که میتوانید آنها را دوباره به پایتون بخوانید
106
00:04:27,600 –> 00:04:29,759
و من میتوانم آن را به عنوان مثال d y صدا
107
00:04:29,759 –> 00:04:31,120
بزنم
108
00:04:31,120 –> 00:04:33,759
و سپس فقط d y را چاپ کنم
109
00:04:33,759 –> 00:04:36,639
و بنابراین یک متغیر جدید d y ایجاد میکند
110
00:04:36,639 –> 00:04:40,000
که یک کپی از dx است که i
111
00:04:40,000 –> 00:04:43,440
به یک فایل csv صادر شده بود،
112
00:04:43,440 –> 00:04:45,600
اما فرض کنید میخواهیم این را
113
00:04:45,600 –> 00:04:47,360
از یک منبع آنلاین نیز دریافت کنیم،
114
00:04:47,360 –> 00:04:48,240
115
00:04:48,240 –> 00:04:49,440
116
00:04:49,440 –> 00:04:53,120
و نمونهای که در اینجا دارم این است که
117
00:04:53,120 –> 00:04:55,440
اجازه دهید به
118
00:04:55,440 –> 00:04:58,320
این فایل داده آنلاین بروم که
119
00:04:58,320 –> 00:05:00,639
دقیقاً در اینجا ذخیره کردم، بنابراین فرض کنید یک فایل داده وجود دارد.
120
00:05:00,639 –> 00:05:03,199
فرض کنید ممکن است قیمت سهام
121
00:05:03,199 –> 00:05:05,440
یا چیزی شبیه به آن باشد که
122
00:05:05,440 –> 00:05:09,520
میخواهید از یک آرشیو وب دریافت کنید
123
00:05:09,520 –> 00:05:11,120
و
124
00:05:11,120 –> 00:05:15,199
همچنین میتوانید از آن آدرس اینترنتی وارد
125
00:05:15,199 –> 00:05:17,360
کنید، بنابراین
126
00:05:17,360 –> 00:05:19,520
در اینجا مثال دیگری وجود دارد که وقتی اجرا
127
00:05:19,520 –> 00:05:21,039
میکنم این است که فقط
128
00:05:21,039 –> 00:05:23,280
آن را از آن فایل منبع که فقط
129
00:05:23,280 –> 00:05:25,840
نامش را گذاشتم، میگیرد. txt. اما میتواند هر
130
00:05:25,840 –> 00:05:27,440
پسوندی باشد تا زمانی که فایلهای
131
00:05:27,440 –> 00:05:28,880
مقدار جدا شده با کاما باشد،
132
00:05:28,880 –> 00:05:31,680
همانطور که با تابع خواندن csv انتظار میرود،
133
00:05:31,680 –> 00:05:33,039
134
00:05:33,039 –> 00:05:36,000
بنابراین میتوانید هم اکنون از یک
135
00:05:36,000 –> 00:05:37,280
فایل داده محلی
136
00:05:37,280 –> 00:05:40,960
یا از یک URL وارد
137
00:05:42,639 –> 00:05:44,639
کنید، کار دیگری که میتوانیم انجام دهیم
138
00:05:44,639 –> 00:05:47,520
خواندن جداول است. از صفحه وب،
139
00:05:47,520 –> 00:05:49,840
به عنوان مثال، من می خواهم به
140
00:05:49,840 –> 00:05:52,400
اینجا برگردم و اینجا یک جدول
141
00:05:52,400 –> 00:05:54,639
است که اولین
142
00:05:54,639 –> 00:05:58,000
جدول در این است و ما می توانیم
143
00:05:58,000 –> 00:06:01,199
اوه را وارد کنیم، من فقط یک جدول جدید
144
00:06:01,199 –> 00:06:02,560
در اینجا ایجاد می کنم
145
00:06:02,560 –> 00:06:07,280
که می توانیم با خواندن Ok از آن جدول وارد کنیم.
146
00:06:07,280 –> 00:06:09,840
ما میتوانیم html را بخوانیم
147
00:06:09,840 –> 00:06:12,800
148
00:06:13,919 –> 00:06:16,319
و بنابراین من میخواهم pdf خواندن html را انجام دهم
149
00:06:16,319 –> 00:06:18,160
150
00:06:18,160 –> 00:06:21,120
و جدول را از این url میخوانم
151
00:06:21,120 –> 00:06:25,120
و سپس جدول را کاملاً چاپ
152
00:06:25,120 –> 00:06:27,759
میکنیم تا در اینجا خطایی داشته باشیم که
153
00:06:27,759 –> 00:06:31,600
میگوید هیچ جدولی در آن URL یافت نشد.
154
00:06:31,600 –> 00:06:33,840
ببینیم آیا میتوانیم پیدا کنیم، اوه، باید
155
00:06:33,840 –> 00:06:36,240
آن را با
156
00:06:36,240 –> 00:06:38,000
157
00:06:38,000 –> 00:06:42,080
آدرس این صفحه جایگزین کنیم، نه از آن فایل متنی،
158
00:06:42,880 –> 00:06:45,360
خوب است، بنابراین دادهها جمعآوری میشوند
159
00:06:45,360 –> 00:06:49,840
و بیایید ببینیم چه خطایی دارم،
160
00:06:51,520 –> 00:06:54,800
خوب اوم
161
00:06:55,840 –> 00:06:57,759
، کمی طولانی است، خوب من این کار را
162
00:06:57,759 –> 00:07:00,400
نکردم. از https بسیار خوشم می آید،
163
00:07:00,400 –> 00:07:02,400
بنابراین من می خواهم
164
00:07:02,400 –> 00:07:04,360
آن را با
165
00:07:04,360 –> 00:07:06,960
http غیرhttps جایگزین کنم
166
00:07:06,960 –> 00:07:09,280
و در آنجا می توانید جدولی را ببینید که
167
00:07:09,280 –> 00:07:11,759
168
00:07:11,919 –> 00:07:13,599
کاملاً درست شده است، اجازه دهید من پایین بیایم و یک
169
00:07:13,599 –> 00:07:17,120
سلول جدید ایجاد کنم تا بتوانیم از یک فایل داده بخوانیم.
170
00:07:17,120 –> 00:07:19,280
می تواند از یک فایل csv که
171
00:07:19,280 –> 00:07:21,039
آنلاین است
172
00:07:21,039 –> 00:07:23,120
بخواند و همچنین می توانیم از جدولی که اکنون
173
00:07:23,120 –> 00:07:24,800
در یک صفحه وب است بخوانیم
174
00:07:24,800 –> 00:07:27,120
اگر وجود دارد بیش از یک جدول در یک
175
00:07:27,120 –> 00:07:30,400
صفحه و سپس پانداها هر یک را به عنوان
176
00:07:30,400 –> 00:07:33,039
لیستی از فریم های داده می
177
00:07:33,039 –> 00:07:36,000
خوانند، گزینه های خواندن اضافی در پانداها
178
00:07:36,000 –> 00:07:38,160
179
00:07:38,160 –> 00:07:41,520
وجود دارد، مانند فایل های تخت اکسل از کلیپ بورد اکسل، google bigquery html
180
00:07:41,520 –> 00:07:43,680
json و موارد دیگر،
181
00:07:43,680 –> 00:07:44,400
بنابراین
182
00:07:44,400 –> 00:07:48,240
در اینجا فقط برخی از راه های صادرات وجود دارد.
183
00:07:48,240 –> 00:07:51,599
یا Import اینجا همه گزینه های صادراتی است
184
00:07:51,599 –> 00:07:54,240
که می توانید آن را به کلیپ بورد به
185
00:07:54,240 –> 00:07:58,720
csv به فرهنگ لغت انجام دهید تا اکسل به پر به
186
00:07:58,720 –> 00:08:00,400
گوگل
187
00:08:00,400 –> 00:08:02,960
پرس و جوی بزرگ
188
00:08:02,960 –> 00:08:06,400
انجام hdf که نوعی فایل است که
189
00:08:06,400 –> 00:08:09,199
معمولاً در یادگیری ماشین استفاده می شود hdf5
190
00:08:09,199 –> 00:08:10,840
شما html
191
00:08:10,840 –> 00:08:14,720
json دارید، بنابراین اجازه دهید برای مثال این کار را انجام
192
00:08:14,720 –> 00:08:17,759
دهیم json
193
00:08:18,639 –> 00:08:20,240
بسیار خوب است و موارد
194
00:08:20,240 –> 00:08:22,400
دیگری مانند latex
195
00:08:22,400 –> 00:08:23,440
pickle
196
00:08:23,440 –> 00:08:24,479
sql
197
00:08:24,479 –> 00:08:27,520
و موارد دیگر وجود دارد، بنابراین من فقط می گویم که
198
00:08:27,520 –> 00:08:28,960
یکی از آنها
199
00:08:28,960 –> 00:08:30,160
dx
200
00:08:30,160 –> 00:08:33,199
dot json خواهد بود
201
00:08:34,159 –> 00:08:36,880
و اگر آن را بنویسم
202
00:08:36,880 –> 00:08:40,000
، دفترچه یادداشت را باز می کنم و شما می توانید ببینید که
203
00:08:40,000 –> 00:08:42,159
یک فایل json نوشته است
204
00:08:42,159 –> 00:08:43,279
و
205
00:08:43,279 –> 00:08:48,320
اجازه دهید اکسل را
206
00:08:52,839 –> 00:08:55,200
نیز انجام دهیم که یک
207
00:08:55,200 –> 00:08:57,920
فایل اکسل بسیار شبیه به فایل csv ایجاد میکند، اما
208
00:08:57,920 –> 00:08:59,360
آن را برای اکسل تولید میکند،
209
00:08:59,360 –> 00:09:02,480
بهویژه در ایندکس
210
00:09:02,480 –> 00:09:04,000
و هدرهای مختلف را قرار میدهد.
211
00:09:04,000 –> 00:09:06,399
ستون های t
212
00:09:06,399 –> 00:09:09,920
خوب، بیایید یک سلول جدید ایجاد کنیم
213
00:09:09,920 –> 00:09:12,480
و اجازه دهید کمی در مورد numpy
214
00:09:12,480 –> 00:09:13,920
نیز صحبت
215
00:09:13,920 –> 00:09:16,959
کنیم تا بتوانیم با numpy وارد کنیم نه فقط
216
00:09:16,959 –> 00:09:18,880
با خواندن csv،
217
00:09:18,880 –> 00:09:23,040
بلکه می توانیم با numpy gen از متن وارد کنیم و dx.csv
218
00:09:23,040 –> 00:09:25,440
219
00:09:25,440 –> 00:09:26,839
و i را داشته
220
00:09:26,839 –> 00:09:28,720
باشیم
221
00:09:28,720 –> 00:09:31,279
. باید بگوییم که جداکننده چیست
222
00:09:31,279 –> 00:09:33,200
، این چیزی است که اعداد مختلف را کاملاً از هم جدا میکند،
223
00:09:33,200 –> 00:09:36,160
224
00:09:36,160 –> 00:09:37,760
یکی از چیزهایی
225
00:09:37,760 –> 00:09:40,399
که میبینید این است که برای
226
00:09:40,399 –> 00:09:43,040
آن دو ردیف سرصفحه، عددی در اینجا ندارید، من فقط
227
00:09:43,040 –> 00:09:45,839
این را دوباره باز میکنم، بنابراین این کار انجام نشد. میدانیم
228
00:09:45,839 –> 00:09:49,040
با زمان و x در اینجا چه کار کنیم
229
00:09:49,040 –> 00:09:51,519
و بنابراین آنها را به یک عدد اختصاص نمیدهد
230
00:09:51,519 –> 00:09:53,120
زیرا باید آن را
231
00:09:53,120 –> 00:09:54,720
به یک آرایه numpy تبدیل کند،
232
00:09:54,720 –> 00:09:56,959
233
00:09:56,959 –> 00:10:00,320
بنابراین گزینه دیگری که میتوانیم
234
00:10:00,320 –> 00:10:03,040
استفاده کنیم استفاده از متن بارگذاری است و این همان چیزی است که
235
00:10:03,040 –> 00:10:05,600
من ترجیح میدهم استفاده کنم. با numpy
236
00:10:05,600 –> 00:10:09,040
و این فقط load txt خواهد بود
237
00:10:09,040 –> 00:10:12,079
و من dx.csv را
238
00:10:12,079 –> 00:10:15,279
با جداکننده خود با کاما
239
00:10:15,279 –> 00:10:16,959
240
00:10:16,959 –> 00:10:19,440
خواهم داشت و سپس یک خطا را مشاهده خواهید کرد
241
00:10:19,440 –> 00:10:20,959
زیرا نمی داند با
242
00:10:20,959 –> 00:10:24,000
آن دو ردیف سرصفحه چه باید بکند. کلمه کلیدی
243
00:10:24,000 –> 00:10:26,240
که می توانید استفاده کنید این است که فقط ردیف ها را رد کنید
244
00:10:26,240 –> 00:10:29,120
برابر با 1.
245
00:10:30,560 –> 00:10:32,640
بسیار خوب و فقط از آن رد می شود
246
00:10:32,640 –> 00:10:35,040
سطر اول برخلاف ژن از متن،
247
00:10:35,040 –> 00:10:37,680
فقط میتوانید آن را با رد کردن ردیفها کنترل کنید،
248
00:10:37,680 –> 00:10:40,640
بیایید آن را در اینجا امتحان کنیم
249
00:10:40,640 –> 00:10:43,200
و ببینیم که آیا کار میکند، فقط
250
00:10:43,200 –> 00:10:45,200
میگوید که شما آن گزینه را
251
00:10:45,200 –> 00:10:48,079
در رد کردن ردیفها
252
00:10:48,240 –> 00:10:50,079
ندارید، خوب است، بنابراین اگر میخواهید این کار را با gen
253
00:10:50,079 –> 00:10:52,399
از متن شما فقط
254
00:10:52,399 –> 00:10:54,480
می توانید بگویید خوب من فقط
255
00:10:54,480 –> 00:10:56,320
از یکی می خواهم
256
00:10:56,320 –> 00:11:00,160
و سپس فقط آن ردیف اول را حذف می کند،
257
00:11:00,160 –> 00:11:02,880
بنابراین این روش دیگری برای
258
00:11:02,880 –> 00:11:05,040
انجام همان کار با gen از
259
00:11:05,040 –> 00:11:07,839
متن خواهد بود، شما فقط بعد از خواندن آن ردیف اول را نادیده
260
00:11:07,839 –> 00:11:10,560
می گیرید.
261
00:11:11,519 –> 00:11:14,399
خوب بیایید به سراغ بعدی
262
00:11:14,399 –> 00:11:16,959
برویم توابع numpy سریع هستند اما
263
00:11:16,959 –> 00:11:19,279
فقط داده های عددی محدودی دارند که می توانند
264
00:11:19,279 –> 00:11:21,760
در ساختارهای داده numpy استاندارد مانند آرایه قرار بگیرند،
265
00:11:21,760 –> 00:11:23,839
266
00:11:23,839 –> 00:11:25,040
267
00:11:25,040 –> 00:11:29,120
بیایید یک ورودی خواندن خام انجام دهیم، بنابراین این فقط یک
268
00:11:29,120 –> 00:11:32,320
تابع بومی پایتون است که باز است
269
00:11:32,320 –> 00:11:34,880
و اگر من dx را انجام دهم
270
00:11:34,880 –> 00:11:37,279
.csv میتوانم آن را در حالتهای مختلف باز کنم و
271
00:11:37,279 –> 00:11:40,160
اگر r را در آنجا قرار دهم که خوانده میشود اگر
272
00:11:40,160 –> 00:11:41,760
w درست است
273
00:11:41,760 –> 00:11:43,360
و شما میتوانید انجام دهید،
274
00:11:43,360 –> 00:11:45,680
اگر میخواهید آن را
275
00:11:45,680 –> 00:11:48,480
در قالب باینری بخوانید یا در قالب باینری بنویسید، گزینههایی برای باینری وجود دارد.
276
00:11:48,480 –> 00:11:50,959
پس اگر فقط
277
00:11:50,959 –> 00:11:53,360
بخوانم،
278
00:11:53,600 –> 00:11:55,279
بیایید انجام دهیم
279
00:11:55,279 –> 00:11:57,120
بخون پس فقط اون فایل رو
280
00:11:57,120 –> 00:11:58,399
281
00:11:58,399 –> 00:12:00,320
خوب میخونه و می تونی کاراکترهای خط جدید
282
00:12:00,320 –> 00:12:02,320
رو اینجا ببینی
283
00:12:02,320 –> 00:12:06,560
که
284
00:12:08,240 –> 00:12:10,399
خونده میشن.
285
00:12:10,399 –> 00:12:12,480
286
00:12:12,480 –> 00:12:15,440
287
00:12:15,440 –> 00:12:17,760
بسیار خوب، اما بیایید بگوییم من فقط می خواهم
288
00:12:17,760 –> 00:12:19,120
بخوانم
289
00:12:19,120 –> 00:12:20,480
اوه یکی
290
00:12:20,480 –> 00:12:23,200
بیایید فقط این کار را یکی یکی انجام دهیم
291
00:12:23,200 –> 00:12:24,399
برای x
292
00:12:24,399 –> 00:12:26,880
در f
293
00:12:26,880 –> 00:12:30,399
من می خواهم x را چاپ کنم
294
00:12:30,399 –> 00:12:32,720
295
00:12:34,160 –> 00:12:36,399
و سپس می خواهم در پایان کار نزدیک خود را انجام دهم،
296
00:12:36,399 –> 00:12:38,399
سپس این کار را انجام می دهم
297
00:12:38,399 –> 00:12:41,279
هر خط را جداگانه بردارید و آنها را چاپ
298
00:12:41,279 –> 00:12:43,360
299
00:12:43,360 –> 00:12:46,399
کنید، بنابراین گزینههای دیگری نیز برای این کار وجود دارد،
300
00:12:46,399 –> 00:12:48,639
اگر فقط میخواهید
301
00:12:48,639 –> 00:12:50,959
فقط
302
00:12:50,959 –> 00:12:53,279
چهار کاراکتر اول از این
303
00:12:53,279 –> 00:12:55,040
را بخوانید، من میتوانم آن را بخوانم
304
00:12:55,040 –> 00:12:57,760
و فقط چهار کاراکتر اول را به خوبی انجام دهم،
305
00:12:57,760 –> 00:12:59,519
اجازه دهید
306
00:12:59,519 –> 00:13:02,959
فقط آنها را چاپ کنم. ابتدا چهار کاراکتر را ببندید و سپس آن را ببندید
307
00:13:02,959 –> 00:13:04,720
و این فقط به شما زمان میدهد،
308
00:13:04,720 –> 00:13:06,800
زیرا
309
00:13:06,800 –> 00:13:08,560
در اینجا فقط چهار کاراکتر اول شما
310
00:13:08,560 –> 00:13:09,839
311
00:13:09,839 –> 00:13:13,279
در آن فایل دادهای هستند،
312
00:13:13,279 –> 00:13:14,959
کاملاً خوب، همچنین تابع Readline وجود
313
00:13:14,959 –> 00:13:17,440
دارد که خط بعدی
314
00:13:17,440 –> 00:13:18,639
فایل را برمیگرداند
315
00:13:18,639 –> 00:13:22,079
و بنابراین در اینجا میتوانیم چاپ کنید و من f r را انجام خواهم داد
316
00:13:22,079 –> 00:13:22,880
317
00:13:22,880 –> 00:13:24,720
خط را بخوان
318
00:13:24,720 –> 00:13:27,279
و آن را خالی بگذار که فقط
319
00:13:27,279 –> 00:13:30,480
به من زمان و x می دهد و سپس می
320
00:13:30,480 –> 00:13:31,600
321
00:13:31,600 –> 00:13:35,440
توانم این کار را دوباره انجام دهم، یک خواندن دیگر وجود دارد
322
00:13:35,440 –> 00:13:37,760
یا فقط برای من در محدوده سه انجام می دهم،
323
00:13:37,760 –> 00:13:38,800
324
00:13:38,800 –> 00:13:39,920
325
00:13:39,920 –> 00:13:42,959
سپس می توانم آن را بخوانم، می دانم
326
00:13:42,959 –> 00:13:45,360
هر چند بار که بخواهم
327
00:13:45,360 –> 00:13:49,480
با چاپ خط
328
00:13:49,839 –> 00:13:52,480
خوب است بیایید در مورد یک ابزار پیشرفته تر صحبت کنیم
329
00:13:52,480 –> 00:13:55,120
و
330
00:13:55,120 –> 00:13:56,720
من می خواهم پیش نمایشی از آنچه می
331
00:13:56,720 –> 00:13:59,600
توانید با سوپ زیبا انجام دهید را به شما ارائه دهم، اما بسته های دیگری نیز وجود دارد
332
00:13:59,600 –> 00:14:00,480
333
00:14:00,480 –> 00:14:02,399
و همچنین
334
00:14:02,399 –> 00:14:04,240
سلنیوم و موارد دیگر وجود دارد که
335
00:14:04,240 –> 00:14:05,920
از سوپ زیبا پیشرفته تر هستند اما
336
00:14:05,920 –> 00:14:08,320
سوپ زیبا است. مکان خوبی برای شروع
337
00:14:08,320 –> 00:14:09,519
خواندن
338
00:14:09,519 –> 00:14:12,079
اطلاعات از صفحات وب است
339
00:14:12,079 –> 00:14:13,920
که به آن خراش دادن وب می گویند
340
00:14:13,920 –> 00:14:16,720
و بسیاری از اطلاعات برای انسان
341
00:14:16,720 –> 00:14:18,560
قابل خواندن هستند اما توسط رایانه قابل خواندن نیستند
342
00:14:18,560 –> 00:14:20,880
و سوپ بسیار زیبا
343
00:14:20,880 –> 00:14:22,240
تا حدودی از آن
344
00:14:22,240 –> 00:14:25,279
انتقال به خواندن صفحات وب
345
00:14:25,279 –> 00:14:28,399
مقالات اخبار محتوای وب است.
346
00:14:28,399 –> 00:14:30,480
چیزهای دیگری را که از
347
00:14:30,480 –> 00:14:32,880
محتوای آنلاین میدانید که معمولاً
348
00:14:32,880 –> 00:14:35,519
توسط افراد قابل مصرف است را تجزیه و تحلیل کنید
349
00:14:35,519 –> 00:14:37,760
و ما میخواهیم رایانهای را قادر
350
00:14:37,760 –> 00:14:39,440
به خواندن آن و پردازش آن به
351
00:14:39,440 –> 00:14:42,160
روشی سازمانیافته کنیم.
352
00:14:42,160 –> 00:14:44,880
میخواهم انجام دهم این است
353
00:14:44,880 –> 00:14:46,959
که من فقط میخواهم کدی را اینجا کپی کنم،
354
00:14:46,959 –> 00:14:49,279
همان صفحه وب
355
00:14:49,279 –> 00:14:50,720
که داریم، درخواستها را وارد میکنیم
356
00:14:50,720 –> 00:14:53,680
و فقط این صفحه را دریافت میکنم
357
00:14:53,680 –> 00:14:55,279
358
00:14:55,279 –> 00:14:57,680
و صفحه را چاپ میکنم
359
00:14:57,680 –> 00:14:58,399
360
00:14:58,399 –> 00:15:01,040
خوب است، بنابراین پاسخ دریافت کردیم.
361
00:15:01,040 –> 00:15:04,480
کاری که اکنون میخواهیم انجام دهیم
362
00:15:04,480 –> 00:15:06,480
دسترسی کامل به
363
00:15:06,480 –> 00:15:08,000
محتوای آن صفحه است،
364
00:15:08,000 –> 00:15:11,440
بنابراین در اینجا محتوای
365
00:15:11,440 –> 00:15:14,240
html این صفحه است که قبلاً از آن بازدید کرده بودیم،
366
00:15:14,240 –> 00:15:15,920
همچنین میتوانید ببینید که
367
00:15:15,920 –> 00:15:18,320
اگر به اینجا آمدید کلیک راست کرده و برای
368
00:15:18,320 –> 00:15:19,839
مشاهده منبع صفحه بروید،
369
00:15:19,839 –> 00:15:22,399
اکثر مرورگرها نیز این کار را انجام خواهند داد. به شما اجازه میدهیم منبع صفحه را ببینید،
370
00:15:22,399 –> 00:15:23,920
371
00:15:23,920 –> 00:15:25,440
اما کاری که ما میخواهیم انجام دهیم این است
372
00:15:25,440 –> 00:15:27,279
که بتوانیم
373
00:15:27,279 –> 00:15:29,519
چیزهای مفید و جالبی را از آن استخراج کنیم،
374
00:15:29,519 –> 00:15:31,120
بدون
375
00:15:31,120 –> 00:15:33,600
اینکه میدانیم همه درهمکاریهایی که در آنجا وجود دارد
376
00:15:33,600 –> 00:15:36,240
و بنابراین در اینجاست که میتوانیم با سوپ زیبا اطلاعاتی را تجزیه کنیم و
377
00:15:36,240 –> 00:15:38,240
بتوانیم اطلاعاتی به دست آوریم
378
00:15:38,240 –> 00:15:39,519
379
00:15:39,519 –> 00:15:43,120
. از bs4
380
00:15:43,120 –> 00:15:44,920
import سوپ
381
00:15:44,920 –> 00:15:46,800
زیبا می گیرم
382
00:15:46,800 –> 00:15:48,959
383
00:15:48,959 –> 00:15:51,199
و سپس می خواهم متغیر سوپ خود را ایجاد کنم
384
00:15:51,199 –> 00:15:52,639
385
00:15:52,639 –> 00:15:55,199
و بنابراین این سوپ بسیار زیبایی خواهد بود
386
00:15:55,199 –> 00:15:56,880
387
00:15:56,880 –> 00:15:58,279
و
388
00:15:58,279 –> 00:16:01,120
محتوای صفحه خود را که به تازگی تولید
389
00:16:01,120 –> 00:16:04,800
کرده ایم می گیرم و از تجزیه کننده html استفاده می کنم.
390
00:16:04,800 –> 00:16:08,560
شما همچنین می توانید از تجزیه کننده lxml استفاده کنید
391
00:16:08,560 –> 00:16:10,560
pes که می توانید
392
00:16:10,560 –> 00:16:12,480
برای تجزیه آن استفاده کنید، اما برای این مورد،
393
00:16:12,480 –> 00:16:13,519
یک
394
00:16:13,519 –> 00:16:15,360
تجزیه کننده html خواهد
395
00:16:15,360 –> 00:16:16,880
بود تا آن
396
00:16:16,880 –> 00:16:20,959
را درست کند و بیایید سوپ زیبا را ببینیم،
397
00:16:20,959 –> 00:16:23,839
398
00:16:26,560 –> 00:16:27,920
خوب اجازه دهید من فقط املای
399
00:16:27,920 –> 00:16:30,480
آن را درست کنم تا سوپ وجود داشته باشد
400
00:16:30,480 –> 00:16:33,360
و اجازه دهید من فقط سوپ را چاپ کنم
401
00:16:33,360 –> 00:16:36,320
و می توانید ببینید که فرمت آن بیشتر شبیه
402
00:16:36,320 –> 00:16:38,079
چیزی است که وقتی
403
00:16:38,079 –> 00:16:39,040
404
00:16:39,040 –> 00:16:41,199
روی صفحه وب کلیک راست کردم دیدم،
405
00:16:41,199 –> 00:16:43,440
بنابراین برای ما قالب بندی می شود، اما ما می خواهیم
406
00:16:43,440 –> 00:16:47,120
فقط چیزهایی را از آن صفحه وب انتخاب
407
00:16:47,120 –> 00:16:50,560
کنیم که مانند یک عنوان هستند تا
408
00:16:50,560 –> 00:16:52,160
بتوانم دریافت
409
00:16:52,160 –> 00:16:55,040
نقطه سوپ نقطه عنوان متن نقطه
410
00:16:55,040 –> 00:16:56,480
که جمع آوری داده ها
411
00:16:56,480 –> 00:16:58,880
و تلفیق است، می توانید ببینید
412
00:16:58,880 –> 00:17:00,720
که عنوان اینجاست
413
00:17:00,720 –> 00:17:03,360
و سپس می توانم چیزهای دیگری را نیز انتخاب کنم،
414
00:17:03,360 –> 00:17:05,919
بنابراین فرض کنید می خواستم
415
00:17:05,919 –> 00:17:08,880
همه پیوندها را از آن صفحه وب دریافت
416
00:17:08,880 –> 00:17:11,439
کنم، بنابراین اینجا هستند، اجازه دهید ببینیم آیا می توانیم
417
00:17:11,439 –> 00:17:14,240
برخی از پیوندها را در اینجا پیدا کنید،
418
00:17:14,240 –> 00:17:16,160
بیایید به
419
00:17:16,160 –> 00:17:20,079
اینجا برویم اینجا یک پیوند گزینه های اضافی است، بنابراین
420
00:17:20,079 –> 00:17:22,319
ما فقط می خواهیم ببینیم با چه چیزی می توانیم دریافت
421
00:17:22,319 –> 00:17:23,199
422
00:17:23,199 –> 00:17:25,039
کنیم تا بتوانیم برخی از این پیوندها را
423
00:17:25,039 –> 00:17:26,959
از وب سایت نیز استخراج کنیم،
424
00:17:26,959 –> 00:17:30,880
بنابراین من فقط برای پیوند در سوپ می گویم
425
00:17:30,880 –> 00:17:33,679
و می توانید از تابع find all استفاده کنید
426
00:17:33,679 –> 00:17:35,919
که بسیار مفید است شما می توانید از Find
427
00:17:35,919 –> 00:17:36,960
فقط برای
428
00:17:36,960 –> 00:17:38,960
شناختن شما یکی یکی استفاده کنید
429
00:17:38,960 –> 00:17:42,480
و من می خواهم بعد چاپ کنم
430
00:17:42,480 –> 00:17:44,160
و فقط
431
00:17:44,160 –> 00:17:46,720
متن پیوند را چاپ می
432
00:17:46,720 –> 00:17:50,720
کنم من فقط این کار را انجام می دهم متن نقطه نقطه
433
00:17:54,080 –> 00:17:57,840
بسیار خوب پس بیایید ببینیم
434
00:17:57,840 –> 00:18:01,200
کجا رفتم با این اشتباه است find all
435
00:18:01,200 –> 00:18:04,320
none object قابل فراخوانی نیست، بنابراین
436
00:18:04,320 –> 00:18:07,440
437
00:18:07,440 –> 00:18:10,240
همه این پیوندها را پیدا نکردم،
438
00:18:10,240 –> 00:18:12,080
اجازه دهید ببینم آیا می توانم بفهمم چه اتفاقی
439
00:18:12,080 –> 00:18:13,600
در این مورد
440
00:18:13,600 –> 00:18:16,240
می افتد، بنابراین
441
00:18:16,960 –> 00:18:19,600
من اکشن پرینت را انجام دادم فقط برای اینکه
442
00:18:19,600 –> 00:18:21,840
کمی ساده تر شود.
443
00:18:21,840 –> 00:18:24,880
فقط کافی است به اینجا برگردید،
444
00:18:24,880 –> 00:18:27,440
بنابراین وقتی این عمل را انجام دادید برابر با
445
00:18:27,440 –> 00:18:30,240
چاپ، برخی از قالب بندی های جانبی
446
00:18:30,240 –> 00:18:31,440
و سایر مواردی را که در صفحه وب هستند
447
00:18:31,440 –> 00:18:32,400
448
00:18:32,400 –> 00:18:34,000
کاملاً حذف کنید و
449
00:18:34,000 –> 00:18:36,480
بیایید ببینیم هیچ تایپی ندارم، بنابراین گفت
450
00:18:36,480 –> 00:18:38,720
که من هیچ پیوندی پیدا نکردم
451
00:18:38,720 –> 00:18:41,600
اجازه دهید من فقط بروم و کدی را
452
00:18:41,600 –> 00:18:43,360
که از
453
00:18:43,360 –> 00:18:45,679
وب سایت دوره داشتم کپی کنم
454
00:18:45,679 –> 00:18:47,120
و
455
00:18:47,120 –> 00:18:49,760
ببینیم چه اشتباهی انجام دادم
456
00:18:49,760 –> 00:18:51,440
متن نقطه پیوند
457
00:18:51,440 –> 00:18:53,600
خوب است بنابراین فکر می کنم یک
458
00:18:53,600 –> 00:18:55,679
خطای قالب بندی وجود دارد اجازه دهید به آن برگردم
459
00:18:55,679 –> 00:18:56,880
460
00:18:56,880 –> 00:19:02,559
خوب همه چیزهایی که می خواهیم متن پیوند را چاپ کنیم را پیدا کنم.
461
00:19:04,799 –> 00:19:06,640
فکر میکنم یک خطای قالببندی داشتم، در آنجا
462
00:19:06,640 –> 00:19:08,320
کسی احتمالاً من را اصلاح خواهد کرد
463
00:19:08,320 –> 00:19:10,240
نظرات اینجا من فقط با
464
00:19:10,240 –> 00:19:11,840
این یکی می روم زیرا می خواهم
465
00:19:11,840 –> 00:19:13,919
با آن ادامه دهم در اینجا پیوندهای مختلفی
466
00:19:13,919 –> 00:19:15,679
وجود دارد که
467
00:19:15,679 –> 00:19:18,799
در وب سایت یافت می شود و می توانید
468
00:19:18,799 –> 00:19:20,880
همه آنها را ببینید که در آنجا هستند
469
00:19:20,880 –> 00:19:23,120
شماره های مختلف بلوک منبع وجود دارد
470
00:19:23,120 –> 00:19:26,320
و دیگرانی که می دانید
471
00:19:26,320 –> 00:19:28,320
قسمت های مختلف صفحه وب
472
00:19:28,320 –> 00:19:30,400
و پیوندهایی که در آن صفحه وب تعبیه شده است را نشان
473
00:19:30,400 –> 00:19:32,799
می دهند، به عنوان مثال
474
00:19:32,799 –> 00:19:34,640
برخی از داده های Google وجود دارد که بعداً از آنها استفاده خواهیم کرد
475
00:19:34,640 –> 00:19:35,520
476
00:19:35,520 –> 00:19:38,000
و سایرین تا بتوانید همه
477
00:19:38,000 –> 00:19:41,440
پیوندهایی را که قبلاً استفاده می شود، مشاهده کنید. در آن صفحه وب با
478
00:19:41,440 –> 00:19:44,400
این خطوط کد برای پیوند و کت و شلوار
479
00:19:44,400 –> 00:19:45,840
همه چیز را پیدا کنید
480
00:19:45,840 –> 00:19:48,320
و سپس ما می خواهیم چاپ کنیم و آن را
481
00:19:48,320 –> 00:19:49,919
قالب بندی می کنیم،
482
00:19:49,919 –> 00:19:52,320
بنابراین می خواهیم این
483
00:19:52,320 –> 00:19:54,160
متن پیوند فرمت شده را در اینجا
484
00:19:54,160 –> 00:19:55,919
و آنجا قرار دهیم تا بتوانید
485
00:19:55,919 –> 00:19:57,520
متن پیوند را ببینید.
486
00:19:57,520 –> 00:19:58,640
و سپس
487
00:19:58,640 –> 00:20:00,960
488
00:20:00,960 –> 00:20:03,600
url را که با آن متن پیوند
489
00:20:03,600 –> 00:20:05,280
490
00:20:05,280 –> 00:20:08,080
بود چاپ می کنیم بسیار خوب، بنابراین من می خواهم به یک سلول جدید بیایم
491
00:20:08,080 –> 00:20:10,400
492
00:20:11,760 –> 00:20:13,760
در حال حاضر اجازه دهید در مورد پیوستن به
493
00:20:13,760 –> 00:20:16,080
داده ها صحبت کنیم، بنابراین فرض کنید داده هایی از
494
00:20:16,080 –> 00:20:18,720
منابع مختلف داریم. و ما می خواهیم آن
495
00:20:18,720 –> 00:20:22,159
را در یک فایل داده جمع
496
00:20:22,159 –> 00:20:24,640
کنیم و اجازه دهید فقط
497
00:20:24,640 –> 00:20:27,280
مقداری داده تولید کنیم تا بتوانیم چیزی
498
00:20:27,280 –> 00:20:29,280
برای پیوستن داشته باشیم
499
00:20:29,280 –> 00:20:32,080
و من میروم
500
00:20:32,080 –> 00:20:35,919
dx okay بنابراین یک قاب داده است
501
00:20:35,919 –> 00:20:38,640
و اگر سلولی را در زیر وارد کنم و
502
00:20:38,640 –> 00:20:41,760
فقط d y را انجام دهم،
50