در این مطلب، ویدئو جداول HTML را به راحتی با پانداها و پایتون خراش دهید با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:06:45
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,080 –> 00:00:01,680
سلام به همه خوش آمدید جان،
2
00:00:01,680 –> 00:00:03,040
ویدیوی امروز اینجا به شما نشان میدهم که چگونه میتوانیم
3
00:00:03,040 –> 00:00:05,440
از پانداها برای دریافت مستقیم دادهها از
4
00:00:05,440 –> 00:00:06,160
آدرس اینترنتی
5
00:00:06,160 –> 00:00:08,559
به یک قاب داده استفاده کنیم، بدون درخواست، بدون
6
00:00:08,559 –> 00:00:09,360
سوپ زیبا،
7
00:00:09,360 –> 00:00:11,679
بدون حلقهها، بدون خراشیدن مستقیم از
8
00:00:11,679 –> 00:00:12,480
آدرس اینترنتی
9
00:00:12,480 –> 00:00:15,120
به پانداها، بسیار خوب است.
10
00:00:15,120 –> 00:00:16,960
ابتدا باید پانداها را وارد
11
00:00:16,960 –> 00:00:18,400
کنیم، بنابراین پانداهای ورودی
12
00:00:18,400 –> 00:00:21,680
را به صورت pdf انجام میدهیم، اگر قبل از انجام برخی از
13
00:00:21,680 –> 00:00:23,439
وبسایتهای من، میبینید که
14
00:00:23,439 –> 00:00:25,199
اغلب از dataframe.2csv استفاده میکنم
15
00:00:25,199 –> 00:00:28,560
16
00:00:28,560 –> 00:00:31,439
یا csv را میخوانم تا خواندن اطلاعات را به ارمغان میآورد
17
00:00:31,439 –> 00:00:32,399
در
18
00:00:32,399 –> 00:00:34,160
حال حاضر پانداها در واقع تابعی
19
00:00:34,160 –> 00:00:37,200
به نام read html دارند که میتوانیم یک آدرس اینترنتی بدهیم
20
00:00:37,200 –> 00:00:38,879
که به آن صفحه میرود و
21
00:00:38,879 –> 00:00:40,960
مستقیماً آن را برای ما خراش
22
00:00:40,960 –> 00:00:42,719
میدهد تا شبیه به این شود، بنابراین ما فقط
23
00:00:42,719 –> 00:00:45,520
برای دادهها میگوییم df فریم برابر است با
24
00:00:45,520 –> 00:00:49,120
pd dot read html در آنجا درست است
25
00:00:49,120 –> 00:00:51,360
و اکنون فقط باید به آن آدرس اینترنتی بدهیم،
26
00:00:51,360 –> 00:00:52,800
بنابراین چند نکته در این
27
00:00:52,800 –> 00:00:56,079
مورد وجود دارد، اولین مورد این است که اوه از
28
00:00:56,079 –> 00:00:58,239
لباس زیبایی استفاده می کند اما گاهی اوقات از
29
00:00:58,239 –> 00:00:59,120
پاس های دیگری استفاده می کند
30
00:00:59,120 –> 00:01:01,199
که خوب است و کاری که انجام خواهد داد این است که
31
00:01:01,199 –> 00:01:02,559
بیرون خواهد رفت و به دنبال آن خواهد
32
00:01:02,559 –> 00:01:05,438
بود دادههای جدول در آن صفحه وب، بنابراین
33
00:01:05,438 –> 00:01:07,439
منظور من از دادههای جدول چیست، منظور من
34
00:01:07,439 –> 00:01:11,040
از جدول تگهای html واقعی
35
00:01:11,040 –> 00:01:14,080
و tr و
36
00:01:14,080 –> 00:01:16,080
t d دیگری است، بنابراین قرار است خارج شود و
37
00:01:16,080 –> 00:01:17,600
اینها را در صفحه جستجو
38
00:01:17,600 –> 00:01:19,280
میکند و یک عدد را برمیگرداند. لیست کنید، بنابراین
39
00:01:19,280 –> 00:01:20,720
فهرستی از هر تعداد
40
00:01:20,720 –> 00:01:22,320
جدولی که پیدا می کند
41
00:01:22,320 –> 00:01:24,400
را برمی گرداند، اگر از این استفاده کنید، در
42
00:01:24,400 –> 00:01:26,080
برخی از وب سایت ها خوب کار نمی کند، در برخی
43
00:01:26,080 –> 00:01:28,400
دیگر ممکن است نیاز به پاکسازی داده ها
44
00:01:28,400 –> 00:01:29,680
داشته باشید،
45
00:01:29,680 –> 00:01:31,040
اما برای برخی وب سایت ها مانند من
46
00:01:31,040 –> 00:01:32,960
اکنون به شما نشان خواهم داد که این واقعاً سریع است و
47
00:01:32,960 –> 00:01:35,280
بسیار آسان است و می تواند
48
00:01:35,280 –> 00:01:36,720
برای برخی افراد واقعاً مفید باشد که فقط داده ها را
49
00:01:36,720 –> 00:01:37,680
مستقیماً منتشر
50
00:01:37,680 –> 00:01:39,200
می کنند، بنابراین بیایید نگاهی به برخی از سایت های نسخه ی نمایشی بیندازیم
51
00:01:39,200 –> 00:01:40,960
که من انتخاب کرده ام این
52
00:01:40,960 –> 00:01:41,280
53
00:01:41,280 –> 00:01:43,600
یکی سریع ترین است وبسایت lapse اساساً
54
00:01:43,600 –> 00:01:45,600
یک جدول از
55
00:01:45,600 –> 00:01:48,240
دادههای یک وسیله نقلیه، راننده و یک لپ تایم برای
56
00:01:48,240 –> 00:01:49,200
این
57
00:01:49,200 –> 00:01:52,000
مدار بوگاتی خاص لمانز دارد، بنابراین اگر
58
00:01:52,000 –> 00:01:53,520
این آدرس اینترنتی را کپی کنم
59
00:01:53,520 –> 00:01:56,719
و به کد خود برگردم، آن را در اینجا قرار دهید
60
00:01:56,719 –> 00:01:59,920
و سپس فقط df را چاپ کنید
61
00:01:59,920 –> 00:02:04,000
و ما این کار را انجام میدهیم. اجرا کنید که باید
62
00:02:04,000 –> 00:02:05,600
یک قاب داده را در آنجا برگردانیم تا کاری که انجام می شود این است
63
00:02:05,600 –> 00:02:07,280
که g باشد یکی از آنها فهرستی
64
00:02:07,280 –> 00:02:09,280
از تمام جدولهایی را که در آن صفحه پیدا کرده است
65
00:02:09,280 –> 00:02:11,200
برای ما برگردانده است،
66
00:02:11,200 –> 00:02:13,120
بنابراین اگر به اولی نگاه کنیم
67
00:02:13,120 –> 00:02:15,360
دقیقاً همان دادهای است که دنبال میکردیم
68
00:02:15,360 –> 00:02:18,000
و دومی چیز دیگری است، به
69
00:02:18,000 –> 00:02:19,280
این معنی که باید جدول دیگری وجود داشته باشد. جدول
70
00:02:19,280 –> 00:02:20,879
در آن صفحه اگر به آن نگاه کنیم اولین
71
00:02:20,879 –> 00:02:21,680
موردی که به دست آوردیم
72
00:02:21,680 –> 00:02:24,560
همه این بود و دومی که فکر میکنم
73
00:02:24,560 –> 00:02:26,480
در زیر جایی
74
00:02:26,480 –> 00:02:28,879
است اوه، این شبیه یک جدول
75
00:02:28,879 –> 00:02:30,000
یا چیز دیگری است، بنابراین
76
00:02:30,000 –> 00:02:34,560
اساساً تنها کاری که باید انجام دهیم ایندکس کردن است
77
00:02:34,560 –> 00:02:37,040
آنقدر صفر است که اولین بار اجرا می شود که
78
00:02:37,040 –> 00:02:38,239
دوباره
79
00:02:38,239 –> 00:02:40,080
و قاب داده ما وجود دارد، می توانیم ببینیم
80
00:02:40,080 –> 00:02:42,319
که 17
81
00:02:42,319 –> 00:02:44,800
هشت خط است 177 خط تمام
82
00:02:44,800 –> 00:02:45,840
اطلاعات موجود در آن
83
00:02:45,840 –> 00:02:48,959
84
00:02:48,959 –> 00:02:49,519
85
00:02:49,519 –> 00:02:52,000
86
00:02:52,000 –> 00:02:52,800
است.
87
00:02:52,800 –> 00:02:54,319
واقعاً جالب است و می تواند واقعاً
88
00:02:54,319 –> 00:02:57,200
مفید باشد از آنجا که می توانیم
89
00:02:57,200 –> 00:02:59,440
این داده ها را به هر طریقی دستکاری کنیم یا
90
00:02:59,440 –> 00:03:01,120
غیره و غیره
91
00:03:01,120 –> 00:03:02,560
وب سایت واقعاً خوبی دیگری که
92
00:03:02,560 –> 00:03:04,319
این برای آن کار می کند
93
00:03:04,319 –> 00:03:06,800
ویکی پدیا است که اساساً یک جدول بزرگ است و
94
00:03:06,800 –> 00:03:08,640
ما می توانیم اطلاعات زیادی را از
95
00:03:08,640