در این مطلب، ویدئو خراش دادن وب بسیار آسان در پایتون با پانداها با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:07:46
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,000 –> 00:00:02,639
انجام وب اسکرپینگ در پایتون معمولاً
2
00:00:02,639 –> 00:00:04,960
شامل یادگیری کتابخانه هایی مانند
3
00:00:04,960 –> 00:00:08,559
سوپ سلنیوم زیبا یا خراش دادن است، اما
4
00:00:08,559 –> 00:00:11,519
شما می توانید با استفاده از پانداها در این پروژه اسکراپی اولیه وب را انجام دهید،
5
00:00:11,519 –> 00:00:12,559
6
00:00:12,559 –> 00:00:14,559
من به شما نشان می دهم
7
00:00:14,559 –> 00:00:16,720
که چگونه این کار را انجام دهید، بنابراین در یک ثانیه به این آموزش ادامه خواهیم داد.
8
00:00:16,720 –> 00:00:18,960
میخواهم از
9
00:00:18,960 –> 00:00:21,600
midian برای حمایت مالی از این رسانه ویدیویی تشکر کنم
10
00:00:21,600 –> 00:00:23,199
، بستری است که در آن میتوانید
11
00:00:23,199 –> 00:00:25,359
هزاران راهنمای علوم داده آموزش پایتون را پیدا کنید
12
00:00:25,359 –> 00:00:27,599
و موارد دیگر را میتوانید
13
00:00:27,599 –> 00:00:29,760
با استفاده از پیوند موجود در توضیحات ماهانه پنج دلار به هر راهنما دسترسی نامحدود داشته باشید
14
00:00:29,760 –> 00:00:32,238
15
00:00:32,238 –> 00:00:34,160
،
16
00:00:34,160 –> 00:00:37,760
پس بیایید شروع کنیم. با وارد کردن پانداها به عنوان pd،
17
00:00:37,760 –> 00:00:41,440
بنابراین من پانداها را به صورت pdf وارد می کنم و در اینجا می
18
00:00:41,440 –> 00:00:44,399
خواهم یک csv را از یک URL
19
00:00:44,399 –> 00:00:46,719
با استفاده از پانداها بخوانم و اکنون بیایید برخی
20
00:00:46,719 –> 00:00:49,200
از برنامه نویسی اولیه وب را با
21
00:00:49,200 –> 00:00:52,480
برنامه نویسی وب پانداها
22
00:00:52,480 –> 00:00:56,000
انجام دهیم که شامل استخراج داده ها از وب سایت ها می شود، بنابراین به جای اینکه
23
00:00:56,000 –> 00:00:59,039
این کار را به صورت دستی انجام دهیم، ما می تواند آن را با برخی از
24
00:00:59,039 –> 00:01:01,039
تکنیک های خراش دادن وب خودکار کند و در این
25
00:01:01,039 –> 00:01:04,400
ویدیو ما فقط با استفاده از پانداها فایل های csv را از یک URL استخراج می کنیم،
26
00:01:04,400 –> 00:01:07,840
بنابراین در اینجا
27
00:01:07,840 –> 00:01:10,960
وب سایت هدفی است که می خواهیم خراش دهیم و
28
00:01:10,960 –> 00:01:14,479
این یکی است، بنابراین این وب سایت حاوی
29
00:01:14,479 –> 00:01:17,759
داده هایی در مورد مسابقات فوتبال لیگ های مختلف است،
30
00:01:17,759 –> 00:01:20,159
بنابراین در اینجا می توانید پیوندهای زیادی را مشاهده کنید
31
00:01:20,159 –> 00:01:22,159
و اکنون اولین موردی را انتخاب می کنم
32
00:01:22,159 –> 00:01:25,040
که نتایج فوتبال انگلیس را می گوید
33
00:01:25,040 –> 00:01:27,920
و در اینجا ما می خواهیم اطلاعاتی
34
00:01:27,920 –> 00:01:30,640
در مورد لیگ برتر ببینیم. لیگ و لیگ های دیگری
35
00:01:30,640 –> 00:01:32,880
که انگلیس دارد و اگر بخواهم
36
00:01:32,880 –> 00:01:35,600
یکی از این فایل ها را دانلود کنم
37
00:01:35,600 –> 00:01:39,040
باید روی هر کدام از آن ها کلیک کنم و همانطور که می
38
00:01:39,040 –> 00:01:41,920
بینید آن فایل csv
39
00:01:41,920 –> 00:01:44,240
اولین لیست اینجا را دانلود کردم بنابراین این فایل
40
00:01:44,240 –> 00:01:47,759
مربوط به فصل 21 است. 22 و
41
00:01:47,759 –> 00:01:49,439
از لینک اصلی است،
42
00:01:49,439 –> 00:01:50,240
بنابراین
43
00:01:50,240 –> 00:01:51,439
به جای
44
00:01:51,439 –> 00:01:54,240
دانلود دستی هر فایل، می توانیم
45
00:01:54,240 –> 00:01:56,799
از روش پانداهای خاصی برای خواندن
46
00:01:56,799 –> 00:02:00,000
این فایل ها از اینترنت استفاده کنیم و همچنین
47
00:02:00,000 –> 00:02:02,880
با استفاده از حلقه for می توانیم
48
00:02:02,880 –> 00:02:05,840
این را خودکار کنیم و تمام فایل هایی را که
49
00:02:05,840 –> 00:02:08,479
می توانید در اینجا مشاهده کنید دانلود کنیم. به جای کلیک کردن یک
50
00:02:08,479 –> 00:02:11,038
به یک، میتوانیم همه فایلهای
51
00:02:11,038 –> 00:02:14,160
فهرستشده در اینجا را دانلود کنیم، بنابراین تعداد زیادی از آنها وجود دارد
52
00:02:14,160 –> 00:02:16,879
و میتوانیم آن را فقط با پانداها
53
00:02:16,879 –> 00:02:20,319
و یک حلقه for در پایتون دانلود کنیم، بنابراین بیایید این کار را اینجا انجام دهیم
54
00:02:20,319 –> 00:02:23,120
و اکنون به شما نشان میدهم که چگونه
55
00:02:23,120 –> 00:02:26,879
استخراج t داده از یک فایل csv منفرد از
56
00:02:26,879 –> 00:02:28,319
این وب سایت،
57
00:02:28,319 –> 00:02:31,360
بنابراین برای این کار باید از روش
58
00:02:31,360 –> 00:02:35,200
خواندن underscore csv استفاده کنیم، بنابراین ما می نویسیم
59
00:02:35,200 –> 00:02:37,440
PD dot read
60
00:02:37,440 –> 00:02:39,280
underscore csv
61
00:02:39,280 –> 00:02:40,879
پرانتز باز
62
00:02:40,879 –> 00:02:44,160
و قبلا از این روش
63
00:02:44,160 –> 00:02:47,840
استفاده کرده ایم اما وقتی از آن استفاده می کنیم مقداری داده را می خوانیم.
64
00:02:47,840 –> 00:02:50,720
این در پوشه ای بود که ما در آن کار می کردیم،
65
00:02:50,720 –> 00:02:52,720
بنابراین در پوشه ای که این
66
00:02:52,720 –> 00:02:55,680
فایل نوت بوک jupyter در آن قرار داشت، اما در این
67
00:02:55,680 –> 00:02:58,080
مورد،
68
00:02:58,080 –> 00:03:00,560
ما چیزی را در داخل رایانه خود نمی خوانیم، اما
69
00:03:00,560 –> 00:03:04,080
داده هایی را که در یک وب سایت وجود دارد، می خوانیم.
70
00:03:04,080 –> 00:03:06,400
از نوشتن مسیر فایل
71
00:03:06,400 –> 00:03:08,560
در کامپیوتر شما در این مورد ما
72
00:03:08,560 –> 00:03:11,519
آن لینک فایل را می نویسیم بنابراین
73
00:03:11,519 –> 00:03:14,000
در اینجا به شما نشان می دهم که
74
00:03:14,000 –> 00:03:17,680
این فایل دارای یک لینک است بنابراین اگر می خواهیم
75
00:03:17,680 –> 00:03:20,159
دانلود کنیم باید درخواست کنیم به
76
00:03:20,159 –> 00:03:22,959
آن لینک برای دریافت آن فایل، بنابراین می خواهم
77
00:03:22,959 –> 00:03:24,720
اینجا را به شما نشان دهم، کلیک راست می
78
00:03:24,720 –> 00:03:27,280
کنم و اکنون آدرس پیوند را
79
00:03:27,280 –> 00:03:30,879
کپی می کنم، بنابراین کپی می کنم و اکنون
80
00:03:30,879 –> 00:03:33,519
آن را اینجا و اکنون پیست می کنم اینتر را فشار دهید و
81
00:03:33,519 –> 00:03:36,080
بیایید ببینیم چه اتفاقی می افتد، بنابراین من enter را فشار
82
00:03:36,080 –> 00:03:38,159
می دهم و همانطور که می بینید
83
00:03:38,159 –> 00:03:40,560
به جای رفتن به t او وبسایت آن
84
00:03:40,560 –> 00:03:42,879
فایل را دانلود کرده است، به این معنی که
85
00:03:42,879 –> 00:03:45,599
این پیوند حاوی دادههایی است که میخواهیم
86
00:03:45,599 –> 00:03:49,120
استخراج کنیم، بنابراین از این پیوند استفاده میکنیم، بنابراین
87
00:03