در این مطلب، ویدئو آموزش گام به گام اسکراپینگ وب با پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:12:05
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,640 –> 00:00:02,720
به آموزش خراش دادن وب oxylabs خوش آمدید،
2
00:00:02,720 –> 00:00:04,000
3
00:00:04,000 –> 00:00:05,520
ما شما را در ساخت یک
4
00:00:05,520 –> 00:00:07,440
وب اسکراپر ساده و کارآمد با
5
00:00:07,440 –> 00:00:09,280
پایتون راهنمایی می
6
00:00:09,280 –> 00:00:11,759
7
00:00:11,759 –> 00:00:13,920
8
00:00:13,920 –> 00:00:15,120
9
00:00:15,120 –> 00:00:17,039
10
00:00:17,039 –> 00:00:18,880
کنیم. web
11
00:00:18,880 –> 00:00:20,000
12
00:00:20,000 –> 00:00:23,199
scraper دادهها را از وبسایتها به دست میآورد و آنها را
13
00:00:23,199 –> 00:00:24,160
در
14
00:00:24,160 –> 00:00:28,080
فایلهای csv ذخیره میکند. اولین قدم ما این است که
15
00:00:28,080 –> 00:00:30,880
خود پایتون را به خوبی دانلود کنیم، دوست خوب ما،
16
00:00:30,880 –> 00:00:32,880
گوگل اینجاست تا به کمک
17
00:00:32,880 –> 00:00:34,800
ما در این زمینه کمک کند، وقتی به صفحه دانلود اختصاصی پایتون میرسیم
18
00:00:34,800 –> 00:00:36,960
، باید سیستمعامل شما را
19
00:00:36,960 –> 00:00:38,559
بهطور پیشفرض
20
00:00:38,559 –> 00:00:41,200
در مورد ما شناسایی کند. این ویندوز است بیایید
21
00:00:41,200 –> 00:00:43,760
آخرین نسخه را دانلود
22
00:00:43,760 –> 00:00:45,440
کنیم گام دوم ما این است که یک محیط برنامه نویسی را پیدا
23
00:00:45,440 –> 00:00:48,160
کنیم. نسخه انجمن pycharm
24
00:00:48,160 –> 00:00:49,039
عالی کار می کند
25
00:00:49,039 –> 00:00:51,520
و همچنین مجدداً به گوگل
26
00:00:51,520 –> 00:00:53,440
رایگان است و نسخه رایگان انجمن را انتخاب کنید
27
00:00:53,440 –> 00:00:54,879
28
00:00:54,879 –> 00:00:56,239
ما به هیچ چیز پیشرفته تر از این نیاز نخواهیم داشت
29
00:00:56,239 –> 00:00:58,960
30
00:00:58,960 –> 00:01:01,199
نصب این موارد بسیار ساده است،
31
00:01:01,199 –> 00:01:03,920
بنابراین به
32
00:01:03,920 –> 00:01:05,680
محض باز کردن pycharm مستقیماً به قسمت کدنویسی می رویم و
33
00:01:05,680 –> 00:01:08,640
با منوی پروژه مواجه می شوید.
34
00:01:08,640 –> 00:01:11,360
et یک پروژه جدید ایجاد می کند که آن را پروژه scraping وب می نامند
35
00:01:11,360 –> 00:01:12,560
36
00:01:12,560 –> 00:01:16,240
و روی ایجاد یک صفحه بارگیری نسبتا طولانی
37
00:01:16,240 –> 00:01:16,960
کلیک
38
00:01:16,960 –> 00:01:21,200
کنید منتظر بمانید تا pycharm کار خود را
39
00:01:21,600 –> 00:01:23,040
40
00:01:23,040 –> 00:01:25,119
41
00:01:25,119 –> 00:01:26,960
انجام دهد.
42
00:01:26,960 –> 00:01:28,720
برای سایر
43
00:01:28,720 –> 00:01:31,439
روشهای خلاقانهتر،
44
00:01:31,439 –> 00:01:33,520
هنگامی که محیط آماده شد، ابتدا
45
00:01:33,520 –> 00:01:34,880
چند کار وجود دارد که باید انجام دهید،
46
00:01:34,880 –> 00:01:37,280
در صورت نیاز، روی اصلاح روی
47
00:01:37,280 –> 00:01:39,759
اعلان در پایین سمت راست
48
00:01:39,759 –> 00:01:42,000
کلیک کنید، پیکربندی خودکار را انتخاب کنید و
49
00:01:42,000 –> 00:01:43,520
بسته به سیستم عامل خود
50
00:01:43,520 –> 00:01:46,640
اجازه دهید تغییرات بعدی انجام شود،
51
00:01:46,640 –> 00:01:48,560
اجازه دهید با استفاده از یک فایل پایتون یک فایل پایتون ایجاد کنیم.
52
00:01:48,560 –> 00:01:50,320
منوی سمت
53
00:01:50,320 –> 00:01:52,159
چپ بالا پوشه ها را باز کنید و کلیک راست کنید،
54
00:01:52,159 –> 00:01:53,360
55
00:01:53,360 –> 00:01:56,000
فایل جدید و پایتون را انتخاب کنید، اجازه دهید آن را web
56
00:01:56,000 –> 00:01:58,479
scraper
57
00:01:58,799 –> 00:02:00,479
time بنامیم تا چند کتابخانه که
58
00:02:00,479 –> 00:02:02,960
در این آموزش استفاده
59
00:02:02,960 –> 00:02:06,399
خواهیم کرد، بیایید ترمینال را در پایین باز کنیم
60
00:02:06,399 –> 00:02:09,520
تایپ کنید در pip install زیبا سوپ برای
61
00:02:09,520 –> 00:02:13,360
پانداها سلنیوم بعد از فشار دادن اینتر
62
00:02:13,360 –> 00:02:14,959
باید کمی صبر کنیم تا
63
00:02:14,959 –> 00:02:19,040
پایتون نصب کتابخانه ها را تمام کند،
64
00:02:19,520 –> 00:02:21,520
باید کمی تمیز کنیم،
65
00:02:21,520 –> 00:02:23,040
ترمینال را ببندیم از آنجایی که
66
00:02:23,040 –> 00:02:25,920
دیگر به آن نیازی نخواهیم داشت و منوی پروژه را به حداقل می
67
00:02:25,920 –> 00:02:29,040
رسانیم، دیگر نیازی به آن نخواهیم داشت که
68
00:02:29,040 –> 00:02:31,920
اکنون زمان برنامه نویسی است، باید با
69
00:02:31,920 –> 00:02:33,360
وارد کردن کتابخانه هایی که به تازگی نصب کرده ایم،
70
00:02:33,360 –> 00:02:34,800
71
00:02:34,800 –> 00:02:38,400
تایپ کنیم در import panda ها به صورت pdf از bs4
72
00:02:38,400 –> 00:02:41,519
import زیبا شروع کنیم. سوپ از
73
00:02:41,519 –> 00:02:46,400
وبدرایور وارداتی سلنیوم هر کدام در یک زمان خط جدید
74
00:02:47,360 –> 00:02:50,800
برای تعریف اولین درایور متغیر
75
00:02:50,800 –> 00:02:52,400
ما، متغیری است که بیان میکند
76
00:02:52,400 –> 00:02:54,000
درایور وب یا مرورگر ما
77
00:02:54,000 –> 00:02:57,599
چیست و در کجا قرار دارد،
78
00:02:57,599 –> 00:02:59,840
درایورهای وب بر اساس مرورگرهایی
79
00:02:59,840 –> 00:03:01,760
هستند که در سیستمی
80
00:03:01,760 –> 00:03:04,400
که من استفاده میکنم نصب شدهاند. chrome بنابراین درایور وب ما کروم خواهد شد
81
00:03:04,400 –> 00:03:06,720
82
00:03:06,879 –> 00:03:08,720
متأسفانه ما نمیتوانیم مرورگر معمولی خود را اجرا
83
00:03:08,720 –> 00:03:11,519
کنیم، باید درایور وب خاصی را پیدا
84
00:03:11,519 –> 00:03:12,640
85
00:03:12,640 –> 00:03:14,640
کنیم، این کار را با بازگشت به Google و
86
00:03:14,640 –> 00:03:16,640
جستجوی مرورگر و
87
00:03:16,640 –> 00:03:20,640
درایور وب دلخواه خود، توجه داشته باشید که نسخههای
88
00:03:20,640 –> 00:03:21,360
webdriver
89
00:03:21,360 –> 00:03:24,080
و مرورگر وب باید مطابقت داشته باشد در غیر این صورت
90
00:03:24,080 –> 00:03:27,840
اسکراپر ما قادر به اجرا نخواهد بود،
91
00:03:27,840 –> 00:03:29,680
میتوانیم نسخه کروم خود را با
92
00:03:29,680 –> 00:03:30,959
کلیک کردن روی
93
00:03:30,959 –> 00:03:35,040
منوی کمک و بخش درباره
94
00:03:35,519 –> 00:03:37,200
دانلود نسخه درایور وب که
95
00:03:37,200 –> 00:03:39,200
مطابقت دارد را پیدا کنیم. مرورگر شما
96
00:03:39,200 –> 00:03:43,280
اگر هیچکدام مرورگر شما را به روز نکرد،
97
00:03:43,760 –> 00:03:46,560
اکنون فایل دانلود شده را پس از اتمام
98
00:03:46,560 –> 00:03:48,400
آن استخراج کنید، ممکن است
99
00:03:48,400 –> 00:03:50,080
100
00:03:50,080 –> 00:03:52,560
زمان بایگانی را برای کپی کردن مسیر و وارد کردن آن در
101
00:03:52,560 –> 00:03:53,840
102
00:03:53,840 –> 00:03:55,840
pycharm حذف کنیم.
103
00:03:55,840 –> 00:03:57,840
104
00:03:57,840 –> 00:04:00,000
105
00:04:00,000 –> 00:04:03,519
یا دو نقل قول
106
00:04:03,840 –> 00:04:05,680
در انتهای مسیر باید
107
00:04:05,680 –> 00:04:08,000
نام دقیق فایل را وارد
108
00:04:08,000 –> 00:04:09,680
کنیم pycharm به طور خودکار
109
00:04:09,680 –> 00:04:11,760
فایل های اجرایی ممکن را در مسیر نشان می دهد و
110
00:04:11,760 –> 00:04:13,519
پیدا کردن فایل های مورد نیاز را بسیار آسان تر می کند
111
00:04:13,519 –> 00:04:16,480
112
00:04:17,519 –> 00:04:20,560
عبارت بعدی driver.get
113
00:04:20,560 –> 00:04:22,880
این آدرسی است که آدرس ما در آن قرار خواهد گرفت.
114
00:04:22,880 –> 00:04:23,759
115
00:04:23,759 –> 00:04:25,600
به این آموزش بروید، ما از وبلاگ oxylabs استفاده خواهیم کرد،
116
00:04:25,600 –> 00:04:27,520
117
00:04:27,520 –> 00:04:29,360
اجازه دهید برنامه را اکنون اجرا کنیم تا بررسی
118
00:04:29,360 –> 00:04:31,759
کنیم که آیا اشتباهاتی انجام داده ایم در
119
00:04:31,759 –> 00:04:34,320
صورت دریافت هر گونه خطایی، pycharm به
120
00:04:34,320 –> 00:04:36,080
طور کلی اشتباه را با
121
00:04:36,080 –> 00:04:36,560
خط
122
00:04:36,560 –> 00:04:40,160
و فلش مشخص می کند،
123
00:04:40,160 –> 00:04:42,800
بنابراین زمان خوبی برای حرکت است، بیایید یک لیست ایجاد کنیم.
124
00:04:42,800 –> 00:04:43,840
شیئی
125
00:04:43,840 –> 00:04:45,520
که در آن نتایج خراشیده شده خود را ذخیره خواهیم کرد
126
00:04:45,520 –> 00:04:47,199
127
00:04:47,199 –> 00:04:49,040
، براکت های مربع نشان می دهد که
128
00:04:49,040 –> 00:04:50,800
یک لیست خالی است که
129
00:04:50,800 –> 00:04:54,840
نام متغیر را به خوبی انجام می دهد،
130
00:04:54,840 –> 00:04:56,000
131
00:04:56,000 –> 00:04:58,960
اکنون ما باید منبع صفحه را دریافت کنید محتوای متغیر ما منبع صفحه
132
00:04:58,960 –> 00:04:59,680
133
00:04:59,680 –> 00:05:01,600
134
00:05:01,600 –> 00:05:03,039
مشتق شده از url را
135
00:05:03,039 –> 00:05:04,919
که ما بازدید کرده بودیم با عبارت
136
00:05:04,919 –> 00:05:06,080
driver.page
137
00:05:06,080 –> 00:05:09,600
منبع underscore ذخیره می کند در نهایت از آنجایی که
138
00:05:09,600 –> 00:05:11,440
کد منبع بدون تجزیه یک آشفتگی بزرگ
139
00:05:11,440 –> 00:05:12,560
140
00:05:12,560 –> 00:05:15,120
ایجاد می کند ما یک سوپ متغیر جدید ایجاد می کنیم و از سوپ زیبا استفاده می کنیم
141
00:05:15,120 –> 00:05:17,120
و اضافه می کنیم.
142
00:05:17,120 –> 00:05:20,720
تا کنون کد ما به url انتخابی ما می رود
143
00:05:20,720 –> 00:05:22,960
و مرورگر
144
00:05:22,960 –> 00:05:25,199
منبع صفحه خود را دریافت می کند و آن را در
145
00:05:25,199 –> 00:05:28,639
قالبی خوانا ذخیره
146
00:05:28,639 –> 00:05:31,759
می کند. بخش دشوار را شروع می کنیم و اکنون باید
147
00:05:31,759 –> 00:05:34,240
داده ها را از منبع تجزیه شده استخراج کنیم
148
00:05:34,240 –> 00:05:37,440
و در لیست خود قرار دهیم. بیایید
149
00:05:37,440 –> 00:05:38,479
با ایجاد یک
150
00:05:38,479 –> 00:05:41,080
حلقه for شروع کنیم و از چهار عنصر در
151
00:05:41,080 –> 00:05:42,320
سوپ استفاده کنیم.
152
00:05:42,320 –> 00:05:45,600
findall براکت های معمولی را باز
153
00:05:45,600 –> 00:05:48,720
کرده و در انتها یک دونقطه اضافه می
154
00:05:48,720 –> 00:05:50,080
155
00:05:50,080 –> 00:05:52,560
کنیم و حلقه ما روی همه عناصر
156
00:05:52,560 –> 00:05:54,400
موجود در فایل منبع تجزیه شده تکرار می شود که با
157
00:05:54,400 –> 00:05:57,600
ویژگی های خاص
158
00:05:57,600 –> 00:06:00,240
زمان مطابقت دارد تا زمان را