در این مطلب، ویدئو آموزش اسکراپی پایتون برای مبتدیان با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:22:01
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,270 –> 00:00:03,319
[موسیقی]
2
00:00:03,319 –> 00:00:05,670
در این پروژه من از
3
00:00:05,670 –> 00:00:08,790
دوره goodreads.com فرار خواهم کرد، بنابراین اگر از
4
00:00:08,790 –> 00:00:11,250
این URL بازدید کنید یک دوره محبوب
5
00:00:11,250 –> 00:00:13,469
خواهید دید و در این بخش
6
00:00:13,469 –> 00:00:15,750
دوره و نام نویسنده و برخی
7
00:00:15,750 –> 00:00:19,350
محبوبیت های دیگر را مشاهده خواهید کرد، بنابراین برای این منظور
8
00:00:19,350 –> 00:00:21,390
از یک دوره آموزشی استفاده خواهم کرد. فریم ورک scrappy که
9
00:00:21,390 –> 00:00:23,789
در پایتون برای ایجاد خزنده عنکبوتی موج دار و وب بسیار محبوب است،
10
00:00:23,789 –> 00:00:27,390
من کدی را به شما نشان می دهم
11
00:00:27,390 –> 00:00:30,210
که چگونه خزنده را ایجاد کرده ام
12
00:00:30,210 –> 00:00:34,550
و همچنین نحوه اجرای یک فریم ورک scrappy
13
00:00:34,550 –> 00:00:40,070
را به شما نشان می دهم و در نهایت به شما نشان خواهم داد که چگونه
14
00:00:40,070 –> 00:00:44,460
داده ها را جمع آوری کردم و به صورت یک فایل HTML بنویسید
15
00:00:44,460 –> 00:00:46,770
تا من به سادگی بتوانم کد
16
00:00:46,770 –> 00:00:50,789
و نام نویسنده را دریافت کنم همچنین این کد
17
00:00:50,789 –> 00:00:53,670
در پروژه github من منتشر شده است، بنابراین اگر
18
00:00:53,670 –> 00:00:56,070
از github.com بازدید کردید اسلش محمد
19
00:00:56,070 –> 00:00:59,609
احسن اسلش موجی اسکراپ را در اینجا
20
00:00:59,609 –> 00:01:01,590
مشاهده می کنید که در آن دسته بندی دوره را مشاهده می کنید.
21
00:01:01,590 –> 00:01:07,799
می توانید کد راه اندازی یک
22
00:01:07,799 –> 00:01:11,400
فریم ورک scrappy در سیستم عامل مک را مشاهده کنید، ابتدا
23
00:01:11,400 –> 00:01:13,710
باید ابزار بسته بندی PPN be را
24
00:01:13,710 –> 00:01:15,780
که در بخش ویدیوی قبلی خود نشان داده ام نصب کنید
25
00:01:15,780 –> 00:01:18,390
تا پس از اینکه
26
00:01:18,390 –> 00:01:20,250
peepee Envy را با موفقیت
27
00:01:20,250 –> 00:01:23,630
در Mac yo خود نصب کردید. شما فقط می توانید بنویسید P pnv این نامرتب
28
00:01:23,630 –> 00:01:26,870
29
00:01:26,870 –> 00:01:30,859
[Music] را نصب کنید،
30
00:01:33,190 –> 00:01:36,350
بنابراین peepee Envy با موفقیت در مک من نصب شد،
31
00:01:36,350 –> 00:01:39,470
بنابراین من برای تمیز
32
00:01:39,470 –> 00:01:42,920
کردن صفحه نمایش واضح می نویسم و در حال حاضر اگر پاک کنم اگر PWD
33
00:01:42,920 –> 00:01:45,410
ا pigeon working directory تایپ کنم، م
34
00:01:45,410 –> 00:01:47,780
بینم که من هستم در دایرکتوری دمو دسکتاپ
35
00:01:47,780 –> 00:01:51,140
، بنابراین در اینجا من شروع به ایجاد
36
00:01:51,140 –> 00:01:54,680
یک پروژه scrappy می کنم، بنابراین برای اینکه
37
00:01:54,680 –> 00:01:58,040
قبل از تایپ کردن باید تایپ کنم پروژه Cappy است،
38
00:01:58,040 –> 00:02:00,860
باید پوسته ppmv را فعال کنم، بنابراین
39
00:02:00,860 –> 00:02:04,250
باید عمیق env chill را بنویسم، بنابراین اکنون
40
00:02:04,250 –> 00:02:07,430
peepee Envy در من فعال شده است. مک، بنابراین من دوباره دارم تایپ می کنم
41
00:02:07,430 –> 00:02:11,180
clear now I am I
42
00:02:11,180 –> 00:02:13,850
یک پروژه ضایعات ایجاد خواهم کرد، بنابراین برای انجام این کار
43
00:02:13,850 –> 00:02:19,580
باید یک پروژه شروع ناقص
44
00:02:19,580 –> 00:02:27,350
بنویسم، نام پروژه را به عنوان نقل قول
45
00:02:27,350 –> 00:02:30,260
46
00:02:30,260 –> 00:02:32,660
می گذارم تا اگر چشم کمتر رایجی را تایپ کنم من هستم، دوره بودجه ایجاد می شود. با دیدن اینکه
47
00:02:32,660 –> 00:02:34,910
آنها سه فایل p5p هستند، قفل و
48
00:02:34,910 –> 00:02:39,709
دوره را فراموش کرده ام، بنابراین سی دی را تایپ می کنم اما یا
49
00:02:39,709 –> 00:02:41,959
دایرکتوری مشترک را تغییر می دهم تا دوره
50
00:02:41,959 –> 00:02:44,390
eject یا e را وارد کنم، بنابراین در حال حاضر در داخل
51
00:02:44,390 –> 00:02:48,890
کد rectory هستم بنابراین باید یک
52
00:02:48,890 –> 00:02:52,130
spider ایجاد کنم تا یک spider ایجاد کنم. من
53
00:02:52,130 –> 00:02:57,730
باید اسکرپی جیمز عنکبوت و من
54
00:02:57,730 –> 00:03:02,680
نام عنکبوت را به عنوان دوره عنکبوت می
55
00:03:02,680 –> 00:03:06,019
گذارم و سپس باید URL را نیز ارائه دهم، بنابراین
56
00:03:06,019 –> 00:03:08,630
از مرورگر وب بازدید می کنم و در اینجا می
57
00:03:08,630 –> 00:03:10,970
بینم که خیابان دات کام خوب است، بنابراین من
58
00:03:10,970 –> 00:03:15,590
فقط باید W ggeous calm را کپی کنم و
59
00:03:15,590 –> 00:03:18,140
به دوباره ترمینال من و در اینجا
60
00:03:18,140 –> 00:03:20,239
دو نقطه دو نقطه
61
00:03:20,239 –> 00:03:23,739
goodreads.com را می چسبانم و باید enter را بزنم
62
00:03:23,739 –> 00:03:27,860
تا عنکبوت نیز ایجاد شود، بنابراین اگر
63
00:03:27,860 –> 00:03:31,070
به ویرایشگر کد ویژوال استودیو بروم و
64
00:03:31,070 –> 00:03:34,580
آن فایل را باز کنم، می بینم که در دایرکتوری دمو
65
00:03:34,580 –> 00:03:36,290
وجود دارد. یک دایرکتوری دوره،
66
00:03:36,290 –> 00:03:39,230
سپس یک دایرکتوری دوره دیگر، یک عنکبوت وجود دارد
67
00:03:39,230 –> 00:03:42,050
و البته یک عنکبوت ایجاد می شود، بنابراین
68
00:03:42,050 –> 00:03:43,840
این اساساً یک
69
00:03:43,840 –> 00:03:46,390
الگوی اساسی است که اگر در مک خود پنجره Finder را باز کنید، کد را با کد واقعی ما جایگزین می کند
70
00:03:46,390 –> 00:03:50,110
تا داده ها را از کالاها حذف
71
00:03:50,110 –> 00:03:52,500
کند. goodreads.com
72
00:03:52,500 –> 00:03:55,599
73
00:03:55,599 –> 00:03:58,000
دایرکتوری نسخه ی نمایشی شما همچنین می
74
00:03:58,000 –> 00:04:00,250
توانید ابتدا کد کارگردان را در اینجا ببینید سپس
75
00:04:00,250 –> 00:04:02,709
دوباره کدها را ببینید و سپس اینجا عنکبوت و
76
00:04:02,709 –> 00:04:04,930
اینجا نقل قول های واقعی است
77
00:04:04,930 –> 00:04:12,700
نقطه PI برای نصب مشکل است با استفاده از
78
00:04:12,700 –> 00:04:14,650
peepee Envy در ویندوز
79
00:04:14,650 –> 00:04:17,260
مشکل ساز است.
80
00:04:17,260 –> 00:04:20,500
متوجه شدیم که اگر
81
00:04:20,500 –> 00:04:23,860
82
00:04:23,860 –> 00:04:27,940
میخواهید از یک فریمر اسکرپی با استفاده از P P NP استفاده کنید، باید مقداری فریمورک داتنت یا غیره
83
00:04:27,940 –> 00:04:30,550
نصب کنید، بنابراین سادهترین راه برای نصب،
84
00:04:30,550 –> 00:04:32,979
فریمورک KP با استفاده از Conda یا mini Conda است،
85
00:04:32,979 –> 00:04:36,450
بنابراین برای انجام این کار باید از HTTP
86
00:04:36,450 –> 00:04:40,120
Condor dot io / بازدید کنید. mini Condor dot HTML
87
00:04:40,120 –> 00:04:43,750
در اینجا شما 64 بیتی یا 32 بیتی را مشاهده خواهید کرد، بنابراین
88
00:04:43,750 –> 00:04:48,940
من از 64 بیت در ویندوزم استفاده می کنم، بنابراین ابتدا
89
00:04:48,940 –> 00:04:52,120
دانلود کنید و سپس نصب کنید، بنابراین پس از
90
00:04:52,120 –> 00:04:54,910
دانلود در ویندوز من قصد دارم
91
00:04:54,910 –> 00:04:57,430
این را نصب کنم، بنابراین من فقط روی بعدی موافقم کلیک می کنم.
92
00:04:57,430 –> 00:05:02,680
سپس در اینجا می بینید
93
00:05:02,680 –> 00:05:04,680
که پوشه مقصد در مورد من است
94
00:05:04,680 –> 00:05:08,020
Mohammed see users Mohammedan Minicon de
95
00:05:08,020 –> 00:05:10,750
3 بنابراین من از آن به عنوان دایرکتوری پیش فرض استفاده می کنم
96
00:05:10,750 –> 00:05:16,450
و در اینجا روی متغیر add
97
00:05:16,450 –> 00:05:18,729
anaconda to my path my path کلیک می کنم و روی
98
00:05:18,729 –> 00:05:22,990
این register anaconda به عنوان
99
00:05:22,990 –> 00:05:25,570
من کلیک می کنم. پیشفرض پایتون 3.7 من فقط از
100
00:05:25,570 –> 00:05:27,850
این اول استفاده میکنم، سپس روی
101
00:05:27,850 –> 00:05:30,220
install
102
00:05:30,220 –> 00:05:31,639
[Music] کلیک میکنم،
103
00:05:31,639 –> 00:05:35,219
بنابراین در فروشگاه تکمیل شد، بنابراین روی
104
00:05:35,219 –> 00:05:39,479
next کلیک میکنم و سپس تیک این و این را برداریم
105
00:05:39,479 –> 00:05:42,149
و سپس روی finish کلیک
106
00:05:42,149 –> 00:05:45,089
میکنم تا آناکوندا در سیستم من نصب شود،
107
00:05:45,089 –> 00:05:50,309
بنابراین اگر من به سمت E خود می روم پنجره xplorer در اینجا
108
00:05:50,309 –> 00:05:53,219
می بینید که من mini condor را در فهرست کاربران دریا نصب می کنم،
109
00:05:53,219 –> 00:05:57,809
سپس اینجا در
110
00:05:57,809 –> 00:06:02,580
بخش کاربر محمد، سپس در اینجا
111
00:06:02,580 –> 00:06:05,159
مینی Condor 3 را می بینید، بنابراین در مورد شما
112
00:06:05,159 –> 00:06:06,990
ممکن است مسیرهای مختلفی باشد، بنابراین باید آن را
113
00:06:06,990 –> 00:06:10,619
به خاطر بسپارید و اینجا در پوشه اسکریپت ها
114
00:06:10,619 –> 00:06:12,779
فایلی وجود دارد که
115
00:06:12,779 –> 00:06:15,719
قبل از
116
00:06:15,719 –> 00:06:18,479
نصب فریم ورک
117
00:06:18,479 –> 00:06:21,209
اسکرپی
118
00:06:21,209 –> 00:06:24,059
در ویندوز پاورشل خود استفاده می کنیم. من باید این Minicon رایگان را فعال کنم، بنابراین در Windows PowerShell خود باید
119
00:06:24,059 –> 00:06:28,529
CMD را تایپ کنم و سپس دوره را در داخل
120
00:06:28,529 –> 00:06:31,499
دو دوره دوبرابر با حروف بزرگ اسلش کنم
121
00:06:31,499 –> 00:06:35,430
و سپس K در اینجا من مسیر واقعی را می نویسم
122
00:06:35,430 –> 00:06:37,979
که کاربران Mohammed Minicon
123
00:06:37,979 –> 00:06:40,649
de three scripts dot dat را فعال می کنند سپس
124
00:06:40,649 –> 00:06:44,459
باید ENTER را در PowerShell ویندوز خود تایپ کنم
125
00:06:44,459 –> 00:06:47,219
تا وقتی می بینید این پایه
126
00:06:47,219 –> 00:06:50,819
قبل از مسیر واقعی نوشته شده است به این
127
00:06:50,819 –> 00:06:53,579
معنی که Minicon چیزی
128
00:06:53,579 –> 00:06:55,619
فعال می شود. در اینجا پس چیزی شبیه به
129
00:06:55,619 –> 00:06:58,649
محیط مجازی است، بنابراین در اینجا
130
00:06:58,649 –> 00:07:02,819
باید فریمورک scrappy
131
00:07:02,819 –> 00:07:07,889
را نصب کنم، بنابراین برای نصب scrappy باید Conda
132
00:07:07,889 –> 00:07:09,340
install scrappy
133
00:07:09,340 –> 00:07:12,510
[Music]
134
00:07:12,770 –> 00:07:16,610
و سپس w را تایپ کنم. پس از آن یک اقدام yn نشان می دهد، باید
135
00:07:16,610 –> 00:07:21,190
Y را تایپ کنم و سپس دوباره کلیک کنم
136
00:07:21,890 –> 00:07:25,110
تا فریم ورک scrappy
137
00:07:25,110 –> 00:07:28,320
با موفقیت در ویندوز من نصب شود، بنابراین اگر اینجا تایپ کردم
138
00:07:28,320 –> 00:07:33,560
scrappy است، پوسته و سپس و
139
00:07:33,560 –> 00:07:38,520
سپس URL دوره goodreads.com را تایپ کنید
140
00:07:38,520 –> 00:07:43,500
و اگر کلیک کردم. وارد کنید و اگر
141
00:07:43,500 –> 00:07:45,330
فریم ورک scrappy با موفقیت نصب
142
00:07:45,330 –> 00:07:47,940
شد، باید رابط پوسته را
143
00:07:47,940 –> 00:07:50,490
در اینجا باز کنید، بنابراین رابط پوسته را نشان می دهد،
144
00:07:50,490 –> 00:07:52,920
یعنی scrappy با موفقیت فعال شد،
145
00:07:52,920 –> 00:07:55,980
بنابراین برای خروج از اینجا
146
00:07:55,980 –> 00:07:59,220
، خروجی و پرانتز را قرار می دهم، بنابراین به
147
00:07:59,220 –> 00:08:03,390
پنجره بالا می روم، بنابراین اکنون اینجا هستم. من CLS را تایپ می کنم
148
00:08:03,390 –> 00:08:07,110
تا صفحه پاک شود و اکنون
149
00:08:07,110 –> 00:08:09,600
یک پروژه ضایعات ایجاد می کنم، بنابراین برای شروع یک
150
00:08:09,600 –> 00:08:12,230
پروژه scrappy باید یک پروژه شروع scrappy را تایپ کنم
151
00:08:12,230 –> 00:08:15,540
سپس نام پروژه
152
00:08:15,540 –> 00:08:21,840
دوره است و یک دایرکتوری جدید یا پوشه جدید
153
00:08:21,840 –> 00:08:25,020
در فهرست دمو ایجاد می شود.
154
00:08:25,020 –> 00:08:28,320
اگر dir common را تایپ کنم می بینم که
155
00:08:28,320 –> 00:08:31,890
دایرکتوری دوره در اینجا است، بنابراین دوباره
156
00:08:31,890 –> 00:08:35,789
CLS را تایپ کردم و CD یا دایرکتوری را تغییر می
157
00:08:35,789 –> 00:08:40,020
دهم و وارد دوره می شوم اکنون
158
00:08:40,020 –> 00:08:42,059
در دایرکتوری دوره در دایرکتوری دمو
159
00:08:42,059 –> 00:08:45,140
s هستم. o در اینجا من یک عنکبوت ایجاد می کنم
160
00:08:45,140 –> 00:08:48,420
بنابراین برای ایجاد یک عنکبوت باید
161
00:08:48,420 –> 00:08:53,670
یک اسکرپی تایپ کنم.
162
00:08:53,670 –> 00:08:57,630
163
00:08:57,630 –> 00:08:59,700
164
00:08:59,700 –> 00:09:03,900
در
165
00:09:03,900 –> 00:09:07,830
اینجا ایجاد شده است، بنابراین اگر
166
00:09:07,830 –> 00:09:10,380
ویرایشگر کد ویژوال استودیو خود را در اینجا باز کنم، می بینید که
167
00:09:10,380 –> 00:09:12,990
آن نسخه آزمایشی Tory دارای کدهایی است و داخل
168
00:09:12,990 –> 00:09:14,940
دوره یک فهرست دوره دیگری
169
00:09:14,940 –> 00:09:17,550
وجود دارد و یک فهرست spiders وجود دارد و
170
00:09:17,550 –> 00:09:20,970
در اینجا دوره به صورت spider است، این کد
171
00:09:20,970 –> 00:09:24,330
تولید می شود، بنابراین ما به روز می کنیم. این کد توسط
172
00:09:24,330 –> 00:09:27,089
دوره واقعی ما،
173
00:09:27,089 –> 00:09:30,179
همچنین اگر پنجره اکسپلورر را
174
00:09:30,179 –> 00:09:32,279
در ویندوز باز کنید، دایرکتوری دمو را مشاهده خواهید
175
00:09:32,279 –> 00:09:33,989
کرد که course ejector II
176
00:09:33,989 –> 00:09:36,809
وجود دارد، سپس دوره وجود دارد و همچنین
177
00:09:36,809 –> 00:09:38,549
عنکبوت ها را خواهید دید و در آنجا
178
00:09:38,549 –> 00:09:41,729
دوره را در اسکریپت spider Python خواهید دید. ما
179
00:09:41,729 –> 00:09:45,389
کد واقعی را در اینجا می نویسیم تا
180
00:09:45,389 –> 00:09:52,169
کالاها را از بین ببریم دوره comm را حذف کنیم تا از هر
181
00:09:52,169 –> 00:09:56,039
وب سایتی فرار کنیم، ابتدا باید صفحه وب را تجزیه و تحلیل کنیم
182
00:09:56,039 –> 00:10:00,089
و از آنجایی که ما از یک فریمورک خراب استفاده می کنیم
183
00:10:00,089 –> 00:10:02,429
، Cappy نیز مستندات خوبی دارد،
184
00:10:02,429 –> 00:10:05,659
بنابراین در صورت نیاز هر
185
00:10:05,659 –> 00:10:10,259
مرجع دیگری را میتوانید به اینجا بروید
186
00:10:10,259 –> 00:10:13,949
و بررسی کنید، بنابراین ابتدا میخواهیم
187
00:10:13,949 –> 00:10:15,869
این صفحه وب را که goodreads.com است تجزیه و تحلیل کنیم،
188
00:10:15,869 –> 00:10:19,409
بنابراین اگر اینجا را راست کلیک کنم
189
00:10:19,409 –> 00:10:21,839
و در مرورگر Google Chrome خود فقط
190
00:10:21,839 –> 00:10:28,169
بر روی Inspect کلیک کنم، میبینم که در
191
00:10:28,169 –> 00:10:32,389
پایین این صفحه corpse در عرشه عمیق HTML است،
192
00:10:32,389 –> 00:10:37,109
بنابراین می بینید که باید
193
00:10:37,109 –> 00:10:39,899
کد HTML را به سرعت تجزیه و تحلیل کنید، بنابراین در اینجا می
194
00:10:39,899 –> 00:10:42,419
توانید ببینید که یک مادر عمیق وجود دارد که
195
00:10:42,419 –> 00:10:44,639
یک دوره است، سپس در آن دوره
196
00:10:44,639 –> 00:10:47,339
کد دیگری مانند این وجود دارد و می بینید
197
00:10:47,339 –> 00:10:51,929
که این کد در عمقی
198
00:10:51,929 –> 00:10:54,839
که متن کد کلاس CSS را دارد و
199
00: