در این مطلب، ویدئو چگونه با استفاده از Python، Requests و BeautifulSoup، نظرات آمازون را پاک کنم با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:30:19
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,080 –> 00:00:01,760
سلام به همه خوش آمدید جان،
2
00:00:01,760 –> 00:00:03,280
ویدیوی امروز اینجا به شما نشان میدهم که چگونه
3
00:00:03,280 –> 00:00:03,840
4
00:00:03,840 –> 00:00:07,279
نظرات آمازون را با استفاده از درخواستهای
5
00:00:07,279 –> 00:00:08,960
سوپ و اسپلش زیبا بنویسید،
6
00:00:08,960 –> 00:00:11,440
بنابراین اگر هنوز آن را ندیدهاید، نسخهای از اصول اولیه اسپلش را
7
00:00:11,440 –> 00:00:13,200
در آخرین ویدیوی خود انجام
8
00:00:13,200 –> 00:00:14,799
دادم. از آنجایی که در این مورد
9
00:00:14,799 –> 00:00:15,920
به شما کمک می کند، اما
10
00:00:15,920 –> 00:00:17,760
اساساً این یک
11
00:00:17,760 –> 00:00:19,199
مرورگر سبک وزن
12
00:00:19,199 –> 00:00:21,840
با یک http api است که می توانیم صفحاتی را
13
00:00:21,840 –> 00:00:22,480
به
14
00:00:22,480 –> 00:00:24,240
آن بفرستیم، آن را برای ما رندر می کند و سپس نتایج را برای ما ارسال
15
00:00:24,240 –> 00:00:25,840
16
00:00:25,840 –> 00:00:27,519
می کند. انگار
17
00:00:27,519 –> 00:00:29,199
html بود چون
18
00:00:29,199 –> 00:00:31,039
splash اساساً تمام
19
00:00:31,039 –> 00:00:32,399
جاوا اسکریپت را برای ما اجرا کرده است،
20
00:00:32,399 –> 00:00:36,559
بنابراین این صفحه آمازون
21
00:00:36,559 –> 00:00:38,920
همین دوربین است و میتوانیم ببینیم که
22
00:00:38,920 –> 00:00:41,040
253 رتبهبندی دارد،
23
00:00:41,040 –> 00:00:42,320
بنابراین کاری که من میخواهم انجام دهم این است که میروم
24
00:00:42,320 –> 00:00:44,480
به پایین صفحه بیایید
25
00:00:44,480 –> 00:00:46,719
و من می خواهم دکمه پایینی را
26
00:00:46,719 –> 00:00:48,559
درست در پایین پیدا کنم که می گوید
27
00:00:48,559 –> 00:00:50,559
همه نظرات را ببینید ما روی آن کلیک می کنیم
28
00:00:50,559 –> 00:00:51,680
و ما را به
29
00:00:51,680 –> 00:00:53,360
صفحه بررسی می برد تا کمی آن را انجام دهیم. بزرگتر است، بنابراین
30
00:00:53,360 –> 00:00:54,559
شما بچه ها می توانید ببینید،
31
00:00:54,559 –> 00:00:57,680
بنابراین ما می خواهیم انجام دهیم ما
32
00:00:57,680 –> 00:01:00,960
میرویم و
33
00:01:00,960 –> 00:01:03,520
عنوان رتبهبندی را میگیریم که فکر میکنم این عنوان به آن
34
00:01:03,520 –> 00:01:04,000
35
00:01:04,000 –> 00:01:05,680
شخص داده است و سپس
36
00:01:05,680 –> 00:01:08,799
متن را پاک میکنیم و
37
00:01:08,799 –> 00:01:11,119
همچنین میخواهیم متن نقد را مانند این دریافت کنیم که بسیار
38
00:01:11,119 –> 00:01:12,799
جالب است، میتوانیم کارهای جالبی
39
00:01:12,799 –> 00:01:14,000
با متن um انجام دهیم
40
00:01:14,000 –> 00:01:16,479
تجزیه و تحلیلی که
41
00:01:16,479 –> 00:01:18,479
در ویدیوی بعدی برای این ویدیو به آن
42
00:01:18,479 –> 00:01:20,080
خواهم پرداخت، فقط قرار است داده ها
43
00:01:20,080 –> 00:01:21,200
را بیرون بیاوریم، بنابراین ما این
44
00:01:21,200 –> 00:01:23,600
سه چیز را حذف می کنیم، بنابراین آنچه می خواهیم انجام دهیم این
45
00:01:23,600 –> 00:01:26,000
است که می خواهیم داکر خود را باز کنیم و ما
46
00:01:26,000 –> 00:01:28,640
میخواهیم splash خود را شروع کنیم
47
00:01:28,640 –> 00:01:30,320
و میتوانیم ببینیم که میگوید در حال اجرا روی برد
48
00:01:30,320 –> 00:01:32,640
8050 است و میتوانیم آن را با تایپ کردن در
49
00:01:32,640 –> 00:01:34,000
localhost بررسی کنیم
50
00:01:34,000 –> 00:01:37,520
و سپس پورت 80 50 بود.
51
00:01:37,520 –> 00:01:39,119
52
00:01:39,119 –> 00:01:40,640
53
00:01:40,640 –> 00:01:42,640
ادامه دهید و این صفحه را کپی کنید،
54
00:01:42,640 –> 00:01:44,240
اما قبل از اینکه این کار را
55
00:01:44,240 –> 00:01:45,759
انجام دهم، فقط میخواهم ببینم که چگونه با صفحهبندی سروکار دارد،
56
00:01:45,759 –> 00:01:47,520
زیرا پس از آن
57
00:01:47,520 –> 00:01:49,840
میتوانیم مطمئن شویم که آدرس اینترنتی را
58
00:01:49,840 –> 00:01:54,320
درست از همان ابتدا نشان میدهیم
59
00:01:54,320 –> 00:01:56,560
تا آدرس واقعی تغییر کند و شماره صفحه را اضافه کند
60
00:01:56,560 –> 00:01:59,040
. برابر با دو در جلو
61
00:01:59,040 –> 00:02:00,560
در پایان متاسفم بنابراین من می خواهم به جلو
62
00:02:00,560 –> 00:02:02,560
برگردم به o ne و این ما را به
63
00:02:02,560 –> 00:02:05,920
صفحه اول برمی گرداند که می خواهم آن را کپی کنم،
64
00:02:06,320 –> 00:02:08,000
بنابراین اکنون می خواهیم ماژول های مورد نیاز خود را وارد کنیم،
65
00:02:08,000 –> 00:02:09,919
بنابراین به درخواست نیاز داریم، بنابراین من می خواهم
66
00:02:09,919 –> 00:02:10,639
67
00:02:10,639 –> 00:02:13,920
درخواست های واردات را انجام دهم و از bs4
68
00:02:13,920 –> 00:02:16,959
import سوپ زیبا
69
00:02:16,959 –> 00:02:19,120
هرگز نمی توانم این را املا کنم این کلمه را تایپ
70
00:02:19,120 –> 00:02:20,080
71
00:02:20,080 –> 00:02:22,480
کنید درست همیشه اشتباه می کنم آدرس اینترنتی عالی همانی است
72
00:02:22,480 –> 00:02:23,680
که من همین الان کپی
73
00:02:23,680 –> 00:02:25,120
کردم و طولانی است، بنابراین آن را
74
00:02:25,120 –> 00:02:27,360
همانجا می گذاریم و اکنون کاری که می خواهیم انجام دهیم این است
75
00:02:27,360 –> 00:02:29,840
که می خواهیم آن را
76
00:02:29,840 –> 00:02:31,760
به سرویس splash خود بفرستیم تا ارائه شود. صفحه
77
00:02:31,760 –> 00:02:33,840
و سپس html را برای ما ارسال کنید تا این کار را انجام دهیم
78
00:02:33,840 –> 00:02:34,239
که
79
00:02:34,239 –> 00:02:38,239
فقط r برابر است با درخواستها
80
00:02:38,239 –> 00:02:41,599
نقطه دریافت کنید اکنون به جای
81
00:02:41,599 –> 00:02:43,519
استفاده از url آمازون خود باید ارسال کنیم در اینجا باید
82
00:02:43,519 –> 00:02:45,040
آدرس splash خود را
83
00:02:45,040 –> 00:02:46,720
که میزبان محلی i است قرار دهیم.
84
00:02:46,720 –> 00:02:49,120
فقط http را به صورت اسلش به شما نشان
85
00:02:49,120 –> 00:02:52,800
86
00:02:52,800 –> 00:02:56,800
دادم
87
00:02:56,800 –> 00:02:58,879
و میزبان محلی um 8050 بود. یکی از سرویسهای splash که
88
00:02:58,879 –> 00:03:00,560
میخواهیم از آن استفاده کنیم همان
89
00:03:00,560 –> 00:03:02,480
رندر است، بنابراین رندر میکنیم تا بتوانیم آن را به نقطه مناسب
90
00:03:02,480 –> 00:03:04,720
در api ارسال کنیم و سپس میخواهیم برای
91
00:03:04,720 –> 00:03:05,760
اضافه کردن پارامترهای خود
92
00:03:05,760 –> 00:03:09,519
که قرار است آدرسی باشد که می
93
00:03:09,519 –> 00:03:10,640
خواهیم خراش دهیم
94
00:03:10,640 –> 00:03:12,720
و در این مورد این i این آدرس اینترنتی
95
00:03:12,720 –> 00:03:14,720
اینجاست که به اینجا وارد می شود
96
00:03:14,720 –> 00:03:16,319
و بعد از آن من
97
00:03:16,319 –> 00:03:18,080
فقط وزن را اضافه می کنم فقط برای اینکه ثابت
98
00:03:18,080 –> 00:03:19,200
نشود اگر صفحه بارگیری نشود وزن ندارد
99
00:03:19,200 –> 00:03:20,159
100
00:03:20,159 –> 00:03:22,959
و می توانم به آن مقدار بدهم 2. بنابراین اگر من
101
00:03:22,959 –> 00:03:25,360
ادامه دهم و بگویم بیایید
102
00:03:25,360 –> 00:03:30,159
r.text را چاپ کنیم و اجرا کنیم که
103
00:03:30,159 –> 00:03:33,840
اساساً باید یک بار از متن html
104
00:03:33,840 –> 00:03:35,519
که همان چیزی است که splash برای ما ارسال کرده است، برگردانیم،
105
00:03:35,519 –> 00:03:38,480
106
00:03:39,280 –> 00:03:42,400
اگر قرار بود این کار را بدون اسپلش انجام دهم میتوانیم همه آن را اینجا ببینیم.
107
00:03:42,400 –> 00:03:45,440
و فقط r برابر است با درخواستها
108
00:03:45,440 –> 00:03:48,959
dot get url و دوباره
109
00:03:48,959 –> 00:03:51,200
متن r dot را چاپ کنید، میتوانیم ببینیم
110
00:03:51,200 –> 00:03:52,640
خیلی سریعتر برمیگردد
111
00:03:52,640 –> 00:03:54,959
و اینجا میگوید فقط باید
112
00:03:54,959 –> 00:03:57,280
مطمئن شویم که شما یک ربات
113
00:03:57,280 –> 00:03:59,760
نیستید که اینطور نیست. ما می خواهیم بنابراین ما
114
00:03:59,760 –> 00:04:01,200
به این یکی نیاز
115
00:04:01,200 –> 00:04:04,080
نداریم و ما آن را نگه می داریم، بنابراین
116
00:04:04,080 –> 00:04:06,720
من فقط می خواهم انجام دهم
117
00:04:07,439 –> 00:04:11,200
بیایید چاپ کنیم در واقع بیایید این را نادیده بگیریم بسیار
118
00:04:11,200 –> 00:04:12,080
خوب
119
00:04:12,080 –> 00:04:14,319
بیایید شی سوپ خود را ایجاد کنیم تا
120
00:04:14,319 –> 00:04:17,519
سوپ درست کنیم برابر با
121
00:04:17,759 –> 00:04:20,478
سوپ زیبا است و اگر بخواهیم
122
00:04:20,478 –> 00:04:22,720
r.text را انجام دهیم که به تازگی تأیید کردیم
123
00:04:22,720 –> 00:04:24,320
از splash با تمام
124
00:04:24,320 –> 00:04:25,840
اطلاعاتی که میخواهیم بازگشته است
125
00:04:25,840 –> 00:04:28,960
و همچنین تجزیهکنندههای html را انجام خواهیم داد که
126
00:04:28,960 –> 00:04:31,440
چگونه میخواهیم اطلاعات
127
00:04:31,440 –> 00:04:34,000
استراحت قهوه را منتقل
128
00:04:36,880 –> 00:04:39,360
کنیم که خوب است
129
00:04:41,360 –> 00:04:42,560
، احتمالاً باید قبل از شروع آن را بنوشم
130
00:04:42,560 –> 00:04:44,960
تا بررسی کنم که سوپ
131
00:04:44,960 –> 00:04:45,600
کار میکند
132
00:04:45,600 –> 00:04:50,720
یا خیر، دوست دارم این کار را انجام دهم.
133
00:04:50,720 –> 00:04:52,880
134
00:04:52,880 –> 00:04:55,600
عنوانی که
135
00:04:55,600 –> 00:04:56,000
136
00:04:56,000 –> 00:04:57,520
برمیگردد دقیقاً صفحهای است که ما فکر
137
00:04:57,520 –> 00:04:59,360
میکنیم در حال دریافت آن هستیم و به نظر میرسد
138
00:04:59,360 –> 00:05:01,840
در بررسیهای مشتریان amazon.co.uk برای
139
00:05:01,840 –> 00:05:03,680
این محصول خاص هستیم، بنابراین میدانیم
140
00:05:03,680 –> 00:05:05,120
که کار میکند،
141
00:05:05,120 –> 00:05:07,039
بنابراین اکنون باید انجام دهیم. کمی
142
00:05:07,039 –> 00:05:09,199
بازجویی بیشتر در صفحه
143
00:05:09,199 –> 00:05:12,400
برای یافتن اینکه این اطلاعات از کجا و چگونه
144
00:05:12,400 –> 00:05:14,000
میآیند،
145
00:05:14,000 –> 00:05:16,479
بنابراین باید به بررسی عنصر برویم،
146
00:05:16,479 –> 00:05:18,000
فقط آن را کمی بزرگتر میکنم تا بتوانیم
147
00:05:18,000 –> 00:05:19,120
148
00:05:19,120 –> 00:05:22,639
با استفاده از عنصر انتخاب در ابزار صفحه، آن را ببینیم.
149
00:05:22,639 –> 00:05:23,039
150
00:05:23,039 –> 00:05:26,560
ما میتوانیم روی حفرههای بررسیها
151
00:05:26,560 –> 00:05:28,479
و تک تک تکهها حرکت کنیم، بنابراین اگر من فقط
152
00:05:28,479 –> 00:05:30,080
کل چیز را نگه دارم
153
00:05:30,080 –> 00:05:33,280
و تازه شروع به گسترش و جمع
154
00:05:33,280 –> 00:05:35,840
کردن دیوهای اینجا کنم، میتوانیم ببینیم که اینها
155
00:05:35,840 –> 00:05:36,479
156
00:05:36,479 –> 00:05:38,800
به نظر میرسند که همه آنها ممکن است همان نظراتی باشند
157
00:05:38,800 –> 00:05:40,800
که هنگام شناور میبینم. بیش از این اول
158
00:05:40,800 –> 00:05:42,320
ما کل t را دریافت می کنیم آنجا را هنگ کنید و اگر
159
00:05:42,320 –> 00:05:44,479
به پایین اسکرول کنم و روی دومی نگه
160
00:05:44,479 –> 00:05:46,080
دارم، میتوانیم تغییرات آن را ببینیم،
161
00:05:46,080 –> 00:05:48,880
بنابراین این جایی است که میخواهیم باشیم،
162
00:05:48,880 –> 00:05:50,479
بیایید آن را یک قدم بزرگتر کنیم،
163
00:05:50,479 –> 00:05:51,919
فقط آن را وارد میکنم تا بتوانیم اکنون
164
00:05:51,919 –> 00:05:52,880
کمی واضحتر
165
00:05:52,880 –> 00:05:55,199
ببینیم اگر به این عناصر نگاه کنیم،
166
00:05:55,199 –> 00:05:57,280
میبینیم که همه آنها شناسههای مختلفی دارند،
167
00:05:57,280 –> 00:06:00,319
بنابراین برای ما خوب نیست و کلاس
168
00:06:00,319 –> 00:06:01,520
دارای
169
00:06:01,520 –> 00:06:04,160
فضاهای um و چیزها و نامهایی در آن است، اما
170
00:06:04,160 –> 00:06:05,360
این ویژگی در اینجا
171
00:06:05,360 –> 00:06:08,240
این ویژگی قلاب داشبورد داده همه
172
00:06:08,240 –> 00:06:10,479
میگوید بررسی برای هر کدام. و همه
173
00:06:10,479 –> 00:06:12,400
ما واقعاً میتوانیم به این دسترسی داشته باشیم، بنابراین
174
00:06:12,400 –> 00:06:14,479
میتوانیم با استفاده از سوپ زیبا
175
00:06:14,479 –> 00:06:17,600
تمام دیویهایی را که این بررسی قلاب داده
176
00:06:17,600 –> 00:06:19,759
را در خود دارند و آنهایی هستند که میخواهیم پیدا کنیم،
177
00:06:19,759 –> 00:06:21,360
بنابراین اگر
178
00:06:21,360 –> 00:06:25,120
به کد خود برگردیم میتوانیم بگوییم که نظرات برابر با
179
00:06:25,120 –> 00:06:28,240
سوپ هستند. dot find all
180
00:06:28,319 –> 00:06:32,160
و یک div بود و سپس میخواهیم
181
00:06:32,160 –> 00:06:34,639
در اینجا انجام دهیم، میخواهیم بگوییم قلاب داده، زیرا
182
00:06:34,639 –> 00:06:36,880
این ویژگی بود که آنها
183
00:06:36,880 –> 00:06:38,639
اطلاعاتی را که
184
00:06:38,639 –> 00:06:40,160
ما میخواهیم جستجو
185
00:06:40,160 –> 00:06:45,039
کنیم و آن را بررسی میکنیم یا بررسی میکردیم، نشان دادند.
186
00:06:45,120 –> 00:06:47,440
این بررسی بود، بنابراین دقیقاً مانند آن و
187
00:06:47,440 –> 00:06:49,360
ما میتوانیم همه آنها را پیدا کنیم
188
00:06:49,360 –> 00:06:51,280
عناصر موجود در آن صفحه
189
00:06:51,280 –> 00:06:54,160
um find همیشه لیستی را به ما برمی گرداند
190
00:06:54,160 –> 00:06:55,759
که سپس می توانیم با چرخش آن را جستجو کنیم و
191
00:06:55,759 –> 00:06:57,440
فقط اولین مورد را پیدا می کند، بنابراین
192
00:06:57,440 –> 00:06:59,199
می خواهیم مطمئن شویم که همه چیز را پیدا می کنیم در این
193
00:06:59,199 –> 00:06:59,680
مورد
194
00:06:59,680 –> 00:07:03,280
اکنون تمام شده است.
195
00:07:03,280 –> 00:07:04,319
اکنون ما میتوانیم
196
00:07:04,319 –> 00:07:05,759
در واقع شروع به بررسی هر
197
00:07:05,759 –> 00:07:07,759
یک از آنها کنیم، بنابراین به شما نشان
198
00:07:07,759 –> 00:07:09,919
میدهم که یک حلقه آسان و خوب انجام میدهیم. اوم،
199
00:07:09,919 –> 00:07:11,919
چهار مورد را در بررسیها انجام میدهم که میتوانید آن را
200
00:07:11,919 –> 00:07:13,680
هر چه دوست دارید نام ببرید،
201
00:07:13,680 –> 00:07:16,720
من تمایل دارم فقط از مورد استفاده کنم کاری که من انجام دادم
202
00:07:16,720 –> 00:07:19,919
عادتها به سختی میمیرند، حدس میزنم
203
00:07:20,560 –> 00:07:24,639
برای مورد در بررسیها اکنون میخواهیم انجام
204
00:07:24,639 –> 00:07:27,360
دهیم، اجازه دهید ابتدا برخی از اطلاعات را چاپ
205
00:07:27,360 –> 00:07:30,479
کنیم، بنابراین بیایید نقطه مورد را
206
00:07:30,479 –> 00:07:33,440
پیدا کنیم و اگر اولین بررسی را گسترش دهیم، اکنون به صفحه خود بازگردیم.
207
00:07:33,440 –> 00:07:35,280
208
00:07:35,280 –> 00:07:38,400
209
00:07:38,400 –> 00:07:40,479
میتوانیم شروع به یافتن بیتهای واقعی اطلاعاتی کنیم که
210
00:07:40,479 –> 00:07:41,520
میخواهیم،
211
00:07:41,520 –> 00:07:43,759
براین اگر دوباره با ابزار بازرسی خود ماوس را روی ای
212
00:07:43,759 –> 00:07:46,000
نوع بیت عنوان قرار ده
213
00:07:46,000 –> 00:07:48,800
م، میتوانیم ببینیم که در یک تگ و ت
214
00:07:48,800 –> 00:07:50,080
span نیز در
215
00:07:50,080 –> 00:07:51,520
ن قرار داریم، بنابراین شما میتوانید بب
216
00:07:51,520 –> 00:07:53,120
نید این یک نوع تو در تو است،
217
00:07:53,120 –> 00:07:55,120
بنابراین دوباره این برچسب این
218
00:07:55,120 –> 00:07:56,479
بررسی قلاب داده را دارد itle
219
00:07:56,479 –> 00:07:58,800
بنابراین ما میتوانیم کاملاً این را بگیریم و
220
00:07:58,800 –> 00:08:01,280
میتوانیم آن عنصر را به این صورت پیدا کنیم،
221
00:08:01,280 –> 00:08:04,319
بنابراین یک برچسب بود و
222
00:08:04,319 –> 00:08:05,680
ما دقیقاً مانند قبل با
223
00:08:05,680 –> 00:08:08,400
براکتهای فرفری برای
224
00:08:08,479 –> 00:08:12,479
داش هوک داده انجام
225
00:08:12,479 –> 00:08:16,160
میدهیم و این یک عنوان نمایش بود،
226
00:08:16,160 –> 00:08:18,160
حالا میروم برای انجام فقط در داخل اینجا، من می
227
00:08:18,160 –> 00:08:19,440
خواهم اکنون متن را انجام دهم،
228
00:08:19,440 –> 00:08:21,360
اگر اشتباهی نداشته باشم،
229
00:08:21,360 –> 00:08:22,879
باید همه
230
00:08:22,879 –> 00:08:24,960
عناوین بررسی را به آنجا برسانیم، ما می توانیم
231
00:08:24,960 –> 00:08:26,479
همه آنها را ببینیم که در حال انجام هستند، بنابراین
232
00:08:26,479 –> 00:08:28,160
اینها همه آنجا هستند که اولی
233
00:08:28,160 –> 00:08:29,599
می گوید این کاملاً شگفتانگیز است
234
00:08:29,599 –> 00:08:31,759
بلا بلا بلا بله بالله
235
00:08:31,759 –> 00:08:33,919
عالی است، اما میتوانیم ببینیم که
236
00:08:33,919 –> 00:08:35,120
237
00:08:35,120 –> 00:08:37,360
فضای سفید و چیزهای اضافی
238
00:08:37,360 –> 00:08:39,200
در اطراف آن وجود دارد، بنابراین میتوانیم نوار نقطهای را
239
00:08:39,200 –> 00:08:40,559
در انتهای
240
00:08:40,559 –> 00:08:44,240
آن دوباره اجرا کنیم و باید همه موارد را حذف
241
00:08:44,240 –> 00:08:45,600
کنیم. فضای سفید برای ما، بنابراین اکنون
242
00:08:45,600 –> 00:08:46,480
243
00:08:46,480 –> 00:08:50,240
ما 10 عنوان صفحه اول خود را برای بررسی های خود داریم
244
00:08:50,240 –> 00:08:51,680
که اکنون واقعاً خوب است،
245
00:08:51,680 –> 00:08:54,959
بنابراین من این را تغییر می دهم
246
00:08:54,959 –> 00:08:58,800
و می
247
00:08:59,200 –> 00:09:03,920
خواهم آن عنوان را حذف کنید و
248
00:09:03,920 –> 00:09:05,839
همچنین اطلاعات بعدی را حذف کنید. که ما
249
00:09:05,839 –> 00:09:07,680
باید پیدا کنیم این
250
00:09:07,680 –> 00:09:11,680
است که بررسی ها دارای رتبه بندی uh هستند، متاسفم
251
00:09:11,680 –> 00:09:13,040
اگر همین کار را انجام دهم دوباره با این
252
00:09:13,040 –> 00:09:15,279
ابزار میتوانیم ببینیم که ما در این هستیم.
253
00:09:15,279 –> 00:09:18,800
تعداد زیادی از آنها را تگ نمیکنیم،
254
00:09:18,800 –> 00:09:20,720
اما در زیر آن یک دهانه
255
00:09:20,720 –> 00:09:23,120
با کلاس 5 از 5 ستاره وجود دارد، بنابراین احتمالاً میتوانیم
256
00:09:23,120 –> 00:09:25,120
این تگ span را بزنیم،
257
00:09:25,120 –> 00:09:26,880
اما من میخواهم دوباره از این یکی استفاده کنید رتبه بندی سبک
258
00:09:26,880 –> 00:09:28,800
بررسی قلاب داده ها را ثابت نگه دارید
259
00:09:28,800 –> 00:09:29,920
260
00:09:29,920 –> 00:09:31,360
زیرا ما می توانیم تمام
261
00:09:31,360 –> 00:09:33,120
متن را خارج از این برچسب دریافت کنیم، بنابراین می بینید که این
262
00:09:33,120 –> 00:09:34,560
یکی از اینجا شروع می شود و به
263
00:09:34,560 –> 00:09:36,640
اینجا ختم می شود، بنابراین وقتی ما متن
264
00:09:36,640 –> 00:09:40,240
درون آن را بخواهیم خواهد رفت. مستقیماً
265
00:09:40,240 –> 00:09:43,680
خوب است، بنابراین مجدداً مورد را رتبهبندی کنید،
266
00:09:43,680 –> 00:09:46,000
نقطه پیدا کنید، زیرا میخواهیم آن مورد خاص را پیدا کنیم.
267
00:09:46,000 –> 00:09:47,519
268
00:09:47,519 –> 00:09:50,560
269
00:09:50,560 –> 00:09:54,399
270
00:09:54,399 –> 00:09:57,440
271
00:09:57,440 –> 00:10:01,040
272
00:10:01,040 –> 00:10:04,720
273
00:10:04,720 –> 00:10:08,399
274
00:10:08,399 –> 00:10:10,880
اجرا را بزنید، ما فقط باید بتوانیم
275
00:10:10,880 –> 00:10:12,320
تمام رتبهبندیهای هر یک از
276
00:10:12,320 –> 00:10:13,360
این محصولات را چاپ
277
00:10:13,360 –> 00:10:15,200
کنیم، میتوانیم ببینیم که
278
00:10:15,200 –> 00:10:17,120
279
00:10:17,120 –> 00:10:19,519
وقتی میخواهیم با این دادهها
280
00:10:19,519 –> 00:10:21,040
در خارج از این برنامهای
281
00:10:21,040 –> 00:10:22,720
که قرار است به آن رسیدگی کنیم، در قالب متنی که اکنون انتظارش را داریم برمیگردند. این عدد را به عنوان یک
282
00:10:22,720 –> 00:10:24,560
عدد واقعی می خواهید، یک دسیما است
283
00:10:24,560 –> 00:10:25,680
284
00:10:25,680 –> 00:10:27,360
من می خواهم آن را به یک علامت شناور تبدیل کنم،
285
00:10:27,360 –> 00:10:28,959
اما برای انجام این کار، باید مقداری از متن اضافی را حذف
286
00:10:28,959 –> 00:10:30,480
287
00:10:30,480 –> 00:10:32,560
کنیم تا بتوانیم ببینیم که از بین پنج ستاره
288
00:10:32,560 –> 00:10:33,519
در پایان است،
289
00:10:33,519 –> 00:10:36,640
بنابراین می توانیم در واقع فقط نقطه جایگزینی را فراخوانی کنیم.
290
00:10:36,640 –> 00:10:40,240
در پایان این و اگر ما از بین
291
00:10:40,240 –> 00:10:43,200
پنج ستاره را دقیقاً همانطور که در اینجا نشان می دهد تایپ
292
00:10:43,200 –> 00:10:43,839
293
00:10:43,839 –> 00:10:45,519
کنیم، در واقع می توانیم
294
00:10:45,519 –> 00:10:47,680
آن را در رشته خود جایگزین کنیم
295
00:10:47,680 –> 00:10:50,160
و چیزی شبیه به آن را جایگزین کنیم و سپس من
296
00:10:50,160 –> 00:10:51,200
می خواهم نوار نقطه ای را انجام دهم
297
00:10:51,200 –> 00:10:53,120
تا هر کدام را حذف کنم. فضای سفید اضافی
298
00:10:53,120 –> 00:10:55,040
و سپس من می خواهم
299
00:10:55,040 –> 00:10:56,399
کل چیز را
300
00:10:56,399 –> 00:10:59,600
در شناور مانند این بپیچم،
301
00:10:59,600 –> 00:11:02,640
بنابراین بسیار طولانی است، اما می بینیم
302
00:11:02,640 –> 00:11:04,000
که من دقیقا همان کاری را انجام داده ام که ما داریم
303
00:11:04,000 –> 00:11:06,160
، این است که داده های ما را دریافت می کنم،
304
00:11:06,160 –> 00:11:07,680
سپس من درخواست می کنم متن از
305
00:11:07,680 –> 00:11:09,200
عنصر و
306
00:11:09,200 –> 00:11:12,320
سپس قسمت انتهایی رشته را
307
00:11:12,320 –> 00:11:14,399
که نمیخواهیم با هیچ چیز جایگزین میکنم،
308
00:11:14,399 –> 00:11:16,160
سپس تمام متن سفید را حذف میکنم
309
00:11:16,160 –> 00:11:17,920
و در حالت پرش فضای سفید
310
00:11:17,920 –> 00:11:18,720
متأسفم
311
00:11:18,720 –> 00:11:21,120
و سپس اطراف آن من هستم از آن بخواهیم
312
00:11:21,120 –> 00:11:22,880
آن را به یک مقدار شناور تبدیل کند که یک
313
00:11:22,880 –> 00:11:24,880
عدد اعشاری است،
314
00:11:24,880 –> 00:11:27,040
بنابراین اجازه دهید اجرا کنیم که باید آن را دریافت کنیم
315
00:11:27,040 –> 00:11:29,120
به یک
316
00:11:29,120 –> 00:11:30,959
عدد اعشاری برمی گردیم،
317
00:11:30,959 –> 00:11:32,160
یعنی وقتی آن را صادر می
318
00:11:32,160 –> 00:11:34,560
کنیم، به عنوان یک عدد ظاهر می شود و ما
319
00:11:34,560 –> 00:11:36,800
نمی توانیم ببینیم چند بررسی چهار ستاره
320
00:11:36,800 –> 00:11:37,279
321
00:11:37,279 –> 00:11:40,240
چند بررسی پنج ستاره وجود دارد.
322
00:11:40,240 –> 00:11:40,959
323
00:11:40,959 –> 00:11:44,000
زندگی بسیار آسانتری دارد، بنابراین آخرین
324
00:11:44,000 –> 00:11:45,440
بخش اطلاعات این است که من
325
00:11:45,440 –> 00:11:47,680
تمام متن را از بررسی
326
00:11:47,680 –> 00:11:49,360
میگیرم و دوباره روی آن در اینجا میروم
327
00:11:49,360 –> 00:11:50,880
و میتوانیم ببینیم که یک چیز مشابه
328
00:11:50,880 –> 00:11:53,279
در اینجا داریم، یک تگ span و آنجا داریم. دوباره
329
00:11:53,279 –> 00:11:53,920
قلاب داده
330
00:11:53,920 –> 00:11:55,839
است و همه چیز اینجاست، بنابراین
331
00:11:55,839 –> 00:11:57,120
من فقط میخواهم به سرعت این کار را انجام دهم، درست
332
00:11:57,120 –> 00:11:58,079
333
00:11:58,079 –> 00:12:01,279
مثل بقیه،
334
00:12:01,279 –> 00:12:05,800
بنابراین بیایید آن بدنه را برابر با
335
00:12:05,800 –> 00:12:10,079
item بنامیم.
336
00:12:10,079 –> 00:12:15,200
337
00:12:18,399 –> 00:12:21,120
داش قلاب داده ما بدنه بررسی
338
00:12:21,120 –> 00:12:22,320
را دوباره در آنجا قرار می
339
00:12:22,320 –> 00:12:24,160
دهد متن نقطه و من همچنین می خواهم
340
00:12:24,160 –> 00:12:25,920
روی این مورد نیز نوار
341
00:12:25,920 –> 00:12:29,680
342
00:12:29,680 –> 00:12:31,519
خالی کنم تا تمام فضای سفید اضافی حذف شود و من براکت را از دست داده ام
343
00:12:31,519 –> 00:12:32,720
باید به اینجا بروم
344
00:12:32,720 –> 00:12:35,760
تا این دو با هم مطابقت داشته باشند و سپس من فقط
345
00:12:35,760 –> 00:12:36,399
سعی
346
00:12:36,399 –> 00:12:37,680
می کنم آن را چاپ کنم تا
347
00:12:37,680 –> 00:12:38,959
بدانیم که w است در مورد اینکه این
348
00:12:38,959 –> 00:12:40,480
متن بسیار افتضاحی برای
349
00:12:40,480 –> 00:12:41,600
ترمینال خواهد بود
350
00:12:41,600 –> 00:12:45,200
، ما به آنجا می رویم، بنابراین همه چیز
351
00:12:45,200 –> 00:12:46,720
وجود دارد احتمالاً برخی از کاراکترهای اضافی
352
00:12:46,720 –> 00:12:48,240
در اینجا وجود دارد که ما می خواهیم آنها را نیز حذف کنیم،
353
00:12:48,240 –> 00:12:49,920
اما من قصد ندارم در
354
00:12:49,920 –> 00:12:50,639
این
355
00:12:50,639 –> 00:12:52,320
ویدیو به آن بپردازم. در قسمت بعدی
356
00:12:52,320 –> 00:12:53,760
خواهیم بود که در آن بیشتر به
357
00:12:53,760 –> 00:12:55,760
تجزیه و تحلیل این اطلاعات
358
00:12:55,760 –> 00:12:57,680
خواهیم پرداخت و چه چیزی می توانیم از آن بدست آوریم،
359
00:12:57,680 –> 00:12:59,120
بنابراین اکنون می دانیم که همه اطلاعات
360
00:12:59,120 –> 00:13:00,800
به درستی منتشر می شوند، می
361
00:13:00,800 –> 00:13:03,600
خواهیم آنچه را که به دست آورده ایم به یک پایتون تبدیل کنیم. فرهنگ لغت
362
00:13:03,600 –> 00:13:04,880
بنابراین ما وضعیت چاپ خود را حذف می
363
00:13:04,880 –> 00:13:06,079
کنیم و فقط می خواهیم این
364
00:13:06,079 –> 00:13:08,560
بررسی را فراخوانی کنیم و
365
00:13:08,560 –> 00:13:11,519
فرهنگ لغت خود را در کل این مورد ایجاد
366
00:13:11,519 –> 00:13:13,360
کنیم و سپس
367
00:13:13,360 –> 00:13:17,680
رتبه عنوان و بدنه را به کلیدهای خود تبدیل کنیم
368
00:13:18,160 –> 00:13:20,800
و سپس داده های واقعی را که
369
00:13:20,800 –> 00:13:22,000
370
00:13:22,000 –> 00:13:24,880
در مقادیر می نویسیم و باید
371
00:13:24,880 –> 00:13:28,000
در انتهای هر یک از این خطوط یک کاما
372
00:13:28,000 –> 00:13:31,360
داشته باشیم تا به درستی کار کند، پس از
373
00:13:31,360 –> 00:13:32,839
آن می توانیم فقط
374
00:13:32,839 –> 00:13:35,760
375
00:13:35,760 –> 00:13:39,040
مروری را که ایجاد کرده ایم چاپ کنیم
376
00:13:39,040 –> 00:13:41,680
و بررسی کنیم. که کار می کند
377
00:13:41,680 –> 00:13:43,040
احتمالا باید حذف شود
378
00:13:43,040 –> 00:13:44,240
که ما می توانیم ببینیم که
379
00:13:44,240 –> 00:13:46,959
ما عنوانی را دریافت میکنیم، رتبهبندی
380
00:13:46,959 –> 00:13:50,079
و بدنه متن را که در واقع
381
00:13:50,079 –> 00:13:51,760
یک اطلاعات دیگر اضافه میکنم
382
00:13:51,760 –> 00:13:54,720
و آن نام محصول خواهد بود، بنابراین من
383
00:13:54,720 –> 00:13:56,240
فقط میخواهم
384
00:13:56,240 –> 00:13:59,040
اضافه کنم، آن را محصولات مینامم و ما
385
00:13:59,040 –> 00:14:03,839
آن را um
386
00:14:03,880 –> 00:14:05,680
soup.title.txt می نامیم،
387
00:14:05,680 –> 00:14:07,680
اما اگر به خاطر داشته باشید که
388
00:14:07,680 –> 00:14:08,959
وقتی عنوان را قبلاً دیدیم نگاه کردیم،
389
00:14:08,959 –> 00:14:12,560
بنابراین یک متن اضافی در
390
00:14:12,560 –> 00:14:13,519
ابتدا داشت که اوم، می خواهیم آن را حذف
391
00:14:13,519 –> 00:14:18,560
392
00:14:18,560 –> 00:14:21,920
کنیم. میتوانم بفهمم چیست
393
00:14:22,160 –> 00:14:25,440
و بیایید فقط در مورد آن نظر بدهیم،
394
00:14:25,440 –> 00:14:27,839
احتمالاً باید ابتدا این کار را میکردم
395
00:14:27,839 –> 00:14:31,839
و مجبور نبودیم همه این کارها را انجام دهیم،
396
00:14:34,079 –> 00:14:36,240
بنابراین میخواهم این
397
00:14:36,240 –> 00:14:37,360
نظرات مشتریان amazon.co.uk
398
00:14:37,360 –> 00:14:39,839
و آن نوع را حذف کنم. فقط یک
399
00:14:39,839 –> 00:14:42,560
راه ساده برای پیدا کردن نام محصول به ما می دهد،
400
00:14:42,560 –> 00:14:43,839
در این مورد، آن را از
401
00:14:43,839 –> 00:14:46,959
عنوان آن می گیریم، بنابراین آن را
402
00:14:46,959 –> 00:14:48,959
با هیچ چیز جایگزین می کنیم و سپس نوار نقطه ای را انجام می دهیم
403
00:14:48,959 –> 00:14:51,279
تا فضای سفید خنک را حذف کنیم،
404
00:14:51,279 –> 00:14:53,519
به این ترتیب ما میخواهیم آن اطلاعات را به
405
00:14:53,519 –> 00:14:55,199
دست بیاوریم، اما بدیهی است
406
00:14:55,199 –> 00:14:57,440
که چندین صفحه وجود دارد،
407
00:14:57,440 –> 00:14:59,199
بنابراین ما باید راهی پیدا کنیم تا از طریق تمام صفحهها حلقه بزنیم.
408
00:14:59,199 –> 00:15:01,120
او صفحات میزند و همه
409
00:15:01,120 –> 00:15:01,920
بررسیها را دریافت میکند
410
00:15:01,920 –> 00:15:03,839
، نکته دیگری نیز وجود دارد که
411
00:15:03,839 –> 00:15:05,600
باید در نظر بگیریم
412
00:15:05,600 –> 00:15:09,839
که آمازون صرف نظر از
413
00:15:09,839 –> 00:15:13,120
موقعیت مکانی شما،
414
00:15:13,120 –> 00:15:15,760
مایل است نظرات کشورهای دیگر را
415
00:15:15,760 –> 00:15:16,480
نیز به شما ارائه دهد
416
00:15:16,480 –> 00:15:17,680
و در واقع کمی
417
00:15:17,680 –> 00:15:20,079
متفاوت هستند، بنابراین ما میبینیم
418
00:15:20,079 –> 00:15:21,680
که فکر میکنم. این ممکن است یک بله باشد، بنابراین
419
00:15:21,680 –> 00:15:23,519
میگوید