در این مطلب، ویدئو نحوه پایتون: خراش دادن نظرات yelp با استفاده از سوپ زیبا | زیو ژانگ | جلسه اطلاعات با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:57:40
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,000 –> 00:00:07,290
[موسیقی
2
00:00:10,240 –> 00:00:14,140
] خیلی خوب، بچه ها، شب بخیر، اسم من
3
00:00:14,140 –> 00:00:16,180
جولی است، بابت این پول
4
00:00:16,180 –> 00:00:19,690
برای معرفی امروز برای این سمینار وب، از شما متشکرم.
5
00:00:19,690 –> 00:00:21,340
6
00:00:21,340 –> 00:00:24,730
7
00:00:24,730 –> 00:00:27,370
8
00:00:27,370 –> 00:00:29,830
از پایتون 3 استفاده
9
00:00:29,830 –> 00:00:32,890
می کنید، می توانید دفترچه ای را که
10
00:00:32,890 –> 00:00:35,489
برای جلسه امروز استفاده می کنیم در برنامه درسی
11
00:00:35,489 –> 00:00:40,330
پیدا کنید که می توانید آن را در Adobe Connect بیابید،
12
00:00:40,330 –> 00:00:44,079
بنابراین آیا ما از آناکوندا استفاده می کنیم، بنابراین
13
00:00:44,079 –> 00:00:45,880
کدام یک مانند یک هاب برای
14
00:00:45,880 –> 00:00:47,770
دانشمندان داده است. همچنین میتوانید
15
00:00:47,770 –> 00:00:51,300
لینک دانلود آناکوندا را پیدا کنید، فکر میکنم در
16
00:00:51,300 –> 00:00:54,520
صفحه اول انتخاب اول، اگر
17
00:00:54,520 –> 00:00:56,559
میتوانید پیوندی برای دانلود کندور در
18
00:00:56,559 –> 00:00:58,870
مسیر ارسال کنید، عالی خواهد بود، بنابراین من از
19
00:00:58,870 –> 00:01:01,450
ویندوز در آپارتمانم استفاده میکنم، بنابراین اگر
20
00:01:01,450 –> 00:01:04,660
قبلاً یک condor شما خودتان
21
00:01:04,660 –> 00:01:06,610
را دارید، می دانید Python Bob و تنظیمات آن
22
00:01:06,610 –> 00:01:07,270
عالی است،
23
00:01:07,270 –> 00:01:12,369
بنابراین من فقط عبارت anaconda را تایپ می
24
00:01:12,369 –> 00:01:15,909
کنم تا من مک هستم، به بالا سمت راست بروید و سپس
25
00:01:15,909 –> 00:01:19,299
نوار جستجو را کلیک کنید
26
00:01:19,299 –> 00:01:21,909
و سپس terminal را تایپ کنید و سپس یک
27
00:01:21,909 –> 00:01:25,900
نوع مشابه مشابه مانند prompt یا
28
00:01:25,900 –> 00:01:29,049
te rminal اما این دستور بعدی
29
00:01:29,049 –> 00:01:31,659
که باید تایپ کنید نوت بوک نوبتی شماست،
30
00:01:31,659 –> 00:01:35,950
بنابراین
31
00:01:35,950 –> 00:01:37,360
32
00:01:37,360 –> 00:01:39,490
اگر برای اولین بار است که از نوت بوک آناکوندا یا ژوپیتر استفاده می کنید، به مدت 15 ثانیه مطمئن شوید که همه در یک صفحه هستند.
33
00:01:39,490 –> 00:01:42,280
34
00:01:42,280 –> 00:01:44,650
35
00:01:44,650 –> 00:01:47,140
برای کاربران مک می توانید به
36
00:01:47,140 –> 00:01:49,720
ترمینال جستجوی بالا سمت راست بروید و سپس
37
00:01:49,720 –> 00:01:57,009
همان فرمان Jupiter notebook
38
00:01:57,009 –> 00:01:59,829
را تایپ کنید، بنابراین مرورگر وب خود را راه اندازی کنید و سپس آن را به
39
00:01:59,829 –> 00:02:01,900
نوعی مانند ساختار
40
00:02:01,900 –> 00:02:04,960
فهرست فایل های دستگاه محلی خود خواهید دید، بنابراین
41
00:02:04,960 –> 00:02:07,420
بسته به مکان شما
42
00:02:07,420 –> 00:02:10,929
فایل نوت بوک را برای پیمایش در آن در
43
00:02:10,929 –> 00:02:14,380
این برادر خیلی خوب دانلود کردید چه کاری می توان انجام داد این است که به
44
00:02:14,380 –> 00:02:16,630
عنوان مثال من نوت بوک خود را
45
00:02:16,630 –> 00:02:19,720
روی دسکتاپ ذخیره کردم بنابراین به دسکتاپ
46
00:02:19,720 –> 00:02:22,990
می روم و سپس به کارگاه خود می روم و سپس می
47
00:02:22,990 –> 00:02:25,600
توانم این نوع نماد نوت بوک را
48
00:02:25,600 –> 00:02:29,110
اینجا پیدا کنم شما فقط روی آن کلیک کنید و سپس
49
00:02:29,110 –> 00:02:32,860
صفحه ای مانند این را خواهید دید، بنابراین در این
50
00:02:32,860 –> 00:02:36,520
وبینار ما سعی می کنیم برخی از اصول اولیه را
51
00:02:36,520 –> 00:02:38,800
در مورد وب scraping که بخشی از
52
00:02:38,800 –> 00:02:41,110
آن در واقع یکی از چهار
53
00:02:41,110 –> 00:02:43,030
پروژه در کتاب علم داده است بررسی کنیم. می توانم
54
00:02:43,030 –> 00:02:44,590
فکر کنم یادم رفت اسمم را معرفی کنم
55
00:02:44,590 –> 00:02:47,740
زود است من ماشین پایتون را آموزش می دهم
56
00:02:47,740 –> 00:02:50,170
و سخنرانی های علمی در
57
00:02:50,170 –> 00:02:52,600
آکادمی اساساً در بوت کمپ است، بنابراین این
58
00:02:52,600 –> 00:02:54,340
نوع سخنرانی ها مانند پیاده روی در سخنرانی ها است اما
59
00:02:54,340 –> 00:02:56,320
معمولاً همه سخنرانی ها را همیشه
60
00:02:56,320 –> 00:02:59,800
صبح از ساعت 9:30 قرض می دهیم. تا ساعت 12:30، بنابراین من
61
00:02:59,800 –> 00:03:00,970
باید دوست داشته باشم که شما مطالب زیادی را
62
00:03:00,970 –> 00:03:04,570
برای این کارگاه می دانید،
63
00:03:04,570 –> 00:03:06,820
بنابراین ما اساساً
64
00:03:06,820 –> 00:03:07,300
امروز چند مورد را بررسی خواهیم کرد،
65
00:03:07,300 –> 00:03:10,360
بنابراین منتظر باشید تا همسرش با
66
00:03:10,360 –> 00:03:13,150
HTML آشنا شود و همچنین برخی مانند عملکردهای اساسی
67
00:03:13,150 –> 00:03:15,100
در سوپ زیبا و سپس میخواهم
68
00:03:15,100 –> 00:03:18,340
ببینم چگونه میتوانیم سوپ زیبا را
69
00:03:18,340 –> 00:03:22,000
روی نظرات ماهی مرکب در کام شما اعمال کنیم، بنابراین امیدوارم
70
00:03:22,000 –> 00:03:25,600
امروز بتوانید چیزی یاد بگیرید و سپس
71
00:03:25,600 –> 00:03:29,680
پروژه خود را شروع کنید یا مثل اینکه پروژه
72
00:03:29,680 –> 00:03:31,450
خود را دارید مانند پروژه علمی
73
00:03:31,450 –> 00:03:34,210
در github و همچنین برای این
74
00:03:34,210 –> 00:03:36,820
کارگاه امیدوارم که همه به
75
00:03:36,820 –> 00:03:38,350
نوعی درک درستی از ساختارهای اساسی
76
00:03:38,350 –> 00:03:40,870
در پایتون داشته باشند، مثلاً
77
00:03:40,870 –> 00:03:42,790
فهرست چیست، فرهنگ لغت چیست، زیرا ما
78
00:03:42,790 –> 00:03:45,760
از آنها در سخنرانی امروز استفاده خواهیم کرد،
79
00:03:45,760 –> 00:03:49,210
بنابراین چرا flippin s o بنابراین برای
80
00:03:49,210 –> 00:03:51,450
bar، اساساً به معنای تلاش برای دریافت
81
00:03:51,450 –> 00:03:53,920
اطلاعات برای اسناد HTML از
82
00:03:53,920 –> 00:03:56,980
وبسایتها است، زیرا چیزهایی مانند دهکده
83
00:03:56,980 –> 00:03:59,440
گران هستند به خصوص دادههای ساختاری، بنابراین
84
00:03:59,440 –> 00:04:02,590
مانند بسیاری از شرکتها، اگر میتوانید از شرکتهای شخص ثالث، تمام
85
00:04:02,590 –> 00:04:04,210
پول خود را صرف خرید دادهها از
86
00:04:04,210 –> 00:04:06,730
شرکت شخص ثالث کنید.
87
00:04:06,730 –> 00:04:08,590
وب چون میدانید به همین
88
00:04:08,590 –> 00:04:10,540
دلیل عمومی است که میدانید
89
00:04:10,540 –> 00:04:12,700
پول زیادی برای یک شرکت پسانداز میکنید و
90
00:04:12,700 –> 00:04:14,950
همچنین در مورد کاغذهای سفید صحبت میکنید که
91
00:04:14,950 –> 00:04:17,920
فقط سعی میکنید صفحات HTML را بهطورکلی تغییر دهید،
92
00:04:17,920 –> 00:04:21,940
بنابراین HTML مختصر زبان نشانهگذاری فرامتن
93
00:04:21,940 –> 00:04:23,830
است، بنابراین زبانی برای
94
00:04:23,830 –> 00:04:27,220
ارائه است. محتوای موجود در وب بسیار
95
00:04:27,220 –> 00:04:29,650
ساده است که توسط تگ هایی به سند HTML تبدیل می
96
00:04:29,650 –> 00:04:32,620
شود که سپس
97
00:04:32,620 –> 00:04:35,139
توسط یک برادر تفسیر می شود، بنابراین یک
98
00:04:35,139 –> 00:04:37,330
سند HTML به نظر می رسد که شما
99
00:04:37,330 –> 00:04:39,490
فقط یک فایل متنی معمولی را می شناسید، اما با
100
00:04:39,490 –> 00:04:41,830
کمک برچسب هایی که چیزی ماست. قرار است
101
00:04:41,830 –> 00:04:44,440
در مورد بعدی صحبت کنم
102
00:04:44,440 –> 00:04:46,510
توسط یک برادر تفسیر خواهد شد و سپس من
103
00:04:46,510 –> 00:04:48,460
آن را متفاوت نشان خواهم داد، بنابراین دیگر یک
104
00:04:48,460 –> 00:04:51,400
پرونده مالیاتی معمولی نیست
105
00:04:51,400 –> 00:04:55,240
و با استفاده از سوپ زیبا می توانیم آن را
106
00:04:55,240 –> 00:04:58,000
استخراج کنیم. او ارزشها را از کد منبع HTML تگ میکند،
107
00:04:58,000 –> 00:04:59,889
بنابراین اساساً ما میخواهیم از
108
00:04:59,889 –> 00:05:02,949
اطلاعات موجود در صفحه صرفنظر کنیم و تمام
109
00:05:02,949 –> 00:05:06,280
آن اطلاعاتی که
110
00:05:06,280 –> 00:05:10,060
در سند HTML کدگذاری یا کدگذاری شدهاند کاملاً درست است،
111
00:05:10,060 –> 00:05:12,880
بنابراین معرفی کیک و دستکش به HTML
112
00:05:12,880 –> 00:05:16,060
بنابراین در اینجا یک مثال داریم. سند HTML
113
00:05:16,060 –> 00:05:19,360
و بنابراین اکثر اسناد HTML خوب است، بنابراین
114
00:05:19,360 –> 00:05:22,510
از نوع سند HTML و سپس
115
00:05:22,510 –> 00:05:24,669
شما این نوع به اصطلاح برچسب را دارید، بنابراین
116
00:05:24,669 –> 00:05:26,830
این تنها اولین اصطلاح جدیدی است
117
00:05:26,830 –> 00:05:28,270
که امروز می خواهیم معرفی کنیم به نام بسته چیست،
118
00:05:28,270 –> 00:05:30,820
بنابراین من می خواهم در این
119
00:05:30,820 –> 00:05:33,700
براکتهای قبیلهای قرار دهید که به آنها تگ میگویند، به
120
00:05:33,700 –> 00:05:37,570
عنوان مثال، این یک تگ HTML است، این یک
121
00:05:37,570 –> 00:05:41,530
تگ کلاه بالا است و این یک برچسب عنوان است، بنابراین
122
00:05:41,530 –> 00:05:44,440
آنها را تایپ کنید که معانی خاص خود را دارند، به
123
00:05:44,440 –> 00:05:47,770
عنوان مثال عنوان به معنای عنوان
124
00:05:47,770 –> 00:05:50,349
هر تگ است مانند عنوان صفحه و
125
00:05:50,349 –> 00:05:53,289
همچنین به اندازه کافی از این یک تگ یک
126
00:05:53,289 –> 00:05:56,080
تگ لایک کنید، در ابتدا شما یک اتفاق
127
00:05:56,080 –> 00:05:58,030
زیاد نمی خواهید مانند آن پس در
128
00:05:58,030 –> 00:05:59,889
این سبک جدید از تصویر، مثلاً در عرض پنج
129
00:05:59,889 –> 00:06:02,949
دقیقه، وقتی رد می کنیم، برچسب های بیشتری
130
00:06:02,949 –> 00:06:06,760
خواهیم دید شما وب سایت های مختلفی را می شناسید که بسیار
131
00:06:06,760 –> 00:06:09,669
فشرده هستند شما همه چیز را برای بستن پرانتزهای مثلث می دانید
132
00:06:09,669 –> 00:06:12,699
و نکته دیگر
133
00:06:12,699 –> 00:06:15,160
در مورد تگ این است که آنها همیشه به صورت جفت می آیند،
134
00:06:15,160 –> 00:06:17,139
به این معنی که شما تگ افتتاحیه را
135
00:06:17,139 –> 00:06:20,229
دارید، همچنین یک تگ
136
00:06:20,229 –> 00:06:23,139
بسته دارید، بنابراین برای بستن تگ مانند شروع از علامت اسلش
137
00:06:23,139 –> 00:06:26,260
است، برای مثال این تگ کلاه
138
00:06:26,260 –> 00:06:28,750
مانند تگ head شروع و همچنین
139
00:06:28,750 –> 00:06:30,910
شما تگ head را دارید که مشکلی نیست
140
00:06:30,910 –> 00:06:34,449
بله تگ head بنابراین دو چیز
141
00:06:34,449 –> 00:06:36,280
نام تگ در این مثلث قرار می
142
00:06:36,280 –> 00:06:39,099
گیرد و همچنین آنها را همیشه به
143
00:06:39,099 –> 00:06:40,450
صورت جفت تگ کنید بنابراین منظورم
144
00:06:40,450 –> 00:06:42,370
این است که شما این مخاطب را دارید شما همچنین یک
145
00:06:42,370 –> 00:06:45,070
تگ پایان دارید بنابراین برای تگ EM از اسلش شروع می شود
146
00:06:45,070 –> 00:06:50,580
و همچنین برای تگ
147
00:06:50,580 –> 00:06:53,410
مقادیری دارید بنابراین مقادیری در محتوای بین
148
00:06:53,410 –> 00:06:59,020
تگ های شروع و همچنین تگ های پایانی و
149
00:06:59,020 –> 00:07:03,040
همچنین اسپویلر این تگ عنوان است بنابراین
150
00:07:03,040 –> 00:07:05,590
مقدار این تگ عنوان بالا
151
00:07:05,590 –> 00:07:08,530
است، بنابراین معمولاً بیشترین شبیه به این
152
00:07:08,530 –> 00:07:10,720
مقدار تگ چیزی است
153
00:07:10,720 –> 00:07:12,310
که وقتی میخواهید از وبسایت خارج شوید
154
00:07:12,310 –> 00:07:14,410
، بنابراین زمان دقیقاً مانند آن
155
00:07:14,410 –> 00:07:16,420
در رشتهای است که میبینید یا ارزش
156
00:07:16,420 –> 00:07:18,520
برچسبهایی است که میبینید. در وب سایت بنابراین ما هستیم
157
00:07:18,520 –> 00:07:21,250
فقط تلاش برای خراش دادن مقدار
158
00:07:21,250 –> 00:07:29,890
تگ و یک چیز دیگر در مورد تگ این است که
159
00:07:29,890 –> 00:07:32,500
می تواند به اصطلاح ویژگی هایی داشته باشد به
160
00:07:32,500 –> 00:07:37,600
عنوان مثال در این تگ بنابراین ما می دانیم که این
161
00:07:37,600 –> 00:07:39,640
یک برچسب است زیرا می دانید که آنها در
162
00:07:39,640 –> 00:07:42,250
آن پرانتزهای مثلثی قرار می گیرند و آنها به صورت جفت می آیند.
163
00:07:42,250 –> 00:07:44,680
بنابراین شما می دانید که این مانند
164
00:07:44,680 –> 00:07:46,900
ارتفاع تاریخ شروع است و همچنین این زمان بالا است
165
00:07:46,900 –> 00:07:52,300
، اما ما همچنین این به
166
00:07:52,300 –> 00:07:54,460
اصطلاح همسر سابق را داریم که به نظر می رسد مانند یک URL به نظر می رسد
167
00:07:54,460 –> 00:07:57,370
اینها به اصطلاح ویژگی های
168
00:07:57,370 –> 00:08:02,500
این برچسب هستند، بنابراین به نوعی اضافی است.
169
00:08:02,500 –> 00:08:05,290
life ویژگیهای خاصی برای تگ
170
00:08:05,290 –> 00:08:09,280
است که این نوع حمله را به یک
171
00:08:09,280 –> 00:08:11,680
هایپرلینک تبدیل میکند، بنابراین مانند نقطه پایانی
172
00:08:11,680 –> 00:08:14,160
این لینک است که به
173
00:08:14,160 –> 00:08:16,600
مستندات
174
00:08:16,600 –> 00:08:20,350
بسته زیبای سوپ اشاره میکند، اما به
175
00:08:20,350 –> 00:08:22,780
ویژگیهایی که با ارزش آنها متفاوت هستند توجه کنید،
176
00:08:22,780 –> 00:08:26,050
بنابراین ارزش همه چیز شماست.
177
00:08:26,050 –> 00:08:27,820
بین تگ شروع و همچنین
178
00:08:27,820 –> 00:08:30,160
تاثیر بدانیم، بنابراین برای این حمله مشکوک است.
179
00:08:30,160 –> 00:08:32,380
180
00:08:32,380 –> 00:08:37,179
181
00:08:37,179 –> 00:08:40,570
182
00:08:40,570 –> 00:08:43,510
همچنین
183
00:08:43,510 –> 00:08:46,990
ویژگی تگ را داشته باشید،
184
00:08:46,990 –> 00:08:50,680
بنابراین مانند یک تکلیف فرهنگ لغت پایتون است،
185
00:08:50,680 –> 00:08:53,740
بنابراین شما به نوعی مانند کلید
186
00:08:53,740 –> 00:08:54,280
دیکشنری
187
00:08:54,280 –> 00:08:59,350
و همچنین ارزش فرهنگ لغت را دارید، بنابراین
188
00:08:59,350 –> 00:09:01,570
من می دانم که مانند بسیاری از چیزها است – شما می
189
00:09:01,570 –> 00:09:03,700
دانید که هضم در داخل مانند 10 دقیقه از
190
00:09:03,700 –> 00:09:04,450
این وبنر
191
00:09:04,450 –> 00:09:07,810
مخصوصاً یک شب کاری، بنابراین سه
192
00:09:07,810 –> 00:09:11,380
چیز در مورد این برچسب ها در مورد نحوه حذف
193
00:09:11,380 –> 00:09:14,800
یک سند HTML در صورتی که مانند یک
194
00:09:14,800 –> 00:09:17,380
فایل متنی معمولی به نظر برسد، اما می دانید که با
195
00:09:17,380 –> 00:09:20,320
نصف آن بسته مثلثی ما
196
00:09:20,320 –> 00:09:22,990
اینها را تبدیل می کنیم، هرگز اجازه دهید بگوییم این HTML
197
00:09:22,990 –> 00:09:27,940
همه برچسب had had باید یک تساوی داشته باشد و
198
00:09:27,940 –> 00:09:29,890
سپس توسط یک برادر تفسیر می شود،
199
00:09:29,890 –> 00:09:31,900
200
00:09:31,900 –> 00:09:33,430
بنابراین ما معنای مشابه خود را خواهیم داشت، بنابراین
201
00:09:33,430 –> 00:09:35,530
بعداً خواهیم دید که چگونه شما آن برچسب ایمنی را می بینید،
202
00:09:35,530 –> 00:09:38,740
بنابراین برچسب IP همچنان پاراگراف باقی می ماند.
203
00:09:38,740 –> 00:09:40,630
هنگامی که سعی میکند
204
00:09:40,630 –> 00:09:43,210
205
00:09:43,210 –> 00:09:46,450
در تگ P شما نزدیک به چه چیزی باشد، بنابراین
206
00:09:46,450 –> 00:09:48,460
این اولین چیز در مورد برچسب است، بنابراین
207
00:09:48,460 –> 00:09:51,520
میخواهید تعداد زیادی تگ را در سند HTML ببینید
208
00:09:51,520 –> 00:09:55,840
و همچنین بیشتر بعد از اینکه ما
209
00:09:55,840 –> 00:09:58,200
میخواهیم مقادیر را حذف کنیم. را مخزن بنابراین
210
00:09:58,200 –> 00:10:00,730
همه چیز بین تگ شروع و
211
00:10:00,730 –> 00:10:03,520
همچنین تگ پایان را ارزش گذاری می کند، به عنوان مثال
212
00:10:03,520 –> 00:10:07,980
ارزش این تگ عنوان فقط زیاد است و
213
00:10:07,980 –> 00:10:10,330
بنابراین درست مانند همه چیز
214
00:10:10,330 –> 00:10:12,580
بین تگ شروع و همچنین تگ پایان بسته است،
215
00:10:12,580 –> 00:10:17,220
بنابراین یک چیز دیگر در مورد حمله،
216
00:10:17,220 –> 00:10:19,990
ویژگی ها است بنابراین شما به عنوان مثال
217
00:10:19,990 –> 00:10:23,200
شما این تگ را دارید، ما می دانیم که دارای یک ویژگی اضافی است
218
00:10:23,200 –> 00:10:26,430
که برابر با این URL است
219
00:10:26,430 –> 00:10:30,040
و از همان چیزی که ما برای آدرس قبلی بودیم ادامه دهید،
220
00:10:30,040 –> 00:10:33,190
بنابراین ارزش این یک تگ برابر با
221
00:10:33,190 –> 00:10:34,660
hello beautiful soup است که فقط
222
00:10:34,660 –> 00:10:37,990
به Basic و String حمله می کند.
223
00:10:37,990 –> 00:10:40,180
دو چیز متفاوتی هستند که
224
00:10:40,180 –> 00:10:42,730
شما ویژگی واقعی حمله را
225
00:10:42,730 –> 00:10:45,700
دارید که با تگ شروع محصور شده است،
226
00:10:45,700 –> 00:10:48,910
همچنین مقدار حمله را دارید که
227
00:10:48,910 –> 00:10:51,760
همه چیز بین تگ شروع
228
00:10:51,760 –> 00:10:55,750
و تگ پایان نزدیک است خوب است، بنابراین به نوعی
229
00:10:55,750 –> 00:10:59,410
شبیه به یک مقدمه برای سند HTML است
230
00:10:59,410 –> 00:11:03,370
و چگونه این سند HTML را بخوانیم
231
00:11:03,370 –> 00:11:06,430
زیرا هر صفحه هر وب سایت یک
232
00:11:06,430 –> 00:11:07,550
233
00:11:07,550 –> 00:11:09,560
سند شما است و ما سعی خواهیم
234
00:11:09,560 –> 00:11:13,820
کرد مقادیر تگ یا
235
00:11:13,820 –> 00:11:17,830
ویژگی تگ را از وب سایت
236
00:11:18,279 –> 00:11:20,540
همه اسکریپت کنیم درست است برخی از اصول اولیه در مورد
237
00:11:20,540 –> 00:11:22,850
سوپر کش زیبا، همانطور که ذکر کردم،
238
00:11:22,850 –> 00:11:25,010
از بسته های زیبا برای سرعت بخشیدن به
239
00:11:25,010 –> 00:11:28,640
اطلاعات از وب سایت ها استفاده خواهم کرد، اما در
240
00:11:28,640 –> 00:11:30,890
پایان روز کسب و کار فقط یک تجزیه کننده HTML است،
241
00:11:30,890 –> 00:11:34,100
شما به آن یک سند sh t ml3 یا HTML می دهید،
242
00:11:34,100 –> 00:11:36,680
سپس می توانید آن را فایل کنید.
243
00:11:36,680 –> 00:11:39,279
تگ یا مقدار تگ یا
244
00:11:39,279 –> 00:11:42,260
ویژگی های تگ را به راحتی از
245
00:11:42,260 –> 00:11:45,200
سند XML استخراج کنید، بنابراین اول از همه در اینجا این
246
00:11:45,200 –> 00:11:49,130
سندی است که ما فقط از آن عبور می
247
00:11:49,130 –> 00:11:51,410
کنیم، اما آن را به یک رشته پایتون تبدیل می کنیم، بنابراین
248
00:11:51,410 –> 00:11:53,720
از علامت موقعیت بی اهمیت استفاده می کنیم.
249
00:11:53,720 –> 00:11:55,550
مطمئن شوید که این یک خط چندگانه یا
250
00:11:55,550 –> 00:11:58,550
رشته پایتون است، بنابراین
251
00:11:58,550 –> 00:12:02,570
اگر از آناکوندا استفاده نمیکنید، در اینجا ما این بسته سوپ زیبا را داریم،
252
00:12:02,570 –> 00:12:04,339
اوه شما
253
00:12:04,339 –> 00:12:05,810
خودتان را دارید که میدانید مسیر هر کسی
254
00:12:05,810 –> 00:12:07,220
را دارید و مطمئن شوید که بسته سوپ را
255
00:12:07,220 –> 00:12:09,350
قبلاً نصب کردهاید. شما نوت بوک drifter را قبل از 4vs4 راه اندازی می کنید،
256
00:12:09,350 –> 00:12:13,850
بنابراین برای
257
00:12:13,850 –> 00:12:19,450
وارد کردن بسته کلاس سوپ زیبا در آنجا
258
00:12:19,450 –> 00:12:22,040
می خواهیم یک شی سوپ زیبا را مقداردهی اولیه کنیم
259
00:12:22,040 –> 00:12:25,430
و ورودی آرگومان اول
260
00:12:25,430 –> 00:12:28,070
اساساً
261
00:12:28,070 –> 00:12:30,350
از طریق HTML راه اندازی می شود. و همچنین برای
262
00:12:30,350 –> 00:12:33,440
آرگومان دوم قبل از سوپ می گوییم
263
00:12:33,440 –> 00:12:37,180
از تجزیه کننده HTML برای ایجاد رشته HTML استفاده کنید،
264
00:12:37,180 –> 00:12:40,490
بنابراین ممکن است تعجب کنید که خوب است، بنابراین
265
00:12:40,490 –> 00:12:42,589
چه مسیر دیگری
266
00:12:42,589 –> 00:12:44,930
در بسته کت و شلوار تجاری موجود است و
267
00:12:44,930 –> 00:12:46,970
بخش دیگری از فرآیند به نام
268
00:12:46,970 –> 00:12:51,709
XML XML این سرویس پیوند بسیار رایج است،
269
00:12:51,709 –> 00:12:53,930
بنابراین اساساً شما
270
00:12:53,930 –> 00:12:56,779
تنظیمات سرور پیوند را میدانید و
271
00:12:56,779 –> 00:12:59,390
نرمافزار را مانند یک سند HTML تو در تو قرار دادهاید،
272
00:12:59,390 –> 00:13:02,779
اما آنها در قالب XML هستند،
273
00:13:02,779 –> 00:13:04,850
بنابراین مسیرهای دیگر در دسترس هستند
274
00:13:04,850 –> 00:13:07,579
، همچنین گاهی اوقات افراد بسیار معمولی هستند.
275
00:13:07,579 –> 00:13:11,120
از تجزیه کننده XML برای تجزیه فایل XML که می دانید
276
00:13:11,120 –> 00:13:14,060
استفاده کنید، بنابراین در اینجا ما می
277
00:13:14,060 –> 00:13:16,130
گوییم هی این پایتون را
278
00:13:16,130 –> 00:13:19,970
مستقیم داشتید و من می دانم که HTML است، بنابراین
279
00:13:19,970 –> 00:13:20,900
از شما می خواهم
280
00:13:20,900 –> 00:13:23,600
که تجزیه کننده HTML رشته را برای من تجزیه کنید
281
00:13:23,600 –> 00:13:28,490
و پس از آن فقط کافی است. به سرعت کد را اجرا
282
00:13:28,490 –> 00:13:31,700
کنید فقط می دانید shift-enter را روی این
283
00:13:31,700 –> 00:13:33,560
قطعه کد وارد کنید سپس آنها خروجی را خواهند دید،
284
00:13:33,560 –> 00:13:35,779
بنابراین در حالی که ما ابتدا باید
285
00:13:35,779 –> 00:13:38,420
نوع این شی بالا را چاپ
286
00:13:38,420 –> 00:13:41,360
کنیم، بنابراین ما متوجه شدیم که این موضوع مانند یک
287
00:13:41,360 –> 00:13:44,990
سوپ تجاری است، این یک اینستا است. از
288
00:13:44,990 –> 00:13:48,430
کلاس سوپ زیبا و سپس ما این موارد را
289
00:13:48,430 –> 00:13:51,470
از پیش تعریف کرده ایم، مانند من می توانم
290
00:13:51,470 –> 00:13:56,540
همه برچسب ها را برای همتایان بعدی ذکر کنم، بنابراین
291
00:13:56,540 –> 00:13:59,089
خیلی دور خواهیم دید که برای
292
00:13:59,089 –> 00:14:02,350
مثال تگ HTML آنها روی کربن یکسان هستند
293
00:14:02,350 –> 00:14:05,450
و همچنین عنوان را دوست دارند. آنها را
294
00:14:05,450 –> 00:14:07,490
نیز در همان ستون تگ کنید، بنابراین
295
00:14:07,490 –> 00:14:10,100
اساساً میدانید که به خوبی مانند تو در تو قرار گرفتهاند،
296
00:14:10,100 –> 00:14:12,080
بنابراین میتوانید ساختار واضحی از
297
00:14:12,080 –> 00:14:21,410
این سند HTML داشته باشید، بنابراین وقتی
298
00:14:21,410 –> 00:14:24,290
اصول اولیه HTML را معرفی میکنیم، گفتیم
299
00:14:24,290 –> 00:14:28,459
خوب است برای یک برچسب، نام آن را داریم.
300
00:14:28,459 –> 00:14:31,430
برچسب ما ارزش تگ و
301
00:14:31,430 –> 00:14:33,410
همچنین ویژگی های زمان را داریم، بنابراین بیایید
302
00:14:33,410 –> 00:14:36,260
ببینیم چگونه می توانیم به راحتی این
303
00:14:36,260 –> 00:14:38,779
سه اطلاعات را از یک بسته با استفاده از
304
00:14:38,779 –> 00:14:43,339
beautifulsoup استخراج کنیم، بنابراین اکنون یک
305
00:14:43,339 –> 00:14:48,110
شی لباس زیبا به نام hi داریم و
306
00:14:48,110 –> 00:14:51,830
یک برچسب را در این سند HTML پیدا می کنیم. روی
307
00:14:51,830 –> 00:14:53,959
این شی کت و شلوار زیبا فقط می
308
00:14:53,959 –> 00:14:57,860
توانید این مخفیگاه را استفاده ای مانند Sola به
309
00:14:57,860 –> 00:15:00,650
عنوان ویژگی این شی کت و شلوار زیبایی بنامید
310
00:15:00,650 –> 00:15:04,010
و اگر نام این کراوات
311
00:15:04,010 –> 00:15:07,610
را می خواهید، اگر ارزش تگ را می خواهید فقط نام نقطه را بگویید
312
00:15:07,610 –> 00:15:09,680
، بنابراین مانند ما
313
00:15:09,680 –> 00:15:11,330
مردان، فقط نام نقطه را بگویید. گفته شد که ارزش را میدانید مجموع من
314
00:15:11,330 –> 00:15:13,100
فقط یک رشته را میپسندم، زیرا آنها به
315
00:15:13,100 –> 00:15:14,540
معنای واقعی کلمه چیزی هستند که
316
00:15:14,540 –> 00:15:16,730
در وبسایت میبینید، بنابراین همانطور که هر
317
00:15:16,730 –> 00:15:19,700
وبسایتی را میشناسید، نظرات را دارید، سپس آنها
318
00:15:19,700 –> 00:15:22,550
نیز به عنوان مقدار برچسب کدگذاری میکنند.
319
00:15:22,550 –> 00:15:25,250
مقدار بار اساساً
320
00:15:25,250 –> 00:15:27,980
رشته و همچنین شما دارای ویژگی
321
00:15:27,980 –> 00:15:31,790
های یک برچسب هستید، بنابراین می توانید در این دانه های کامیون
322
00:15:31,790 –> 00:15:34,220
از طریق اطلاعات دقیقاً مانند
323
00:15:34,220 –> 00:15:37,820
ویژگی شی نقطه می دانید سپس ویژگی دیگری
324
00:15:37,820 –> 00:15:42,950
از این شما یک برچسب را می شناسید
325
00:15:42,950 –> 00:15:45,500
بنابراین نام نوع آن است a زیرا
326
00:15:45,500 –> 00:15:47,840
ما می دانیم که این یک لینک x است همچنین
327
00:15:47,840 –> 00:15:51,530
مقدار تگ a در a با کت و شلوار چگونه است،
328
00:15:51,530 –> 00:15:53,660
بنابراین مانند جایی است که در
329
00:15:53,660 –> 00:15:57,680
مورد ویژگی این صحبت می کنیم،
330
00:15:57,680 –> 00:16:00,460
ویژگی f واقعی این تگ یک
331
00:16:00,460 –> 00:16:03,740
URL است که دارد مقدار ارتفاع
332
00:16:03,740 –> 00:16:06,440
که همه چیز بین تگ شروع است
333
00:16:06,440 –> 00:16:09,740
و همچنین تاثیر فیلد p3
334
00:16:09,740 –> 00:16:13,210
یا مقدار این تگ a
335
00:16:14,620 –> 00:16:17,090
کاملاً درست است، بنابراین شما نیز این ویژگی
336
00:16:17,090 –> 00:16:19,970
را دارید، بنابراین همانطور که من در h4f به این ویژگی اشاره کردم، برابر
337
00:16:19,970 –> 00:16:22,520
با URL است. به یک
338
00:16:22,520 –> 00:16:26,660
فرهنگ لغت پایتون شما ها کلیدی
339
00:16:26,660 –> 00:16:28,280
که برابر با نام
340
00:16:28,280 –> 00:16:30,920
ویژگی است، شما نیز مقداری
341
00:16:30,920 –> 00:16:36,770
دارید که دقیقاً مانند مقداری است که کاملاً درست است،
342
00:16:36,770 –> 00:16:39,380
بنابراین مانند برخی از
343
00:16:39,380 –> 00:16:42,320
ویژگی های اساسی است که می توانید از
344
00:16:42,320 –> 00:16:47,390
کت و شلوار زیبا استفاده
345
00:16:47,390 –> 00:16:49,850
کنید. برای به دست آوردن مقدار
346
00:16:49,850 –> 00:16:52,580
کراوات، اگر به Tigers حمله
347
00:16:52,580 –> 00:16:56,300
کند، در تگ های جدول هش،
348
00:16:56,300 –> 00:16:57,920
ویژگی string دیگر کار نمی کند،
349
00:16:57,920 –> 00:17:03,230
بنابراین ما این تگ HTML را داریم، بنابراین اگر
350
00:17:03,230 –> 00:17:05,540
به اینجا برگردیم، OK را مشاهده خواهیم کرد، بنابراین
351
00:17:05,540 –> 00:17:08,720
HTML به نظر می رسد تگ همان است که شما
352
00:17:08,720 –> 00:17:11,119
تگ والد را می شناسید و روی آن ضربه می زنید دارای چندین
353
00:17:11,119 –> 00:17:13,640
تگ فرزند است، بنابراین اگر می خواهید
354
00:17:13,640 –> 00:17:16,490
فقط رشته یا مقدار تگ HTML را دریافت کنید
355
00:17:16,490 –> 00:17:19,220
، آن را می گوییم زیرا
356
00:17:19,220 –> 00:17:22,189
چندین تگ دارد و هر تگ دارای تگ های خاص خود است.
357
00:17:22,189 –> 00:17:25,760
ارزش خود رشته خود را، بنابراین وقتی تماس میگیرید،
358
00:17:25,760 –> 00:17:28,880
بیایید بگوییم HTML نقطه بالا از
359
00:17:28,880 –> 00:17:30,740
سه خط کد قبلی، ما میدانیم که
360
00:17:30,740 –> 00:17:35,090
این یکی باید تگ HTML را به ما برگرداند
361
00:17:35,090 –> 00:17:37,820
و سپس رشته باید
362
00:17:37,820 –> 00:17:41,480
مقدار این تگ HTML
363
00:17:41,480 –> 00:17:44,270
را به ما بدهد. دو نوع فرزند تماس بگیرید d
364
00:17:44,270 –> 00:17:45,129
می
365
00:17:45,129 –> 00:17:49,159
دانید بدنه دیگری دارید، بنابراین 1 در 10 اساساً یک
366
00:17:49,159 –> 00:17:54,590
شی در پایتون نیست، در این
367
00:17:54,590 –> 00:17:58,489
مورد ممکن است به جای آن از متد دریافت متن استفاده
368
00:17:58,489 –> 00:18:01,999
کنید، بنابراین روش دریافت مالیات
369
00:18:01,999 –> 00:18:07,850
تمام محتوای مالیات را آموزش می دهد، بنابراین اساساً
370
00:18:07,850 –> 00:18:10,070
مانند مقادیر همه این فرزندان است. hide
371
00:18:10,070 –> 00:18:13,220
می تواند برای یک سلام دیگر برگردانده شود،
372
00:18:13,220 –> 00:18:16,549
ارزش تگ عنوان است و همچنین
373
00:18:16,549 –> 00:18:19,070
سوپ سلام زیبا به نوعی مانند
374
00:18:19,070 –> 00:18:22,159
مقادیر برچسب a است، بنابراین فکر می کنم ممکن است برای
375
00:18:22,159 –> 00:18:24,919
شما سوالی مانند خوب باشد، پس چرا
376
00:18:24,919 –> 00:18:28,850
ما همیشه به من می گویم آخرین
377
00:18:28,850 –> 00:18:31,429
گره به این صورت جالب نیست و
378
00:18:31,429 –> 00:18:34,850
آنها به این نوشیدنی می گویند خوب من
379
00:18:34,850 –> 00:18:37,489
مثالی نمی زنم برای مثال 150 زنبور
380
00:18:37,489 –> 00:18:40,609
بسته به اینکه توسعه دهنده وب چگونه این وب سایت را
381
00:18:40,609 –> 00:18:44,210
طراحی کرده است گاهی اوقات
382
00:18:44,210 –> 00:18:46,519
ممکن است نظرات را به موارد مختلف تقسیم کنند.
383
00:18:46,519 –> 00:18:50,840
پاراگرافها بنابراین برای پاراگرافهایی که یک
384
00:18:50,840 –> 00:18:54,679
تگ P در کد HTML است، بنابراین اگر چندین
385
00:18:54,679 –> 00:18:57,529
تگ P Delta P در یک سطح دارید، آنها
386
00:18:57,529 –> 00:18:59,690
فقط پاراگرافهای مختلف یک
387
00:18:59,690 –> 00:19:02,869
بررسی هستند، در این مورد ممکن است فقط
388
00:19:02,869 –> 00:19:05,119
تگ بررسی را پیدا کنید و به نوعی دریافت کنید.
389
00:19:05,119 –> 00:19:07,820
مالیات گرفته می شود زیرا شما این کار را نمی کنید میخواهم بدانید
390
00:19:07,820 –> 00:19:10,249
هر پاراگراف را استخراج کنید و سپس به صورت دستی
391
00:19:10,249 –> 00:19:12,350
آنها را در خود جای دهید، فقط شما میدانید که بسیار آزاردهنده هستند،
392
00:19:12,350 –> 00:19:15,980
بنابراین میتوانید به قسمتی بروید تا
393
00:19:15,980 –> 00:19:18,289
همه برچسبهای پاراگراف را برچسب گذاری کنید و آنها آن را دریافت
394
00:19:18,289 –> 00:19:19,850
مالیات مینامند، آنها به طور کلی به سه تبدیل میشوند
395
00:19:19,850 –> 00:19:22,399
شما ده نفر را
396
00:19:22,399 –> 00:19:24,139
به طور کلی بررسی می کنید، بلکه آنها می دانید که
397
00:19:24,139 –> 00:19:28,279
پاراگراف های جداگانه را در یک لیست پایتون دریافت کنید، به طوری
398
00:19:28,279 –> 00:19:30,350
که یک نوع استفاده از این
399
00:19:30,350 –> 00:19:37,119
مالیات گرفتن در مقابل رشته نقطه است، بنابراین
400
00:19:37,119 –> 00:19:41,690
روش دیگری از این تگ سوپ زیبا
401
00:19:41,690 –> 00:19:46,820
به نام دریافت بنابراین شکاف استفاده می شود. برای رجوع
402
00:19:46,820 –> 00:19:49,230
به استخراج
403
00:19:49,230 –> 00:19:51,720
پشت استفاده از حمله، به عنوان مثال در اینجا
404
00:19:51,720 –> 00:19:56,370
ما این ارتفاع را داریم a باید این تگ را به ما بدهد
405
00:19:56,370 –> 00:20:01,049
و سپس می دانیم که این تگ دارای
406
00:20:01,049 –> 00:20:03,960
ارزشی برابر با hello veto suit است اما در
407
00:20:03,960 –> 00:20:06,380
عین حال آن ویژگی خود را نیز دارد
408
00:20:06,380 –> 00:20:12,389
که نشانی اینترنتی مستندات کت و شلوار تجاری
409
00:20:12,389 –> 00:20:15,659
است، بنابراین اگر می خواهید به
410
00:20:15,659 –> 00:20:19,980
جای لایک، ارزش تگ را دریافت کنید،
411
00:20:19,980 –> 00:20:22,289
ممکن است گاهی
412
00:20:22,289 –> 00:20:27,330
اوقات ارزش این ویژگی را برای ما جالب بدانیم زیرا
413
00:20:27,330 –> 00:20:29,730
واقعاً به این بستگی دارد که عجیب و غریب باشد که
414
00:20:29,730 –> 00:20:30,539
برای من در
415
00:20:30,539 –> 00:20:32,340
این فروشگاه اطلاعات گوش کنید. d شما می دانید که
416
00:20:32,340 –> 00:20:34,279
گاهی اوقات این یک مقدار رشته است، اما
417
00:20:34,279 –> 00:20:40,019
گاهی اوقات این ویژگی است که شما می دانید
418
00:20:40,019 –> 00:20:43,260
تگ های دیگر، بنابراین در اینجا می گوییم سلام نقطه یک نقطه H
419
00:20:43,260 –> 00:20:47,490
ref که یک آدرس URL را برمی گرداند و
420
00:20:47,490 –> 00:20:49,350
همچنین اگر ما فقط ویژگی ها را برجسته کنیم
421
00:20:49,350 –> 00:20:51,750
و این چیزی شبیه به آن است.
422
00:20:51,750 –> 00:20:55,200
شما یک فرهنگ لغت پایتون را می چرخانید تا ما به راحتی بتوانیم آن را
423
00:20:55,200 –> 00:20:58,080
تأیید کنیم تا بتوانید نوع خروجی را چاپ کنید، به
424
00:20:58,080 –> 00:21:02,610
طوری که اساساً
425
00:21:02,610 –> 00:21:05,309
فرهنگ لغت پایتون است، بنابراین اگر
426
00:21:05,309 –> 00:21:07,380
با ساختار معامله دیکشنری
427
00:21:07,380 –> 00:21:09,500
در پایتون آشنایی دارید، این راهنما به
428
00:21:09,500 –> 00:21:12,899
نوعی فقط یک بسته بندی در اطراف است.
429
00:21:12,899 –> 00:21:15,659
روش یک دیکشنری پایتون بنابراین شما
430
00:21:15,659 –> 00:21:20,090
تاخیر زیادی دارید که ویژگی ها به شما
431
00:21:20,090 –> 00:21:22,679
می دهند که یک فرهنگ لغت پایتون را می شناسید و سپس
432
00:21:22,679 –> 00:21:25,080
می توانید مطمئن شوید که ما تله ای دریافت نمی کنیم
433
00:21:25,080 –> 00:21:29,730
و اگر کلید وجود نداشته باشد ارزش این کلید را برگردانید.
434
00:21:29,730 –> 00:21:31,799
435
00:21:31,799 –> 00:21:35,700
شی ما را بچرخانید، بنابراین بسته به
436
00:21:35,700 –> 00:21:37,350
اینکه بدانید اطلاعاتی که
437
00:21:37,350 –> 00:21:39,860
سعی می کنید مربع کنید کجا ذخیره می شود، ذخیره می شود، زیرا
438
00:21:39,860 –> 00:21:42,299
گاهی اوقات ممکن است مقدار تگ باشد،
439
00:21:42,299 –> 00:21:45,090
گاهی ممکن است
440
00:21:45,090 –> 00:21:55,110
ارزش یک ویژگی را کاملاً بدانید، بنابراین آخرین دو
441
00:21:55,110 –> 00:21:58,260
تابعی که من معرفی می کنم خوب است و
442
00:21:58,260 –> 00:22:01,450
همچنین همه را پیدا کنید، بنابراین در اینجا
443
00:22:01,450 –> 00:22:04,690
ما یک مثال کمی پیچیده
444
00:22:04,690 –> 00:22:07,990
داریم، بنابراین ما یک HTML گمراه کننده انتهایی داریم، ما
445
00:22:07,990 –> 00:22:10,720
تگ Hat و همچنین تگ بدنه را تا این
446
00:22:10,720 –> 00:22:16,750
زمان داریم h h hy h2 تگ h3 بنابراین این
447
00:22:16,750 –> 00:22:21,580
ashtag ها مانند به اصطلاح اتم ها هستند، بنابراین
448
00:22:21,580 –> 00:22:25,540
اساساً هدر شما صفحه را می شناسید،
449
00:22:25,540 –> 00:22:28,360
بنابراین اگر من یکی داشته باشم آن را
450
00:22:28,360 –> 00:22:32,200
از بزرگ ترین به کوچک ترین اصلاح کنم، بنابراین
451
00:22:32,200 –> 00:22:34,570
برای حفره اینجا اگر به صورت مسخره شده بخوانید می
452
00:22:34,570 –> 00:22:37,330
دانید که می دانید کمی مسخره شد تا
453
00:22:37,330 –> 00:22:39,310
بدانیم این مانند یک سه
454
00:22:39,310 –> 00:22:42,340
پوندی است زیرا ما اینجا سایت سه پوندی داریم، بنابراین میتوانیم
455
00:22:42,340 –> 00:22:44,890
ببینیم که آیا آن را به یک پوند خوب تغییر میدهیم
456
00:22:44,890 –> 00:22:47,890
که اخیراً یکی داشت، آنها خیلی
457
00:22:47,890 –> 00:22:48,280
بزرگتر هستند،
458
00:22:48,280 –> 00:22:52,240
این همان چیزی است که هر کدام مرا تگ میکنند. و همچنین
459
00:22:52,240 –> 00:22:56,410
شما این را دارید که می دانید تگ P در این زمان h1 تو در تو قرار گرفته است،
460
00:22:56,410 –> 00:22:58,330
می خواهید به شما نشان دهید که
461
00:22:58,330 –> 00:23:01,750
چگونه چندین تگ P hat P در این
462
00:23:01,750 –> 00:23:03,850
سند HTML که
463
00:23:03,850 –> 00:23:08,740
در وب سایت واقعی بسیار رایج است، زیرا حتی
464
00:23:08,740 –> 00:23:11,590
این مثال و همچنین ساختگی به عنوان مثالی
465
00:23:11,590 –> 00:23:13,450
که در اینجا استفاده می کنیم، آنها به نوعی شبیه به
466
00:23:13,450 –> 00:23:15,580
وب سایت ساده ای هستند که می دانید ما شما را می شناسیم این کار را
467
00:23:15,580 –> 00:23:19,570
به صورت دستی انجام داد، اما وبسایت واقعی
468
00:23:19,570 –> 00:23:21,220
روی اسکریپت بسیار پیچیدهتر
469
00:23:21,220 –> 00:23:24,250
از این است و دیدن آن بسیار سخت است،
470
00:23:24,250 –> 00:23:27,400
اما با نصف
471
00:23:27,400 –> 00:23:30,100
این قسمت جلویی، همه چیز را در یک
472
00:23:30,100 –> 00:23:32,830
تابع پیدا کنید، میتوانید برچسب را پیدا کنید.
473
00:23:32,830 –> 00:23:36,720
که شما جالب هستید خیلی
474
00:23:36,720 –> 00:23:40,630
چیزهای مشابهی که ما داریم این
475
00:23:40,630 –> 00:23:44,290
مقاله را پوشش دادیم به یک شی کت و شلوار تجاری
476
00:23:44,290 –> 00:23:46,870
به نام مقاله آمد و شما با
477
00:23:46,870 –> 00:23:49,630
کمک من می دانید برای استفاده از تجزیه کننده HTML برای
478
00:23:49,630 –> 00:23:56,290
تجزیه یک رشته مناسب است، بنابراین در اینجا ما به عنوان یک
479
00:23:56,290 –> 00:24:04,690
تگ P متعدد در در این صورت، اگر
480
00:24:04,690 –> 00:24:08,410
فقط بگوییم قذافی خودمان، فکر میکنم این را
481
00:24:08,410 –> 00:24:09,580
تحت تأثیر قرار میدهم، زیرا آنها مانند
482
00:24:09,580 –> 00:24:12,280
چندین تگ P در این سند HTML هستند
483
00:24:12,280 –> 00:24:14,420
484
00:24:14,420 –> 00:24:16,610
، احتمالاً فقط اولین مورد را برمیگرداند،
485
00:24:16,610 –> 00:24:19,520
بنابراین این همان چیزی است که با آمدن
486
00:24:19,520 –> 00:24:23,480
این روش سرگرمکننده تابع مبارزه است.
487
00:24:23,480 –> 00:24:26,060
پیت قبلاً
488
00:24:26,060 –> 00:24:28,640
اولین تگ P را که یک پاراگراف است برگردانده است،
489
00:24:28,640 –> 00:24:32,150
بنابراین فرض کنید اگر می خواهید
490
00:24:32,150 –> 00:24:38,120
تمام تگ های P را استخراج کنید،
491
00:24:38,120 –> 00:24:40,310
باید این روش نهایی را فراخوانی کنید تا شبیه
492
00:24:40,310 –> 00:24:43,040
به پیدا کردن باشد، اما فکر می کنم این نام کاملاً شناخته شده است.
493
00:24:43,040 –> 00:24:45,380
uth اساسا به جای
494
00:24:45,380 –> 00:24:48,560
پیدا کردن اولین تگ، اجازه دهید بگوییم تگ P من
495
00:24:48,560 –> 00:24:52,190
همه تگ های P را پیدا نخواهم کرد، بنابراین اکنون در کمال
496
00:24:52,190 –> 00:24:55,250
تعجب خروجی یک لیست
497
00:24:55,250 –> 00:24:57,890
پایتون است، لیست پایتون همه تگ های P همه پاراگراف ها را تگ
498
00:24:57,890 –> 00:25:01,760
می کند، پس اگر می خواهید بیایید
499
00:25:01,760 –> 00:25:04,730
دومی را بگوییم پاراگراف یا تگ دوم P،
500
00:25:04,730 –> 00:25:08,390
سپس میتوانید از یک
501
00:25:08,390 –> 00:25:10,790
نشانگر دومی که این زیرنویس را میشناسید استفاده کنید، میخواهید فهرست دومی را
502
00:25:10,790 –> 00:25:12,590
که میدانید در موارد ایندکسشده پایتون رزرو شده
503
00:25:12,590 –> 00:25:14,540
است، بنابراین میتوانید فقط از
504
00:25:14,540 –> 00:25:16,970
براکت اول برای دستور دادن به این تگ دوم استفاده کنید،
505
00:25:16,970 –> 00:25:23,480
بنابراین ممکن است فکر کنید.
506
00:25:23,480 –> 00:25:26,390
در مورد خوب پس خیابان. به نظر میرسد که اگر
507
00:25:26,390 –> 00:25:28,550
اصلاً خیلی قویتر از خوب است،
508
00:25:28,550 –> 00:25:30,860
باید همیشه از find out به جای
509
00:25:30,860 –> 00:25:33,110
سرگرمی استفاده کنم، خوب همیشه اینطور نیست
510
00:25:33,110 –> 00:25:36,110
زیرا به خروجی
511
00:25:36,110 –> 00:25:38,600
این روش نهایی نگاهی بیندازید، این یک پایتون است، بنابراین به
512
00:25:38,600 –> 00:25:40,940
این معنی است که باید مشترک شوید
513
00:25:40,940 –> 00:25:42,890
اگر فقط باید آنها را بخواهید، یک لیست خوب می دانید که پایتون را می شناسید،
514
00:25:42,890 –> 00:25:45,080
اما اگر در آن هستید
515
00:25:45,080 –> 00:25:47,420
اگرچه این برچسب منحصر به فرد است
516
00:25:47,420 –> 00:25:50,690
یا فقط یک نوع مانند آن
517
00:25:50,690 –> 00:25:53,720
برچسب وجود دارد، پس نه، فقط باید
518
00:25:53,720 –> 00:25:55,820
به جایی بروید که همه را پیدا کنید زیرا به یک برچسب نیاز دارید.
519
00:25:55,820 –> 00:25:59,210
کارکنان اضافی برای دستور دادن به تگ واقعی
520
00:25:59,210 –> 00:26:06,020
از لیست پایتون و آخرین
521
00:26:06,020 –> 00:26:08,450
نوع آرگومان مشابه برای این
522
00:26:08,450 –> 00:26:12,170
تابع نهایی مخالف است به نظر من مهمترین مورد مخالف
523
00:26:12,170 –> 00:26:15,920
است زیرا گاهی اوقات
524
00:26:15,920 –> 00:26:18,080
ممکن است چندین حمله و چندین
525
00:26:18,080 –> 00:26:21,590
حمله در وب سایت وجود داشته باشد، بنابراین شما به نوعی نیاز دارید
526
00:26:21,590 –> 00:26:25,260
. یکی از طرفین برای تعیین
527
00:26:25,260 –> 00:26:30,000
زمان جالب شماست، به همین دلیل است که می
528
00:26:30,000 –> 00:26:33,270
دانید در این روش نهایی،
529
00:26:33,270 –> 00:26:35,220
استدلال دیگری به نام
530
00:26:35,220 –> 00:26:36,750
در واقع زیبایی دارید، بنابراین اگر نمی
531
00:26:36,750 –> 00:26:39,960
دانید چگونه این را به دست می آورید، مکان نما خود را به داخل آن ببرید.
532
00:26:39,960 –> 00:26:43,050
روش ما را پیدا کنید و سپس
533
00:26:43,050 –> 00:26:47,580
shift enter را فشار دهید سپس اولین آرگومان ها
534
00:26:47,580 –> 00:26:49,500
نام فراخوانی را به طور پیش فرض برابر با none در حال حاضر،
535
00:26:49,500 –> 00:26:52,530
اما به خصوص شما باید در یک
536
00:26:52,530 –> 00:26:54,660
ویدیو سوپ بگویید که نام نوع آن چیست، به
537
00:26:54,660 –> 00:26:56,730
عنوان مثال ما که می خواهیم
538
00:26:56,730 –> 00:27:04,250
یک تگ h1 را پیدا کنیم و پس ما این
539
00:27:04,250 –> 00:27:07,710
آرگومان مشخصه را داریم، بنابراین ویژگی مطابق
540
00:27:07,710 –> 00:27:10,200
با ویژگی های تگ است، به
541
00:27:10,200 –> 00:27:15,360
عنوان مثال، ما این سند XML ما است،
542
00:27:15,360 –> 00:27:19,020
بنابراین برای این تگ h1 ما یک
543
00:27:19,020 –> 00:27:24,120
ویژگی ID برابر با 1 داریم، بنابراین اگر بگویم
544
00:27:24,120 –> 00:27:26,160
میلیون ها تگ h1 روی آن دارم. این edge
545
00:27:26,160 –> 00:27:29,430
سند Tara من فقط تگ h1 را می خواهم که دارای
546
00:27:29,430 –> 00:27:32,310
ویژگی ID برابر با 1 باشد، سپس می توانم
547
00:27:32,310 –> 00:27:35,700
مشخص کنم که در آرگومان ویژگی های من،
548
00:27:35,700 –> 00:27:39,420
بنابراین مقدار این آرگومان ویژگی
549
00:27:39,420 –> 00:27:43,680
مانند فرهنگ لغت پایتون است، بنابراین
550
00:27:43,680 –> 00:27:47,580
اساساً مانند کلید این
551
00:27:47,580 –> 00:27:50,700
فرهنگ لغت است. value of
552
00:27:50,700 –> 00:27:53,310
the نام ویژگی شماست و همچنین
553
00:27:53,310 –> 00:27:56,670
مقدار the این دیکشنری
554
00:27:56,670 –> 00:28:00,480
برابر با مقدار
555
00:28:00,480 –> 00:28:03,750
مشخصه تگ خواهد بود، به عنوان مثال در اینجا
556
00:28:03,750 –> 00:28:06,810
با سوپ می گویم هی تمام تگ h1 را
557
00:28:06,810 –> 00:28:11,190
که ID دارد را پیدا کنید. صفت e کیفیت 1 و
558
00:28:11,190 –> 00:28:14,460
خروجی، بنابراین اگر فقط یک بار وجود داشته باشد که
559
00:28:14,460 –> 00:28:18,300
با این معیار مطابقت داشته باشد، اما آن
560
00:28:18,300 –> 00:28:21,090
هم یک پایتون داشته باشد، زیرا در اینجا
561
00:28:21,090 –> 00:28:24,750
کانی همه چیز را به جای سرگرم کننده پیدا می کند،
562
00:28:24,750 –> 00:28:27,930
بنابراین من فکر می کنم تا حد زیادی دوست داریم
563
00:28:27,930 –> 00:28:30,870
برخی از اصول اولیه را مرور کنیم. نکات
564
00:28:30,870 –> 00:28:33,270
این وبینار تشک من فکر نمی کنم
565
00:28:33,270 –> 00:28:35,670
کمی بیشتر از حد انتظار باشد، اما همچنان
566
00:28:35,670 –> 00:28:37,830
می خواهم برای یک
567
00:28:37,830 –> 00:28:38,429
دقیقه و
568
00:28:38,429 –> 00:28:40,590
یک ثانیه معمایی مکث کنم، فقط برای اینکه مطمئن شوم می
569
00:28:40,590 –> 00:28:43,289
دانید که ما قبل از اینکه
570
00:28:43,289 –> 00:28:47,039
کار را بلد هستید به سؤالات پاسخ دهیم به عنوان مثال،
571
00:28:47,039 –> 00:28:48,929
فکر میکنم این سوال روی
572
00:28:48,929 –> 00:28:50,879
نقلقولهای سهگانه بود که
573
00:28:50,879 –> 00:28:54,480
چرا برای نشان دادن رشته از گیومههای سهگانه تا حد مرگ استفاده
574
00:28:54,480 –> 00:29:00,299
میکنید، بنابراین این کد سهگانه دقیقاً مانند یک
575
00:29:00,299 –> 00:29:05,460
روش افلاطونی برای قرار دادن چندین خط از
576
00:29:05,460 –> 00:29:07,740
سه است، مانند یکی است
577
00:29:07,740 –> 00:29:09,809
که رشته پایتون را میشناسید. بچهها
578
00:29:09,809 –> 00:29:12,240
اگر دارید اگر فقط استفاده میکنید یک کد
579
00:29:12,240 –> 00:29:14,850
تکی یا دو کد را میدانید، پس باید یک
580
00:29:14,850 –> 00:29:17,820
خط باشد، مگر اینکه
581
00:29:17,820 –> 00:29:20,580
بک اسلش را در انتهای رشته به عنوان
582
00:29:20,580 –> 00:29:23,190
خط شکن داشته باشید، اما میدانید که
583
00:29:23,190 –> 00:29:25,499
کرنش سهگانه نیازی نیست. اسلش بهعنوان
584
00:29:25,499 –> 00:29:27,629
زنگشکن که در داخل
585
00:29:27,629 –> 00:29:32,999
رشته میشناسید، این تفاوت است،
586
00:29:32,999 –> 00:29:34,649
بنابراین فکر میکنم میخواهم
587
00:29:34,649 –> 00:29:36,659
جالبتر باشم با شما یک وبسایت واقعی را بشناسید،
588
00:29:36,659 –> 00:29:39,299
چه با یک سند ساختگی که شما
589
00:29:39,299 –> 00:29:41,070
سند HTML مانند این را میدانید،
590
00:29:41,070 –> 00:29:44,820
خوب است، بنابراین بیایید سعی کنیم اسکریپت I نظرات
591
00:29:44,820 –> 00:29:49,230
در مورد گلف و برای امروز ما در حال تلاش برای
592
00:29:49,230 –> 00:29:54,929
بررسی