در این مطلب، ویدئو python – تجزیه HTML با BeautifulSoup با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:08,180 –> 00:00:10,680
بنابراین اکنون ما واقعاً میخواهیم خزنده وب واقعی خود را بنویسیم که
2
00:00:10,680 –> 00:00:12,100
در
3
00:00:12,100 –> 00:00:14,710
واقع HTML را تجزیه میکند و بیشتر
4
00:00:14,710 –> 00:00:17,950
اوقات من ابتدا راه سخت را به شما نشان میدهم و
5
00:00:17,950 –> 00:00:20,230
سپس راه آسان را به شما نشان میدهم، اما
6
00:00:20,230 –> 00:00:21,550
در این مورد ما با این کار مزاحم نمیشویم.
7
00:00:21,550 –> 00:00:23,140
خوب نگاه کنید که چقدر راحت
8
00:00:23,140 –> 00:00:24,820
تر است نه، ما فقط با یک راه آسان شروع می
9
00:00:24,820 –> 00:00:28,450
کنیم، مشکل این است که اگر به HTML نگاه کنید،
10
00:00:28,450 –> 00:00:30,820
فقط می دانید که در اینجا چند نمونه
11
00:00:30,820 –> 00:00:33,910
HTML وجود دارد که می توانید این موارد را بشکنید، به
12
00:00:33,910 –> 00:00:35,950
اندازه کافی برای اینکه همه در یک باشند. آنچه را که
13
00:00:35,950 –> 00:00:37,780
ممکن است بنویسید HTML واقعاً منطقی است
14
00:00:37,780 –> 00:00:40,449
و بنابراین ممکن است زشت باشد و شما حتی نمی
15
00:00:40,449 –> 00:00:42,340
خواهید قوانین HTML را
16
00:00:42,340 –> 00:00:43,960
بدانید به اندازه کافی بد است که قوانین HTML را
17
00:00:43,960 –> 00:00:46,120
هنگام نوشتن صفحات وب بدانید چه برسد به
18
00:00:46,120 –> 00:00:48,879
اینکه بخواهید بخوانید. HTML دیوانه دیگران
19
00:00:48,879 –> 00:00:50,949
و وقتی HTML از برنامه ها شروع می شود،
20
00:00:50,949 –> 00:00:52,750
اگر می خواهید یاد بگیرید که چگونه
21
00:00:52,750 –> 00:00:54,909
توسعه وب را انجام دهید مانند PHP،
22
00:00:54,909 –> 00:00:56,440
HTML که از این برنامه ها بیرون می آید
23
00:00:56,440 –> 00:00:58,780
گاهی اوقات واقعاً زشت است با خطوط خالی و
24
00:00:58,780 –> 00:01:02,379
جدید و انواع مزخرفات و این
25
00:01:02,379 –> 00:01:04,330
همه چیز است. درست است و مرورگرها
26
00:01:04,330 –> 00:01:07,510
واقعاً هوشمند هستند جبران
27
00:01:07,510 –> 00:01:10,390
HTML زشت که ظاهراً معتبر است اما HTML زشت است
28
00:01:10,390 –> 00:01:14,080
و به آرامی اما مطمئناً می
29
00:01:14,080 –> 00:01:17,020
توانید یک تجزیه کننده برای HTML بنویسید اما بعد
30
00:01:17,020 –> 00:01:18,549
متوجه می شوید که اوه کسی این
31
00:01:18,549 –> 00:01:20,110
صفحه را انجام داده است و آنها از یک نقل قول استفاده
32
00:01:20,110 –> 00:01:22,960
کرده اند یا نقل قول ها یا هر چیز دیگری را به خوبی فراموش کرده اند
33
00:01:22,960 –> 00:01:25,000
. قبلاً این کار را انجام دادهاند و آنها
34
00:01:25,000 –> 00:01:26,170
این چیزی را به نام Beautiful Soupی سوپ نوشتند که
35
00:01:26,170 –> 00:01:28,180
نوعی نمایشنامه در
36
00:01:28,180 –> 00:01:30,789
کتاب کودکان به نام سوپ سنگ است که در آن
37
00:01:30,789 –> 00:01:33,159
شما یک سری
38
00:01:33,159 –> 00:01:35,560
چیزهای ناخواسته را داخل آن میریزید و به خوبی
39
00:01:35,560 –> 00:01:37,630
معلوم میشود که من فکر میکنم
40
00:01:37,630 –> 00:01:38,950
منظورشان همین است. وقتی آنها به یک Beautiful Soup می
41
00:01:38,950 –> 00:01:42,250
گویند که HTML کاملاً بی ارزش است و اگر
42
00:01:42,250 –> 00:01:44,439
تمام HTML های مزخرف را در
43
00:01:44,439 –> 00:01:46,149
Beautiful Soup بیندازید، آنچه از Beautiful Soup بیرون می
44
00:01:46,149 –> 00:01:48,009
45
00:01:48,009 –> 00:01:51,490
آید HTML قابل تجزیه فوق العاده و خوشمزه است، بنابراین این
46
00:01:51,490 –> 00:01:52,990
زمان خوبی برای صحبت در مورد Python 2
47
00:01:52,990 –> 00:01:54,250
در مقابل Python است. 3
48
00:01:54,250 –> 00:01:56,619
البته این کلاس در حال حاضر در
49
00:01:56,619 –> 00:01:58,509
پایتون 2 است و بنابراین چیزی که من به
50
00:01:58,509 –> 00:02:00,100
شما نشان خواهم داد این است که چگونه از Beautiful Soup در
51
00:02:00,100 –> 00:02:02,829
پایتون 2 استفاده کنید مفاهیم بسیار مشابه
52
00:02:02,829 –> 00:02:04,090
نصب و راه اندازی کمی متفاوت است. erent برای
53
00:02:04,090 –> 00:02:06,969
پایتون 3 و Beautiful Soup
54
00:02:06,969 –> 00:02:09,130
هم به پایتون 2 و هم به پایتون 3 منتقل شده است، بنابراین می توانید
55
00:02:09,130 –> 00:02:11,410
از این کتابخانه استفاده کنید، اکنون یک کتابخانه عالی است
56
00:02:11,410 –> 00:02:13,390
اگر پایتون 2 را انجام می دهید که
57
00:02:13,390 –> 00:02:18,370
پایتون ما است، می توانید فایل
58
00:02:18,370 –> 00:02:20,320
Beautiful Soup را دانلود کنید و آن را در
59
00:02:20,320 –> 00:02:21,640
همان پوشه کد پایتون شما
60
00:02:21,640 –> 00:02:24,220
راههای جایگزینی برای قرار دادن آن وجود دارد، اما
61
00:02:24,220 –> 00:02:25,330
این روش خام است
62
00:02:25,330 –> 00:02:26,200
و اگر در پیدا کردن
63
00:02:26,200 –> 00:02:28,720
beautifulsoup py مشکل دارید، آن را در وبسایت Python من برای
64
00:02:28,720 –> 00:02:30,490
انفورماتیک قرار دادهاید و میتوانید
65
00:02:30,490 –> 00:02:32,770
آن را از آنجا دانلود کنید.
66
00:02:32,770 –> 00:02:36,640
کامی کامی اصلی، بنابراین در اینجا یک
67
00:02:36,640 –> 00:02:38,800
راه آسان برای انجام آن وجود دارد، منظورم این است که به معنای واقعی کلمه
68
00:02:38,800 –> 00:02:41,320
این کل برنامه است، کاری که ما
69
00:02:41,320 –> 00:02:42,520
در این برنامه می خواهیم انجام دهیم این است که
70
00:02:42,520 –> 00:02:45,640
یک صفحه وب را بازیابی می کنیم و صفحه وب را
71
00:02:45,640 –> 00:02:47,290
تجزیه می کنیم و ما.
72
00:02:47,290 –> 00:02:49,450
همه تگهای لنگر را نگاه میکنم و
73
00:02:49,450 –> 00:02:52,330
href را چاپ میکنم، این همه
74
00:02:52,330 –> 00:02:54,430
چیز است، با تشکر از Beautiful Soup، ما
75
00:02:54,430 –> 00:02:56,890
عبارات منظم را انجام نمیدهیم، هیچ عملیاتی را پیدا نمیکنیم،
76
00:02:56,890 –> 00:02:59,050
زیرا
77
00:02:59,050 –> 00:03:01,090
Beautiful Soup همه این کارها را انجام میدهد، بنابراین اگر به این نگاه کنیم،
78
00:03:01,090 –> 00:03:03,040
ما واردات در t در بالا، ما
79
00:03:03,040 –> 00:03:04,300
URL های زندگی را وارد می کنیم، به این ترتیب،
80
00:03:04,300 –> 00:03:06,280
در واقع داده های HTML را می خوانیم و
81
00:03:06,280 –> 00:03:08,200
آن را در برنامه خود بازیابی می کنیم، سپس
82
00:03:08,200 –> 00:03:10,270
کتابخانه را به همه روتین
83
00:03:10,270 –> 00:03:12,040
هایی که در فایل زیبای soup py هستند وارد
84
00:03:12,040 –> 00:03:13,990
می کنیم. می گوید زمانی که از
85
00:03:13,990 –> 00:03:16,330
ورودی خام استفاده می کنیم که برای ما آشناست، چگونه
86
00:03:16,330 –> 00:03:18,520
نام URL
87
00:03:18,520 –> 00:03:20,920
را درخواست می کنیم، سپس URL Lib URL را با
88
00:03:20,920 –> 00:03:22,690
پارامتر URLs باز می کنیم، کار دیگری که
89
00:03:22,690 –> 00:03:23,980
قبلا انجام نداده ایم این است که فقط
90
00:03:23,980 –> 00:03:25,900
خواندن را فراخوانی می کنیم. روش روی آن و
91
00:03:25,900 –> 00:03:29,860
معنی آن میگوید همه خطوط جدید را بخوانید
92
00:03:29,860 –> 00:03:31,480
و تمام کارهایی که قبلاً انجام دادهایم و بنابراین
93
00:03:31,480 –> 00:03:34,120
همه خطوط را در یک تماس
94
00:03:34,120 –> 00:03:36,730
با خطوط جدید دست نخورده به ما میدهد، اما اگر به
95
00:03:36,730 –> 00:03:39,220
آن خوب فکر کنید در این مورد ما
96
00:03:39,220 –> 00:03:41,020
هیچ تقسیم بندی انجام نمی شود، اما
97
00:03:41,020 –> 00:03:43,780
خوب است که آن را بخوانید، همه صفحات
98
00:03:43,780 –> 00:03:45,850
نباید آنقدر طولانی باشند، بنابراین این نه
99
00:03:45,850 –> 00:03:47,890
تنها URL را باز می کند، بلکه آن را می خواند، بنابراین ما
100
00:03:47,890 –> 00:03:50,100
آن شهر را به یک خط تقسیم
101
00:03:50,100 –> 00:03:52,780
کردیم و همه آن را بخوانید. چیزی که دریافت می کنیم این یک
102
00:03:52,780 –> 00:03:55,000
رشته است که من آن را HTML می نامم، اما می تواند
103
00:03:55,000 –> 00:03:55,390
هر چیزی باشد که
104
00:03:55,390 –> 00:03:57,760
HTML یک رشته باشد که کل
105
00:03:57,760 –> 00:03:59,739
صفحه وب با انتهای کمتر و بزرگتر
106
00:03:59,739 –> 00:04:01,510
از و خطوط جدید است که این همان کاری است که آن
107
00:04:01,510 –> 00:04:04,150
خط دوباره با
108
00:04:04,150 –> 00:04:07,330
پایتون انجام می دهد تا یک خط جمع
109
00:04:07,330 –> 00:04:09,190
110
00:04:09,190 –> 00:04:13,150
111
00:04:13,150 –> 00:04:15,489
می شود. رشته ما را که
112
00:04:15,489 –> 00:04:17,858
می خوانیم و سپس آن را معنا می کنیم و
113
00:04:17,858 –> 00:04:21,070
این شی سوپ را به ما پس می دهیم، بنابراین سوپ
114
00:04:21,070 –> 00:04:23,830
نه یک رشته است، نه یک بولین یا
115
00:04:23,830 –> 00:04:26,260
فرهنگ لغت، چیزهای زیادی
116
00:04:26,260 –> 00:04:29,620
دارد، داده های HTML تجزیه شده است و سپس می توانید
117
00:04:29,620 –> 00:04:32,770
سؤالات سوپ بپرسید. این یک
118
00:04:32,770 –> 00:04:35,050
شی سوپ است که می توانید از آن استفاده کنید
119
00:04:35,050 –> 00:04:38,540
و بنابراین ما می توانیم
120
00:04:38,540 –> 00:04:42,290
با گفتن سوپ و پشت
121
00:04:42,290 –> 00:04:44,030
سر گذاشتن برچسب a لیستی از برچسب ها را بازیابی کنیم و چیزی که واقعاً به
122
00:04:44,030 –> 00:04:45,590
دنبال آن است چیزهایی است که شبیه یک
123
00:04:45,590 –> 00:04:49,430
نقطه نقطه به نظر می رسند. این چیزی است که
124
00:04:49,430 –> 00:04:51,260
یک تگ لنگر به نظر می رسد و چیزی که ما می
125
00:04:51,260 –> 00:04:53,930
گوییم این است که همه تگ ها را
126
00:04:53,930 –> 00:04:56,840
برای من پیدا کن پس مرا پیدا نکن تگ ها من را روی
127
00:04:56,840 –> 00:04:58,700
برچسب های پررنگ پیدا نکن هیچ یک از آن
128
00:04:58,700 –> 00:05:01,250
چیزها را به من پیدا نکن فقط به من بده برچسبها و آنچه که
129
00:05:01,250 –> 00:05:02,930
ما واقعاً دریافت میکنیم این دادهها
130
00:05:02,930 –> 00:05:06,620
در اینجاست خود تگ مشکلی ندارد و
131
00:05:06,620 –> 00:05:08,840
بنابراین لیستی از تگ ها است و بنابراین اگر
132
00:05:08,840 –> 00:05:11,660
این یک تگ لنگر
133
00:05:11,660 –> 00:05:14,840
داشت، اگر تگ لنگر