در این مطلب، ویدئو چگونه از داده های خراشیده شده یک ابر کلمه بسازیم (پایتون) با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:22:01
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:03,300
سلام به همه کن امروز اینجا هستم، من
2
00:00:03,300 –> 00:00:05,879
می خواهم کمی همه چیز را با هم مخلوط کنم و
3
00:00:05,879 –> 00:00:07,799
شما را در پروژه کوچک سرگرم کننده ای
4
00:00:07,799 –> 00:00:10,559
که انجام دادم راهنمایی کنم.
5
00:00:10,559 –> 00:00:14,009
6
00:00:14,009 –> 00:00:16,770
7
00:00:16,770 –> 00:00:19,529
فرمت این نمایش
8
00:00:19,529 –> 00:00:23,640
پادکست BiggerPockets است و
9
00:00:23,640 –> 00:00:26,130
در درجه اول بر روی سرمایه گذاری در املاک تمرکز دارد،
10
00:00:26,130 –> 00:00:27,810
بسیار سرگرم کننده است و آنها
11
00:00:27,810 –> 00:00:31,410
نیز حکمت بسیار خوبی در زندگی دارند.
12
00:00:31,410 –> 00:00:34,890
13
00:00:34,890 –> 00:00:36,690
14
00:00:36,690 –> 00:00:39,390
آن را به تصویری جالب تبدیل کنید
15
00:00:39,390 –> 00:00:42,239
که کلماتی را که
16
00:00:42,239 –> 00:00:44,489
بیشتر استفاده میشود نشان میدهد، بنابراین میتوانیم به
17
00:00:44,489 –> 00:00:49,350
نوعی موضوع 159 قسمت اول را به
18
00:00:49,350 –> 00:00:51,690
عنوان ایده تصویر بزرگتر دریافت کنیم، بنابراین ما
19
00:00:51,690 –> 00:00:55,590
از متن اینجا به
20
00:00:55,590 –> 00:00:58,410
ابر کلمهای میرویم. این که از نشانواره
21
00:00:58,410 –> 00:01:02,100
در اینجا به عنوان پوشش استفاده میکند، بنابراین اگر به اینجا نگاه
22
00:01:02,100 –> 00:01:03,870
کنیم، یک دسته پیوند در این صفحه وجود دارد
23
00:01:03,870 –> 00:01:06,900
و هر پیوند به قسمت رونویسی شده میرود،
24
00:01:06,900 –> 00:01:09,510
بنابراین ما آن را مرور میکنیم و
25
00:01:09,510 –> 00:01:11,880
از کتابخانه زیبای پیتونها استفاده میکنیم.
26
00:01:11,880 –> 00:01:14,970
برای اینکه ابتدا تمام پیوندهای
27
00:01:14,970 –> 00:01:18,119
این صفحه را در حلقه بعدی از طریق آنها بیابید و
28
00:01:18,119 –> 00:01:19,830
تمام داده های متنی خود را دریافت کنید و
29
00:01:19,830 –> 00:01:22,110
در نهایت دوباره آن را به این
30
00:01:22,110 –> 00:01:25,470
تصویر ابری کلمه زیبا تبدیل کنید، من شما را تشویق می
31
00:01:25,470 –> 00:01:29,070
کنم کد را از github دانلود
32
00:01:29,070 –> 00:01:31,020
کنید و من را دنبال کنید. از طریق
33
00:01:31,020 –> 00:01:32,460
کد من به جای انجام این کار با شما این
34
00:01:32,460 –> 00:01:35,220
بار، من مطمئن می شوم که
35
00:01:35,220 –> 00:01:37,799
تمام مراحل و تمام پارامترها را توضیح می دهم
36
00:01:37,799 –> 00:01:41,070
به جز مواردی که استفاده می کنم، بنابراین بدون هیچ
37
00:01:41,070 –> 00:01:45,360
مقدمه ای بیایید به آن برسیم، بنابراین تمام کدهایی که نیاز دارید در اینجا آمده است.
38
00:01:45,360 –> 00:01:47,729
خیلی طولانی نیست، می
39
00:01:47,729 –> 00:01:50,189
دانید که ما به 112 خط نگاه می کنیم، معمولاً
40
00:01:50,189 –> 00:01:53,369
من این را جداگانه بسته بندی می کنم، بنابراین
41
00:01:53,369 –> 00:01:56,219
همه توابع را در یک فایل قرار می
42
00:01:56,219 –> 00:01:57,799
دهم و آنها را متفاوت وارد می کنم،
43
00:01:57,799 –> 00:02:01,110
اکثر مردم نیز احتمالاً مانند
44
00:02:01,110 –> 00:02:03,270
یک نوت بوک ipython استفاده می کنند، اما برای من دوباره
45
00:02:03,270 –> 00:02:05,390
این spider است. شناسهای
46
00:02:05,390 –> 00:02:09,020
که من با آن راحتتر هستم، پس بیایید
47
00:02:09,020 –> 00:02:11,720
اکنون شروع کنیم، اولین کاری که باید
48
00:02:11,720 –> 00:02:15,920
انجام دهیم، اگر قبلاً آن را ندارید، این است
49
00:02:15,920 –> 00:02:17,030
که ببینیم اینجا به
50
00:02:17,030 –> 00:02:19,130
اعلان آناکوندا میرویم و
51
00:02:19,130 –> 00:02:23,060
نصب es را آغاز میکنیم. بنابراین زیبا نصب می شود
52
00:02:23,060 –> 00:02:23,810
بالا،
53
00:02:23,810 –> 00:02:26,150
من بدیهی است که قبلاً آن را دارم، ما همچنین
54
00:02:26,150 –> 00:02:31,820
قصد داریم کلمه ابری را Kip نصب کنیم و اگر
55
00:02:31,820 –> 00:02:33,260
قبلاً آن را ندارید،
56
00:02:33,260 –> 00:02:36,170
اینها در اینجا بارگیری می شوند، بنابراین این اولین
57
00:02:36,170 –> 00:02:38,450
قدم اولیه است که شما
58
00:02:38,450 –> 00:02:41,530
باید واقعاً ماژول هایی را داشته باشید که ما نیاز دارید.
59
00:02:41,530 –> 00:02:43,670
60
00:02:43,670 –> 00:02:46,340
ما از یک سوپ زیبا استفاده خواهیم کرد، ما از درخواست هایی استفاده خواهیم کرد تا
61
00:02:46,340 –> 00:02:48,920
در واقع درخواستی را به
62
00:02:48,920 –> 00:02:51,380
وب سایت ها برای داده ها
63
00:02:51,380 –> 00:02:53,980
64
00:02:53,980 –> 00:02:57,620
65
00:02:57,620 –> 00:02:59,989
ارائه دهیم.
66
00:02:59,989 –> 00:03:02,600
استفاده از برخی از این توابع مسیر
67
00:03:02,600 –> 00:03:05,900
برای دسترسی به
68
00:03:05,900 –> 00:03:09,950
تصویر numpy نیز برای نمایش صحیح تصویر
69
00:03:09,950 –> 00:03:12,410
برای عملکرد خود استفاده می شود و ما از این
70
00:03:12,410 –> 00:03:15,650
جعبه ابزار NLT kay که یک
71
00:03:15,650 –> 00:03:18,829
جعبه ابزار پردازش زبان طبیعی است برای پاکسازی
72
00:03:18,829 –> 00:03:21,739
برخی از موارد استفاده می کنیم. دادههای متنی خوب است، بنابراین
73
00:03:21,739 –> 00:03:24,620
اولین کاری که میخواهیم انجام دهیم این است که
74
00:03:24,620 –> 00:03:30,980
همه اینها را بارگیری میکنیم و بعد از
75
00:03:30,980 –> 00:03:33,650
بارگیری همه اینها، در
76
00:03:33,650 –> 00:03:37,820
واقع شروع به کشیدن دادهها
77
00:03:37,820 –> 00:03:41,660
از وبسایت میکنیم تا ایجاد کنیم.
78
00:03:41,660 –> 00:03:46,489
این تابع سوپ که تو کتابخانه درخواست را میبیند
79
00:03:46,489 –> 00:03:48,620
و ما یک HTML دریافت میکنیم،
80
00:03:48,620 –> 00:03:51,470
بنابراین اولین چیزی که میگیریم این است که
81
00:03:51,470 –> 00:03:54,650
82
00:03:54,650 –> 00:03:58,060
رونوشت رونوشت پادکست HTML BiggerPockets و
83
00:03:58,060 –> 00:04:02,709
اینجا جایی است که همه اینها قرار دارند،
84
00:04:02,709 –> 00:04:06,010
بنابراین ما فقط تابع را در اینجا
85
00:04:06,010 –> 00:04:08,349
ایجاد میکنیم تا بیشتر شود. قابل تعمیم،
86
00:04:08,349 –> 00:04:11,650
از همین تابع برای دریافت HTML
87
00:04:11,650 –> 00:04:14,920
برای صفحه ای که همه پیوندهای مجزا دارد
88
00:04:14,920 –> 00:04:18,789
و همچنین برای هر
89
00:04:18,789 –> 00:04:23,160
فرد قسمت های رونوشت پادکست جداگانه
90
00:04:23,160 –> 00:04:28,360
استفاده می کنیم، بنابراین از رمزگذاری پاسخگو
91
00:04:28,360 –> 00:04:32,440
و اگر مجموعه کاراکتر صندلی در
92
00:04:32,440 –> 00:04:34,900
سرصفحه ها باشد استفاده می کنیم. نوع محتوا
93
00:04:34,900 –> 00:04:37,330
را به حروف کوچک تبدیل می
94
00:04:37,330 –> 00:04:39,550
کنیم وگرنه قرار نیست آن را اضافه کنیم، بنابراین
95
00:04:39,550 –> 00:04:41,530
همه این هدرهای رمزگذاری شده
96
00:04:41,530 –> 00:04:45,310
را خواهیم داشت و سپس اساساً بررسی می
97
00:04:45,310 –> 00:04:47,800
کنیم و مطمئن می شویم که همه موارد را دریافت می کنیم.
98
00:04:47,800 –> 00:04:51,370
محتوای HTML این را می توانید
99
00:04:51,370 –> 00:04:52,960
اساساً فقط کپی و جایگذاری کنید
100
00:04:52,960 –> 00:04:55,120
این منطق تقریباً برای هر
101
00:04:55,120 –> 00:04:59,410
وب سایتی که
102
00:04:59,410 –> 00:05:01,960
103
00:05:01,960 –> 00:05:04,389
104
00:05:04,389 –> 00:05:05,500
می کشید یکسان است. شما آن را
105
00:05:05,500 –> 00:05:07,599
درک نمی کنید این بخش، می توانید فقط
106
00:05:07,599 –> 00:05:11,590
این بخش را کپی کرده و از آن استفاده کنید، بنابراین
107
00:05:11,590 –> 00:05:15,250
ما یک متغیر رمزگذاری ایجاد می کنیم
108
00:05:15,250 –> 00:05:18,669
و اگر یک کدگذاری HTML یا یک
109
00:05:18,669 –> 00:05:21,280
کدگذاری HTTP و آشپزی باشد،
110
00:05:21,280 –> 00:05:23,440
آن را در مورد بعدی اضافه می کنیم. ما این کار را انجام می دهیم این
111
00:05:23,440 –> 00:05:29,400
است که از شیء معمولی زیبای
112
00:05:29,400 –> 00:05:35,169
سوپ از BS 4 استفاده می کنیم و ما پاسخ را دریافت می
113
00:05:35,169 –> 00:05:37,389
کنیم محتوای
114
00:05:37,389 –> 00:05:40,300
پاسخ درخواستی که شما انجام داده اید و از
115
00:05:40,300 –> 00:05:42,460
این نوع رمزگذاری استفاده می کنیم که در
116
00:05:42,460 –> 00:05:44,710
اینجا وجود دارد یا HTML است. H
117
00:05:44,710 –> 00:05:46,930
و سپس ما این
118
00:05:46,930 –> 00:05:50,229
شیء سوپ را که شیء حاوی
119
00:05:50,229 –> 00:05:55,650
تمام محتوای HTML برای وب سایت است،
120
00:05:55,650 –> 00:05:57,340
پس از آن
121
00:05:57,340 –> 00:05:58,990
122
00:05:58,990 –> 00:06:02,380
برمی گردانیم، بنابراین اجازه دهید در واقع آن را اجرا کنیم تا این را انتخاب کنیم، این فقط
123
00:06:02,380 –> 00:06:05,590
مسیر مسیر وب سایت است. و
124
00:06:05,590 –> 00:06:11,820
ما سوپ خود را دریافت می کنیم، بنابراین چه کسی واقعاً
125
00:06:11,820 –> 00:06:15,509
این را مقداردهی اولیه می
126
00:06:19,190 –> 00:06:20,340
کند،
127
00:06:20,340 –> 00:06:24,120
بنابراین اکنون ما شیء سوپ زیبای خود را داریم
128
00:06:24,120 –> 00:06:32,780
و اگر بخواهیم این کار را انجام دهیم، می توانیم این کار
129
00:06:36,910 –> 00:06:40,210
را انجام دهیم و تمام HTML را دریافت می کنیم و به
130
00:06:40,210 –> 00:06:43,210
نظر می رسد داغ است. آشفتگی اما ما می توانیم از
131
00:06:43,210 –> 00:06:45,070
برخی از عملکردهای زیبای سوپ استفاده کنیم برای
132
00:06:45,070 –> 00:06:46,810
فیلتر کردن از طریق این و دریافت دقیقا همان چیزی
133
00:06:46,810 –> 00:06:50,740
که میخواهیم، بنابراین این صفحه وب است که می
134
00:06:50,740 –> 00:06:53,110
توانیم در اینجا ببینیم، فقط همه ای
135
00:06:53,110 –> 00:06:55,270
پیوندها را دارد، بنابراین کاری که میخواهیم انجام دهیم این اس
136
00:06:55,270 –> 00:06:57,850
که همه پیوندها را فیلتر کنیم و فق
137
00:06:57,850 –> 00:07:01,140
آنها را دریافت کنیم، بنابراین نوشتم این تابع دریافت پیوندها
138
00:07:01,140 –> 00:07:03,580
است که این شی سوپ زیبا
139
00:07:03,580 –> 00:07:07,210
را وارد میکند و ما ابتدا
140
00:07:07,210 –> 00:07:09,640
فهرستی ایجاد میکنیم که میتوانیم اگر بخواهیم میتوانیم این کار را در یک خط
141
00:07:09,640 –> 00:07:12,730
انجام دهیم، اما من
142
00:07:12,730 –> 00:07:14,440
فکر میکنم برای خوانایی، منطقی
143
00:07:14,440 –> 00:07:18,450
است برای پیوند در سوپ. همچنین
144
00:07:18,450 –> 00:07:21,100
وقتی برچسب a را داشته باشد، یک پیوند است
145
00:07:21,100 –> 00:07:24,520
و یک href دارد، قطعاً به این معنی است
146
00:07:24,520 –> 00:07:28,930
که یک پیوند است، بنابراین اگر این
147
00:07:28,930 –> 00:07:31,570
اسلش را نداشته باشد که فقط چیزی است که
148
00:07:31,570 –> 00:07:33,880
در دادهها پیدا کردم که باعث ناسازگاری آن شد،
149
00:07:33,880 –> 00:07:36,040
فیلتر کردم. و
150
00:07:36,040 –> 00:07:39,250
سپس ما فقط همه این پیوندها را
151
00:07:39,250 –> 00:07:41,860
به این لیست که در اینجا
152
00:07:41,860 –> 00:07:44,800
داریم اضافه می کنیم و آن لیست را برمی گردانیم، بنابراین بیایید آن را
153
00:07:44,800 –> 00:07:48,790
به سرعت اجرا کنیم و می توانیم ببینیم چه کاری انجام می
154
00:07:48,790 –> 00:07:49,210
دهد،
155
00:07:49,210 –> 00:07:52,330
بنابراین اگر به این لینک نگاه کنیم اکنون پیوندهای H
156
00:07:52,330 –> 00:07:54,910
داریم. تمام پیوندهای آن
157
00:07:54,910 –> 00:07:58,840
صفحه که بسیار زیبا است و اکنون می
158
00:07:58,840 –> 00:08:01,810
توانیم h را ببینیم قبل از اینکه لینکهایی وجود داشته باشد که ما
159
00:08:01,810 –> 00:08:04,030
میخواهیم، بنابراین همه آنهایی که دارای قسمتهایی مانند BP p1
160
00:08:04,030 –> 00:08:08,500
p2 و غیره هستند، اما احتمالاً پی
161
00:08:08,500 –> 00:08:10,180
ندهایی به اینستاگرام آنها، YouTu
162
00:08:10,180 –> 00:08:13,600
e Twitter و غیره را نمیخواهیم، همچنین برخی پیوند
163
00:08:13,600 –> 00:08:15,090
ا در اینجا وجود دارد که ما نمیدانیم، پس من
164
00:08:15,090 –> 00:08:19,169
من این کار را انجام دادم
165
00:08:19,169 –> 00:08:21,150
تا فقط مواردی را که
166
00:08:21,150 –> 00:08:24,150
شما این BBB را در اینجا میدانید، از مقداری regex فیلتر کنم، اما فکر کردم
167
00:08:24,150 –> 00:08:27,030
کارآمدتر است که
168
00:08:27,030 –> 00:08:30,000
فقط لینکهایی را که میخواهیم انتخاب کنیم، بنابراین
169
00:08:30,000 –> 00:08:33,029
اگر فقط ششمین را برای حداکثر یک انتخاب کنیم، میدانیم.
170
00:08:33,029 –> 00:08:37,049
در صد و شصت و سه مورد از این لیست، ما
171
00:08:37,049 –> 00:08:40,529
همه پیوندهایی را دریافت خواهیم کرد که
172
00:08:40,529 –> 00:08:42,929
مرتبط با جستجوی ما هستند، بنابراین بیایید وارد
173
00:08:42,929 –> 00:08:48,900
شویم، از نظر فنی 158 159 برای هر
174
00:08:48,900 –> 00:08:50,430
اپیزود یکی داریم، اکنون چیزی
175
00:08:50,430 –> 00:08:54,750
اضافی در اینجا نداریم، مورد بعدی که
176
00:08:54,750 –> 00:08:58,230
می خواهیم. برای انجام این کار این است که متن واقعی را
177
00:08:58,230 –> 00:09:03,900
از هر یک از پیوندهایی که
178
00:09:03,900 –> 00:09:07,850
استفاده می کنیم دریافت کنیم، بنابراین می خواهیم این را در اینجا اجرا کنیم و
179
00:09:07,850 –> 00:09:12,570
همچنین می خواهیم یک حلقه
180
00:09:12,570 –> 00:09:14,970
در تمام قسمت های جداگانه داشته باشیم،
181
00:09:14,970 –> 00:09:18,300
بنابراین این لیست قسمت
182
00:09:18,300 –> 00:09:23,190
همان لیست پیوندهای ما و برای
183
00:09:23,190 –> 00:09:25,530
هر پیوند در h خواهد بود قبل از اینکه ما آن را چاپ
184
00:09:25,530 –> 00:09:28,710
کنیم تا بتوانیم
185
00:09:28,710 –> 00:09:30,690
ببینیم کار می کند و سپس
186
00:09:30,690 –> 00:09:35,190
همه متن را از هر یک از
187
00:09:35,190 –> 00:09:39,200
پیوندهای اینجا دریافت می کنیم و
188
00:09:39,200 –> 00:09:44,820
اساساً لیستی از همه موارد را برمی گردانیم. بنابراین
189
00:09:44,820 –> 00:09:47,730
اولین کاری که در اینجا انجام
190
00:09:47,730 –> 00:09:52,920
می دهیم این است که همه متن را از هر یک
191
00:09:52,920 –> 00:09:54,950
از این
192
00:09:54,950 –> 00:10:02,350
چیزها دریافت کنیم، بنابراین
193
00:10:02,840 –> 00:10:04,910
من چیزی را در اینجا از دست دادم،
194
00:10:04,910 –> 00:10:08,660
ابتدا باید شی سوپ را دریافت کنیم یا با عرض
195
00:10:08,660 –> 00:10:10,310
پوزش که P را نشان می دهد تگهای پاراگراف
196
00:10:10,310 –> 00:10:12,500
زیرا اینجاست که تمام متن
197
00:10:12,500 –> 00:10:18,380
در این صفحات وب هندو وجود دارد، بنابراین اگر
198
00:10:18,380 –> 00:10:20,900
به اینجا برویم و آن را بررسی کنیم، میتوانیم ببینیم
199
00:10:20,900 –> 00:10:23,660
که تمام متن در این تگهای P قرار دارد
200
00:10:23,660 –> 00:10:25,940
و بنابراین ما فقط میخواهیم
201
00:10:25,940 –> 00:10:32,180
آنها را اساساً فیلتر کنیم. کد درست
202
00:10:32,180 –> 00:10:35,780
در اینجا ما فقط از طریق شی سوپ می گذریم
203
00:10:35,780 –> 00:10:37,610
و همه تگ های P را پیدا می کنیم و
204
00:10:37,610 –> 00:10:41,570
سپس آنها را در یک لیست کامل قرار می دهیم،
205
00:10:41,570 –> 00:10:46,880
بنابراین در اینجا
206
00:10:46,880 –> 00:10:48,650
لیست تمام قسمت ها را دریافت می کنیم و این
207
00:10:48,650 –> 00:10:51,320
مدتی طول می کشد تا من برنده شوم. تو را
208
00:10:51,320 –> 00:10:53,390
با درد انتظار با من
209
00:10:53,390 –> 00:10:55,910
در تمام این ماجرا تحمل نمی کنم اما بعد از این
210
00:10:55,910 –> 00:10:58,790
من تمام شد، ما فهرستی از
211
00:10:58,790 –> 00:11:02,150
تمام متن های هر یک از قسمت ها
212
00:11:02,150 –> 00:11:04,610
خواهیم داشت که می خواهیم آن ها را ارزیابی کنیم، بسیار خوب،
213
00:11:04,610 –> 00:11:08,470
بارگذاری به پایان رسید، بنابراین اکنون می بینیم که
214
00:11:08,470 –> 00:11:14,450
مقادیر متنی مختلفی داریم
215
00:11:14,450 –> 00:11:17,090
در اینجا این فقط شروع هر یک است. یکی
216
00:11:17,090 –> 00:11:19,730
پس ما اینجا