در این مطلب، ویدئو خراش دادن داده ها از توییتر با استفاده از پایتون | Twitterscraper + NLP + Visualization Data با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:06:41
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,089 –> 00:00:01,680
اسم من
2
00:00:01,680 –> 00:00:03,300
الکس فرایبورگ هست
3
00:00:03,300 –> 00:00:05,130
4
00:00:05,130 –> 00:00:06,480
5
00:00:06,480 –> 00:00:08,400
6
00:00:08,400 –> 00:00:10,139
7
00:00:10,139 –> 00:00:12,090
ما در واقع
8
00:00:12,090 –> 00:00:13,650
توییتر را حذف کردیم، بنابراین
9
00:00:13,650 –> 00:00:15,030
اگر به دنبال نوعی پروژه برای نمونه کار خود هستید، من واقعاً در مورد این یکی هیجانزده
10
00:00:15,030 –> 00:00:17,220
11
00:00:17,220 –> 00:00:18,869
هستم، فکر میکنم این پروژه واقعاً خوبی است،
12
00:00:18,869 –> 00:00:20,550
بنابراین بسیار هیجانزده هستم که این یکی را با شما به اشتراک بگذارم.
13
00:00:20,550 –> 00:00:22,080
می بینید که در github من خواهد بود،
14
00:00:22,080 –> 00:00:23,970
بنابراین با خیال راحت از آن استفاده کنید و
15
00:00:23,970 –> 00:00:25,769
کد را دانلود کنید،
16
00:00:25,769 –> 00:00:26,849
آن را منحصر به فرد کنید و من فکر می کنم این یک
17
00:00:26,849 –> 00:00:28,680
پروژه واقعا جالب خواهد بود، به خصوص برای افرادی که
18
00:00:28,680 –> 00:00:30,420
به تازگی شروع به کار کرده اند، بنابراین با این
19
00:00:30,420 –> 00:00:32,040
گفته، بیایید دریافت کنیم شروع شد و بیایید
20
00:00:32,040 –> 00:00:33,390
به کدی نگاه کنیم که تا آخر راه را
21
00:00:33,390 –> 00:00:35,309
طی می کنیم که
22
00:00:35,309 –> 00:00:37,410
تجسم های من در پایان است، اما در
23
00:00:37,410 –> 00:00:39,059
همان ابتدا می خواهم همه موارد
24
00:00:39,059 –> 00:00:41,129
وارداتی و کتابخانه هایم را در بالا قرار
25
00:00:41,129 –> 00:00:42,960
دهم. دوست ندارم مثل من کتابخانه هایم را دانلود
26
00:00:42,960 –> 00:00:44,520
کنم برو من دوست دارم همه آنها را در بالا بسته بندی کنم، به
27
00:00:44,520 –> 00:00:46,829
همین دلیل است که اینجا را
28
00:00:46,829 –> 00:00:49,620
دارم، اما از NLT Kay استفاده می کنم، همانطور که می توانید پانداها را مشاهده کنید،
29
00:00:49,620 –> 00:00:53,280
و این
30
00:00:53,280 –> 00:00:54,930
بار فضایی در واقع برای این کار تقریباً
31
00:00:54,930 –> 00:00:57,329
مانند یک فرهنگ لغت به سمت بالا است و بنابراین من.
32
00:00:57,329 –> 00:00:59,609
بعداً از آن استفاده خواهم کرد، اما بیایید
33
00:00:59,609 –> 00:01:01,559
اینجا را پایین بیاوریم، بنابراین اینجا جایی است که من در واقع
34
00:01:01,559 –> 00:01:03,030
دادهها را از توییتر پاک میکنم، بنابراین از
35
00:01:03,030 –> 00:01:04,559
اسکراپر توییتر و همچنین تاریخ/زمان و
36
00:01:04,559 –> 00:01:06,600
پانداها استفاده میکنم و محدودههای تاریخی خود را تعیین میکنم،
37
00:01:06,600 –> 00:01:08,700
تاریخ شروع و پایان من و سپس
38
00:01:08,700 –> 00:01:11,070
من در واقع می خواهم مشخص کنم که واقعاً برای چه کاربری
39
00:01:11,070 –> 00:01:12,540
داده ها را خراش می دهم و
40
00:01:12,540 –> 00:01:14,159
برای این مورد از دونالد ترامپ استفاده می کنیم که
41
00:01:14,159 –> 00:01:16,350
او را دوست دارد یا از او متنفر است. او خیلی توییت می
42
00:01:16,350 –> 00:01:17,549
کند و بنابراین داده های بسیار خوبی است
43
00:01:17,549 –> 00:01:18,840
ما امروز از او استفاده خواهیم کرد
44
00:01:18,840 –> 00:01:20,490
و سپس کمی بیشتر
45
00:01:20,490 –> 00:01:22,259
مشخص می کنیم که چه داده هایی را از
46
00:01:22,259 –> 00:01:23,700
این جمع می کنم، بنابراین من فقط متنی را می خواهم که در
47
00:01:23,700 –> 00:01:25,110
واقع در توییت ها وجود دارد، بنابراین
48
00:01:25,110 –> 00:01:26,909
مشخص می کنم که این همان چیزی است که می خواهم
49
00:01:26,909 –> 00:01:28,590
استخراج کنم. در من قبلاً این را اجرا کردهام، بنابراین این همان
50
00:01:28,590 –> 00:01:30,119
چیزی است که در حالت runni به نظر
51
00:01:30,119 –> 00:01:32,159
میرسد ng و این
52
00:01:32,159 –> 00:01:34,290
حداقل چند دقیقه زمان می برد، بنابراین برای
53
00:01:34,290 –> 00:01:35,610
اولین توییت می توانید ببینید که روی آن نوشته شده است
54
00:01:35,610 –> 00:01:37,350
Admiral Ronnie Jackson و سپس اگر
55
00:01:37,350 –> 00:01:38,520
به توییتر برویم، می بینیم که
56
00:01:38,520 –> 00:01:40,200
این همان چیزی است که در توییتر او می گوید.
57
00:01:40,200 –> 00:01:42,270
میتوانیم آن را همانجا
58
00:01:42,270 –> 00:01:44,159
ببینیم، بنابراین ما در واقع همه متنها را از
59
00:01:44,159 –> 00:01:45,960
توییتهای او میکشیم که واقعاً جالب است و اگر
60
00:01:45,960 –> 00:01:47,159
تا انتها پیمایش کنیم،
61
00:01:47,159 –> 00:01:48,899
میتوانیم ببینیم که 638 توییت وجود دارد که
62
00:01:48,899 –> 00:01:50,700
در واقع آنها را وارد کردهایم، بنابراین متن زیادی است
63
00:01:50,700 –> 00:01:52,439
و بنابراین ما باید آن را تجزیه
64
00:01:52,439 –> 00:01:53,880
کنیم، بنابراین من فقط خط به خط می روم
65
00:01:53,880 –> 00:01:56,189
و کلمات را تقسیم می کنم و در واقع
66
00:01:56,189 –> 00:01:57,899
به این شکل در پایان
67
00:01:57,899 –> 00:02:00,299
می نویسم، بنابراین می گوید دریاسالار رونی جکسون، اما اکنون
68
00:02:00,299 –> 00:02:02,130
به جای همه، به کلمات جداگانه تقسیم می شود.
69
00:02:02,130 –> 00:02:04,290
متن آزاد، بنابراین اکنون ما پایین
70
00:02:04,290 –> 00:02:05,700
میرویم، در واقع شروع به حذف
71
00:02:05,700 –> 00:02:07,380
تمام علائم نگارشی میکنیم و این مهم است،
72
00:02:07,380 –> 00:02:08,848
زیرا میخواهیم این دادهها را پاک
73
00:02:08,848 –> 00:02:11,280
کنیم.
74
00:02:11,280 –> 00:02:12,700
75
00:02:12,700 –> 00:02:14,680
چیزهای زیادی
76
00:02:14,680 –> 00:02:15,819
که ما می رویم این کار را انجام دهید و
77
00:02:15,819 –> 00:02:17,410
یکی از اولین کارهایی که انجام میدهیم این است
78
00:02:17,410 –> 00:02:19,780
که علائم نگارشی را حذف کنیم، بنابراین تنها کاری که من انجام میدهم این است که از
79
00:02:19,780 –> 00:02:21,340
عبارت منظم برای حذف تمام آن
80
00:02:21,340 –> 00:02:23,830
علائم نگارشی استفاده کنم و سپس وقتی به اینجا پایین میرویم،
81
00:02:23,830 –> 00:02:25,599
کاری که میخواهیم انجام دهیم
82
00:02:25,599 –> 00:02:26,890
، در واقع چیزی به نام stemming است.
83
00:02:26,890 –> 00:02:29,110
و stemming اساساً به معنای در نظر گرفتن تعداد زیادی
84
00:02:29,110 –> 00:02:30,849
تغییرات مختلف برای یک کلمه و
85
00:02:30,849 –> 00:02:32,950
شکستن آن به ریشه یا کلمه ریشه
86
00:02:32,950 –> 00:02:35,140
است، بنابراین چیزی مانند run دارای
87
00:02:35,140 –> 00:02:37,000
تغییرات زیادی مانند runner
88
00:02:37,000 –> 00:02:38,799
یا ran است و ما می خواهیم آن را
89
00:02:38,799 –> 00:02:41,170
به ریشه کلمه تقسیم کنیم. این همان کاری است که
90
00:02:41,170 –> 00:02:42,760
ما اکنون در اینجا انجام می دهیم، برخی از این
91
00:02:42,760 –> 00:02:43,930
کلمات کمی
92
00:02:43,930 –> 00:02:45,730
متفاوت به نظر می رسند، اما در نهایت منطقی است
93
00:02:45,730 –> 00:02:47,049
و همه آنها کاملاً کار نمی کنند،
94
00:02:47,049 –> 00:02:48,940
اما در بیشتر موارد
95
00:02:48,940 –> 00:02:51,010
طبق خواسته کار می کنند. بنابراین اکنون ما به
96
00:02:51,010 –> 00:02:52,239
پایین می رویم، تمام
97
00:02:52,239 –> 00:02:54,130
کلمات توقف را حذف می کنیم کلمات توقف کلمات فقط کلماتی هستند که
98
00:02:54,130 –> 00:02:56,380
واقعاً ساده و چیزهای بسیار رایجی هستند
99
00:02:56,380 –> 00:02:59,170
مانند اینها کلماتی هستند که
100
00:02:59,170 –> 00:03:01,299
هزاران بار در این
101
00:03:01,299 –> 00:03:03,099
متن آزاد تکرار می شوند و ما نکن همه آنها
102
00:03:03,099 –> 00:03:04,360
چون واقعاً به
103
00:03:04,360 –> 00:03:06,340
آنها اهمیت نمیدهیم، آنها واقعاً معنایی به متن واقعی اضافه نمیکنند،
104
00:03:06,340 –> 00:03:08,380
بنابراین ما آنها را
105
00:03:08,380 –> 00:03:10,480
بعد از حذف آنهایی
106
00:03:10,480 –> 00:03:12,610
که به نوعی فرآیند اصلی تمیز کردن ما هستند، حذف
107
00:03:12,610 –> 00:03:14,530
میکنیم. عمق اما برای این پروژه من
108
00:03:14,530 –> 00:03:16,209
واقعاً نمی خواستم آن را
109
00:03:16,209 –> 00:03:18,220
ساده نگه دارم و صادقانه بگویم حداقل کار را انجام دهم،
110
00:03:18,220 –> 00:03:20,260
بنابراین اکنون متن اصلی خود را دارم که
111
00:03:20,260 –> 00:03:21,880
می خواهم همه آن متنی
112
00:03:21,880 –> 00:03:22,989
را که قرار است انجام دهم را بگیرم. چیزی به نام ارزش
113
00:03:22,989 –> 00:03:24,970
آن را به حساب می آورد تنها کاری که باید انجام دهد این است که کلمات متمایز من ر