در این مطلب، ویدئو نحوه پاک کردن داده های مبتنی بر متن برای NLP – قسمت 3 – تجزیه و تحلیل احساسات Python Yelp با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:12:11
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:02,730
سلام بچه ها به قسمت 3 نحوه
2
00:00:02,730 –> 00:00:05,520
ساختن یک تحلیلگر احساسات با استفاده از
3
00:00:05,520 –> 00:00:08,309
بررسی های تجاری خوش آمدید، بنابراین در قسمت آخر ما
4
00:00:08,309 –> 00:00:10,380
دو معیار را محاسبه کردیم و
5
00:00:10,380 –> 00:00:12,780
نحوه تجزیه و تحلیل داده های خود را بررسی کردیم و در این ویدیو احساسی نسبت
6
00:00:12,780 –> 00:00:14,580
به آنچه واقعاً در دست دارید را دریافت کردیم.
7
00:00:14,580 –> 00:00:17,310
ما
8
00:00:17,310 –> 00:00:19,260
نحوه پاکسازی دادههای شما را بررسی میکنیم و
9
00:00:19,260 –> 00:00:20,880
واقعاً چیزهایی را که
10
00:00:20,880 –> 00:00:24,000
واقعاً نیازی به معنی
11
00:00:24,000 –> 00:00:26,220
آنها ندارید، حذف میکنیم و اکنون کاری که قرار است انجام دهیم یا بخش بزرگی
12
00:00:26,220 –> 00:00:27,990
از آن حذف
13
00:00:27,990 –> 00:00:30,990
اضافی است. بنابراین ما با حروف کوچک
14
00:00:30,990 –> 00:00:34,649
کلمات خود را حذف می کنیم و کلمات توقف را پاک
15
00:00:34,649 –> 00:00:37,020
می کنیم و علائم نگارشی را پاک می کنیم و
16
00:00:37,020 –> 00:00:40,260
اساساً به موضوع اصلی
17
00:00:40,260 –> 00:00:45,059
هر مرور توجه می کنیم، بگذارید خوب به آن برسیم، بنابراین
18
00:00:45,059 –> 00:00:48,000
برای تمیز نگه داشتن یک نوت بوک
19
00:00:48,000 –> 00:00:50,579
، فقط یک بخش علامت گذاری جدید ایجاد کنیم.
20
00:00:50,579 –> 00:00:57,449
و اکنون به این پاکسازی داده
21
00:00:57,449 –> 00:00:59,789
می گوییم اولین کاری که می خواهیم انجام دهیم این است که تک تک
22
00:00:59,789 –> 00:01:01,920
کلمات در بررسی را با حروف کوچک بنویسیم،
23
00:01:01,920 –> 00:01:03,390
بنابراین
24
00:01:03,390 –> 00:01:04,979
وقتی صحبت از حذف کلمات توقف به میان می آید، زندگی ما را بسیار آسان تر می کند
25
00:01:04,979 –> 00:01:08,159
تا این کار را انجام دهیم.
26
00:01:08,159 –> 00:01:12,140
بیایید فقط o را بگیریم آخرین ستون بررسی شما
27
00:01:12,140 –> 00:01:18,299
که باید یک مرور باشد،
28
00:01:18,299 –> 00:01:23,580
بیایید App lambda X را صدا کنیم و سپس
29
00:01:23,580 –> 00:01:26,220
هر کلمه را پس از پایین آمدن به وجودش میپیوندیم،
30
00:01:26,220 –> 00:01:29,490
بنابراین
31
00:01:29,490 –> 00:01:38,549
هر کلمه را در نقطه X پایین میآوریم تا درست تقسیم
32
00:01:38,549 –> 00:01:41,899
کنیم. با چرخش مجدد از طریق هر کلمه که
33
00:01:41,899 –> 00:01:45,180
اساساً X است، X را تقسیم
34
00:01:45,180 –> 00:01:47,670
35
00:01:47,670 –> 00:01:48,750
می کنیم که هر کلمه ای را به ما می دهد که هر کلمه ای را که پس می گیریم به ما می دهد
36
00:01:48,750 –> 00:01:51,570
اساساً آن را کاهش می دهد، بنابراین باید
37
00:01:51,570 –> 00:01:54,479
همه چیز را کاهش دهیم، بنابراین می توانید اینجا ببینید
38
00:01:54,479 –> 00:01:56,520
که همه آن ها با حروف کوچک هستند. بنابراین
39
00:01:56,520 –> 00:02:01,439
اگر ستون اصلی را چاپ کرده باشیم،
40
00:02:01,439 –> 00:02:04,950
میبینیم
41
00:02:04,950 –> 00:02:06,930
که وقتی با حروف کوچک هستند، کلماتی با حروف بزرگ
42
00:02:06,930 –> 00:02:08,489
داریم، بنابراین کاری که انجام میدهیم این است که آن را در یک ستون جدید ذخیره
43
00:02:08,489 –> 00:02:09,690
میکنیم، زیرا میخواهیم تمیز کردن مبتنی بر مرحله را انجام دهیم.
44
00:02:09,690 –> 00:02:11,760
فقط برای اینکه بتوانید
45
00:02:11,760 –> 00:02:13,830
اثر هر مرحله از تمیز کردن را ببینید،
46
00:02:13,830 –> 00:02:19,530
بنابراین ما آن را یک حروف کوچک می نامیم،
47
00:02:19,530 –> 00:02:23,310
بیایید بررسی کنیم که درست کار کرده است،
48
00:02:23,310 –> 00:02:26,670
بنابراین اکنون حروف کوچک است، کار بعدی
49
00:02:26,670 –> 00:02:30,200
که می خواهیم انجام دهیم این است که تمام
50
00:02:30,200 –> 00:02:32,910
علائم نگارشی را حذف کنیم تا بتوانیم اینجا ببینیم که
51
00:02:32,910 –> 00:02:35,190
چند علامت تعجب داریم
52
00:02:35,190 –> 00:02:38,550
53
00:02:38,550 –> 00:02:39,720
54
00:02:39,720 –> 00:02:42,090
55
00:02:42,090 –> 00:02:43,920
هنگامی که ما در حال تجزیه و تحلیل نظرات
56
00:02:43,920 –> 00:02:46,170
خود یا نوع محاسبه
57
00:02:46,170 –> 00:02:48,210
احساسات خود هستیم، واقعا متأسفیم که
58
00:02:48,210 –> 00:02:49,440
واقعاً مرتبط نیست، آنها واقعاً بسیار مرتبط نیستند. آنها را بیرون بیاوریم و ما از یک
59
00:02:49,440 –> 00:02:52,590
عبارت منظم برای انجام این کار استفاده
60
00:02:52,590 –> 00:02:54,780
خواهیم کرد، اجازه دهید از شر آن سلول خلاص شویم، بنابراین
61
00:02:54,780 –> 00:02:57,630
اکنون ستون کوچک خود را می گیریم
62
00:02:57,630 –> 00:02:59,820
زیرا این مرحله بعدی تمیز کردن
63
00:02:59,820 –> 00:03:02,790
و تبدیل رشته است و ما می خواهیم
64
00:03:02,790 –> 00:03:06,330
نوشتن را جایگزین کنیم. عبارت منظم ما، بنابراین
65
00:03:06,330 –> 00:03:07,230
ما می خواهیم
66
00:03:07,230 –> 00:03:09,330
همه چیزهایی را که یک کلمه یا
67
00:03:09,330 –> 00:03:12,209
فضای خالی نیستند مطابقت گروهی انجام دهیم، ما آن را با چیزی جایگزین می کنیم،
68
00:03:12,209 –> 00:03:17,070
بنابراین اکنون می توانید ببینید، بنابراین بیایید
69
00:03:17,070 –> 00:03:19,050
دریابیم که یک تا چهار علامت تعجب داشت
70
00:03:19,050 –> 00:03:21,930
برای اینکه دیگر علامت تعجب ندارد. علامت تعجب
71
00:03:21,930 –> 00:03:24,810
دیگر آپستروف ندارد،
72
00:03:24,810 –> 00:03:26,640
بنابراین خوب است، بنابراین ما اکنون علائم نگارشی را حذف کرده ایم،
73
00:03:26,640 –> 00:03:28,890
بنابراین بیایید آن را در یک
74
00:03:28,890 –> 00:03:34,830
ستون جدید به نام نقطه گذاری ذخیره کنیم و
75
00:03:34,830 –> 00:03:38,550
باید درست باشد، بنابراین ما
76
00:03:38,550 –> 00:03:40,110
علائم نگارشی را با حروف کوچکتر از
77
00:03:40,110 –> 00:03:42,269
نقطه گذاری داریم. ما هستیم
78
00:03:42,269 –> 00:03:44,040
این کار این است که کلمات توقف را حذف کنید، بنابراین اگر
79
00:03:44,040 –> 00:03:45,269
80
00:03:45,269 –> 00:03:47,340
قبل از اینکه با کلمات توقف مواجه نشده اید، آنها اساساً کلماتی هستند
81
00:03:47,340 –> 00:03:49,980
که معنای کمی دارند، بنابراین دقیقاً به
82
00:03:49,980 –> 00:03:51,989
همین دلیل آنها را از بررسی خود حذف می
83
00:03:51,989 –> 00:03:54,690
کنیم و در واقع نگاهی به چند
84
00:03:54,690 –> 00:03:56,730
مثال زمانی که لیست خود را وارد می کنیم و
85
00:03:56,730 –> 00:04:00,239
می خواهیم این کار را با استفاده از NLT kay
86
00:04:00,239 –> 00:04:04,739
انجام دهیم، بنابراین از ماژول NLT Kay
87
00:04:04,739 –> 00:04:08,130
و بخشی از آن استفاده می کنیم،
88
00:04:08,130 –> 00:04:11,640
بنابراین از NLT k-dog مجموعه کلمات توقف مهم
89
00:04:11,640 –> 00:04:16,470
و بیایید این کار را انجام دهیم. ابتدا
90
00:04:16,470 –> 00:04:18,238
لیستی از کلمات توقف خود را ایجاد می کنیم،
91
00:04:18,238 –> 00:04:19,649
بنابراین فقط
92
00:04:19,649 –> 00:04:23,070
کلمات توقف انگلیسی را می گیریم و به کلمات توقف می رویم
93
00:04:23,070 –> 00:04:26,400
و به
94
00:04:26,400 –> 00:04:30,270
روش کلمات دسترسی پیدا می کنیم و
95
00:04:30,270 –> 00:04:34,500
انگلیسی را صدا می کنیم، بنابراین اکنون باید داشته باشیم. لیستی از
96
00:04:34,500 –> 00:04:36,539
کلمات توقف و ما بررسی خواهیم کرد که چند
97
00:04:36,539 –> 00:04:38,039
کلمه در آنجا وجود دارد و حدود
98
00:04:38,039 –> 00:04:40,110
صد و هفتاد و نه کلمه وجود دارد و میتوانیم
99
00:04:40,110 –> 00:04:42,810
نگاهی به کلماتی بیندازیم که میتوانید بگویید اینها
100
00:04:42,810 –> 00:04:45,120
همه آخرین کلمات هستند و همانطور که میبینید
101
00:04:45,120 –> 00:04:46,500
منظورم آنهاست. کلماتی که واقعاً
102
00:04:46,500 –> 00:04:48,410
نمیخواهند معنی زیادی به بررسی اضافه
103
00:04:48,410 –> 00:04:50,789
کنند، بنابراین منظور من چیست
104
00:04:50,789 –> 00:04:54,600
من ساعتهایمان منطقی است
105
00:04:54,600 –> 00:04:57,030
که آنها را حذف کنیم، زیرا آنها
106
00:04:57,030 –> 00:04:58,740
واقعاً به ما کمک نمیکنند تا احساسات را
107
00:04:58,740 –> 00:05:02,610
در پایان روز محاسبه کنیم، حالا بیایید آنها
108
00:05:02,610 –> 00:05:04,560
را حذف کنیم تا آخرین
109
00:05:04,560 –> 00:05:07,199
ستون خود را بگیریم، ببینید کدام نقطهگذاری بود، ببینید ما
110
00:05:07,199 –> 00:05:09,840
آن را در اینجا ایجاد کردیم. من میخواهم
111
00:05:09,840 –> 00:05:18,780
از طریق هر تماس لامبدا B D a حلقه بزنم و
112
00:05:18,780 –> 00:05:20,430
دوباره همه آنها را دوباره به هم
113
00:05:20,430 –> 00:05:27,020
ملحق میکنیم و کلمه به کلمه
114
00:05:27,020 –> 00:05:29,030
در آنجا
115
00:05:29,030 –> 00:05:32,970
X نقطه تقسیم میکنیم تا هر کلمه را
116
00:05:32,970 –> 00:05:35,970
از بررسی اصلی بگیریم. اگر کلمه
117
00:05:35,970 –> 00:05:41,669
در کلمات توقف وجود ندارد، آن لیست در اینجا است، بنابراین
118
00:05:41,669 –> 00:05:43,710
کاری که ما انجام میدهیم این است که
119
00:05:43,710 –> 00:05:46,020
کلمه را برمیگردانیم، بنابراین اگر
120
00:05:46,020 –> 00:05:47,880
121
00:05:47,880 –> 00:05:49,470
کلمات در فهرست کلمات توقف وجود نداشته باشند، هر کلمه را