در این مطلب، ویدئو آموزش NLP – تجزیه و تحلیل احساسات با استفاده از Scikit Sklearn Python در مجموعه داده های IMDB با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:18:41
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:01,040 –> 00:00:03,280
سلام به همه، امروز به شما نشان خواهم داد که
2
00:00:03,280 –> 00:00:06,720
چگونه می توانید
3
00:00:06,720 –> 00:00:11,280
با استفاده از بسته python scikit-learn تجزیه و تحلیل احساسات انجام دهید،
4
00:00:11,280 –> 00:00:13,920
بنابراین اول از همه بیایید جلو برویم و
5
00:00:13,920 –> 00:00:14,480
6
00:00:14,480 –> 00:00:18,160
یک نوت بوک جدید در یک نوت بوک jupyter در یک نوت بوک
7
00:00:18,160 –> 00:00:21,600
google collab مشتری
8
00:00:21,600 –> 00:00:24,480
ایجاد کنیم. نوعی
9
00:00:24,480 –> 00:00:26,640
نوت بوک google colab
10
00:00:26,640 –> 00:00:29,920
و در عین حال خیلی خوب است، بنابراین باز کردن آن کمی طول می کشد،
11
00:00:29,920 –> 00:00:31,039
12
00:00:31,039 –> 00:00:33,280
بیایید جلو برویم و
13
00:00:33,280 –> 00:00:34,800
نامی را در اینجا
14
00:00:34,800 –> 00:00:38,879
بگذاریم، من در اینجا یک تجزیه و تحلیل احساسات ارائه می کنم،
15
00:00:38,879 –> 00:00:45,280
با sklearn
16
00:00:45,280 –> 00:00:48,320
superb و بیایید جلوتر برویم و بزرگنمایی کنیم
17
00:00:48,320 –> 00:00:52,879
بنابراین خوب است، بنابراین ما میتوانیم
18
00:00:52,879 –> 00:00:56,399
این خطوط کدگذاری را به خوبی ببینیم، بنابراین
19
00:00:56,399 –> 00:00:58,640
میخواهیم در اینجا یک تحلیل احساسات
20
00:00:58,640 –> 00:00:59,680
با استفاده از
21
00:00:59,680 –> 00:01:03,760
یک اسکالر انجام دهیم و در اینجا
22
00:01:03,760 –> 00:01:06,560
از نوت بوک Google collab خود به خوبی استفاده میکنیم، بنابراین
23
00:01:06,560 –> 00:01:09,439
این یک نوع
24
00:01:09,439 –> 00:01:11,520
پلت فرم آنلاین است که میتوانید در آن یک کار انجام دهید.
25
00:01:11,520 –> 00:01:12,720
کد نویسی
26
00:01:12,720 –> 00:01:17,159
اوه این لینک google collab در اینجا است بنابراین
27
00:01:17,159 –> 00:01:19,759
colab.research.google.com
28
00:01:19,759 –> 00:01:22,240
بسیار خوب است بنابراین ما اینجا
29
00:01:22,240 –> 00:01:23,200
تجزیه و تحلیل احساسات را
30
00:01:23,200 –> 00:01:26,880
با یک اسکالر داریم و با این داده های متنی
31
00:01:26,880 –> 00:01:30,880
می توانید آن را به اینجا بیاورید و بعد از آن
32
00:01:30,880 –> 00:01:33,600
می توانید آن را اینجا قرار دهید به این ترتیب این
33
00:01:33,600 –> 00:01:34,720
کار ادامه دارد برای
34
00:01:34,720 –> 00:01:38,560
تجزیه و تحلیل احساسات با sklearn
35
00:01:38,560 –> 00:01:42,799
all right superb و مجموعه داده ای
36
00:01:42,799 –> 00:01:44,000
که قرار است
37
00:01:44,000 –> 00:01:46,399
در اینجا کار کنیم، بنابراین این پیوندی برای مجموعه داده ها
38
00:01:46,399 –> 00:01:48,960
در مخزن github من است که به شما اجازه می
39
00:01:48,960 –> 00:01:50,079
40
00:01:50,079 –> 00:01:53,600
دهد پس از آمدن به این مخزن و
41
00:01:53,600 –> 00:01:57,040
جستجو در اینجا imdb همه، آن را به آنجا رسانده باشید. درست است،
42
00:01:57,040 –> 00:02:00,159
بنابراین من مجموعه داده های بررسی فیلم imdb را دارم
43
00:02:00,159 –> 00:02:04,479
و این یک مجموعه داده 50000 است
44
00:02:04,479 –> 00:02:06,799
و من یک مجموعه داده قطار دارم، این
45
00:02:06,799 –> 00:02:07,520
قطار
46
00:02:07,520 –> 00:02:11,760
نقطه xlsx بسیار خوب است،
47
00:02:11,760 –> 00:02:14,640
بنابراین آنچه شما باید اینجا انجام دهید، می توانید
48
00:02:14,640 –> 00:02:15,840
این پیوند را کپی کنید
49
00:02:15,840 –> 00:02:19,040
بعد از آن ما شبیه سازی را انجام خواهیم داد. از
50
00:02:19,040 –> 00:02:20,239
این مخزن
51
00:02:20,239 –> 00:02:24,400
در داخل این نوت بوک google collab و
52
00:02:24,400 –> 00:02:28,400
پس از آن می توانید مانند
53
00:02:28,400 –> 00:02:29,040
این یک
54
00:02:29,040 –> 00:02:32,239
import و طفره رفتن به عنوان
55
00:02:32,239 –> 00:02:36,800
pdf و سپس وارد کردن numpy
56
00:02:36,800 –> 00:02:40,239
به عنوان np انجام دهید، بنابراین ما از این قاب داده پانداها
57
00:02:40,239 –> 00:02:41,840
برای خواندن کامل این
58
00:02:41,840 –> 00:02:44,879
مجموعه داده استفاده می کنیم و
59
00:02:44,879 –> 00:02:47,920
در عین حال می توانیم همچنین این کار را انجام دهید،
60
00:02:47,920 –> 00:02:51,680
بنابراین git clone پس از آن می توانید یک
61
00:02:51,680 –> 00:02:53,200
لینک
62
00:02:53,200 –> 00:02:56,000
به این مخزن بدهید که ما می خواهیم
63
00:02:56,000 –> 00:02:56,800
آن را شبیه سازی کنیم
64
00:02:56,800 –> 00:02:59,519
و سپس می توانید آن را اجرا کنید.
65
00:02:59,519 –> 00:03:01,519
66
00:03:01,519 –> 00:03:03,200
67
00:03:03,200 –> 00:03:06,480
68
00:03:06,480 –> 00:03:10,080
با مشاهده imdb
69
00:03:16,959 –> 00:03:21,360
pd dot review underscore excel
70
00:03:21,360 –> 00:03:24,159
پس از آن می توانید در اینجا مسیری به
71
00:03:24,159 –> 00:03:24,640
این
72
00:03:24,640 –> 00:03:28,000
قاب داده بدهید و خواهید
73
00:03:28,000 –> 00:03:31,040
دید که 25000 سطر و
74
00:03:31,040 –> 00:03:34,080
دو ستون کاملاً درست
75
00:03:34,080 –> 00:03:37,200
76
00:03:37,200 –> 00:03:39,840
وجود دارد و مجموعه داده های بررسی ها وجود دارد و احساسات وجود دارد و
77
00:03:39,840 –> 00:03:41,280
احساسات منفی است. و
78
00:03:41,280 –> 00:03:45,200
مثبت است، بنابراین ما مجموعه داده های خود را خوانده
79
00:03:45,200 –> 00:03:47,599
ایم اکنون باید سایر
80
00:03:47,599 –> 00:03:50,560
بسته های پایتون لازم را وارد کنیم تا بتوانیم اینجا
81
00:03:50,560 –> 00:03:53,599
tf idf را که فرکانس اصطلاحی است
82
00:03:53,599 –> 00:03:57,519
به فرکانس سند معکوس
83
00:03:57,519 –> 00:04:02,480
انجام دهیم، بنابراین بیایید جلوتر برویم و اینجا
84
00:04:02,480 –> 00:04:06,000
tf idf بنویسیم، بنابراین اولین چیزی که داریم برای
85
00:04:06,000 –> 00:04:06,879
وارد کردن
86
00:04:06,879 –> 00:04:11,120
آن، باید آن را از یک اسکالر وارد کنیم،
87
00:04:11,120 –> 00:04:14,879
بنابراین از نقطه اسکالر،
88
00:04:14,879 –> 00:04:18,798
ویژگی استخراج نقطه
89
00:04:18,798 –> 00:04:22,160
متن همه درست است
90
00:04:22,960 –> 00:04:27,440
اینجا tef idf victorizer
91
00:04:27,440 –> 00:04:33,120
همه درست پس از آن از
92
00:04:33,120 –> 00:04:36,320
انتخاب مدل نقطه اسکالر
93
00:04:36,320 –> 00:04:38,639
وارد کنید و ما در اینجا تست قطار را وارد می کنیم که
94
00:04:38,639 –> 00:04:40,400
95
00:04:40,400 –> 00:04:44,040
بعد از آن از
96
00:04:44,040 –> 00:04:47,759
sklearn نمایش داده می شود. dot
97
00:04:47,759 –> 00:04:53,360
svm بسیار خوب، بنابراین ما اینجا svm
98
00:04:54,840 –> 00:04:58,960
import svc داریم، بنابراین از
99
00:04:58,960 –> 00:05:02,639
مدل sva اینجا برای طبقه بندی خود استفاده
100
00:05:02,639 –> 00:05:04,960
خواهیم کرد و همچنین از امتیاز دقت
101
00:05:04,960 –> 00:05:06,080
102
00:05:06,080 –> 00:05:08,720
و گزارش طبقه بندی در اینجا برای ارزیابی استفاده خواهیم کرد. مدل
103
00:05:08,720 –> 00:05:09,360
ما
104
00:05:09,360 –> 00:05:12,639
را از
105
00:05:12,639 –> 00:05:16,560
یک ماتریس نقطهای اسکالر تهیه کنید
106
00:05:16,560 –> 00:05:21,360
و سپس گزارش طبقهبندی را وارد کنید،
107
00:05:21,360 –> 00:05:24,560
بنابراین شما میتوانید از تست قطار tf idf
108
00:05:24,560 –> 00:05:24,960
109
00:05:24,960 –> 00:05:28,240
split خطی svc و گزارش طبقهبندی به
110
00:05:28,240 –> 00:05:32,000
خوبی دریافت کنید، بنابراین
111
00:05:32,000 –> 00:05:34,000
ما اینجا دیدهایم که چگونه میتوانیم مجموعه دادههای خود را بخوانیم
112
00:05:34,000 –> 00:05:35,280
، بنابراین
113
00:05:35,280 –> 00:05:38,479
میرویم برای خواندن این مجموعه داده در
114
00:05:38,479 –> 00:05:41,520
df بنابراین df برابر با
115
00:05:41,520 –> 00:05:45,120
این یکی کاملاً درست است، بنابراین ما اینجا
116
00:05:45,120 –> 00:05:45,919
قاب داده خود را
117
00:05:45,919 –> 00:05:48,800
df نقطه سر داریم، بنابراین این چند خط
118
00:05:48,800 –> 00:05:49,440
اول این
119
00:05:49,440 –> 00:05:52,560
مجموعه داده است و بررسی
120
00:05:52,560 –> 00:05:55,840
آنها داده های متنی است و سپس در اینجا ما کاملاً
121
00:05:55,840 –> 00:05:59,120
احساس می کنیم
122
00:05:59,120 –> 00:06:01,360
حالا بیایید پیش برویم و پیشپردازش متن
123
00:06:01,360 –> 00:06:02,560
124
00:06:02,560 –> 00:06:05,199
را انجام دهیم و برای انجام این پیشپردازش متن،
125
00:06:05,199 –> 00:06:06,880
باید دوباره به
126
00:06:06,880 –> 00:06:10,400
این مخزن برگردید lakshmi made it و سپس
127
00:06:10,400 –> 00:06:13,600
روی این مخزن کلیک کنید ثروتمند شوید و سپس
128
00:06:13,600 –> 00:06:15,280
باید اینجا قبل از پردازش
129
00:06:15,280 –> 00:06:18,319
kgp ناطق را داشته باشید. این یک بسته پیش پردازش
130
00:06:18,319 –> 00:06:18,960
131
00:06:18,960 –> 00:06:21,680
برای داده های متنی است که من در اینجا ساخته ام،
132
00:06:21,680 –> 00:06:24,000
شما باید این یکی را کپی کنید و
133
00:06:24,000 –> 00:06:27,759
بعد از آن می توانید روی اینجا کلیک کنید
134
00:06:27,759 –> 00:06:31,520
اجازه دهید این یکی را ببندم و سپس
135
00:06:31,520 –> 00:06:34,479
این بسته پیش پردازش را در
136
00:06:34,479 –> 00:06:36,319
مدت زمانی که کاملاً نصب می شود نصب کنید.
137
00:06:36,319 –> 00:06:38,800
شما می بینید بیایید ادامه دهیم
138
00:06:38,800 –> 00:06:39,919
و
139
00:06:39,919 –> 00:06:44,479
این روش را کپی کنیم که روش دریافت تمیز است
140
00:06:44,479 –> 00:06:47,280
و سپس من آن را در اینجا پیست می کنم تا این
141
00:06:47,280 –> 00:06:47,919
بسته در
142
00:06:47,919 –> 00:06:50,160
اینجا نصب شود و همچنین باید
143
00:06:50,160 –> 00:06:52,639
آن را وارد کنیم بنابراین این import در اینجا
144
00:06:52,639 –> 00:06:56,720
145
00:06:56,720 –> 00:06:59,680
است. اگر متوجه شدید kgptaki قبل از پردازش را به عنوان
146
00:06:59,680 –> 00:07:00,560
ps وارد کنید،
147
00:07:00,560 –> 00:07:03,759
سپس در این لینک اگر متوجه شدید
148
00:07:03,759 –> 00:07:06,080
اجازه دهید بزرگنمایی کنم،
149
00:07:06,080 –> 00:07:08,960
بنابراین این
150
00:07:08,960 –> 00:07:10,560
مثالی است که چگونه میتوانیم
151
00:07:10,560 –> 00:07:14,639
از آن به درستی استفاده کنیم، بنابراین در اینجا ما قبل از
152
00:07:14,639 –> 00:07:18,639
پردازش kgp kgptoki را به عنوان ps داریم و تمیز میشویم
153
00:07:18,639 –> 00:07:22,800
و این یکی جایگزین اسلش
154
00:07:22,800 –> 00:07:27,280
به عقب به هیچ و زیرخط
155
00:07:27,280 –> 00:07:29,840
زیرخط با فضایی است که ما در اینجا داریم
156
00:07:29,840 –> 00:07:31,919
انقباض به بسط
157
00:07:31,919 –> 00:07:34,240
حذف هر ایمیلی از
158
00:07:34,240 –> 00:07:36,080
حذف داده های
159
00:07:36,080 –> 00:07:39,520
متنی نشانی های اینترنتی تگ های html آن را بخوانید، بنابراین ما به این یکی نیاز نداریم،
160
00:07:39,520 –> 00:07:39,840
161
00:07:39,840 –> 00:07:42,240
خوب اجازه دهید ادامه دهیم و کاراکترهای ویژه
162
00:07:42,240 –> 00:07:43,599
163
00:07:43,599 –> 00:07:46,960
و این یکی از چندین
164
00:07:46,960 –> 00:07:49,120
کاراکتر تکراری مانند این قابل حذف است، اگر
165
00:07:49,120 –> 00:07:51,599
داده های متنی مانند این
166
00:07:51,599 –> 00:07:54,479
دارید، در اینجا به این صورت تبدیل می شود و
167
00:07:54,479 –> 00:07:56,080
آن قسمت توسط این یکی انجام می شود،
168
00:07:56,080 –> 00:07:59,520
حالا بیایید ادامه دهیم و از
169
00:07:59,520 –> 00:08:00,879
روش لامبدا استفاده کنیم. o
170
00:08:00,879 –> 00:08:04,479
این داده های متنی را به روشی مناسب تبدیل کنید
171
00:08:04,479 –> 00:08:09,039
تا بررسی های df
172
00:08:09,280 –> 00:08:12,479
برابر با df باشد و پس از آن دوباره
173
00:08:12,479 –> 00:08:12,879
174
00:08:12,879 –> 00:08:15,919
نقطه معکوس اعمال می شود
175
00:08:15,919 –> 00:08:20,000
و در اینجا یک لامبدا x
176
00:08:20,000 –> 00:08:23,759
دارم و در اینجا این کار را انجام
177
00:08:23,759 –> 00:08:26,960
می دهم، این یکی را صدا می کنم تمیز شوید و از
178
00:08:26,960 –> 00:08:27,840
آنجایی که x وجود دارد
179
00:08:27,840 –> 00:08:31,199
همه چیز درست است، بیایید ادامه دهیم و آن را اجرا
180
00:08:31,199 –> 00:08:33,360
کنیم، مدتی طول می کشد
181
00:08:33,360 –> 00:08:35,360
تا کامل شود، بنابراین می گوید که
182
00:08:35,360 –> 00:08:36,799
r e
183
00:08:36,799 –> 00:08:39,919
تعریف نشده است، بنابراین شما باید re را وارد کنید
184
00:08:39,919 –> 00:08:42,399
که عبارت معمولی است. ادامه دهید
185
00:08:42,399 –> 00:08:44,240
و یک بار دیگر آن را دوباره اجرا کنید
186
00:08:44,240 –> 00:08:47,200
و اکنون ما این خط
187
00:08:47,200 –> 00:08:49,519
کد را اجرا می کنیم، بنابراین مدتی طول می کشد تا
188
00:08:49,519 –> 00:08:50,000
این
189
00:08:50,000 –> 00:08:52,959
پیش
190
00:08:52,959 –> 00:08:55,120
پردازش به خوبی انجام شود، بنابراین پیش پردازش در اینجا انجام می شود اکنون اجازه دهید ادامه دهیم
191
00:08:55,120 –> 00:08:57,680
و چند خط اول را به اینجا برسانیم.
192
00:08:57,680 –> 00:08:58,160
این
193
00:08:58,160 –> 00:09:01,600
قاب داده و در اینجا اکنون ما داده های متنی خود را داریم
194
00:09:01,600 –> 00:09:02,560
که
195
00:09:02,560 –> 00:09:05,440
از قبل پردازش شده است و اگر متوجه شدید
196
00:09:05,440 –> 00:09:06,880
در اینجا یک
197
00:09:06,880 –> 00:09:09,200
کاراکتر خاص داریم بنابراین آن کاراکترها
198
00:09:09,200 –> 00:09:10,880
در اینجا حل
199
00:09:10,880 –> 00:09:13,600
شده اند و حذف شده اند و این نوع
200
00:09:13,600 –> 00:09:15,120
پیش پردازش های متن
201
00:09:15,120 –> 00:09:18,240
در اینجا انجام می شود. عالی
202
00:09:18,240 –> 00:09:22,000
حالا بیایید جلو برویم و h را انجام دهیم ere tf idf
203
00:09:22,000 –> 00:09:24,720
vectorizer بنابراین ما می توانیم مانند این یکی انجام دهیم tf
204
00:09:24,720 –> 00:09:25,360
205
00:09:25,360 –> 00:09:29,040
idf برابر است با tf idf vectorizer
206
00:09:29,040 –> 00:09:31,440
پس از آن چند پارامتر ورودی که
207
00:09:31,440 –> 00:09:32,560
می خواهیم در اینجا
208
00:09:32,560 –> 00:09:36,240
مانند ورودی ارسال کنیم، بنابراین چه ورودی در اینجا
209
00:09:36,240 –> 00:09:38,880
داده های ورودی است که در
210
00:09:38,880 –> 00:09:39,600
این
211
00:09:39,600 –> 00:09:43,279
بردار tf idf ارسال می کنیم این مانند محتوایی است
212
00:09:43,279 –> 00:09:46,080
که میخواهیم منتقل کنیم، بناب