در این مطلب، ویدئو پردازش زبان طبیعی پایتون (NLP) در 2 ساعت با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 2:04:40
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,480 –> 00:00:02,960
برعکس امپراتوریها و به ویدیوی من در مورد
2
00:00:02,960 –> 00:00:05,200
پردازش زبان طبیعی پایتون خوش آمدید،
3
00:00:05,200 –> 00:00:06,960
بنابراین در این ویدیو میخواهیم در
4
00:00:06,960 –> 00:00:08,240
مورد موضوعات مختلف
5
00:00:08,240 –> 00:00:11,360
در nlp صحبت کنیم، مانند
6
00:00:11,360 –> 00:00:15,519
توکنسازی بخشهای نشانهگذاری محدودیت برچسبگذاری گفتار،
7
00:00:15,519 –> 00:00:18,640
8
00:00:18,640 –> 00:00:19,680
9
00:00:19,680 –> 00:00:21,520
تجزیه و تحلیل احساسات و موضوعات مختلف،
10
00:00:21,520 –> 00:00:23,199
بنابراین
11
00:00:23,199 –> 00:00:24,720
در این ویدیو ما قرار است از دو
12
00:00:24,720 –> 00:00:26,880
کتابخانه استفاده کنیم، از
13
00:00:26,880 –> 00:00:30,480
جعبه ابزار زبان طبیعی nltk و
14
00:00:30,480 –> 00:00:34,000
همچنین از یک حباب متنی استفاده خواهیم کرد،
15
00:00:34,000 –> 00:00:37,120
بنابراین اکنون اول از همه آنچه nlp است بنابراین
16
00:00:37,120 –> 00:00:40,320
nlp یا پردازش زبان طبیعی
17
00:00:40,320 –> 00:00:41,360
18
00:00:41,360 –> 00:00:43,520
برای تعامل بین
19
00:00:43,520 –> 00:00:44,559
زبان طبیعی و همچنین
20
00:00:44,559 –> 00:00:47,200
رایانه استفاده می شود. این یکی از اجزای
21
00:00:47,200 –> 00:00:47,920
22
00:00:47,920 –> 00:00:51,199
اصلی هوش مصنوعی یا ai است
23
00:00:51,199 –> 00:00:54,800
و همچنین زبان شناسی محاسباتی
24
00:00:54,800 –> 00:00:56,239
برنامه های مختلفی وجود دارد که
25
00:00:56,239 –> 00:00:58,079
می توانید از آنها در پردازش زبان طبیعی استفاده کنید
26
00:00:58,079 –> 00:01:02,160
و nlp در همه جا
27
00:01:02,160 –> 00:01:04,400
از موتورهای جستجو مانند google تا
28
00:01:04,400 –> 00:01:07,360
رابط های معاون مانند سیری
29
00:01:07,360 –> 00:01:09,439
استفاده می شود و کاربردهای متفاوت دیگری نیز وجود دارد.
30
00:01:09,439 –> 00:01:12,880
nlp مانند چک کردن املا،
31
00:01:12,880 –> 00:01:15,600
فیلتر کردن اسپم کلمات کلیدی مرتبط و
32
00:01:15,600 –> 00:01:17,920
موتورهای جستجو از
33
00:01:17,920 –> 00:01:21,200
پایگاه دانش پشتیبانی چتبو
34
00:01:21,200 –> 00:01:24,240
ترجمه ماشینی ts و همچنین
35
00:01:24,240 –> 00:01:28,960
تشخیص گفتار و بسیاری موارد دیگر،
36
00:01:28,960 –> 00:01:33,280
اکنون آنچه در ltk است uh nltk یک
37
00:01:33,280 –> 00:01:34,880
38
00:01:34,880 –> 00:01:37,360
جعبه ابزار زبان طبیعی است و یکی از بهترین
39
00:01:37,360 –> 00:01:38,640
کتابخانه ها برای
40
00:01:38,640 –> 00:01:42,159
نمونه سازی uh و همچنین ساخت
41
00:01:42,159 –> 00:01:43,360
42
00:01:43,360 –> 00:01:46,240
سیستم های پردازش زبان طبیعی است، اگر مستندات nltk را بررسی کنید،
43
00:01:46,240 –> 00:01:49,840
44
00:01:49,840 –> 00:01:52,560
پس این مستندات nltk
45
00:01:52,560 –> 00:01:54,079
و یک پلتفرم پیشرو
46
00:01:54,079 –> 00:01:56,640
برای ساخت برنامه های پایتون برای کار
47
00:01:56,640 –> 00:01:58,560
با داده های زبان انسانی است و
48
00:01:58,560 –> 00:02:02,159
رابط های آسان برای استفاده
49
00:02:02,159 –> 00:02:04,960
تا بیش از 50 مجموعه و
50
00:02:04,960 –> 00:02:07,680
منابع واژگانی مانند wordnet را به
51
00:02:07,680 –> 00:02:09,520
همراه مجموعه ای از
52
00:02:09,520 –> 00:02:11,520
کتابخانه های پردازش متن برای طبقه بندی
53
00:02:11,520 –> 00:02:14,959
توکن سازی ارائه می کند. تگ تجزیه
54
00:02:14,959 –> 00:02:17,680
و استدلال معنایی و ویژگی های
55
00:02:17,680 –> 00:02:19,680
مختلف uh وجود
56
00:02:19,680 –> 00:02:23,200
دارد که می توانید از یک
57
00:02:23,200 –> 00:02:26,000
ltk برای نصب یک ltk uh استفاده کنید، بنابراین
58
00:02:26,000 –> 00:02:30,400
به پایتون 3.56708 نیاز است
59
00:02:30,400 –> 00:02:33,840
و فقط می توانید از pep install در ltk استفاده
60
00:02:33,840 –> 00:02:35,760
کنید و نصب می شود و می بینید
61
00:02:35,760 –> 00:02:37,599
که
62
00:02:37,599 –> 00:02:40,480
برای مثال می توانید
63
00:02:40,480 –> 00:02:42,560
برای مک استفاده کنید یا می توانید برای ویندوز استفاده کنید و می توانید از آنها استفاده
64
00:02:42,560 –> 00:02:43,120
65
00:02:43,120 –> 00:02:44,640
کنید. طبق مستندات آنها نصب کنید،
66
00:02:44,640 –> 00:02:46,400
67
00:02:46,400 –> 00:02:48,319
همچنین باید پس از
68
00:02:48,319 –> 00:02:49,519
نصب nltk
69
00:02:49,519 –> 00:02:52,400
pep install analyticky، باید
70
00:02:52,400 –> 00:02:53,120
71
00:02:53,120 –> 00:02:56,239
داده های ltk را نصب کنید، اگر می بینید
72
00:02:56,239 –> 00:03:00,159
نصب یک داده ltk nltk همراه با
73
00:03:00,159 –> 00:03:02,319
پول مدل های آموزش داده شده گرامرهای corpora tie و
74
00:03:02,319 –> 00:03:03,599
75
00:03:03,599 –> 00:03:06,000
لیست کاملی که نوشته شده است. در اینجا
76
00:03:06,000 –> 00:03:08,959
میتوانید لیست را
77
00:03:08,959 –> 00:03:10,480
برای نصب دادهها بررسی کنید، اولین چیزی که
78
00:03:10,480 –> 00:03:12,319
برای نصب ltk نیاز داریم،
79
00:03:12,319 –> 00:03:15,599
بنابراین پس از نصب nltk،
80
00:03:15,599 –> 00:03:16,080
میتوانیم
81
00:03:16,080 –> 00:03:19,360
از این ldk مهم و در
82
00:03:19,360 –> 00:03:21,920
دانلود تحلیلی استفاده کنیم، بنابراین اجازه دهید
83
00:03:21,920 –> 00:03:23,519
ابتدا به شما نشان دهم که باید
84
00:03:23,519 –> 00:03:26,159
فقط اوه
85
00:03:26,640 –> 00:03:32,560
خوب اول باید فقط nltk را وارد کنیم
86
00:03:32,560 –> 00:03:36,440
و بعد از آن فقط می توانیم بگوییم
87
00:03:36,440 –> 00:03:39,440
nltk.download
88
00:03:42,159 –> 00:03:44,319
بنابراین بعد از آن دریافت این
89
00:03:44,319 –> 00:03:45,200
نوع
90
00:03:45,200 –> 00:03:48,319
رابط را در ltk downloader خواهید دید
91
00:03:48,319 –> 00:03:50,000
اکنون فقط باید روی همه
92
00:03:50,000 –> 00:03:51,840
بسته ها کلیک کنید و بعد از آن روی دانلود اکنون کلیک کنید.
93
00:03:51,840 –> 00:03:53,680
94
00:03:53,680 –> 00:03:56,799
تمام پکیج هایی را که من برخی از آنها را دانلود کرده ام دانلود می
95
00:03:56,799 –> 00:03:58,400
کند اما من فقط
96
00:03:58,400 –> 00:03:59,040
روی این
97
00:03:59,040 –> 00:04:02,159
همه بسته ها کلیک می کنم و بعد از
98
00:04:02,159 –> 00:04:02,720
99
00:04:02,720 –> 00:04:05,920
دانلود همه بسته ها را برای من
100
00:04:05,920 –> 00:04:09,760
برای کار با i دانلود می کند. n ltk خیلی
101
00:04:10,000 –> 00:04:11,519
خوب بچه ها در این قسمت قصد
102
00:04:11,519 –> 00:04:14,319
داریم در مورد توکن سازی صحبت کنیم،
103
00:04:14,319 –> 00:04:17,199
بنابراین اول از همه چیزی که توکنیزه کردن
104
00:04:17,199 –> 00:04:18,880
است،
105
00:04:18,880 –> 00:04:22,639
فرآیند تقسیم متن به قسمت های کوچکتر است
106
00:04:22,639 –> 00:04:24,880
و هر قسمت کوچکتر را توکن می نامند
107
00:04:24,880 –> 00:04:25,759
108
00:04:25,759 –> 00:04:29,120
و این یکی از مهمترین
109
00:04:29,120 –> 00:04:31,840
مراحل در پردازش زبان طبیعی یا
110
00:04:31,840 –> 00:04:33,040
nlp،
111
00:04:33,040 –> 00:04:35,840
بنابراین دو سطح از توکنسازی وجود دارد،
112
00:04:35,840 –> 00:04:37,520
ما
113
00:04:37,520 –> 00:04:39,759
توکنسازی در سطح جمله و همچنین
114
00:04:39,759 –> 00:04:42,639
توکنسازی در سطح کلمه داریم، اکنون در توکنسازی سطح جمله،
115
00:04:42,639 –> 00:04:45,040
116
00:04:45,040 –> 00:04:46,639
یک متن را به
117
00:04:46,639 –> 00:04:50,800
جملات کوچکتر و در توکنسازی کلمهای
118
00:04:50,800 –> 00:04:53,840
میخواهیم جملات
119
00:04:53,840 –> 00:04:57,120
را به کلمات تقسیم کنیم. بیایید
120
00:04:57,120 –> 00:05:02,479
کدنویسی و
121
00:05:02,800 –> 00:05:04,880
122
00:05:04,880 –> 00:05:06,880
123
00:05:06,880 –> 00:05:08,479
توکنیزاسیون خود را بسازیم، خوب، مثالهایمان را از توکنسازی جملات شروع میکنیم، من نوتبوک jupyter خود را اکنون باز کردم، اولین چیزی
124
00:05:08,479 –> 00:05:10,160
که باید
125
00:05:10,160 –> 00:05:14,000
توکنیز ارسال شده را از nltk.tokenize وارد کنیم،
126
00:05:14,000 –> 00:05:16,080
زیرا با استفاده از send tokenize میتوانیم توکنیز کنیم.
127
00:05:16,080 –> 00:05:18,080
جمله
128
00:05:18,080 –> 00:05:20,960
ما جملات ما است بنابراین ما می خواهیم فقط
129
00:05:20,960 –> 00:05:22,840
از
130
00:05:22,840 –> 00:05:25,840
nltk.token
131
00:05:26,400 –> 00:05:29,600
بگوییم ما قصد داریم send
132
00:05:29,600 –> 00:05:32,240
tokenize
133
00:05:33,360 –> 00:05:37,520
را وارد کنیم بنابراین پس از وارد کردن ما
134
00:05:37,520 –> 00:05:40,240
فرستاده شد tokenize اکنون ما می خواهیم
135
00:05:40,240 –> 00:05:41,520
متن خود را
136
00:05:41,520 –> 00:05:43,919
ایجاد کنیم من فقط می خواهم یک متن ساده را
137
00:05:43,919 –> 00:05:44,639
در اینجا ایجاد کنم
138
00:05:44,639 –> 00:05:49,280
و سلام دوستان
139
00:05:49,280 –> 00:05:55,759
خوش آمدید به codeloop.org خوش آمدید
140
00:05:55,840 –> 00:05:59,199
مانند مقاله، بنابراین می توانید
141
00:05:59,199 –> 00:06:00,560
کدهای منبع را از
142
00:06:00,560 –> 00:06:03,360
codeloop.org وبلاگ من دریافت کنید.
143
00:06:03,360 –> 00:06:05,199
ایجاد متن شما
144
00:06:05,199 –> 00:06:08,400
اکنون باید این
145
00:06:08,400 –> 00:06:11,520
جمله را با استفاده از send tokenize توکن
146
00:06:11,520 –> 00:06:15,600
کنیم تا بتوانیم بگوییم send
147
00:06:17,680 –> 00:06:21,440
send tokenize و باید
148
00:06:21,440 –> 00:06:25,199
متن خود را در اینجا اضافه کنیم پس اکنون اجازه دهید من فقط این را اجرا کنم
149
00:06:25,199 –> 00:06:28,800
و می توانید ببینید که سلام
150
00:06:28,800 –> 00:06:29,840
دوستان
151
00:06:29,840 –> 00:06:32,319
داریم که خوش آمدید به cooloop.org و
152
00:06:32,319 –> 00:06:34,319
ما مانند مقاله را داریم
153
00:06:34,319 –> 00:06:37,759
اکنون می توانید ببینید uh یا می توانیم بگوییم
154
00:06:37,759 –> 00:06:39,680
آه شما می توانید ببینید که چقدر راحت
155
00:06:39,680 –> 00:06:40,880
156
00:06:40,880 –> 00:06:44,319
این uh اوه
157
00:06:44,319 –> 00:06:48,479
وسط و اوه این متن را به جملات تقسیم کرده ایم
158
00:06:48,479 –> 00:06:51,680
اکنون uh این
159
00:06:51,680 –> 00:06:55,039
تابع centoconize uh از
160
00:06:55,039 –> 00:06:59,280
یک نمونهای از نشانهساز جملات punkt
161
00:06:59,280 –> 00:07:02,400
اکنون اگر
162
00:07:02,400 –> 00:07:07,280
مستندات یک ltk برای نشانهساز جمله pyth را میبینید،
163
00:07:07,280 –> 00:07:10,319
اکنون این دستگاه توکنایزر،
164
00:07:10,319 –> 00:07:11,280
متن
165
00:07:11,280 –> 00:07:14,000
را با استفاده از یک
166
00:07:14,000 –> 00:07:17,360
الگوریتم بدون نظارت برای ساختن مدلی
167
00:07:17,360 –> 00:07:20,639
برای ترکیب کلمات اختصاری، متن را به فهرستی از جملات تقسیم میکند. و
168
00:07:20,639 –> 00:07:23,520
کلماتی که اکنون جملاتی را شروع میکنند
169
00:07:23,520 –> 00:07:25,199
و میتوانید ببینید، باید روی
170
00:07:25,199 –> 00:07:27,599
مجموعه بزرگی از متن ساده به
171
00:07:27,599 –> 00:07:31,039
زبان مقصد آموزش داده شوند تا بتوان از آن استفاده کرد،
172
00:07:31,039 –> 00:07:33,840
بنابراین اکنون همچنین میتوانید ببینید که
173
00:07:33,840 –> 00:07:34,800
بسته بسته داده اطلاعیه
174
00:07:34,800 –> 00:07:37,520
شامل یک نشانهساز نقطه از قبل
175
00:07:37,520 –> 00:07:38,880
آموزشدیده برای انگلیسی است
176
00:07:38,880 –> 00:07:40,960
. فکر می کنم فقط برای انگلیسی
177
00:07:40,960 –> 00:07:42,319
انگلیسی نیست،
178
00:07:42,319 –> 00:07:45,120
اوه من فکر می کنم حدود 22 زبان وجود دارد
179
00:07:45,120 –> 00:07:46,560
که می توانید از آنها استفاده کنید،
180
00:07:46,560 –> 00:07:50,000
اوه اکنون این ها توکن سازهای UH از قبل آموزش دیده هستند،
181
00:07:50,000 –> 00:07:53,280
بنابراین اکنون بیایید
182
00:07:53,280 –> 00:07:56,560
نمونه خود را در
183
00:07:56,560 –> 00:07:59,840
جملات پانک بسازیم،
184
00:08:02,000 –> 00:08:03,680
خب حالا اولین چیزی که ما داریم باید فقط
185
00:08:03,680 –> 00:08:05,039
186
00:08:05,039 –> 00:08:09,440
یک ltk وارد کنیم و بعد از وارد کردن یک ltk
187
00:08:09,440 –> 00:08:11,680
باید توکنایزر جمله بسته بندی شده را
188
00:08:11,680 –> 00:08:13,199
189
00:08:13,199 –> 00:08:14,879
با زبانی که می خواهیم بارگیری کنیم، به
190
00:08:14,879 –> 00:08:17,120
عنوان مثال من زبان انگلیسی می خواهم، بنابراین می
191
00:08:17,120 –> 00:08:17,680
خواهم بگویم
192
00:08:17,680 –> 00:08:20,720
193
00:08:20,720 –> 00:08:26,400
toca niser و nltk.data
194
00:08:26,400 –> 00:08:29,599
dot load و در اینجا
195
00:08:29,599 –> 00:08:33,120
فقط باید زبان را مشخص کنید، اگر مستندات را می بینید،
196
00:08:33,120 –> 00:08:34,159
197
00:08:34,159 –> 00:08:36,799
اجازه دهید من آن را در اینجا بیاورم و شما
198
00:08:36,799 –> 00:08:37,599
فقط می توانید
199
00:08:37,599 –> 00:08:41,200
اوه، بنابراین ما اینجا هستیم، ما از ترشی انگلیسی استفاده می کنیم
200
00:08:41,200 –> 00:08:42,080
201
00:08:42,080 –> 00:08:45,519
و می توانید آن را در اینجا به این صورت اضافه کنید.
202
00:08:45,519 –> 00:08:49,279
بعد از این اوه اکنون باید
203
00:08:49,279 –> 00:08:51,519
متن خود را ایجاد کنیم، من فقط می خواهم متن خود را ایجاد کنم
204
00:08:51,519 –> 00:08:52,480
205
00:08:52,480 –> 00:08:55,680
و این متن است سلام
206
00:08:55,680 –> 00:08:59,440
دوستان یا ما فقط می
207
00:08:59,440 –> 00:09:02,240
خواهیم از متن خود استفاده کنیم، یک متن در اینجا داریم پس این
208
00:09:02,240 –> 00:09:03,839
متن من است که می خواهیم از این
209
00:09:03,839 –> 00:09:06,240
در اینجا استفاده کنید بسیار
210
00:09:06,959 –> 00:09:10,600
خوب اکنون می توانیم به سادگی بگوییم
211
00:09:10,600 –> 00:09:14,640
توکنایزر dot
212
00:09:14,640 –> 00:09:18,480
tokenize و در
213
00:09:18,480 –> 00:09:22,000
اینجا باید متن خود را اضافه کنید بنابراین این متن من
214
00:09:22,000 –> 00:09:26,640
است اکنون اجازه دهید من این را اجرا کنم
215
00:09:26,800 –> 00:09:30,160
اکنون می توانید ببینید که با استفاده از punk’d uh
216
00:09:30,160 –> 00:09:34,160
جمله توکنایزر و ترشی انگلیسی
217
00:09:34,160 –> 00:09:37,360
ما متن خود را به جملات کوچک تقسیم کردهایم،
218
00:09:37,360 –> 00:09:40,399
219
00:09:40,399 –> 00:09:44,399
اوه همچنین میتوانید
220
00:09:44,399 –> 00:09:45,440
221
00:09:45,440 –> 00:09:48,000
با استفاده از فایلهای ترشی مختلف به غیر از انگلیسی، از زبانهای مختلف نشانهگذاری کنید،
222
00:09:48,000 –> 00:09:50,240
بنابراین گفتم که
223
00:09:50,240 –> 00:09:51,760
زبانهای مختلفی وجود دارد که
224
00:09:51,760 –> 00:09:53,519
میتوانید در اینجا استفاده کنید، ما فقط از انگلیسی استفاده کردهایم،
225
00:09:53,519 –> 00:09:54,399
226
00:09:54,399 –> 00:09:57,760
اما میتوانید آن را به به عنوان مثال
227
00:09:57,760 –> 00:10:00,800
یک زبان دیگر، بنابراین برای
228
00:10:00,800 –> 00:10:04,880
این اولین چیزی که من نیاز دارم،
229
00:10:04,880 –> 00:10:10,480
پس اجازه دهید فقط این را
230
00:10:10,640 –> 00:10:15,040
در اینجا کپی کنم و اجازه دهید این را به توکنایزر اسپانیایی تغییر دهم
231
00:10:15,040 –> 00:10:19,200
232
00:10:19,200 –> 00:10:22,240
و در اینجا به جای انگلیسی،
233
00:10:22,240 –> 00:10:24,800
باید اسپانیایی را اضافه کنیم زیرا می
234
00:10:24,800 –> 00:10:26,000
خواهیم از توکنایزر اسپانیایی استفاده کنیم.
235
00:10:26,000 –> 00:10:29,040
بنابراین این یک مدل از پیش آموزشدیده
236
00:10:29,040 –> 00:10:32,079
است که برای
237
00:10:32,079 –> 00:10:34,959
توکنسازی استفاده میشود،
238
00:10:36,320 –> 00:10:39,680
پس از این، ما فقط باید
239
00:10:39,680 –> 00:10:42,000
متن خود را ایجاد کنیم،
240
00:10:42,000 –> 00:10:47,839
پس حالا اجازه دهید من فقط یک متن اسپانیایی را کپی کنم
241
00:10:49,600 –> 00:10:52,079
بعد از این، میتوانیم بگوییم توکنایزر اسپانیایی،
242
00:10:52,079 –> 00:10:53,120
بنابراین
243
00:10:53,120 –> 00:10:56,399
اجازه دهید فقط این
244
00:10:56,959 –> 00:11:01,839
نشانهگذاری نقطهای
245
00:11:02,640 –> 00:11:05,760
را کپی کنم. اکنون میتوانید
246
00:11:05,760 –> 00:11:10,240
این متن را که به زبان اسپانیایی است، نشانهگذاری کنید،
247
00:11:10,240 –> 00:11:12,800
اکنون میتوانید ببینید که ما با
248
00:11:12,800 –> 00:11:16,000
موفقیت
249
00:11:16,000 –> 00:11:19,040
متن اسپانیایی خود را به جملات تبدیل کردهایم،
250
00:11:19,040 –> 00:11:22,240
بنابراین مانند این میتوانید با
251
00:11:22,240 –> 00:11:26,320
توکنایزر جمله و nltk کار
252
00:11:26,560 –> 00:11:29,680
کنید، خوب حالا بیایید فقط از یک فایل uh
253
00:11:29,680 –> 00:11:30,720
txt استفاده کنیم. از
254
00:11:30,720 –> 00:11:34,160
کورپوس گوتنبرگ و توکنیز
255
00:11:34,160 –> 00:11:36,720
که حالا من قبلاً uh send tokenize را وارد کرده ام
256
00:11:36,720 –> 00:11:38,240
و بعد از آن
257
00:11:38,240 –> 00:11:42,519
فقط از
258
00:11:42,519 –> 00:11:45,920
nltk.corpus می گوییم که گوتنبرگ را به این شکل
259
00:11:45,920 –> 00:11:50,399
وارد
260
00:11:51,360 –> 00:11:54,880
می کنیم اکنون این سوال
261
00:11:54,880 –> 00:11:56,000
در ذهن شما ایجاد می شود که corpus چیست؟
262
00:11:56,000 –> 00:11:57,600
اکنون اگر
263
00:11:57,600 –> 00:12:00,120
مستندات بسته ltk
264
00:12:00,120 –> 00:12:02,160
delta.corpus را مشاهده کنید تا
265
00:12:02,160 –> 00:12:04,079
مجموعه ای از کلاس های کورپوس خوان را بیابید
266
00:12:04,079 –> 00:12:05,680
که می توان از آنها
267
00:12:05,680 –> 00:12:08,240
برای دسترسی به محتویات مجموعه متنوعی
268
00:12:08,240 –> 00:12:09,519
از اجسام استفاده کرد،
269
00:12:09,519 –> 00:12:11,360
اکنون لیست ماشین های موجود حرفه
270
00:12:11,360 –> 00:12:13,600
ای اکنون در اینجا آورده شده است، اگر می بینید در نزدیکی محتویات مختلفی وجود دارد
271
00:12:13,600 –> 00:12:14,399
272
00:12:14,399 –> 00:12:17,680
که
273
00:12:17,680 –> 00:12:20,959
می توانید از آنها استفاده کنید، بنابراین
274
00:12:20,959 –> 00:12:22,839
275
00:12:22,839 –> 00:12:24,959
بچه ها خوب، حالا بیایید
276
00:12:24,959 –> 00:12:28,079
فقط از یک فایل txt از
277
00:12:28,079 –> 00:12:30,720
مجموعه gutenberg استفاده کنیم، اکنون اولین چیزی که
278
00:12:30,720 –> 00:12:31,920
به آن نیاز داریم،
279
00:12:31,920 –> 00:12:35,440
فقط وارد می کنیم بنابراین از nltk dot
280
00:12:35,440 –> 00:12:38,480
uh corpus
281
00:12:38,480 –> 00:12:42,959
ما گوتنبرگ را وارد
282
00:12:43,839 –> 00:12:45,760
می کنیم و این سوال
283
00:12:45,760 –> 00:12:47,680
در ذهن شما ایجاد می شود که اگر
284
00:12:47,680 –> 00:12:48,639
285
00:12:48,639 –> 00:12:52,320
مستندات یک ltk را مشاهده کنید، بسته
286
00:12:52,320 –> 00:12:53,279
ltk.corpus مجموعه ای
287
00:12:53,279 –> 00:12:55,680
از کلاس های corpus reader را تعریف می کند که می توان
288
00:12:55,680 –> 00:12:56,560
از آنها استفاده
289
00:12:56,560 –> 00:12:59,440
کرد. به محتویات مجموعه های مختلف دسترسی پیدا کنید،
290
00:12:59,440 –> 00:13:00,639
291
00:13:00,639 –> 00:13:02,800
اکنون لیست قیمت خودروهای موجود
292
00:13:02,800 –> 00:13:05,519
در اینجا آورده شده است و اگر مشاهده کردید
293
00:13:05,519 –> 00:13:07,600
که محصولات خودروهای مختلفی
294
00:13:07,600 –> 00:13:10,000
در دسترس هستند و اکنون می توانید از آن استفاده کنید
295
00:13:10,000 –> 00:13:11,920
، مطمئن شوید که این را دانلود کرده اید،
296
00:13:11,920 –> 00:13:13,200
297
00:13:13,200 –> 00:13:16,480
پس اکنون پس از این
298
00:13:16,480 –> 00:13:18,839
ما می رویم. برای اینکه فقط از shakespeare.txt استفاده
299
00:13:18,839 –> 00:13:20,399
300
00:13:20,399 –> 00:13:22,320
کنم، برای این من فقط متن خود را گوتنبرگ می گویم
301
00:13:22,320 –> 00:13:24,200
302
00:13:24,200 –> 00:13:27,200
303
00:13:27,360 –> 00:13:30,959
و در اینجا
304
00:13:30,959 –> 00:13:34,399
ردیف نقطه گوتنبرگ و در اینجا فقط باید
305
00:13:34,399 –> 00:13:39,760
نام این فایل خود را اضافه کنیم
306
00:13:43,120 –> 00:13:45,760
و اکنون می توانیم این را توکن کنیم و می توانیم
307
00:13:45,760 –> 00:13:46,839
فقط از
308
00:13:46,839 –> 00:13:51,120
send tokenize استفاده کنید
309
00:13:51,120 –> 00:13:54,320
و در اینجا ما فقط باید متن خود را اضافه کنیم،
310
00:13:54,320 –> 00:13:57,040
بنابراین ابتدا به من اجازه دهید فقط
311
00:13:57,040 –> 00:14:00,480
متن خود را چاپ کنم
312
00:14:01,199 –> 00:14:05,199
و سپس می توانیم فقط متن خود را بگوییم
313
00:14:07,120 –> 00:14:10,560
اکنون می توانید ببینید که این متن
314
00:14:10,560 –> 00:14:16,720
از سردار گوتنبرگ است
315
00:14:17,760 –> 00:14:22,000
و اکنون به من اجازه دهید فقط این را حذف کنید
316
00:14:22,000 –> 00:14:23,440
و حالا این بار من فقط می
317
00:14:23,440 –> 00:14:26,639
خواهم این متن را توکن کنم،
318
00:14:28,079 –> 00:14:29,680
بنابراین اکنون می توانید ببینید که
319
00:14:29,680 –> 00:14:32,079
این توکن شده است این جمله اول است و این
320
00:14:32,079 –> 00:14:35,519
جمله دوم است و به این ترتیب
321
00:14:35,519 –> 00:14:37,279
ما دسکتاپ خود را
322
00:14:37,279 –> 00:14:40,399
این فایل txt را توکن کرده ایم،
323
00:14:42,160 –> 00:14:44,480
بچه ها، حالا بیایید فقط کلمه خود را ایجاد کنیم.
324
00:14:44,480 –> 00:14:45,519
325
00:14:45,519 –> 00:14:48,720
نمونه توکنسازی اکنون میتوانیم توکنسازی
326
00:14:48,720 –> 00:14:49,519
327
00:14:49,519 –> 00:14:53,040
328
00:14:53,040 –> 00:14:55,199
کلمه را با استفاده از تابع توکنیز کردن کلمه انجام دهیم، اوه، تابع
329
00:14:55,199 –> 00:14:58,160
توکنسازی شده از نمونهای از یک ltk استفاده میکند که به آن
330
00:14:58,160 –> 00:15:00,240
توکنیزکننده کلمه سه بانکی میگویند، اکنون
331
00:15:00,240 –> 00:15:02,880
راههای مختلفی وجود دارد که
332
00:15:02,880 –> 00:15:06,720
میتوانید توکنسازی را روی کلمات انجام دهید، بهعنوان مثال،
333
00:15:06,720 –> 00:15:10,000
توکنسازی کلمه را داریم. یک توکنایزر reg
334
00:15:10,000 –> 00:15:11,440
speed
335
00:15:11,440 –> 00:15:14,399
حتی شما می توانید از روش تقسیم
336
00:15:14,399 –> 00:15:16,720
خود پایتون برای توکن کردن استفاده کنید،
337
00:15:16,720 –> 00:15:20,160
حالا اجازه دهید من فقط مثال را به شما نشان دهم،
338
00:15:20,160 –> 00:15:22,480
بنابراین اول از همه می خواهم فقط
339
00:15:22,480 –> 00:15:23,519
یک متن در اینجا ایجاد
340
00:15:23,519 –> 00:15:26,880
کنم و فقط می خواهم ay
341
00:15:26,880 –> 00:15:30,560
متن من و من می خواهم به شما
342
00:15:30,560 –> 00:15:33,839
بگویم سلام دنیا
343
00:15:38,240 –> 00:15:42,079
به دوره پردازش زبان طبیعی پایتون خوش آمدید،
344
00:15:42,079 –> 00:15:45,199
345
00:15:45,199 –> 00:15:49,600
346
00:15:49,600 –> 00:15:52,880
پس
347
00:15:52,880 –> 00:15:56,240
اکنون ما از این برای درستی استفاده می کنیم
348
00:15:57,440 –> 00:16:00,240
پس از ایجاد متن خود
349
00:16:00,240 –> 00:16:02,720
ساده ترین توکنایزر مربوط به
350
00:16:02,720 –> 00:16:04,079
پایتون
351
00:16:04,079 –> 00:16:07,279
، روش نمایش داده شده برای
352
00:16:07,279 –> 00:16:10,399
تقسیم روش رشته پایتون در حال حاضر
353
00:16:10,399 –> 00:16:12,240
این ابتداییترین توکنایزر است و
354
00:16:12,240 –> 00:16:14,040
به هیچ
355
00:16:14,040 –> 00:16:17,279
بسته tknltk مربوط نمیشود، فقط به پایتون مربوط میشود،
356
00:16:17,279 –> 00:16:18,480
357
00:16:18,480 –> 00:16:21,199
بنابراین به عنوان مثال میتوانیم بگوییم pre، میتوانیم فقط بگوییم
358
00:16:21,199 –> 00:16:22,000
359
00:16:22,000 –> 00:16:25,360
متن من نقطه
360
00:16:25,360 –> 00:16:29,920
تقسیم میشود و حالا اگر این را اجرا کنم
361
00:16:29,920 –> 00:16:32,570
شما می توانید ببینید که ما hello world
362
00:16:32,570 –> 00:16:34,320
[Music]
363
00:16:34,320 –> 00:16:36,720
به دوره زبان طبیعی پایتون خوش آمدید
364
00:16:36,720 –> 00:16:38,720
برای شما داریم
365
00:16:38,720 –> 00:16:42,639
و همچنین می توانید از uh
366
00:16:42,639 –> 00:16:45,839
word tokenize استفاده کنید اکنون این
367
00:16:45,839 –> 00:16:48,240
متداول
368
00:16:48,240 –> 00:16:51,279
ترین توکنایزر در nltk است
369
00:16:51,279 –> 00:16:52,560
که اساساً می توانیم بگوییم که
370
00:16:52,560 –> 00:16:54,720
پیش فرض است و
371
00:16:54,720 –> 00:16:59,120
ابتدا به آن نیاز داریم. برای اینکه فقط این را از
372
00:17:00,360 –> 00:17:02,480
nltk.tokenize وارد
373
00:17:02,480 –> 00:17:05,839
کنیم، می خواهیم
374
00:17:05,839 –> 00:17:08,880
کلمه tokenize را
375
00:17:10,160 –> 00:17:13,359
وارد کنیم و بعد از وارد کردن، بنابراین می توانید با استفاده از
376
00:17:13,359 –> 00:17:15,439
این تابع کلمه tokenize را ببینید، می توانیم توکن سازی
377
00:17:15,439 –> 00:17:17,520
خود را انجام دهیم،
378
00:17:17,520 –> 00:17:21,199
فقط می توانیم کلمه
379
00:17:21,199 –> 00:17:23,919
tokenize
380
00:17:24,240 –> 00:17:27,280
را بگوییم و باید تبلیغ کنیم. d متن من در اینجا
381
00:17:27,280 –> 00:17:30,400
اکنون اجازه دهید من فقط این را اجرا کنم و می توانید ببینید
382
00:17:30,400 –> 00:17:32,080
که ما سلام جهان را
383
00:17:32,080 –> 00:17:36,880
خوش آمدید و این کلمات هستند
384
00:17:36,880 –> 00:17:40,000
بنابراین توکن سازهای مختلفی وجود دارد
385
00:17:40,000 –> 00:17:41,440
که گفتم می توانید برای مثال از
386
00:17:41,440 –> 00:17:44,160
راست xp tokenize و wordpankt
387
00:17:44,160 –> 00:17:47,440
tokenize و همچنین استفاده کنید. توکنیزه کردن خط خالی،
388
00:17:47,440 –> 00:17:50,640
پس حالا بیایید نگاهی به rig xp tokenize بیندازیم،
389
00:17:50,640 –> 00:17:51,840
390
00:17:51,840 –> 00:17:55,520
بسیاری از توکنایزرهای دیگر را
391
00:17:55,520 –> 00:17:58,000
میتوان از این توکنایزر مشتق کرد،
392
00:17:58,000 –> 00:18:01,280
اوه، اوه همچنین میتوانید
393
00:18:01,280 –> 00:18:02,160
394
00:18:02,160 –> 00:18:04,640
با استفاده از یک الگوی متفاوت، یک
395
00:18:04,640 –> 00:18:06,240
396
00:18:06,240 –> 00:18:08,320
توکنایزر بسیار خاص بسازید. چیزی که ما نیاز داریم باید
397
00:18:08,320 –> 00:18:09,919
این توکنایزر را وارد کنیم،
398
00:18:09,919 –> 00:18:13,360
بنابراین از nltk
399
00:18:13,360 –> 00:18:16,960
uh tokenize ما میخواهیم این توکنایزر را
400
00:18:16,960 –> 00:18:19,440
وارد
401
00:18:20,559 –> 00:18:23,600
کنیم
402
00:18:27,280 –> 00:18:30,960
و پس از وارد کردن این،
403
00:18:30,960 –> 00:18:33,280
ما قبلاً متن خود را ایجاد کردهایم، اکنون
404
00:18:33,280 –> 00:18:34,559
باید فقط مقداری بیاوریم،
405
00:18:34,559 –> 00:18:37,760
اجازه دهید فقط یک نماد اضافه را در اینجا اضافه کنم
406
00:18:37,760 –> 00:18:40,799
خوش آمدید اجازه دهید من فقط دو تا را در اینجا
407
00:18:40,799 –> 00:18:44,480
به این شکل اضافه می کنم پس حالا اول اجازه دهید من فقط الگوهایم را
408
00:18:44,480 –> 00:18:47,120
بنویسم و بعد از آن تو
409
00:18:47,120 –> 00:18:48,080
یح خواهم داد که
410
00:18:48,080 –> 00:18:51,840
عنی آن اکنون می توانیم فقط بگوییم چاپ یا
411
00:18:51,840 –> 00:18:54,799
ا چون چیزهای دیگری دارم من چیزهای زیادی دا
412
00:18:54,799 –> 00:18:57,280
م من ما هستم ing pie charm id بنابراین
413
00:18:57,280 –> 00:19:00,000
اوه همیشه از چاپ استفاده می کنم تا
414
00:19:00,000 –> 00:19:00,880
415
00:19:00,880 –> 00:19:05,520
بتوانید بگویید ریک xp
416
00:19:06,640 –> 00:19:11,280
اجازه دهید این را کپی کنم
417
00:19:11,280 –> 00:19:15,039
تا توکن خوب باشد
418
00:19:15,039 –> 00:19:16,960
و اولین چیزی که نیاز داریم باید
419
00:19:16,960 –> 00:19:18,799
متن خود را در اینجا اضافه کنیم
420
00:19:18,799 –> 00:19:21,360
و بعد از آن فقط باید
421
00:19:21,360 –> 00:19:23,280
الگوی خود را در اینجا اضافه کنید، باید
422
00:19:23,280 –> 00:19:26,480
مشخص کنید که از چه الگوی می خواهید
423
00:19:26,480 –> 00:19:26,880
استفاده کنید،
424
00:19:26,880 –> 00:19:29,360
بنابراین ابتدا اجازه دهید من فقط از این الگو استفاده کنم
425
00:19:29,360 –> 00:19:30,720
اکنون
426
00:19:30,720 –> 00:19:33,760
این الگو به این معنی است که
427
00:19:33,760 –> 00:19:36,799
ما داریم، بنابراین ما از آن به عنوان یک الگوی بیان منظم استفاده کرده ایم، به این
428
00:19:36,799 –> 00:19:37,440
429
00:19:37,440 –> 00:19:40,080
معنی که ما
430
00:19:40,080 –> 00:19:42,480
به همه نیاز داریم کلمات و ارقام از
431
00:19:42,480 –> 00:19:43,679
رشته،
432
00:19:43,679 –> 00:19:47,039
بنابراین ما می خواهیم همه کلمات و ارقام
433
00:19:47,039 –> 00:19:51,120
از رشته ها به عنوان مثال
434
00:19:51,120 –> 00:19:53,120
و نمادهای دیگر می تواند به عنوان یک تقسیم استفاده شود، به
435
00:19:53,120 –> 00:19:56,000
عنوان مثال، ما می خواهیم سلام جهان
436
00:19:56,000 –> 00:20:00,160
به همه آنها در حال حاضر
437
00:20:00,160 –> 00:20:03,520
اگر این الگوی نحو نامعتبر را اجرا کنید،
438
00:20:03,600 –> 00:20:07,520
439
00:20:07,520 –> 00:20:10,080
440
00:20:17,440 –> 00:20:20,640
بچه ها ما فراموش کردم علامتی را اضافه کنم که من را
441
00:20:20,640 –> 00:20:22,159
فراخوانی میکنم وارد شوید،
442
00:20:22,159 –> 00:20:25,600
اکنون اجازه دهید دوباره آن را اجرا کنم،
443
00:20:25,600 –> 00:20:29,039
شیء هیچ ویژگی توکنیز ندارد و
444
00:20:29,039 –> 00:20:32,799
ما در اینجا به این نشانهگذاری نیاز نداریم،
445
00:20:32,799 –> 00:20:36,400
میتوانیم مستقیماً از آن استفاده کنیم و اکنون
446
00:20:36,400 –> 00:20:38,400
میبینید که ما جهان سلام خود را داریم
447
00:20:38,400 –> 00:20:41,200
آه تو می توانید ببینید که هیچ نمادی در آن وجود ندارد
448
00:20:41,200 –> 00:20:42,640
در اینجا
449
00:20:42,640 –> 00:20:45,600
و اگر در این جهان سلام
450
00:20:45,600 –> 00:20:47,440
و اینجا ما دو نماد
451
00:20:47,440 –> 00:20:50,480
داریم اما این نمادها را نداریم فقط
452
00:20:50,480 –> 00:20:51,600
این
453
00:20:51,600 –> 00:21:02,000
دو و همچنین چهار را در اینجا داریم،
454
00:21:02,000 –> 00:21:04,720
خوب حالا
455
00:21:05,280 –> 00:21:08,240
بیایید یک الگوی دیگر در اینجا اضافه کنیم و
456
00:21:08,240 –> 00:21:09,120
اجازه دهید فقط
457
00:21:09,120 –> 00:21:11,760
این و این را کپی
458
00:21:14,720 –> 00:21:17,200
کنم. زمانی که می خواهم از
459
00:21:17,200 –> 00:21:18,400
یک الگوی دیگر استفاده
460
00:21:18,400 –> 00:21:21,120
کنم، بنابراین الگوهای متفاوتی وجود دارد که اکنون در
461
00:21:21,120 –> 00:21:22,559
اینجا ما
462
00:21:22,559 –> 00:21:24,960
این الگو را مشخص می کنیم و به این معنی است
463
00:21:24,960 –> 00:21:26,960
که نتیجه فقط
464
00:21:26,960 –> 00:21:28,400
ارقام را از رشته
465
00:21:28,400 –> 00:21:30,880
تولید می کند، به عنوان مثال اگر این را اجرا کنم، فقط
466
00:21:30,880 –> 00:21:31,840
این 2 را توکن می کنم.
467
00:21:31,840 –> 00:21:34,799
و 4.
468
00:21:35,120 –> 00:21:36,880
چون در یک الگو مشخص
469
00:21:36,880 –> 00:21:38,240
کرده ایم که
470
00:21:38,240 –> 00:21:41,520
فقط ارقام را توکن می کنیم و حالا اجازه
471
00:21:41,520 –> 00:21:43,120
دهید فقط این را اجرا کنم
472
00:21:43,120 –> 00:21:45,280
و می بینید که
473
00:21:45,280 –> 00:21:47,200
در اینجا دو و چهار را دریافت می
474
00:21:47,200 –> 00:21:48,880
کنیم بنابراین می توانید با کلمه
475
00:21:48,880 –> 00:21:51,520
توکن سازی و تحلیلی
476
00:21:51,520 –> 00:21:53,600
در اینجا کار کنید. در این قسمت قرار است در مورد بخارپز کردن صحبت کنیم،
477
00:21:53,600 –> 00:21:54,720
478
00:21:54,720 –> 00:21:57,600
بنابراین اول از همه آنچه که در حال حاضر
479
00:21:57,600 –> 00:21:59,760
بخارپز است فرآیندی است برای حذف
480
00:21:59,760 –> 00:22:01,200
ما از کلمه ای
481
00:22:01,200 –> 00:22:04,000
که به این تیم ختم می شود تأثیر می گذارد یا در
482
00:22:04,000 –> 00:22:06,080
اصطلاح تحت اللفظی می توانید ببینید که
483
00:22:06,080 –> 00:22:07,760
بخار کردن فرآیند کاهش است. را
484
00:22:07,760 –> 00:22:10,240
به بخار آن منشعب می شود،
485
00:22:10,240 –> 00:22:13,120
بنابراین با استفاده از بخار می توانیم یک کلمه را قطع
486
00:22:13,120 –> 00:22:14,000
کنیم یا در
487
00:22:14,000 –> 00:22:16,720
کلمه پایه یا بخار آن صحبت کنیم، به عنوان مثال
488
00:22:16,720 –> 00:22:17,200
کلمه
489
00:22:17,200 –> 00:22:20,720
eat دارای تغییراتی است مانند
490
00:22:20,720 –> 00:22:24,240
خوردن غذا خوردن می خورد یا می توانیم بگوییم
491
00:22:24,240 –> 00:22:27,280
که کلمه like will be like
492
00:22:27,280 –> 00:22:30,799
احتمالاً یا دوست دارم اکنون بخارپز کردن بیشتر است.
493
00:22:30,799 –> 00:22:32,400
معمولاً توسط
494
00:22:32,400 –> 00:22:35,360
موتورهای جستجو برای نمایه سازی کلمات
495
00:22:35,360 –> 00:22:37,760
استفاده می شود به جای ذخیره همه اشکال یک کلمه، یک
496
00:22:37,760 –> 00:22:39,440
موتور جستجو می تواند
497
00:22:39,440 –> 00:22:42,320
فقط این تیم را ذخیره کند، اکنون بخارهای مختلفی وجود دارد
498
00:22:42,320 –> 00:22:44,000
که می توانید از آنها در ltk استفاده کنید،
499
00:22:44,000 –> 00:22:46,799
به عنوان مثال ما
500
00:22:46,799 –> 00:22:47,760
بخار بخار داریم،
501
00:22:47,760 –> 00:22:49,600
بخار بخار داریم لنکستر داریم، گلوله برفی داریم.
502
00:22:49,600 –> 00:22:50,799
503
00:22:50,799 –> 00:22:52,880
حالا بیایید چند نمونه در مورد بخارپز ایجاد کنیم
504
00:22:52,880 –> 00:22:55,840
505
00:22:55,919 –> 00:22:58,159
خوب حالا از
506
00:22:58,159 –> 00:22:59,520
507
00:22:59,520 –> 00:23:02,559
بخارشوی پورتر شروع می کنیم و بخارشوی پیش فرض در ltk است
508
00:23:02,559 –> 00:23:06,840
که ما فقط از nltk.steam استفاده می کنیم
509
00:23:06,840 –> 00:23:10,000
بنابراین به
510
00:23:10,000 –> 00:23:13,840
این بسته nldk.steam مربوط می شود و
511
00:23:13,840 –> 00:23:17,200
ما قصد وارد کردن
512
00:23:17,200 –> 00:23:20,400
بخارشوی پورتر را داریم،
513
00:23:21,520 –> 00:23:23,600
بنابراین اکنون پس از وارد کردن بخارشوی شریک،
514
00:23:23,600 –> 00:23:25,120
اکنون
515
00:23:25,120 –> 00:23:26,640
باید فقط شیء
516
00:23:26,640 –> 00:23:28,880
بخارشوی پورتر را ایجاد کنیم تا بتوانیم فقط بگوییم
517
00:23:28,880 –> 00:23:30,799
بخارشوی پورتر
518
00:23:30,799 –> 00:23:34,840
و فقط می توانیم از این بخارشوی باربری استفاده کنیم.
519
00:23:34,840 –> 00:23:37,840
eamer
520
00:23:40,159 –> 00:23:43,279
و حالا میتوانیم
521
00:23:43,279 –> 00:23:45,600
روی کلماتمان بخارپز کنیم، حالا شما فقط میتوانید بگویید شریک
522
00:23:45,600 –> 00:23:46,799
بخار بخار
523
00:23:46,799 –> 00:23:51,039
نقطهای بخار و در اینجا برای مثال
524
00:23:51,039 –> 00:23:55,120
نوشیدن نوشیدنی و حالا اگر این را اجرا
525
00:23:55,120 –> 00:23:58,960
کنم میتوانید ببینید که نوشیدن تبدیل به نوشیدنی شده است
526
00:23:58,960 –> 00:24:03,200
و مثلاً اگر بگویید
527
00:24:03,200 –> 00:24:06,480
اوه میخورید
528
00:24:07,520 –> 00:24:11,520
پس حالا شما می توانم ببینم که اکنون غذا می خورد،
529
00:24:11,520 –> 00:24:13,520
بنابراین این یک بخارشوی پرتره بود و
530
00:24:13,520 –> 00:24:15,200
این ساده ترین کشتی بخار بود،
531
00:24:15,200 –> 00:24:18,480
همچنین ما بخارشوی لنکستر اکنون
532
00:24:18,480 –> 00:24:20,799
بخارشوهای لنکستر لنکستر را داریم درست مانند بخارشوی
533
00:24:20,799 –> 00:24:22,159
پرتره،
534
00:24:22,159 –> 00:24:24,080
اما مشخص است که کمی
535
00:24:24,080 –> 00:24:26,559
تهاجمی تر از بخارشوی خروجی است،
536
00:24:26,559 –> 00:24:28,880
حالا اجازه دهید نمونه آن را ایجاد کنم.
537
00:24:28,880 –> 00:24:30,840
اولین چیزی که باید
538
00:24:30,840 –> 00:24:33,440
وارد کنیم
539
00:24:33,440 –> 00:24:37,200
پس اجازه دهید من فقط این را کپی کنم و این بار
540
00:24:37,200 –> 00:24:38,159
من
541
00:24:38,159 –> 00:24:46,320
542
00:24:46,320 –> 00:24:48,400
فقط از بخارشوی لنکستر استفاده می کنم و اکنون باید فقط
543
00:24:48,400 –> 00:24:49,600
شیء بخارشوی
544
00:24:49,600 –> 00:24:53,840
lankers lancaster را ایجاد کنیم به این ترتیب
545
00:24:58,000 –> 00:25:01,279
و اکنون می توانیم بخارپز خود را انجام دهیم و
546
00:25:01,279 –> 00:25:04,000
می توانیم فقط بگویید
547
00:25:04,440 –> 00:25:07,440
lancastersteamer.steam برای مثال
548
00:25:07,440 –> 00:25:10,640
بیایید فقط برای مثال از نوشیدنی ها استفاده کنیم،
549
00:25:10,640 –> 00:25:14,880
می توانید ببینید که نوشیدنی است
550
00:25:14,880 –> 00:25:18,000
اگر من از خوردن در اینجا استفاده می کنم،
551
00:25:18,000 –> 00:25:21,840
بیایید
552
00:25:22,799 –> 00:25:25,679
553
00:25:27,279 –> 00:25:30,880
اکنون بخوریم نوشیدنی نوشیدنی اگر استفاده
554
00:25:30,880 –> 00:25:33,600
کنم احتمالاً دوباره دریافت خواهم کرد دوست دارم یا نه آه
555
00:25:33,600 –> 00:25:34,880
بله می بینید
556
00:25:34,880 –> 00:25:38,320
اوه اینطوری می شود
557
00:25:38,320 –> 00:25:41,520
حالا بخارپز دیگری وجود دارد که به
558
00:25:41,520 –> 00:25:42,080
آن
559
00:25:42,080 –> 00:25:44,400
بخارشوی گلوله برفی می گویند حالا بهترین چیز
560
00:25:44,400 –> 00:25:46,320
در مورد پخش کننده گلوله برفی این است که
561
00:25:46,320 –> 00:25:47,919
پشتیبانی می کند من به
562
00:25:47,919 –> 00:25:50,720
13 زبان فکر می کنم و اکنون
563
00:25:50,720 –> 00:25:52,960
زبان های مختلفی وجود دارد که می توانید از آنها استفاده کنید.
564
00:25:52,960 –> 00:25:57,520
خب حالا بگذارید فقط مثال را به شما نشان دهم،
565
00:25:57,520 –> 00:26:02,720
بنابراین ابتدا باید از nltk.steam
566
00:26:02,720 –> 00:26:05,120
ما فقط یک بخارشوی گلوله برفی وارد کنیم،
567
00:26:05,120 –> 00:26:06,640
568
00:26:06,640 –> 00:26:11,840
569
00:26:13,120 –> 00:26:17,840
570
00:26:19,600 –> 00:26:25,840
بنابراین من فکر میکنم اینطوری است،
571
00:26:27,440 –> 00:26:31,679
بنابراین ما وارد اینجا شده و
572
00:26:31,679 –> 00:26:33,679
بخارشوی گلوله برفی را بسازیم. اجازه دهید من فقط
573
00:26:33,679 –> 00:26:35,039
این را اجرا کنم و
574
00:26:35,039 –> 00:26:38,080
بعد از این فقط
575
00:26:38,080 –> 00:26:41,600
باید شیء این برف خود را ایجاد کنیم، اجازه دهید
576
00:26:41,600 –> 00:26:42,400
577
00:26:42,400 –> 00:26:45,360
زبانهای موجود در بخارشوی گلوله برفی را به شما نشان دهم
578
00:26:45,360 –> 00:26:46,159
579
00:26:46,159 –> 00:26:50,400
تا بتوانیم فقط بگوییم زبانهای بخار برفی،
580
00:26:50,400 –> 00:26:55,200
زبانهای نقطهای
581
00:26:57,520 –> 00:26:59,200
و شما میتوانید ببینید که اینها
582
00:26:59,200 –> 00:27:00,640
زبانهایی هستند که ما
583
00:27:00,640 –> 00:27:03,679
انگلیسی عربی فنلاندی فرانسوی
584
00:27:03,679 –> 00:27:06,400
آلمانی داریم و زبانهای مختلفی وجود دارد
585
00:27:06,400 –> 00:27:07,919
که
586
00:27:07,919 –> 00:27:11,520
587
00:27:11,520 –> 00:27:15,039
اکنون سوئدی اسپانیایی روسی را پشتیبانی می کند، بنابراین اجازه دهید من فقط شی
588
00:27:15,039 –> 00:27:19,360
بخار برفی را ایجاد کنم er so snowball steamer
589
00:27:19,360 –> 00:27:21,440
بنابراین بعد از ایجاد بخارشوی گلوله برفی
590
00:27:21,440 –> 00:27:23,679
باید زبان را مشخص کنید به
591
00:27:23,679 –> 00:27:24,720
عنوان مثال
592
00:27:24,720 –> 00:27:27,200
انگلیسی
593
00:27:29,520 –> 00:27:32,720
و بعد از این فقط می توانیم بگوییم snow
594
00:27:32,720 –> 00:27:33,840
steamer
595
00:27:33,840 –> 00:27:37,600
dot steam و به عنوان مثال می
596
00:27:37,600 –> 00:27:40,559
خواهم بگویم غذا خوردن
597
00:27:41,760 –> 00:27:44,240
و حالا اگر این را اجرا کنم شما میتوانم ببینم که
598
00:27:44,240 –> 00:27:45,120
میخورم
599
00:27:45,120 –> 00:27:50,159
و اگر بگویم نوشیدنی
600
00:27:52,960 –> 00:27:55,679
پس نوشیدنی است، اجازه دهید فقط
601
00:27:55,679 –> 00:27:58,159
با این بررسی کنیم،
602
00:27:58,159 –> 00:28:02,159
بنابراین اکنون میتوانید ببینید که ما
603
00:28:02,159 –> 00:28:04,399
بهترین نتیجه را با استفاده از بخارشوی برفی دریافت کردهایم،
604
00:28:04,399 –> 00:28:05,200
605
00:28:05,200 –> 00:28:07,760
اکنون بخارپز است، اگر اینجا را ببینید که در آن
606
00:28:07,760 –> 00:28:08,240
607
00:28:08,240 –> 00:28:10,960
از لانکستر استفاده کردهایم. بخارشو میتوانید
608
00:28:10,960 –> 00:28:12,559
دوست نداشتن را ببینید
609
00:28:12,559 –> 00:28:16,880
و اما با استفاده از بخارشوی باربر ما
610
00:28:16,880 –> 00:28:18,240
611
00:28:18,240 –> 00:28:22,640
بهترین نتیجه را
612
00:28:22,640 –> 00:28:24,480
در این قسمت دریافت کردهایم که در مورد محدودیتسازی صحبت
613
00:28:24,480 –> 00:28:27,679
میکنیم، بنابراین آنچه که
614
00:28:27,679 –> 00:28:30,399
فرآیند محدود کردن محدودیت است مانند فرآیند
615
00:28:30,399 –> 00:28:31,200
بخار کردن
616
00:28:31,200 –> 00:28:33,840
است اما زمینه را به کلمات میآورد.
617
00:28:33,840 –> 00:28:34,640
618
00:28:34,640 –> 00:28:37,440
بنابراین کلماتی را با
619
00:28:37,440 –> 00:28:39,120
معنای مشابه به یک کلمه پیوند می دهد
620
00:28:39,120 –> 00:28:42,000
و بر خلاف بخار کردن، همیشه یک کلمه معتبر باقی می ماند
621
00:28:42,000 –> 00:28:43,440
622
00:28:43,440 –> 00:28:46,559
که به همان معنی است،
623
00:28:46,559 –> 00:28:48,640
اما کلمه ای که در نهایت با آن به پایان می رسد می تواند
624
00:28:48,640 –> 00:28:50,240
کاملاً متفاوت
625
00:28:50,240 –> 00:28:52,960
باشد، بنابراین n بیایید فقط یک مثال ایجاد کنیم و
626
00:28:52,960 –> 00:28:56,240
متوجه منظور من خواهید شد،
627
00:28:56,320 –> 00:28:58,080
بنابراین اولین چیزی که به آن نیاز داریم باید
628
00:28:58,080 –> 00:29:00,760
محدود کننده wordnet را از
629
00:29:00,760 –> 00:29:04,279
nltk.steam وارد کنیم، بنابراین ما می خواهیم از nltk.steam
630
00:29:04,279 –> 00:29:05,600
631
00:29:05,600 –> 00:29:11,679
import word netlimatizer صرفه جویی
632
00:29:11,679 –> 00:29:14,880
633
00:29:14,880 –> 00:29:16,640
کنیم. باید هدف این محدود کننده را ایجاد کنیم،
634
00:29:16,640 –> 00:29:18,880
بنابراین lemma
635
00:29:18,880 –> 00:29:22,240
tizer و ما فقط
636
00:29:22,240 –> 00:29:25,919
میخواهیم wordnet limitizer را بگوییم اکنون میتوانیم
637
00:29:25,919 –> 00:29:26,880
638
00:29:26,880 –> 00:29:31,760
روی کلماتمان محدودیت ایجاد کنیم، شما فقط میتوانید بگویید limitizer
639
00:29:31,760 –> 00:29:36,159
dot limit eyes
640
00:29:36,159 –> 00:29:39,600
و در اینجا میخواهم بگویم غذا خوردن
641
00:29:39,600 –> 00:29:40,880
حالا اجازه دهید من فقط
642
00:29:40,880 –> 00:29:44,520
این را اجرا کنید تا
643
00:29:44,520 –> 00:29:48,399
محدود کننده آه این محدود کننده نیست،
644
00:29:48,399 –> 00:29:51,679
این محدود کننده یخ است و می توانید ببینید
645
00:29:51,679 –> 00:29:54,399
که ما در حال خوردن غذا خوردن هستیم و
646
00:29:54,399 –> 00:29:57,600
حالا این بار اگر تغییر کنم
647
00:29:57,600 –> 00:30:00,880
uh اگر به فعل مکث کنم
648
00:30:00,880 –> 00:30:03,360
و می بینید که ما
649
00:30:03,360 –> 00:30:04,000
650
00:30:04,000 –> 00:30:06,080
آن را دریافت خواهیم کرد اجازه دهید من فقط این را اجرا کنید، می بینید
651
00:30:06,080 –> 00:30:08,559
که ما اکنون هشت را دریافت می کنیم،
652
00:30:08,559 –> 00:30:11,200
اجازه دهید من فقط از یک کلمه دیگر استفاده
653
00:30:11,200 –> 00:30:12,320
کنم این بار من فقط
654
00:30:12,320 –> 00:30:16,640
برای مثال بهتر استفاده می کنم و حالتی
655
00:30:16,640 –> 00:30:19,279
که می خواهم اکنون فقط به آن صفت بدهم
656
00:30:19,279 –> 00:30:20,159
اگر این را اجرا
657
00:30:20,159 –> 00:30:22,640
کنم، می توانید ببینید که ما در حال دریافت a
658
00:30:22,640 –> 00:30:23,760
کلمه متفاوت
659
00:30:23,760 –> 00:30:27,360
اوه خوب است ما بهتر داریم و اکنون
660
00:30:27,360 –> 00:30:28,480
خوب داریم
661
00:30:28,480 –> 00:30:30,799
بیایید تفاوت
662
00:30:30,799 –> 00:30:32,120
بین
663
00:30:32,120 –> 00:30:35,279
محدودیت و بخاردهی را ببینیم، بنابراین ابتدا
664
00:30:35,279 –> 00:30:36,320
665
00:30:36,320 –> 00:30:39,840
از nltk.steam میرم
666
00:30:39,840 –> 00:30:43,440
بخار بخار پورتر وارداتی
667
00:30:43,760 –> 00:30:47,200
و بعد از وارد کردن پورتر استیمر
668
00:30:47,200 –> 00:30:49,919
فقط باید ایجاد کنیم شیء
669
00:30:49,919 –> 00:30:52,880
استیمر پرتره ما
670
00:30:56,720 –> 00:30:59,440
خوب است، حالا ابتدا می خواهیم از بخارشوی استفاده
671
00:30:59,440 –> 00:31:00,480
672
00:31:00,480 –> 00:31:04,840
کنیم که می خواهیم بگوییم اوه
673
00:31:04,840 –> 00:31:07,919
steamer.steam و در اینجا باید
674
00:31:07,919 –> 00:31:10,640
کلمه خود را اضافه کنیم.
675
00:31:10,640 –> 00:31:13,760
676
00:31:16,799 –> 00:31:19,039
می توانید ببینید
677
00:31:19,039 –> 00:31:20,960
که ما در حال دریافت باور
678
00:31:20,960 –> 00:31:24,320
هستیم و بله را دریافت نمی کنیم
679
00:31:24,320 –> 00:31:28,000
و اگر از محدود کننده استفاده کنم اجازه دهید فقط
680
00:31:28,000 –> 00:31:33,840
این
681
00:31:33,919 –> 00:31:37,919
پیوندهای محدود کننده نقطه محدود کننده را کپی کنم و من باید
682
00:31:37,919 –> 00:31:41,120
از این کلمه استفاده کنم
683
00:31:41,760 –> 00:31:45,200
اکنون می توانید ببینید که در این
684
00:31:45,200 –> 00:31:48,240
مثال تومور پورتر فقط es را حذف می کند.
685
00:31:48,240 –> 00:31:51,840
کلمه
686
00:31:51,840 –> 00:31:54,880
but the limitizer یک ریشه معتبر
687
00:31:54,880 –> 00:31:55,600
از کلمه
688
00:31:55,600 –> 00:31:59,039
disbelief پیدا کرده است، بنابراین می توانید با
689
00:31:59,039 –> 00:32:00,880
محدودیت کار کنید
690
00:32:00,880 –> 00:32:04,640
و در ltk در این قسمت ما در
691
00:32:04,640 –> 00:32:06,159
مورد کلمات توقف صحبت می کنیم، بنابراین کلمات توقف
692
00:32:06,159 –> 00:32:09,600
چیست، کلمات توقف کلمات هستند
693
00:32:09,600 –> 00:32:12,159
که تولید می کنند ally
694
00:32:12,159 –> 00:32:14,080
به معنای یک جمله کمک نمی کند، به
695
00:32:14,080 –> 00:32:17,600
عنوان مثال، کلمات توقف مانند da
696
00:32:17,600 –> 00:32:21,279
uh هستند و در uh برای
697
00:32:21,279 –> 00:32:23,840
آن یک موتور جستجو برنامه ریزی شده است
698
00:32:23,840 –> 00:32:24,640
699
00:32:24,640 –> 00:32:27,600
که هنگام نمایه سازی ورودی ها برای جستجو و
700
00:32:27,600 –> 00:32:28,000
هنگام
701
00:32:28,000 –> 00:32:30,399
بازیابی آنها به عنوان نتیجه جستجوی
702
00:32:30,399 –> 00:32:31,679
703
00:32:31,679 –> 00:32:34,240
جستجو برای اهداف، نادیده بگیرد. از
704
00:32:34,240 –> 00:32:35,200
بازیابی اطلاعات
705
00:32:35,200 –> 00:32:39,120
و پردازش زبان طبیعی
706
00:32:39,120 –> 00:32:43,039
دوربین های nltk با یک لیست از پیش ساخته شده از کلمات توقف
707
00:32:43,039 –> 00:32:45,679
برای حدود 22 زبان، بررسی می کنیم
708
00:32:45,679 –> 00:32:47,120
که
709
00:32:47,120 –> 00:32:49,120
اکنون بیایید فقط مثال خود را روی کلمات توقف ایجاد کنیم،
710
00:32:49,120 –> 00:32:51,679
711
00:32:51,679 –> 00:32:57,120
بنابراین اول از همه از nltk dot
712
00:32:57,120 –> 00:33:02,640
می خواهیم به صورت stopwards وارد کنیم
713
00:33:02,640 –> 00:33:06,960
و همچنین از
714
00:33:08,840 –> 00:33:10,240
nltk.tokenize
715
00:33:10,240 –> 00:33:15,039
ما قصد داریم کلمه tokenize
716
00:33:18,320 –> 00:33:20,960
را وارد کنیم، بنابراین پس از وارد کردن کلمات توقف و کلمه
717
00:33:20,960 –> 00:33:22,240
tokenize
718
00:33:22,240 –> 00:33:25,519
اکنون اجازه دهید فقط زبان را پیکربندی کنم
719
00:33:25,519 –> 00:33:28,320
که فقط می توانیم کلمات توقف را بگوییم
720
00:33:28,320 –> 00:33:31,600
و فقط می توانیم
721
00:33:31,600 –> 00:33:36,240
کلمات را متوقف کنیم کلمات نقطه ای
722
00:33:36,559 –> 00:33:40,159
و اجازه دهید فقط از انگلیسی در اینجا استفاده کنم.
723
00:33:40,159 –> 00:33:43,919
و اگر کلمات توقف را بگویم
724
00:33:45,840 –> 00:33:48,000
تا بتوانید ببینید که اینها
725
00:33:48,000 –> 00:33:49,760
کلمات توقف در انگلیسی هستند،
726
00:33:49,760 –> 00:33:52,320
می توانید ببینید که این یک لیست بزرگ است
727
00:33:52,320 –> 00:33:53,120
728
00:33:53,120 –> 00:33:58,159
729
00:33:58,159 –> 00:34:01,200
730
00:34:01,200 –> 00:34:04,240
o اکنون اینها
731
00:34:04,240 –> 00:34:05,279
کلمات توقفی هستند که
732
00:34:05,279 –> 00:34:07,200
در زبان انگلیسی موجود هستند و می
733
00:34:07,200 –> 00:34:08,480
توانید ببینید که این
734
00:34:08,480 –> 00:34:11,918
لیست کامل است، بنابراین
735
00:34:11,918 –> 00:34:14,560
اکنون اجازه دهید فقط بررسی کنیم که زبان
736
00:34:14,560 –> 00:34:15,199
هایی که
737
00:34:15,199 –> 00:34:20,639
برای کلمات توقف در دسترس هستند یا خیر
738
00:34:20,639 –> 00:34:24,480
و در اینجا می توانیم فقط
739
00:34:24,639 –> 00:34:26,960
بگوییم
740
00:34:28,079 –> 00:34:30,560
stop
741
00:34:31,520 –> 00:34:36,560
stop words dot file ID
742
00:34:40,800 –> 00:34:42,399
و میتوانید ببینید که اینها زبان چیزهایی هستند
743
00:34:42,399 –> 00:34:44,399
که فکر میکنم
744
00:34:44,399 –> 00:34:49,119
حدود 22 زبان
745
00:34:49,119 –> 00:34:52,159
برای کلمات توقف در دسترس هستند، این کلمات توقف از پیش ساخته
746
00:34:52,159 –> 00:34:55,599
شده در این زبانها هستند،
747
00:34:55,599 –> 00:34:58,240
خوب حالا بیایید فقط متن خود را ایجاد کنیم، من
748
00:34:58,240 –> 00:35:00,480
فقط میخواهم متن خود را بگویم
749
00:35:00,480 –> 00:35:04,320
و در اینجا میخواهم بگویم این
750
00:35:04,320 –> 00:35:08,720
اولین
751
00:35:08,720 –> 00:35:13,200
مثال من در nltk
752
00:35:13,200 –> 00:35:17,839
برای شماست یا میتوانیم
753
00:35:17,839 –> 00:35:21,760
754
00:35:21,760 –> 00:35:26,160
در ltk کلمات توقف برای شما بگوییم
755
00:35:28,839 –> 00:35:32,320
و اکنون بعد از این فقط باید زبان
756
00:35:32,320 –> 00:35:33,359
خود را ایجاد کنیم
757
00:35:33,359 –> 00:35:38,320
تا بتوانیم فقط کلمات توقف را بگوییم
758
00:35:38,320 –> 00:35:43,440
و ما فقط باید
759
00:35:43,440 –> 00:35:46,880
کلمات را متوقف کنیم، کلمات نقطهای را بگوییم و من میخواهم
760
00:35:46,880 –> 00:35:47,359
761
00:35:47,359 –> 00:35:51,119
762
00:35:54,000 –> 00:35:57,440
بعد از انجام این کار فقط از انگلیسی استفاده کنم، اکنون میتوانیم
763
00:35:57,440 –> 00:36:00,560
بگوییم اجازه دهید فقط کلمات ایجاد کنم و
764
00:36:00,560 –> 00:36:02,160
اولین چیزی که نیاز داریم باید
765
00:36:02,160 –> 00:36:03,760
این متن خود را نشانه گذاری کنیم
766
00:36:03,760 –> 00:36:07,839
و ما فقط از آن استفاده میکنیم. کلمه
767
00:36:07,839 –> 00:36:10,560
tokenize
768
00:36:10,960 –> 00:36:14,960
متن را اضافه کنید در اینجا متن من است
769
00:36:15,760 –> 00:36:18,320
و اگر کلمات را می بینید، می توانید ببینید
770
00:36:18,320 –> 00:36:19,200
که
771
00:36:19,200 –> 00:36:22,400
این به کلمات تبدیل شده است، این
772
00:36:22,400 –> 00:36:25,040
اولین مثال من است در حال حاضر پس از
773
00:36:25,040 –> 00:36:27,200
توکن سازی، اجازه دهید من فقط
774
00:36:27,200 –> 00:36:30,640
فیلتر شده خود را
775
00:36:30,640 –> 00:36:33,760
اکنون در این مثال ایجاد کنم، اگر می بینید uh
776
00:36:33,760 –> 00:36:36,960
this is my:
777
00:36:36,960 –> 00:36:40,240
is not stop word uh
778
00:36:40,240 –> 00:36:42,960
n یک کلمه توقف در ltk است نه توقف
779
00:36:42,960 –> 00:36:43,920
کلمه
780
00:36:43,920 –> 00:36:47,200
چهار است یک کلمه توقف از کلمه stop استفاده می کند و من
781
00:36:47,200 –> 00:36:47,599
فکر می کنم
782
00:36:47,599 –> 00:36:50,400
این اولین نیز متوقف نشده است بنابراین ما اکنون این را بررسی می کنیم،
783
00:36:50,400 –> 00:36:51,599
784
00:36:51,599 –> 00:36:53,599
من فقط یک کلمه ایجاد می کنم
785
00:36:53,599 –> 00:36:55,760
لیست و لیست خالی در اینجا
786
00:36:55,760 –> 00:36:59,040
من فقط آن را لیست فیلتر شده می نامم
787
00:36:59,040 –> 00:37:01,359
و پس از ایجاد لیست اکنون
788
00:37:01,359 –> 00:37:03,200
فقط
789
00:37:03,200 –> 00:37:05,760
روی کلمات موجودی تکرار می کنیم تا بتوانیم
790
00:37:05,760 –> 00:37:06,800
فقط
791
00:37:06,800 –> 00:37:11,839
به صورت کلمه در کلمات بگوییم
792
00:37:11,920 –> 00:37:15,680
اگر کلمه نه در
793
00:37:15,680 –> 00:37:22,560
کلمات توقف.
794
00:37:22,560 –> 00:37:24,560
در این صورت است که ما فقط میخواهیم
795
00:37:24,560 –> 00:37:26,000
بگوییم لیست فیلتر شده،
796
00:37:26,000 –> 00:37:29,200
میخواهیم این کلمه خود را به
797
00:37:29,200 –> 00:37:29,599
798
00:37:29,599 –> 00:37:32,720
لیست یا این لیست اضافه کنیم، و
799
00:37:32,720 –> 00:37:35,359
فقط کلمه خود را در اینجا و اکنون اضافه میکنیم،
800
00:37:35,359 –> 00:37:38,800
بنابراین ابتدا اجازه دهید
801
00:37:38,800 –> 00:37:42,079
حالا اگر بگویم
802
00:37:42,079 –> 00:37:45,440
فیلتر شده است، خوب است. در اینجا لیست کنید
803
00:37:48,079 –> 00:37:50,800
تا اکنون می توانید ببینید که اولین مثال
804
00:37:50,800 –> 00:37:51,760
nltk
805
00:37:51,760 –> 00:37:54,960
کلمات توقف در حال حاضر این a
806
00:37:54,960 –> 00:37:56,720
همانطور که قبلاً گفتم، کلمات را
807
00:37:56,720 –> 00:38:00,640
متوقف نکنید، اما این کلمات من است
808
00:38:00,640 –> 00:38:05,839
و برای شما، این کلمات توقف هستند،
809
00:38:05,839 –> 00:38:08,000
بنابراین می توانید توزیع فرکانس کلمات را نیز ببینید،
810
00:38:08,000 –> 00:38:09,760
811
00:38:09,760 –> 00:38:11,599
من در مورد توزیع فرکانس
812
00:38:11,599 –> 00:38:13,200
813
00:38:13,200 –> 00:38:15,280
در قسمت بعدی صحبت خواهم کرد اما با استفاده از
814
00:38:15,280 –> 00:38:16,880
توزیع فرکانس شما می
815
00:38:16,880 –> 00:38:20,320
توانید ببینید که چند جایزه Uh
816
00:38:20,320 –> 00:38:24,320
که از ما در اینجا استفاده شده است،
817
00:38:24,320 –> 00:38:27,040
به عنوان مثال
818
00:38:28,000 –> 00:38:31,839
در اینجا، اجازه دهید فقط
819
00:38:31,839 –> 00:38:34,240
این بخش را ابتدا از nltk.pro وارد
820
00:38:34,240 –> 00:38:36,640
821
00:38:36,640 –> 00:38:42,240
822
00:38:45,599 –> 00:38:48,640
823
00:38:48,640 –> 00:38:52,560
824
00:38:57,680 –> 00:39:01,440
825
00:39:01,440 –> 00:39:04,960
کنم.
826
00:39:05,040 –> 00:39:08,960
827
00:39:11,599 –> 00:39:15,240
پس از وارد کردن توزیع فرکانس، این احتمال خوب است،
828
00:39:15,240 –> 00:39:16,880
829
00:39:16,880 –> 00:39:20,160
اکنون فقط باید بگوییم
830
00:39:20,160 –> 00:39:23,440
frick dist
831
00:39:25,839 –> 00:39:28,079
و در اینجا باید
832
00:39:28,079 –> 00:39:30,320
لیست فیلتر فیلتر شده خود را
833
00:39:30,320 –> 00:39:32,800
مانند این اضافه کنید
834
00:39:34,240 –> 00:39:37,680
و اکنون می توانید آن را چاپ
835
00:39:37,680 –> 00:39:41,119
کنید تا ببینید که ابتدا این
836
00:39:41,119 –> 00:39:43,440
یک نمونه است یک زمان در ltk یک
837
00:39:43,440 –> 00:39:44,240
بار است
838
00:39:44,240 –> 00:39:48,720
و اجازه دهید من فقط از یک nltk دیگر استفاده کنم
839
00:39:48,720 –> 00:39:52,880
تا بتوانم بگویم
840
00:39:52,880 –> 00:39:56,560
nltk خوب است
841
00:39:56,560 –> 00:39:59,359
اکنون می توانید ببینید و در اینجا کلمه ltk
842
00:39:59,359 –> 00:40:01,200
را در اینجا داریم و همچنین ما در اینجا داریم بنابراین
843
00:40:01,200 –> 00:40:04,560
دو بار در ltk
844
00:40:04,560 –> 00:40:10,640
داریم. من می روم به RU n از اینجا چون
845
00:40:10,640 –> 00:40:15,359
خوب است، حالا اگر من دوباره این را اجرا
846
00:40:15,440 –> 00:40:16,880
کنم، حالا می توانید ببینید توزیع فرکانس
847
00:40:16,880 –> 00:40:19,200
در ltk دو بار است، اول
848
00:40:19,200 –> 00:40:21,280
یک بار است، مثال یک
849
00:40:21,280 –> 00:40:24,880
کلمه اول، شما می توانید
850
00:40:24,880 –> 00:40:29,440
این را رسم کنید، فقط می توانید بگویید
851
00:40:29,920 –> 00:40:32,800
نمودار نقطه،
852
00:40:36,720 –> 00:40:40,480
بنابراین اکنون می توانید ببینید که
853
00:40:40,480 –> 00:40:43,119
مورد nlt ما دو بار و اینها
854
00:40:43,119 –> 00:40:43,599
اولین
855
00:40:43,599 –> 00:40:46,000
نمونه ها هستند و خوب است، بنابراین
856
00:40:46,000 –> 00:40:48,000
در قسمت های بعدی بیشتر در مورد توزیع فرکانس صحبت خواهیم کرد،
857
00:40:48,000 –> 00:40:50,800
858
00:40:51,040 –> 00:40:52,640
خوب بچه ها در این قسمت
859
00:40:52,640 –> 00:40:55,119
می خواهیم در مورد توزیع فرکانس صحبت کنیم، بنابراین
860
00:40:55,119 –> 00:40:57,119
با استفاده از توزیع فرکانس می توانیم
861
00:40:57,119 –> 00:41:00,160
پیدا کنیم اینکه چند بار از یک کلمه
862
00:41:00,160 –> 00:41:01,599
در یک متن یا
863
00:41:01,599 –> 00:41:04,640
جمله استفاده شده است یا ما می توانیم کلمات را در
864
00:41:04,640 –> 00:41:05,200
متن خود
865
00:41:05,200 –> 00:41:07,920
با استفاده از توزیع فرکانس بشماریم، بنابراین اکنون
866
00:41:07,920 –> 00:41:11,440
بیایید فقط مثال خود را ایجاد کنیم
867
00:41:11,839 –> 00:41:14,880
تا توزیع فرکانس
868
00:41:14,880 –> 00:41:17,920
مربوط به احتمال ltk dot باشد
869
00:41:17,920 –> 00:41:20,079
ابتدا باید آن را از nltk وارد کنیم.
870
00:41:20,079 –> 00:41:24,319
871
00:41:24,640 –> 00:41:27,920
حباب .pro بنابراین از
872
00:41:27,920 –> 00:41:30,800
این کلاس ما فقط تست
873
00:41:30,800 –> 00:41:32,839
freak را وارد
874
00:41:32,839 –> 00:41:36,079
875
00:41:36,079 –> 00:41:40,000
می کنیم همچنین از کتاب nltk dot استفاده
876
00:41:40,000 –> 00:41:43,200
می کنیم متن 1 را وارد می کنیم
877
00:41:43,200 –> 00:41:46,079
.
878
00:41:46,560 –> 00:41:50,319
مانند این اجازه دهید من فقط این را اجرا کنم
879
00:41:50,560 –> 00:41:53,440
خوب حالا می توانید ببینید که این در حال
880
00:41:53,440 –> 00:41:54,720
بارگذاری متن برای ما
881
00:41:54,720 –> 00:41:57,040
از این کتاب nldq نقطهای، متن در حال بارگیری است،
882
00:41:57,040 –> 00:41:58,400
883
00:41:58,400 –> 00:42:01,839
اکنون بعد از این، اکنون فقط میخواهیم
884
00:42:01,839 –> 00:42:02,640
885
00:42:02,640 –> 00:42:06,400
یک توزیع freak one c در اینجا ایجاد کنیم، بنابراین
886
00:42:06,400 –> 00:42:11,839
چنین عجیب و غریب
887
00:42:14,319 –> 00:42:17,440
و بیایید فقط
888
00:42:17,440 –> 00:42:20,720
یک متن خود را در اینجا
889
00:42:22,319 –> 00:42:31,839
و اکنون اضافه کنیم اگر میگویم freak تست کنید
890
00:42:45,599 –> 00:42:46,880
بنابراین اکنون میتوانیم ببینیم که این
891
00:42:46,880 –> 00:42:50,079
نتیجه است و میتوانید ببینید که
892
00:42:50,079 –> 00:42:53,040
بیشتر Uh مورد استفاده قرار میگیرد، حالا
893
00:42:53,040 –> 00:42:55,440
میتوانید ببینید
894
00:42:56,960 –> 00:42:58,880
که اینها توزیع فرکانس هستند،
895
00:42:58,880 –> 00:43:00,079
این برای خاموش است
896
00:43:00,079 –> 00:43:03,440
و آه من این را دوست دارم، بنابراین
897
00:43:03,440 –> 00:43:05,280
وقتی میخواهید توزیع فرکانس را انجام دهید
898
00:43:05,280 –> 00:43:06,960
شما باید این درپوشها را بردارید،
899
00:43:06,960 –> 00:43:08,960
ما این کار را در قسمتهای بعدی
900
00:43:08,960 –> 00:43:10,000
901
00:43:10,000 –> 00:43:11,599
انجام میدهیم اگر میخواهید ببینید
902
00:43:11,599 –> 00:43:13,119
مثلاً چند کتاب کلمه
903
00:43:13,119 –> 00:43:15,839
در آن متن وجود دارد، برای این
904
00:43:15,839 –> 00:43:18,400
فقط میتوانیم بگوییم
905
00:43:18,480 –> 00:43:21,920
توزیع عجیب و غریب و در اینجا باید
906
00:43:21,920 –> 00:43:23,200
907
00:43:23,200 –> 00:43:26,319
کتاب را اضافه کنیم.
908
00:43:26,319 –> 00:43:28,560
می توانید ببینید که کتاب اکنون چهار
909
00:43:28,560 –> 00:43:29,680
زمان است، به
910
00:43:29,680 –> 00:43:31,599
این معنی است که ما کتاب چهار زمان
911
00:43:31,599 –> 00:43:33,119
در این متن Uh خود داریم،
912
00:43:33,119 –> 00:43:35,520
اکنون بیایید فقط متن خود را ایجاد کنیم
913
00:43:35,520 –> 00:43:39,040
و در اینجا من فقط
914
00:43:39,040 –> 00:43:42,720
سلام دوستان
915
00:43:44,240 –> 00:43:48,720
این است متن ما
916
00:43:48,720 –> 00:43:51,760
و این
917
00:43:51,760 –> 00:43:55,040
متن مربوط به
918
00:43:55,040 –> 00:43:58,480
توزیع فرکانس
919
00:44:01,000 –> 00:44:04,000
توزیع
920
00:44:04,160 –> 00:44:08,720
خوب است، اکنون پس از ایجاد این متن،
921
00:44:08,720 –> 00:44:11,839
اکنون میخواهیم این را
922
00:44:11,839 –> 00:44:15,040
که باید از
923
00:44:20,839 –> 00:44:23,839
924
00:44:26,200 –> 00:44:29,200
ltk.tokenize توکن
925
00:44:30,240 –> 00:44:34,079
کنیم.
926
00:44:34,839 –> 00:44:37,119
927
00:44:37,119 –> 00:44:39,520
928
00:44:39,520 –> 00:44:40,400
929
00:44:40,400 –> 00:44:44,480
آن
930
00:44:44,480 –> 00:44:48,400
متن گفتگو است و ما باید فقط از این کلمه استفاده کنیم
931
00:44:48,400 –> 00:44:53,280
tokenize متن خود را در اینجا اضافه کنید
932
00:44:53,280 –> 00:44:57,839
اگر این
933
00:44:58,960 –> 00:45:02,480
گفتگوی متنی را می بینید می توانید ببینید که این
934
00:45:02,480 –> 00:45:05,520
کلمات نشانه گذاری شده
935
00:45:05,520 –> 00:45:07,520
ما هستند اکنون پس از این ما فقط می
936
00:45:07,520 –> 00:45:09,680
خواهیم توزیع عجیب چهارشنبه را ایجاد کنیم و ما
937
00:45:09,680 –> 00:45:12,079
فقط آن را تست فریک مینامیم
938
00:45:12,079 –> 00:45:15,440
939
00:45:15,440 –> 00:45:17,760
و در اینجا باید این نشانه متنی خود را
940
00:45:17,760 –> 00:45:20,000
941
00:45:20,000 –> 00:45:22,720
اینجا
942
00:45:24,160 –> 00:45:26,560
و
943
00:45:27,599 –> 00:45:31,760
اکنون اضافه کنید، اگر این
944
00:45:31,760 –> 00:45:35,359
945
00:45:35,440 –> 00:45:39,119
را بزنید، حالا اگر مشکلی
946
00:45:39,119 –> 00:45:40,319
ندارید، میبینید که
947
00:45:40,319 –> 00:45:43,359
این توزیعی است که two time as
948
00:45:43,359 –> 00:45:44,480
949
00:45:44,480 –> 00:45:48,560
two times text is two time hello is one
950
00:45:48,560 –> 00:45:53,040
time and related is one time پس
951
00:45:53,040 –> 00:45:56,319
حالا هم مثلا اگر می
952
00:45:56,319 –> 00:45:59,520
خواهید ببینید که برای متن
953
00:45:59,520 –> 00:46:02,800
هم می توانید بگویید freaktest
954
00:46:02,800 –> 00:46:07,680
و من می خواهم فقط متن را در اینجا بنویسم
955
00:46:07,680 –> 00:46:10,319
و می توانید ببینیم که داریم دریافت می کنیم به
956
00:46:10,319 –> 00:46:12,560
و اینجا
957
00:46:12,560 –> 00:46:14,240
خوب حالا بیایید فقط یک
958
00:46:14,240 –> 00:46:16,400
مثال دیگر بسازیم، این بار می خواهیم از
959
00:46:16,400 –> 00:46:19,440
gutenberg از ltk.corpus استفاده کنیم، اولین
960
00:46:19,440 –> 00:46:20,240
چیزی که از nltk.com نیاز دارید،
961
00:46:20,240 –> 00:46:25,760
می خواهیم gutenberg را
962
00:46:25,760 –> 00:46:29,839
وارد کنیم
963
00:46:33,680 –> 00:46:37,440
و بعد از این باید یک فایل txt بارگذاری کنیم.
964
00:46:37,440 –> 00:46:39,680
از این گوتنبرگ
965
00:46:39,680 –> 00:46:40,880
فایل های مختلفی وجود دارد
966
00:46:40,880 –> 00:46:42,560
اما ما از
967
00:46:42,560 –> 00:46:46,560
فایل شکسپیر استفاده می کنیم و شما فقط می توانید بگویید
968
00:46:47,200 –> 00:46:50,560
gutenberg dot ro
969
00:46:50,560 –> 00:46:53,680
و در اینجا می خواهیم
970
00:46:53,680 –> 00:46:58,079
نام فایل خود را اضافه کنیم بنابراین این نام فایل است
971
00:46:58,960 –> 00:47:02,160
بنابراین پس از بارگیری فایل اکنون نیاز داریم
972
00:47:02,160 –> 00:47:02,480
برای
973
00:47:02,480 –> 00:47:04,560
توکنیزه کردن این، من فقط میخواهم
974
00:47:04,560 –> 00:47:05,680
word
975
00:47:05,680 –> 00:47:09,040
talk ایجاد کنم و
976
00:47:09,040 –> 00:47:12,480
یا توکنیزه کنیم، باید
977
00:47:12,480 –> 00:47:15,920
متن را در اینجا اضافه کنیم
978
00:47:16,240 –> 00:47:20,079
و اکنون اگر کلمه talk so word
979
00:47:20,079 –> 00:47:22,400
talk
980
00:47:23,599 –> 00:47:26,319
را میبینید، میتوانید ببینید که اکنون داریم، میتوانید ببینید
981
00:47:26,319 –> 00:47:28,640
که این فایل است
982
00:47:28,640 –> 00:47:31,119
و
983
00:47:36,319 –> 00:47:39,440
حالا اگر بخواهید برای مثال من می
984
00:47:39,440 –> 00:47:43,280
خواهم 20 کلمه را می خواهم و اکنون می توانید ببینید
985
00:47:43,280 –> 00:47:45,920
که این 20 کلمه هستند
986
00:47:45,920 –> 00:47:48,240
اکنون ما می خواهیم توزیع فرکانس خود را در اینجا ایجاد کنیم،
987
00:47:48,240 –> 00:47:50,000
من فقط
988
00:47:50,000 –> 00:47:51,520
می خواهم بگویم freak
989
00:47:51,520 –> 00:47:53,839
dist
990
00:47:58,079 –> 00:48:00,480
so freak test و در اینجا ما فقط باید
991
00:48:00,480 –> 00:48:02,079
992
00:48:02,079 –> 00:48:07,839
این کلمه صحبت خود را اضافه کنیم
993
00:48:13,839 –> 00:48:18,240
اگر بله اکنون این تست عجیب
994
00:48:19,440 –> 00:48:20,640
را ببینید، می توانید ببینید که این
995
00:48:20,640 –> 00:48:22,640
توزیع فراوانی کلمات است،
996
00:48:22,640 –> 00:48:25,760
همچنین می توانید بگویید نقطه آزمایش عجیب و غریب
997
00:48:25,760 –> 00:48:29,920
998
00:48:29,920 –> 00:48:32,400
رایج ترین است
999
00:48:33,040 –> 00:48:38,160
و من فقط 20 کلمه را چاپ می کنم،
1000
00:48:38,160 –> 00:48:39,839
بنابراین اکنون می توانید ببینید که اینها
1001
00:48:39,839 –> 00:48:42,800
بیشترین نظرات را
1002
00:48:43,280 –> 00:48:44,720
نیز دارند. شما می توانید توزیع فرکانس را رسم
1003
00:48:44,720 –> 00:48:46,800
1004
00:48:46,800 –> 00:48:50,319
کنید، فقط می توانید بگویید
1005
00:48:50,319 –> 00:48:53,760
نمودار نقطه فرک و به عنوان مثال
1006
00:48:53,760 –> 00:48:56,240
15
1007
00:48:58,480 –> 00:49:00,000
و اکنون می توانید ببینید که این
1008
00:49:00,000 –> 00:49:02,319
توزیع فرکانسی
1009
00:49:02,319 –> 00:49:06,079
برای کلمات است، اکنون
1010
00:49:06,079 –> 00:49:09,760
کلمات رایج اغلب da است و این
1011
00:49:09,760 –> 00:49:12,000
توزیع فرکانسی
1012
00:49:12,000 –> 00:49:16,559
در حدود 3000 من است. فکر کنید 2000 است
1013
00:49:16,559 –> 00:49:22,160
اوه اکنون این است که
1014
00:49:25,520 –> 00:49:27,760
خوب حالا مثل این شما می توانید از
1015
00:49:27,760 –> 00:49:29,839
توزیع فرکانس uh
1016
00:49:29,839 –> 00:49:32,880
در nltk استفاده کنید بچه ها در این قسمت
1017
00:49:32,880 –> 00:49:34,559
ما در مورد word net صحبت می کنیم و
1018
00:49:34,559 –> 00:49:36,800
مجموعه ارسال می کنیم بنابراین wordnet یک دیکشنری یا
1019
00:49:36,800 –> 00:49:39,680
پایگاه داده واژگانی برای زبان انگلیسی است.
1020
00:49:39,680 –> 00:49:41,599
و بیشتر برای
1021
00:49:41,599 –> 00:49:44,000
پردازش زبان طبیعی یا nlp استفاده می شود
1022
00:49:44,000 –> 00:49:46,079
و از set send برای
1023
00:49:46,079 –> 00:49:48,480
جستجوی کلمات استفاده می شود و کلمه net
1024
00:49:48,480 –> 00:49:50,240
ممکن است برخی از کلمات فقط یک
1025
00:49:50,240 –> 00:49:52,000
غروب داشته باشند و برخی از کلمات
1026
00:49:52,000 –> 00:49:55,599
ممکن است چندین غروب داشته باشند حالا اجازه دهید
1027
00:49:55,599 –> 00:49:58,960
فقط مستندات را برای یک nltk بررسی
1028
00:49:58,960 –> 00:50:00,160
کنید خب حالا می توانید رابط wordnet را ببینید
1029
00:50:00,160 –> 00:50:02,319
و wordnet فقط یک
1030
00:50:02,319 –> 00:50:04,640
خواننده nltk دیگر است و می تواند به
1031
00:50:04,640 –> 00:50:05,760
این صورت
1032
00:50:05,760 –> 00:50:08,800
از ltk.corpus import wordnet وارد شود
1033
00:50:08,800 –> 00:50:11,200
و برای کد فشرده تر، نشان می دهد
1034
00:50:11,200 –> 00:50:14,160
که ما از یک ltk.corpus توصیه می کنیم.
1035
00:50:14,160 –> 00:50:17,599
کلمه net swn را وارد کنید و
1036
00:50:17,599 –> 00:50:20,079
همچنین میتوانیم با استفاده از غروبها کلمهای را جستجو کنیم،
1037
00:50:20,079 –> 00:50:22,160
این تابع به عنوان بخش اختیاری
1038
00:50:22,160 –> 00:50:25,680
آرگومان گفتار که به شما امکان
1039
00:50:25,680 –> 00:50:28,000
میدهد بخشهای گفتار
1040
00:50:28,000 –> 00:50:29,280
جهان را محدود کنید،
1041
00:50:29,280 –> 00:50:33,680
اکنون فقط مثال خود را ایجاد میکنیم
1042
00:50:35,520 –> 00:50:37,599
تا اولین چیزی که نیاز داریم را
1043
00:50:37,599 –> 00:50:38,640
وارد کنیم.
1044
00:50:38,640 –> 00:50:42,559
از nltk.com
1045
00:50:42,559 –> 00:50:47,680
ما فقط wordnet را
1046
00:50:47,680 –> 00:50:51,440
به عنوان دبیان وارد می کنیم، بنابراین پس از وارد کردن
1047
00:50:51,440 –> 00:50:53,599
این، اکنون فقط از یک کلمه استفاده می کنم
1048
00:50:53,599 –> 00:50:55,280
به عنوان مثال
1049
00:50:55,280 –> 00:50:58,480
hello world من فقط می خواهم wn
1050
00:50:58,480 –> 00:51:01,760
hello بگویم و می توانیم فقط
1051
00:51:01,760 –> 00:51:06,839
بگوییم wn dot
1052
00:51:06,839 –> 00:51:09,359
sunsets
1053
00:51:09,359 –> 00:51:12,880
و ما حالا میخواهم سلام بنویسم،
1054
00:51:15,520 –> 00:51:20,000
اگر این w را در سلام
1055
00:51:20,000 –> 00:51:22,079
ببینم، میبینی که برای این فقط
1056
00:51:22,079 –> 00:51:24,640
یک غروب داریم
1057
00:51:24,640 –> 00:51:27,599
و حالا میتوانی
1058
00:51:27,599 –> 00:51:28,079
تعریف این
1059
00:51:28,079 –> 00:51:32,480
غروب را پیدا کنی، فقط میتوانی بگو سلام
1060
00:51:32,480 –> 00:51:37,839
نقطه تعریف
1061
00:51:40,350 –> 00:51:43,790
[موسیقی]
1062
00:51:46,160 –> 00:51:50,319
اوه متاسفم. اوه باشه بنابراین اجازه دهید من فقط
1063
00:51:50,319 –> 00:51:50,640
این را حذف کنم،
1064
00:51:50,640 –> 00:51:53,680
بنابراین این غروب آفتاب برای این کار بود،
1065
00:51:53,680 –> 00:51:58,800
اکنون ما فقط میخواهیم سلام و
1066
00:51:58,800 –> 00:52:03,280
غروب نقطهای
1067
00:52:03,280 –> 00:52:06,480
را بگوییم و این
1068
00:52:06,480 –> 00:52:09,839
نسخه uh از hello را در اینجا
1069
00:52:09,839 –> 00:52:12,880
به این صورت اضافه میکنیم و اکنون میتوانیم تعریف را پیدا کنیم
1070
00:52:12,880 –> 00:52:14,480
بنابراین سلام
1071
00:52:14,480 –> 00:52:19,839
تعریف dot uh
1072
00:52:20,800 –> 00:52:22,000
بنابراین می توانید ببینید که این
1073
00:52:22,000 –> 00:52:24,480
تعریف است، بیان
1074
00:52:24,480 –> 00:52:28,000
احوالپرسی است همچنین می توانید نامی را پیدا کنید که
1075
00:52:28,000 –> 00:52:31,359
فقط می توانید سلام کنید
1076
00:52:31,359 –> 00:52:36,559
نام نقطه بنابراین این نام است
1077
00:52:36,559 –> 00:52:40,480
همچنین می توانید یک مثال برای آن پیدا کنید
1078
00:52:40,480 –> 00:52:44,079
تا ما فقط بگوییم سلام
1079
00:52:44,559 –> 00:52:48,559
نقطه مثالها
1080
00:52:48,800 –> 00:52:51,520
و میبینید که این مثالی است
1081
00:52:51,520 –> 00:52:51,920
که
1082
00:52:51,920 –> 00:52:55,520
ما برای این دریافت کردهایم، بیایید
1083
00:52:55,520 –> 00:52:56,720
از یک کلمه دیگر استفاده
1084
00:52:56,720 –> 00:53:01,040
کنیم، اجازه دهید من فقط از غروب آفتاب wn clear
1085
00:53:01,040 –> 00:53:05,280
و wn dot
1086
00:53:05,280 –> 00:53:08,559
استفاده
1087
00:53:08,559 –> 00:53:09,280
1088
00:53:09,280 –> 00:53:11,520
کنم و اگر این را در این مثال در آنجا ببینید، اکنون فقط از clear استفاده میکنیم.
1089
00:53:11,520 –> 00:53:13,599
فقط یک غروب بود
1090
00:53:13,599 –> 00:53:18,000
و اگر این واضح
1091
00:53:19,359 –> 00:53:23,359
w را به صورت واضح بررسی کنیم، میبینید که ما
1092
00:53:23,359 –> 00:53:26,880
یکسری غروب برای این کار داریم،
1093
00:53:27,599 –> 00:53:29,359
میبینید که آنها
1094
00:53:29,359 –> 00:53:31,839
نسخههای متفاوتی دارند، بنابراین
1095
00:53:31,839 –> 00:53:33,760
این نام، بخشهایی از برچسبگذاری گفتار است و
1096
00:53:33,760 –> 00:53:35,359
این
1097
00:53:35,359 –> 00:53:37,599
مانند شماره نسخه است r که ما برای
1098
00:53:37,599 –> 00:53:38,960
این داریم
1099
00:53:38,960 –> 00:53:42,000
و به عنوان مثال میخواهم فقط
1100
00:53:42,000 –> 00:53:46,319
از این استفاده کنم برای مثال این
1101
00:53:46,640 –> 00:53:49,119
واضح است
1102
00:53:50,319 –> 00:53:56,240
و در اینجا میخواهم بگویم
1103
00:53:56,240 –> 00:54:00,079
پاک کردن صفر هفت
1104
00:54:00,079 –> 00:54:03,119
w و نقطه ارسال
1105
00:54:03,119 –> 00:54:11,839
مجموعه و ما باید این را در اینجا اضافه کنیم،
1106
00:54:13,359 –> 00:54:15,119
بنابراین اکنون میتوانید ببینید که این هم اکنون می
1107
00:54:15,119 –> 00:54:17,119
توانید تعریف نقطه را پیدا کنید
1108
00:54:17,119 –> 00:54:25,359
1109
00:54:25,359 –> 00:54:30,240
این همان تعریفی است که می توانید برای مثال نام را پیدا کنید
1110
00:54:30,240 –> 00:54:39,200
1111
00:54:39,200 –> 00:54:42,480
پس متأسفم
1112
00:54:44,000 –> 00:54:48,000
این یک نام است بنابراین این نام است
1113
00:54:48,000 –> 00:54:51,520
همچنین می توانید برای مثال مثال ها را پیدا کنید
1114
00:54:51,520 –> 00:54:56,880
تا مثال ها
1115
00:54:56,880 –> 00:54:58,720
و سپس می توانید ببینید که این به
1116
00:54:58,720 –> 00:55:01,200
عنوان مثال می توانید از یک محدوده استفاده کنید
1117
00:55:01,200 –> 00:55:04,400
به عنوان مثال من می خواهم
1118
00:55:04,400 –> 00:55:05,280
1119
00:55:05,280 –> 00:55:08,400
تعریف 0 تا 7
1120
00:55:08,400 –> 00:55:12,000
نسخه های واضح را پیدا کنم، شما می توانید انجام دهید اجازه دهید
1121
00:55:12,000 –> 00:55:15,760
فقط شما را در اینجا نشان دهم برای i
1122
00:55:15,760 –> 00:55:18,960
در محدوده
1123
00:55:19,359 –> 00:55:22,720
صفر تا هفت
1124
00:55:23,040 –> 00:55:26,160
uh clear w
1125
00:55:26,160 –> 00:55:29,359
در روشن
1126
00:55:29,359 –> 00:55:33,440
و عبور من در اینجا اکنون میتوانیم
1127
00:55:33,440 –> 00:55:36,720
یک نام نقطه واضح پیدا
1128
00:55:36,720 –> 00:55:40,559
کنیم، میتوانیم تعریف نقطه روشن را پیدا کنیم
1129
00:55:40,559 –> 00:55:49,040
و همچنین
1130
00:55:49,040 –> 00:55:54,400
میتوانید مثالهای نقطه روشن را بگویید،
1131
00:56:00,640 –> 00:56:02,880
خوب حالا اجازه دهید من فقط از چاپ در اینجا استفاده کنم،
1132
00:56:02,880 –> 00:56:04,079
بنابراین چاپ کنید
1133
00:56:04,079 –> 00:56:09,440
زیرا ما در حلقه برای
1134
00:56:10,559 –> 00:56:17,839
چاپ هستیم و
1135
00:56:18,799 –> 00:56:22,400
حالا به من اجازه دهید فقط این را اجرا کنید تا اکنون بتوانید
1136
00:56:22,400 –> 00:56:22,880
ببینید
1137
00:56:22,880 –> 00:56:25,839
که این نام این است e
1138
00:56:25,839 –> 00:56:27,200
definition
1139
00:56:27,200 –> 00:56:30,160
و این یک مثال است این نام است
1140
00:56:30,160 –> 00:56:30,559
اوه
1141
00:56:30,559 –> 00:56:33,599
این تعریف و همچنین
1142
00:56:33,599 –> 00:56:35,920
مثال است بنابراین مانند این می توانید
1143
00:56:35,920 –> 00:56:36,799
با کلمه نت کار کنید
1144
00:56:36,799 –> 00:56:40,240
و آن را حس کنید
1145
00:56:40,720 –> 00:56:42,240
بنابراین دیدیم که چگونه می توانید
1146
00:56:42,240 –> 00:56:44,000
با wordnet و غروب
1147
00:56:44,000 –> 00:56:46,160
در این قسمت کار کنید. اکنون می خواهیم در مورد یافتن متضادها بیاموزیم،
1148
00:56:46,160 –> 00:56:48,559
1149
00:56:48,559 –> 00:56:50,720
بنابراین اولین چیزی که
1150
00:56:50,720 –> 00:56:52,240
نیاز داریم باید از
1151
00:56:52,240 –> 00:56:55,599
nltk dot
1152
00:56:55,599 –> 00:56:59,839
import word word net وارد کنیم
1153
00:57:03,839 –> 00:57:05,599
و بعد از آن فقط
1154
00:57:05,599 –> 00:57:07,839
یک لیست mpt ایجاد می کنیم،
1155
00:57:07,839 –> 00:57:12,319
1156
00:57:12,319 –> 00:57:14,880
بنابراین اکنون فقط می خواهیم بگوییم برای sen
1157
00:57:14,880 –> 00:57:15,920
در
1158
00:57:15,920 –> 00:57:20,559
wordnet dot sunsets
1159
00:57:21,119 –> 00:57:22,880
برای مثال، ما فقط
1160
00:57:22,880 –> 00:57:27,839
آنتنهایی را برای خفاش پیدا
1161
00:57:34,720 –> 00:57:37,200
میکنیم، اکنون میخواهیم بررسی کنیم که اگر l
1162
00:57:37,200 –> 00:57:38,480
یا
1163
00:57:38,480 –> 00:57:41,839
limas ما در نامهای وارد
1164
00:57:42,880 –> 00:57:47,119
کردن دو نام
1165
00:57:47,839 –> 00:57:50,319
باشد، فقط آن را
1166
00:57:50,319 –> 00:57:52,480
به طرح خود به نامها اضافه میکنیم. لیست کنید
1167
00:57:52,480 –> 00:57:56,880
تا روی نقطه اضافه کنید l متضادهای نقطه را اضافه کنید
1168
00:57:58,160 –> 00:58:02,400
1169
00:58:02,559 –> 00:58:04,480
و ما فقط از اولین
1170
00:58:04,480 –> 00:58:05,680
1171
00:58:05,680 –> 00:58:08,880
نام نقطه نمایه استفاده می کنیم و نام آن را چاپ می کنیم،
1172
00:58:08,880 –> 00:58:10,240
1173
00:58:10,240 –> 00:58:13,680
بنابراین حالا بیایید فقط
1174
00:58:14,720 –> 00:58:23,839
از آنتن های خود در اینجا استفاده کنیم،
1175
00:58:23,839 –> 00:58:25,599
می توانید ببینید که برای بد ما
1176
00:58:25,599 –> 00:58:26,880
خوبی های خوبی داریم.
1177
00:58:26,880 –> 00:58:30,160
خوب و متاسفم اگر
1178
00:58:30,160 –> 00:58:32,079
برای مثال این را تغییر دهم
1179
00:58:32,079 –> 00:58:37,839
بهتر است الان چه چیزی دریافت خواهم کرد
1180
00:58:39,599 –> 00:58:41,520
برای اینکه خوب خوب خوب دریافت می کنم
1181
00:58:41,520 –> 00:58:42,720
1182
00:58:42,720 –> 00:58:46,240
بد است فقط از یکی دیگر استفاده کنیم
1183
00:58:46,240 –> 00:58:51,839
یا مثلاً لایک کنیم
1184
00:58:52,160 –> 00:58:55,839
و می بینید که ما
1185
00:58:55,839 –> 00:58:59,680
بدتر و بدتر دریافت می کنیم اما بد.
1186
00:58:59,680 –> 00:59:02,240
1187
00:59:02,240 –> 00:59:04,160
word net
1188
00:59:04,160 –> 00:59:06,640
در این قسمت قصد داریم در مورد
1189
00:59:06,640 –> 00:59:08,000
بخش هایی از برچسب گذاری گفتار صحبت کنیم،
1190
00:59:08,000 –> 00:59:11,359
بنابراین قبل از هر چیز
1191
00:59:11,359 –> 00:59:15,119
قسمت هایی از گفتار چیست، بخش هایی از گفتار یا
1192
00:59:15,119 –> 00:59:18,480
pos یکی از بسیاری از وظایف در
1193
00:59:18,480 –> 00:59:20,160
پردازش زبان طبیعی است
1194
00:59:20,160 –> 00:59:22,720
که ممکن است در مورد بخش هایی از گفتار شنیده باشید.
1195
00:59:22,720 –> 00:59:25,119
در زبان انگلیسی اجزای اصلی گفتار
1196
00:59:25,119 –> 00:59:26,000
عبارتند از
1197
00:59:26,000 –> 00:59:29,119
اسم ضمیر صفت فعل قید
1198
00:59:29,119 –> 00:59:29,839
1199
00:59:29,839 –> 00:59:32,720
و غیره قبل از این شما آشنا خواهید شد
1200
00:59:32,720 –> 00:59:33,520
که
1201
00:59:33,520 –> 00:59:36,079
صفات چیست یا قید
1202
00:59:36,079 –> 00:59:38,480
چیست و چه تفاوتی بین اینها وجود دارد
1203
00:59:38,480 –> 00:59:41,359
اکنون به عنوان یک انسان در این مورد خواهید دانست
1204
00:59:41,359 –> 00:59:42,000
اما اجازه دهید
1205
00:59:42,000 –> 00:59:44,480
به سیستمی فکر کنید که در آن بتوانیم
1206
00:59:44,480 –> 00:59:45,119
1207
00:59:45,119 –> 00:59:47,680
تمام این دانش را رمزگذاری کنیم، اکنون تگ بخش های
1208
00:59:47,680 –> 00:59:48,559
گفتار
1209
00:59:48,559 –> 00:59:52,480
مشخص می کند که یک کلمه فعل اسمی است
1210
00:59:52,480 –> 00:59:56,240
یا صفت و غیره
1211
00:59:56,240 –> 00:59:59,760
، کاربردهای متعددی از
1212
00:59:59,760 –> 01:00:01,520
1213
01:00:01,520 –> 01:00:04,799
برچسب گذاری بخش هایی از ردیابی گفتار وجود دارد. میتوانید به عنوان مثال از
1214
01:00:04,799 –> 01:00:07,040
1215
01:00:07,040 –> 01:00:08,000
ترجمه ماشینی بازیابی اطلاعات
1216
01:00:08,000 –> 01:00:11,440
و غیره استفاده کنید، بنابراین
1217
01:00:11,440 –> 01:00:14,640
اکنون بخشهایی از برچسبگذاری گفتار چیست،
1218
01:00:14,640 –> 01:00:18,000
بنابراین بخشهایی از برچسبگذاری گفتار
1219
01:00:18,000 –> 01:00:20,559
فرآیند اختصاص دادن یک دسته
1220
01:00:20,559 –> 01:00:22,000
برای مثال
1221
01:00:22,000 –> 01:00:25,359
صفت فعل اسم و غیره
1222
01:00:25,359 –> 01:00:29,200
به نشانههای فردی در یک جمله
1223
01:00:29,200 –> 01:00:32,640
است. برچسبهای
1224
01:00:32,640 –> 01:00:35,839
nltk در بسته nltk.tag وجود دارند
1225
01:00:35,839 –> 01:00:38,720
و توسط کلاس tiger i به ارث برده میشوند،
1226
01:00:38,720 –> 01:00:39,760
1227
01:00:39,760 –> 01:00:42,240
حالا بیایید مثال عملی خود را ایجاد کنیم
1228
01:00:42,240 –> 01:00:43,119
1229
01:00:43,119 –> 01:00:47,119
و بخشهایی از برچسبگذاری گفتار را تجزیه کنیم،
1230
01:00:48,960 –> 01:00:51,119
بنابراین اولین چیزی که باید
1231
01:00:51,119 –> 01:00:52,160
وارد کنیم،
1232
01:00:52,160 –> 01:00:55,119
بنابراین ابتدا میخواهم وارد کردن از nltk
1233
01:00:55,119 –> 01:00:57,839
dot
1234
01:00:58,079 –> 01:01:02,240
من قصد دارم یک کلمه
1235
01:01:02,240 –> 01:01:06,480
tokenize وارد کنم و اکنون باید
1236
01:01:06,480 –> 01:01:10,319
برچسب پست یا pos را از یک ltk وارد کنم،
1237
01:01:10,319 –> 01:01:14,079
بنابراین از nltk،
1238
01:01:14,160 –> 01:01:18,799
تگ pus وارداتی،
1239
01:01:19,440 –> 01:01:24,480
خوب حالا اجازه دهید من فقط این را اجرا کنم و
1240
01:01:24,480 –> 01:01:27,119
بعد از این فقط یک برچسب ایجاد کنیم.
1241
01:01:27,119 –> 01:01:27,599
متن را
1242
01:01:27,599 –> 01:01:30,960
نیز میخواهم مستقیماً
1243
01:01:30,960 –> 01:01:34,400
این را نشانهگذاری
1244
01:01:34,400 –> 01:01:38,640
کنم، به عنوان مثال، من فقط میخواهم پایتون را بهعنوان
1245
01:01:38,640 –> 01:01:42,079
یک زبان خوب بگویم،
1246
01:01:44,480 –> 01:01:47,520
خوب اکنون میتوانیم از یک
1247
01:01:47,520 –> 01:01:50,559
برچسب پست یا تگ pos استفاده کنیم
1248
01:01:50,559 –> 01:01:52,559
و من فقط میخواهم متن خود را به آن اضافه کنم.
1249
01:01:52,559 –> 01:01:55,680
حالا اگر این را اجرا کنم اینجا
1250
01:01:55,680 –> 01:01:59,440
هستم اکنون می توانید ببینید که پایتون nn
1251
01:01:59,440 –> 01:02:03,119
است و اسم را ذکر می کند این است vb
1252
01:02:03,119 –> 01:02:07,520
است dt uh این برای خوبی است و این برای
1253
01:02:07,520 –> 01:02:08,480
زبان
1254
01:02:08,480 –> 01:02:10,559
اکنون اولین بار با این تگ ها آشنا نخواهید بود
1255
01:02:10,559 –> 01:02:12,240
1256
01:02:12,240 –> 01:02:14,880
اما تابعی وجود دارد که می توانید از آن استفاده کنید
1257
01:02:14,880 –> 01:02:17,119
uh
1258
01:02:17,520 –> 01:02:20,720
بنابراین تگ در نام تابع
1259
01:02:20,720 –> 01:02:23,920
کمک است و با استفاده از این تابع کمک
1260
01:02:23,920 –> 01:02:27,599
میتوانیم درباره این تگها بدانیم،
1261
01:02:27,599 –> 01:02:31,280
بنابراین به عنوان مثال اجازه دهید به شما نشان دهم
1262
01:02:31,280 –> 01:02:34,880
که میتوانیم بگوییم help dot
1263
01:02:34,880 –> 01:02:38,720
app n
1264
01:02:38,720 –> 01:02:42,240
مجموعه برچسبهای زیرخط و در اینجا باید
1265
01:02:42,240 –> 01:02:46,720
تگ را مشخص کنید برای مثال من میخواهم
1266
01:02:46,960 –> 01:02:49,839
این را کپی کنید،
1267
01:02:50,240 –> 01:02:53,599
بنابراین اگر من این
1268
01:02:56,000 –> 01:02:59,599
1269
01:02:59,680 –> 01:03:03,280
را در
1270
01:03:03,280 –> 01:03:07,680
حمله اجرا کنم اجازه دهید فقط این را بررسی کنم
1271
01:03:10,319 –> 01:03:11,839
خوب بچه ها فکر می کنم مشکل
1272
01:03:11,839 –> 01:03:14,640
از این تابع نیست، مشکل این است که
1273
01:03:14,640 –> 01:03:16,400
ما اینجا را وارد کرده ایم اکنون باید
1274
01:03:16,400 –> 01:03:20,480
این را اجرا کنیم، اجازه دهید آن را اجرا کنم. دوباره
1275
01:03:20,480 –> 01:03:23,599
بله، حالا مشکل اینجا بود که حالا
1276
01:03:23,599 –> 01:03:24,319
می توانید ببینید که
1277
01:03:24,319 –> 01:03:27,440
یک n اسم مشترک مفرد یا
1278
01:03:27,440 –> 01:03:30,319
جرم است، اکنون یک مثال برای این وجود دارد،
1279
01:03:30,319 –> 01:03:30,720
1280
01:03:30,720 –> 01:03:33,440
می توانید ببینید که ما این مثال را داریم
1281
01:03:33,440 –> 01:03:33,920
حالا
1282
01:03:33,920 –> 01:03:36,559
اجازه دهید من فقط این را به این ت