فیلم آموزشی: آموزش NLTK Python | پردازش زبان طبیعی (NLP) با پایتون با استفاده از NLTK | Simplile Learn با زیرنویس فارسی - فیلمهای python | ویدئو های آموزش پایتون

در این مطلب، ویدئو آموزش NLTK Python | پردازش زبان طبیعی (NLP) با پایتون با استفاده از NLTK | Simplile Learn با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:43:39

تصاویر این ویدئو:

قسمتی از زیرنویس این فیلم:

1
00:00:03,040 –> 00:00:04,799
بیایید ادامه دهیم و

2
00:00:04,799 –> 00:00:07,600
متن کاوی را با جزئیات درک کنیم، بیایید ابتدا

3
00:00:07,600 –> 00:00:09,280
بفهمیم متن کاوی

4
00:00:09,280 –> 00:00:11,360
چیست متن کاوی تکنیک

5
00:00:11,360 –> 00:00:13,920
کاوش مقادیر زیادی از

6
00:00:13,920 –> 00:00:14,400

7
00:00:14,400 –> 00:00:16,800
داده های متنی بدون ساختار و تجزیه و تحلیل آن به منظور

8
00:00:16,800 –> 00:00:19,439
استخراج الگوها از داده های متنی

9
00:00:19,439 –> 00:00:21,199
است که به کمک نرم افزاری که می تواند

10
00:00:21,199 –> 00:00:22,480
مفاهیم را شناسایی کند.

11
00:00:22,480 –> 00:00:25,039
الگوها موضوعات کلمات کلیدی و سایر

12
00:00:25,039 –> 00:00:26,640
ویژگی ها در داده ها

13
00:00:26,640 –> 00:00:29,439
از تکنیک های محاسباتی برای

14
00:00:29,439 –> 00:00:30,080
استخراج

15
00:00:30,080 –> 00:00:31,840
و خلاصه کردن اطلاعات با کیفیت بالا

16
00:00:31,840 –> 00:00:33,200
از

17
00:00:33,200 –> 00:00:36,320
منابع متنی بدون ساختار استفاده می کند.

18
00:00:36,320 –> 00:00:38,800
بیایید جریان متن کاوی را درک

19
00:00:38,800 –> 00:00:41,200

20
00:00:41,200 –> 00:00:42,719

21
00:00:42,719 –> 00:00:45,160

22
00:00:45,160 –> 00:00:46,719

23
00:00:46,719 –> 00:00:49,280
کنیم. برای بررسی متن بدون ساختار

24
00:00:49,280 –> 00:00:49,840

25
00:00:49,840 –> 00:00:51,840
با جستجوی کلمات مهم و

26
00:00:51,840 –> 00:00:54,520
یافتن روابط بین آنها استفاده می شود.

27
00:00:54,520 –> 00:00:57,199
طبقه بندی یا تبدیل متن

28
00:00:57,199 –> 00:00:58,920
ایجاد ویژگی

29
00:00:58,920 –> 00:01:01,760
تکنیک طبقه بندی برچسب های سند متنی

30
00:01:01,760 –> 00:01:04,400
تحت یک یا چند دسته

31
00:01:04,400 –> 00:01:07,200
طبقه بندی داده های متنی

32
00:01:07,200 –> 00:01:07,840
بر اساس

33
00:01:07,840 –> 00:01:10,040
نمونه های خروجی ورودی با

34
00:01:10,040 –> 00:01:11,680
دسته بندی انجام می شود.

35
00:01:11,680 –> 00:01:14,400
خوشه‌بندی یونی یا

36
00:01:14,400 –> 00:01:16,640
روش خوشه‌بندی انتخاب ویژگی برای گروه‌بندی اسناد متنی استفاده می‌شود

37
00:01:16,640 –> 00:01:19,200
که دارای خوشه‌های محتوایی مشابه

38
00:01:19,200 –> 00:01:21,119
هستند، پارتیشن‌ها

39
00:01:21,119 –> 00:01:23,200
و هر خوشه دارای تعدادی

40
00:01:23,200 –> 00:01:24,320
سند با

41
00:01:24,320 –> 00:01:26,880
خوشه‌بندی محتوای مشابه

42
00:01:26,880 –> 00:01:28,880
خواهد بود.

43
00:01:28,880 –> 00:01:29,680

44
00:01:29,680 –> 00:01:31,680
اسنادی که

45
00:01:31,680 –> 00:01:33,680

46
00:01:33,680 –> 00:01:36,560
تکنیک تجسم محتوای مشابهی دارند، فرآیند

47
00:01:36,560 –> 00:01:38,240
یافتن اطلاعات مرتبط

48
00:01:38,240 –> 00:01:40,159
با تکنیک تجسم ساده می‌شود.

49
00:01:40,159 –> 00:01:43,439
این تکنیک از پرچم‌های متنی

50
00:01:43,439 –> 00:01:45,680
برای نشان دادن گروهی از اسناد

51
00:01:45,680 –> 00:01:48,720
یا یک سند استفاده می‌کند و

52
00:01:48,720 –> 00:01:50,640
فشردگی با استفاده از

53
00:01:50,640 –> 00:01:53,119
تکنیک تجسم رنگ‌ها به نمایش

54
00:01:53,119 –> 00:01:53,759

55
00:01:53,759 –> 00:01:56,719
اطلاعات متنی در جذاب‌تر کمک می‌کند. روش

56
00:01:56,719 –> 00:01:57,920
خلاصه‌سازی یا

57
00:01:57,920 –> 00:02:00,399
تفسیر یا ارزیابی

58
00:02:00,399 –> 00:02:02,399
تکنیک خلاصه‌سازی به

59
00:02:02,399 –> 00:02:04,479
کاهش طول سند

60
00:02:04,479 –> 00:02:06,240
و خلاصه کردن جزئیات

61
00:02:06,240 –> 00:02:08,560
اسناد کمک می‌کند و

62
00:02:08,560 –> 00:02:10,878
خواندن سند را برای کاربران آسان می‌کند و

63
00:02:10,878 –> 00:02:11,680
محتوا را

64
00:02:11,680 –> 00:02:14,400
در لحظه درک می‌کند بیایید اهمیت سند متن کاوی را درک کنیم.

65
00:02:14,400 –> 00:02:15,760

66
00:02:15,760 –> 00:02:19,920
خوشه بندی

67
00:02:19,920 –> 00:02:22,080
اسناد خوشه بندی بخش مهمی

68
00:02:22,080 –> 00:02:24,560
از متن کاوی است و کاربردهای زیادی

69
00:02:24,560 –> 00:02:25,920
در مدیریت دانش دارد

70
00:02:25,920 –> 00:02:28,400
و خوشه بندی بازیابی اطلاعات

71
00:02:28,400 –> 00:02:30,560
گروه بندی اسناد مشابه

72
00:02:30,560 –> 00:02:32,319
را در گروه های معنی دار آسان می کند،

73
00:02:32,319 –> 00:02:34,480
مانند روزنامه هایی که بخش ها

74
00:02:34,480 –> 00:02:36,400
اغلب به عنوان سیاست ورزشی تجاری

75
00:02:36,400 –> 00:02:38,239
و غیره

76
00:02:38,239 –> 00:02:41,120
متن شناسایی الگو گروه بندی می شوند. استخراج،

77
00:02:41,120 –> 00:02:43,200
فرآیند جستجوی خودکار

78
00:02:43,200 –> 00:02:44,640
حجم زیادی از

79
00:02:44,640 –> 00:02:46,640
متن برای الگوهای متنی است و شناسایی

80
00:02:46,640 –> 00:02:47,680

81
00:02:47,680 –> 00:02:49,519
ویژگی‌هایی مانند شماره تلفن و

82
00:02:49,519 –> 00:02:51,760
آدرس ایمیل را می‌توان با استفاده از

83
00:02:51,760 –> 00:02:53,440
الگوهای مطابق

84
00:02:53,440 –> 00:02:56,239
با بینش‌های محصول استخراج کرد.

85
00:02:56,239 –> 00:02:58,159

86
00:02:58,159 –> 00:03:00,640

87
00:03:00,640 –> 00:03:01,680

88
00:03:01,680 –> 00:03:03,920
بررسی‌های مصرف‌کننده استخراج می‌تواند

89
00:03:03,920 –> 00:03:06,239
بینش‌هایی مانند محبوب‌ترین ویژگی‌های

90
00:03:06,239 –> 00:03:09,280
مورد نیاز برای منفورترین ویژگی‌ها را نشان دهد

91
00:03:09,280 –> 00:03:12,159
و بررسی محصولات رقبا

92
00:03:12,159 –> 00:03:13,599
نظارت بر امنیت

93
00:03:13,599 –> 00:03:15,920
متن کاوی به نظارت و

94
00:03:15,920 –> 00:03:17,360
استخراج اطلاعات

95
00:03:17,360 –> 00:03:19,200
از مقالات و گزارش‌های خبری برای

96
00:03:19,200 –> 00:03:21,519
اهداف امنیت ملی کمک

97
00:03:21,519 –> 00:03:23,599
می‌کند. مطمئن شوید که از تمام

98
00:03:23,599 –> 00:03:25,519
اطلاعات موجود خود استفاده می کنید،

99
00:03:25,519 –> 00:03:27,599
این یک کشف دانش موثرتر و سازنده است

100
00:03:27,599 –> 00:03:29,040

101
00:03:29,040 –> 00:03:30,959
که به شما امکان می دهد تصمیمات آگاهانه بهتری

102
00:03:30,959 –> 00:03:33,680
بگیرید، فرآیندهای فشرده اطلاعات را خودکارسازی کنید،

103
00:03:33,680 –> 00:03:34,959

104
00:03:34,959 –> 00:03:36,879
بینش های مهم تجاری را جمع آوری کنید و

105
00:03:36,879 –> 00:03:39,680
ریسک عملیاتی را کاهش

106
00:03:39,680 –> 00:03:42,080
دهید، بیایید به کاربردهای متن کاوی نگاه کنیم

107
00:03:42,080 –> 00:03:44,560

108
00:03:44,720 –> 00:03:47,200
.

109
00:03:47,200 –> 00:03:48,319
تشخیص و

110
00:03:48,319 –> 00:03:50,640
ترجمه زبان گفتاری به متن

111
00:03:50,640 –> 00:03:52,319
و بالعکس

112
00:03:52,319 –> 00:03:54,159
گفتار اغلب اطلاعات ارزشمندی

113
00:03:54,159 –> 00:03:56,480
را در مورد موضوعات

114
00:03:56,480 –> 00:03:59,200
و مفاهیم محتوای چندرسانه ای

115
00:03:59,200 –> 00:04:01,200
استخراج اطلاعات از گفتار در

116
00:04:01,200 –> 00:04:02,400

117
00:04:02,400 –> 00:04:04,400
مقایسه با محتوای چند رسانه ای پیچیده تر و در عین حال دقیق تر و دقیق تر

118
00:04:04,400 –> 00:04:06,080
است،

119
00:04:06,080 –> 00:04:08,560
این واقعیت انگیزه تجزیه و تحلیل گفتار مبتنی بر محتوا را فراهم می کند.

120
00:04:08,560 –> 00:04:11,200
داده کاوی و بازیابی چند رسانه ای

121
00:04:11,200 –> 00:04:12,000

122
00:04:12,000 –> 00:04:14,480
در جایی که پردازش صدا و گفتار

123
00:04:14,480 –> 00:04:17,199
کلیدی است که فناوری

124
00:04:17,199 –> 00:04:20,238
فیلتر هرزنامه را قادر می سازد تشخیص هرزنامه

125
00:04:20,238 –> 00:04:21,680
روش مهمی است که در آن

126
00:04:21,680 –> 00:04:24,000
اطلاعات متنی موجود در

127
00:04:24,000 –> 00:04:24,800

128
00:04:24,800 –> 00:04:28,080
ایمیل استخراج می شود و برای متن کاوی متمایز استفاده می شود و

129
00:04:28,080 –> 00:04:30,320
به صورت خودکار مفید است.

130
00:04:30,320 –> 00:04:32,560
شناسایی ایمیل‌های هرزنامه بر اساس

131
00:04:32,560 –> 00:04:34,320
محتوای فیلتر شده

132
00:04:34,320 –> 00:04:36,560
با استفاده از متن کاوی، یک ارائه‌دهنده خدمات ایمیل

133
00:04:36,560 –> 00:04:39,199
مانند جی‌میل یا

134
00:04:39,199 –> 00:04:42,160
ایمیل یاهو، محتوای ایمیل را بررسی می‌کند و

135
00:04:42,160 –> 00:04:44,160
اگر متن مخربی

136
00:04:44,160 –> 00:04:46,639
در ایمیل یافت شود، آن ایمیل به‌عنوان هرزنامه علامت‌گذاری شده

137
00:04:46,639 –> 00:04:49,600
و به هرزنامه ارسال می‌شود.

138
00:04:49,600 –> 00:04:52,720
تجزیه و تحلیل احساسات پوشه

139
00:04:52,720 –> 00:04:54,479
به منظور تعیین اینکه آیا یک جمله داده شده

140
00:04:54,479 –> 00:04:55,199
بیانگر

141
00:04:55,199 –> 00:04:58,160
احساسات خنثی مثبت است یا منفی

142
00:04:58,160 –> 00:04:59,680
انجام می شود. تحلیل احساسات

143
00:04:59,680 –> 00:05:01,680
یکی از محبوب ترین کاربردهای

144
00:05:01,680 –> 00:05:03,199

145
00:05:03,199 –> 00:05:06,080

146
00:05:06,080 –> 00:05:08,320
تجزیه و تحلیل

147
00:05:08,320 –> 00:05:09,120

148
00:05:09,120 –> 00:05:11,360
متن است. نظر بیان

149
00:05:11,360 –> 00:05:14,240
شده توسط آن و سایر عوامل کلیدی شامل

150
00:05:14,240 –> 00:05:17,680
حالت و حالت معمولاً فرآیند

151
00:05:17,680 –> 00:05:19,680
تجزیه و تحلیل احساسات

152
00:05:19,680 –> 00:05:22,479
بر روی متنی که دارای زمینه ذهنی است بهترین کار را انجام می دهد

153
00:05:22,479 –> 00:05:24,479
سپس بر روی متنی که فقط با یک زمینه عینی

154
00:05:24,479 –> 00:05:25,919

155
00:05:25,919 –> 00:05:29,520
شخصی سازی تجارت الکترونیکی از متن

156
00:05:29,520 –> 00:05:30,960
کاوی برای پیشنهاد محصولاتی استفاده می شود

157
00:05:30,960 –> 00:05:33,919
که در یک متن مناسب هستند. متن کاوی نمایه کاربر

158
00:05:33,919 –> 00:05:34,960

159
00:05:34,960 –> 00:05:37,440
به طور فزاینده ای توسط خرده فروشان تجارت الکترونیک برای یادگیری بیشتر در مورد استفاده می شود

160
00:05:37,440 –> 00:05:38,400

161
00:05:38,400 –> 00:05:40,800
از آنجایی که مصرف کنندگان

162
00:05:40,800 –> 00:05:43,120
فرآیند تجزیه و تحلیل اطلاعات متنی

163
00:05:43,120 –> 00:05:44,000

164
00:05:44,000 –> 00:05:46,160
به منظور شناسایی الگوها و به دست آوردن

165
00:05:46,160 –> 00:05:47,360
بینش است

166
00:05:47,360 –> 00:05:50,000
، خرده فروشان تجارت الکترونیک می توانند

167
00:05:50,000 –> 00:05:51,520
افراد یا بخش های خاصی را

168
00:05:51,520 –> 00:05:54,160
با پیشنهادات و تخفیف های شخصی

169
00:05:54,160 –> 00:05:54,720
برای افزایش

170
00:05:54,720 –> 00:05:57,199
فروش و افزایش وفاداری مشتری با

171
00:05:57,199 –> 00:05:59,360
شناسایی الگوهای خرید مشتری

172
00:05:59,360 –> 00:06:00,240
و نظرات

173
00:06:00,240 –> 00:06:03,600
در مورد آنها هدف قرار دهند. بیایید با جزئیات

174
00:06:03,600 –> 00:06:06,000
به کتابخانه ابزار زبان طبیعی

175
00:06:06,000 –> 00:06:08,160

176
00:06:08,160 –> 00:06:10,319

177
00:06:10,319 –> 00:06:12,400

178
00:06:12,400 –> 00:06:14,400

179
00:06:14,400 –> 00:06:16,319

180
00:06:16,319 –> 00:06:19,759

181
00:06:19,759 –> 00:06:20,240

182
00:06:20,240 –> 00:06:23,520

183
00:06:23,520 –> 00:06:25,919
نگاه کنیم.

184
00:06:25,919 –> 00:06:26,880
مفسر پایتون را از

185
00:06:26,880 –> 00:06:29,199
خط آناکوندا راه اندازی کنید و دستورات زیر را

186
00:06:29,199 –> 00:06:30,479

187
00:06:30,479 –> 00:06:32,400
وارد کنید دستور پایتون را وارد کنید تا

188
00:06:32,400 –> 00:06:34,319
نسخه پایتون نصب شده روی سیستم خود را

189
00:06:34,319 –> 00:06:35,440
بررسی

190
00:06:35,440 –> 00:06:38,639
کنید import nltk را وارد کنید تا شما را به

191
00:06:38,639 –> 00:06:42,000
کتابخانه nltk موجود برای دانلود پیوند دهد

192
00:06:42,000 –> 00:06:45,360
سپس تابع nltk.download را وارد کنید که

193
00:06:45,360 –> 00:06:47,039

194
00:06:47,039 –> 00:06:49,360
پنجره دانلود nltk باز می شود. دایرکتوری دانلود را چک

195
00:06:49,360 –> 00:06:50,319

196
00:06:50,319 –> 00:06:52,319
کنید انتخاب کنید همه بسته ها را کلیک کنید و روی دانلود کلیک کنید

197
00:06:52,319 –> 00:06:53,440

198
00:06:53,440 –> 00:06:57,599
این nltk را در پایتون

199
00:06:57,599 –> 00:07:00,240
دانلود می کند، پس از دانلود nltk

200
00:07:00,240 –> 00:07:00,639

201
00:07:00,639 –> 00:07:02,720
باید عملکرد و عملکرد

202
00:07:02,720 –> 00:07:05,599
آن را بررسی کنید تا تنظیمات را تست کنید،

203
00:07:05,599 –> 00:07:08,400
دستور زیر را در پایتون بیکار

204
00:07:08,400 –> 00:07:11,440
از nltk dot corpus

205
00:07:11,440 –> 00:07:14,720
import قهوه ای نقطه قهوه ای وارد کنید.

206
00:07:14,720 –> 00:07:18,160
پرانتز پرانتز قهوه ای یک

207
00:07:18,160 –> 00:07:21,120
پیکره nltk است که تفاوت سیستماتیک

208
00:07:21,120 –> 00:07:21,840

209
00:07:21,840 –> 00:07:24,880
بین ژانرهای مختلف را نشان

210
00:07:24,880 –> 00:07:26,160
می دهد تابع کلمات موجود لیست

211
00:07:26,160 –> 00:07:28,560
کلمات موجود در

212
00:07:28,560 –> 00:07:30,319
ژانر را به

213
00:07:30,319 –> 00:07:31,680

214
00:07:31,680 –> 00:07:35,360

215
00:07:35,360 –> 00:07:37,440
شما می دهد. یک

216
00:07:37,440 –> 00:07:39,039
ماژول خاص از

217
00:07:39,039 –> 00:07:42,240
nltk corpora اگر می‌خواهید یک

218
00:07:42,240 –> 00:07:43,599
ماژول کامل را از

219
00:07:43,599 –> 00:07:46,639
nltk corpora وارد کنید، از علامت ستاره

220
00:07:46,639 –> 00:07:49,280
با فرمان import نام ماژول استفاده

221
00:07:49,280 –> 00:07:50,479

222
00:07:50,479 –> 00:07:54,160
کنید، دستور را از ستاره واردات nltk.book وارد

223
00:07:54,160 –> 00:07:55,280

224
00:07:55,280 –> 00:07:57,560
کنید، همه موارد موجود در

225
00:07:57,560 –> 00:08:00,080
ماژول کتاب nltk

226
00:08:00,080 –> 00:08:03,039
اکنون بارگذاری می‌شود تا explore brown corpus

227
00:08:03,039 –> 00:08:04,160
دستور

228
00:08:04,160 –> 00:08:07,919
nltk dot corpus import brown را وارد

229
00:08:07,919 –> 00:08:10,160
کنید این باعث وارد کردن corpus قهوه‌ای می‌شود n

230
00:08:10,160 –> 00:08:11,280
پایتون

231
00:08:11,280 –> 00:08:14,560
تابع دسته‌های نقطه قهوه‌ای را وارد کنید تا

232
00:08:14,560 –> 00:08:15,360

233
00:08:15,360 –> 00:08:18,319
ژانرهای مختلف موجود را بارگیری کنید، یک ژانر را انتخاب کنید و

234
00:08:18,319 –> 00:08:20,720
آن ژانر را با استفاده

235
00:08:20,720 –> 00:08:22,879
از دستور نحو زیر به

236
00:08:22,879 –> 00:08:25,520
متغیر اختصاص دهید، نام متغیر معادل با نقطه قهوه‌ای

237
00:08:25,520 –> 00:08:26,560

238
00:08:26,560 –> 00:08:29,840
است.

239
00:08:29,840 –> 00:08:32,000
در

240
00:08:32,000 –> 00:08:33,599
ژانر انتخاب شده

241
00:08:33,599 –> 00:08:36,000
فقط نام متغیر تعریف شده را به عنوان یک دستور وارد کنید تا

242
00:08:36,000 –> 00:08:38,080

243
00:08:38,080 –> 00:08:40,399
استخراج متن و

244
00:08:40,399 –> 00:08:43,200
پیش پردازش را با جزئیات

245
00:08:43,200 –> 00:08:45,560
درک کنیم، بنابراین بیایید ابتدا مفهوم توکن سازی را درک کنیم

246
00:08:45,560 –> 00:08:47,120

247
00:08:47,120 –> 00:08:49,600
، فرآیند حذف

248
00:08:49,600 –> 00:08:50,880
داده های حساس

249
00:08:50,880 –> 00:08:52,560
و قرار دادن نمادهای منحصر به فرد

250
00:08:52,560 –> 00:08:53,920
شناسایی

251
00:08:53,920 –> 00:08:56,240
در آن مکان به ترتیب برای حفظ تمام

252
00:08:56,240 –> 00:08:57,680
اطلاعات ضروری

253
00:08:57,680 –> 00:09:00,399
مربوط به داده ها توسط امنیت

254
00:09:00,399 –> 00:09:02,560
آن، فرآیندی است برای شکستن

255
00:09:02,560 –> 00:09:04,480
جریان های متنی به کلمات و

256
00:09:04,480 –> 00:09:07,440
جملات که با جداسازی کلمات

257
00:09:07,440 –> 00:09:08,000
با استفاده از

258
00:09:08,000 –> 00:09:11,200
علائم نگارشی و

259
00:09:11,200 –> 00:09:13,920
استخراج متن و پیش پردازش

260
00:09:13,920 –> 00:09:15,920
n-gram کار می کند.

261
00:09:15,920 –> 00:09:18,720
حال بیایید ببینیم چه چیزی n-gram است و چگونه

262
00:09:18,720 –> 00:09:21,120
در متن کاوی مفید است

263
00:09:21,120 –> 00:09:23,040
n-gram ساده ترین مدلی است که به شما

264
00:09:23,040 –> 00:09:24,800
اختصاص می دهد. ns این احتمالات

265
00:09:24,800 –> 00:09:27,760
برای دنباله‌ای از کلمات یا جملات،

266
00:09:27,760 –> 00:09:29,920
n-gram ترکیبی از

267
00:09:29,920 –> 00:09:31,839
کلمات یا حروف مجاور

268
00:09:31,839 –> 00:09:35,519
و در متن مبدا هستند، بنابراین انگرام

269
00:09:35,519 –> 00:09:36,000

270
00:09:36,000 –> 00:09:38,399
زمانی که نیاز به

271
00:09:38,399 –> 00:09:40,880
استخراج الگوها از متن است،

272
00:09:40,880 –> 00:09:43,279
مانند مثال داده شده، در متن کاوی بسیار مفید است. یک جمله است که

273
00:09:43,279 –> 00:09:44,240

274
00:09:44,240 –> 00:09:45,839
همه این کلمات به عنوان کلمات منفرد در نظر گرفته می

275
00:09:45,839 –> 00:09:47,279
شوند

276
00:09:47,279 –> 00:09:50,320
و بنابراین نشان

277
00:09:50,320 –> 00:09:53,839

278
00:09:53,839 –> 00:09:55,680

279
00:09:55,680 –> 00:09:59,440
دهنده تک گرم ها هستند.

280
00:09:59,440 –> 00:10:01,600

281
00:10:01,600 –> 00:10:02,720
کلماتی مانند

282
00:10:02,720 –> 00:10:07,200
این یک جمله است یا یک جمله است،

283
00:10:07,200 –> 00:10:09,600
بیایید حالا بفهمیم که کلمات توقف چیست

284
00:10:09,600 –> 00:10:12,320
و چگونه می توان آنها را حذف کرد.

285
00:10:12,320 –> 00:10:14,480

286
00:10:14,480 –> 00:10:16,800

287
00:10:16,800 –> 00:10:19,920

288
00:10:19,920 –> 00:10:22,959

289
00:10:22,959 –> 00:10:25,120
در پایگاه داده

290
00:10:25,120 –> 00:10:27,440
یا افزایش زمان پردازش

291
00:10:27,440 –> 00:10:29,680
پس بهتر است برای حذف چنین کلماتی با

292
00:10:29,680 –> 00:10:32,160
ذخیره لیستی از کلمات توقف

293
00:10:32,160 –> 00:10:34,560
، لیستی از کلمات توقف را در

294
00:10:34,560 –> 00:10:37,440
فهرست داده های nltk که

295
00:10:37,440 –> 00:10:39,839
در 16 لیتر مختلف ذخیره می شود، پیدا کنید. زبان‌ها

296
00:10:39,839 –> 00:10:41,760
از دستور زیر برای لیست

297
00:10:41,760 –> 00:10:44,320
کردن کلمات توقف زبان انگلیسی تعریف شده

298
00:10:44,320 –> 00:10:44,839
در

299
00:10:44,839 –> 00:10:48,959

300
00:10:48,959 –> 00:10:52,000

301
00:10:52,000 –> 00:10:55,440

302
00:10:55,440 –> 00:10:57,760

303
00:10:57,760 –> 00:10:58,720

304
00:10:58,720 –> 00:11:01,839

305
00:11:01,839 –> 00:11:04,800
nltk استفاده می‌کنند. همانطور که در زیر پرانتز قرار دارد

306
00:11:04,800 –> 00:11:05,279
توقف

307
00:11:05,279 –> 00:11:09,360
کلمات نقطه کلمات مجموعه ژانر به عنوان

308
00:11:09,360 –> 00:11:11,360
کلمات توقف انگلیسی قبل از

309
00:11:11,360 –> 00:11:13,760
پردازش داده های زبان طبیعی فیلتر می

310
00:11:13,760 –> 00:11:16,720
شوند زیرا اطلاعات زیادی را نشان نمی دهند، بنابراین

311
00:11:16,720 –> 00:11:18,399
همانطور که در مثال داده شده می توانید

312
00:11:18,399 –> 00:11:20,399
قبل از فیلتر کردن جمله مشاهده کنید، نشانه

313
00:11:20,399 –> 00:11:22,240
گذاری کلمه توقف به

314
00:11:22,240 –> 00:11:24,480
این صورت است. به منظور حذف این

315
00:11:24,480 –> 00:11:25,600
کلمات توقف پردازش شده

316
00:11:25,600 –> 00:11:27,600
و فیلتر به منظور

317
00:11:27,600 –> 00:11:29,279
فیلتر کردن جمله بر اساس برخی

318
00:11:29,279 –> 00:11:31,760

319
00:11:31,760 –> 00:11:34,320

320
00:11:34,320 –> 00:11:36,079

321
00:11:36,079 –> 00:11:38,320

322
00:11:38,320 –> 00:11:40,880
معیارها اعمال می شود.

323
00:11:40,880 –> 00:11:41,760

324
00:11:41,760 –> 00:11:44,640
و کمک کننده به

325
00:11:44,640 –> 00:11:46,320
ریشه کلمه کمک

326
00:11:46,320 –> 00:11:48,880
به فرآیند ریشه یا الگوریتم به

327
00:11:48,880 –> 00:11:50,800
طور کلی یک ریشه نامیده می شود

328
00:11:50,800 –> 00:11:53,040
وجود دارد stemming مختلف الگوریتم

329
00:11:53,040 –> 00:11:54,880
هایی مانند پورتر استمر

330
00:11:54,880 –> 00:11:58,240
لانکاستر استمر گلوله برفی و غیره

331
00:11:58,240 –> 00:12:00,399
از هر یک از استمرهای تعریف شده در

332
00:12:00,399 –> 00:12:02,560
بدنه پایه nltk استفاده

333
00:12:02,560 –> 00:12:04,720
می کنند تا همانطور که در مثال نشان داده شده است در

334
00:12:04,720 –> 00:12:05,920

335
00:12:05,920 –> 00:12:08,399
اینجا نشان

336
00:12:08,399 –> 00:12:10,639

337
00:12:10,639 –> 00:12:12,079
داده شده است.

338
00:12:12,079 –> 00:12:14,079
به ریشه کلمه یا متن اصلی آنها تقلیل داده شده است،

339
00:12:14,079 –> 00:12:15,839

340
00:12:15,839 –> 00:12:18,399
استخراج و

341
00:12:18,399 –> 00:12:20,800

342
00:12:20,800 –> 00:12:22,959
محدودسازی پیش پردازش، روشی است برای گروه

343
00:12:22,959 –> 00:12:25,440
بندی انواع مختلف یک کلمه

344
00:12:25,440 –> 00:12:27,600
به منظور تجزیه و تحلیل آنها به عنوان

345
00:12:27,600 –> 00:12:28,720
یک آیتم

346
00:12:28,720 –> 00:12:31,519
که از فهرست واژگان یا

347
00:12:31,519 –> 00:12:33,920
تجزیه و تحلیل صرفی برای بدست آوردن نتیجه استفاده می کند. کلمه ریشه

348
00:12:33,920 –> 00:12:34,800

349
00:12:34,800 –> 00:12:37,600
از پایگاه داده wordnet استفاده می کند که دارای

350
00:12:37,600 –> 00:12:38,000
کلمات انگلیسی است

351
00:12:38,000 –> 00:12:40,000
که با رابطه معنایی آنها به هم مرتبط شده اند،

352
00:12:40,000 –> 00:12:41,200

353
00:12:41,200 –> 00:12:43,839
همانطور که می توانید مثال داده شده را مشاهده کنید،

354
00:12:43,839 –> 00:12:44,959
کلمات مختلف

355
00:12:44,959 –> 00:12:46,880

356
00:12:46,880 –> 00:12:48,680
با استفاده از

357
00:12:48,680 –> 00:12:52,760
استخراج متن محدود و

358
00:12:52,760 –> 00:12:56,160
پیش پردازش برچسب گذاری پست

359
00:12:56,160 –> 00:12:57,760
به کلمه صرفی مربوطه استخراج شده اند. اجازه دهید اکنون بخش های مختلف را بررسی کنیم. از

360
00:12:57,760 –> 00:12:59,839
برچسب‌های گفتاری موجود در کتابخانه ملی

361
00:12:59,839 –> 00:13:02,399
زبان،

362
00:13:02,399 –> 00:13:05,120
یک تگ pos یک spe است برچسب cial اختصاص داده شده به

363
00:13:05,120 –> 00:13:06,639
هر نشانه یا کلمه

364
00:13:06,639 –> 00:13:09,040
در یک مجموعه متن برای نشان دادن بخشی از

365
00:13:09,040 –> 00:13:09,680
گفتار

366
00:13:09,680 –> 00:13:11,600
و اغلب همچنین سایر

367
00:13:11,600 –> 00:13:13,519
مقوله های دستوری مانند

368
00:13:13,519 –> 00:13:16,079
تعداد زمان یا حالت جمع یا مفرد

369
00:13:16,079 –> 00:13:17,279
و غیره

370
00:13:17,279 –> 00:13:20,399
در ابزارها

371
00:13:20,399 –> 00:13:22,800
و الگوریتم های تجزیه و تحلیل متن و همچنین در جستجوی پیکره استفاده می

372
00:13:22,800 –> 00:13:23,680

373
00:13:23,680 –> 00:13:26,480
شود. به مثال داده شده در اینجا نگاه کنید آلیس

374
00:13:26,480 –> 00:13:27,600
یک برنامه نوشت

375
00:13:27,600 –> 00:13:30,720
متن مبدأ است که با توجه به تگ های pos

376
00:13:30,720 –> 00:13:32,800
داده

377
00:13:32,800 –> 00:13:35,519

378
00:13:35,519 –> 00:13:36,240

379
00:13:36,240 –> 00:13:38,480

380
00:13:38,480 –> 00:13:40,880

381
00:13:40,880 –> 00:13:42,000
شده است.

382
00:13:42,000 –> 00:13:44,079
جمله یا پاراگراف داده شده

383
00:13:44,079 –> 00:13:46,000
حاوی کلمات مختلفی است که

384
00:13:46,000 –> 00:13:48,639
قسمت های مختلف گفتار را نشان می دهد، ابتدا

385
00:13:48,639 –> 00:13:50,959
از نشانه گذاری و حذف کلمات توقف استفاده می کنیم

386
00:13:50,959 –> 00:13:51,760

387
00:13:51,760 –> 00:13:54,720
و سپس تگ های مختلف pos را

388
00:13:54,720 –> 00:13:56,639
که با کلمات مختلف در جمله داده شده نشان داده شده اند تخصیص می دهیم.

389
00:13:56,639 –> 00:13:59,440

390
00:13:59,440 –> 00:14:00,000

391
00:14:00,000 –> 00:14:02,880

392
00:14:02,880 –> 00:14:04,240
شناسایی موجودیت

393
00:14:04,240 –> 00:14:06,560
و استخراج روابط بین

394
00:14:06,560 –> 00:14:08,720
کلمات

395
00:14:08,720 –> 00:14:11,760
استخراج متن و پیش پردازش شناسایی موجودیت نامگذاری شده

396
00:14:11,760 –> 00:14:13,440

397
00:14:13,440 –> 00:14:15,519
اکنون اجازه دهید درک موضوع شناخت موجودیت نام‌گذاری شده چیست،

398
00:14:15,519 –> 00:14:17,360

399
00:14:17,360 –> 00:14:20,320
به دنبال استخراج موجودیت دنیای واقعی

400
00:14:20,320 –> 00:14:21,279
از متن

401
00:14:21,279 –> 00:14:24,160
و مرتب‌سازی آن به دسته‌های از پیش تعریف‌شده

402
00:14:24,160 –> 00:14:25,600
مانند اسامی افراد

403
00:14:25,600 –> 00:14:29,120
مکان‌های سازمان و غیره است.

404
00:14:29,120 –> 00:14:31,040

405
00:14:31,040 –> 00:14:33,600

406
00:14:33,600 –> 00:14:35,600
محصولات ذکر شده در

407
00:14:35,600 –> 00:14:37,600
شکایات یا بررسی‌ها

408
00:14:37,600 –> 00:14:39,360
آیا توییت حاوی نام

409
00:14:39,360 –> 00:14:41,519
شخص است آیا توییت حاوی

410
00:14:41,519 –> 00:14:43,279
آدرس شخص است،

411
00:14:43,279 –> 00:14:45,440
همانطور که در مثال داده شده مشاهده می‌کنید

412
00:14:45,440 –> 00:14:46,880

413
00:14:46,880 –> 00:14:49,839
صفحه لری گوگل آمریکا و غیره، نام یک

414
00:14:49,839 –> 00:14:51,920
مکان یا سازمان است،

415
00:14:51,920 –> 00:14:53,920
بنابراین این نام‌ها در نظر گرفته می‌شوند. موجودیت‌ها

416
00:14:53,920 –> 00:14:55,680
و دارای برچسب‌های

417
00:14:55,680 –> 00:14:59,040
مختلف مانند سازمان شخص gpe

418
00:14:59,040 –> 00:15:03,279
یا نهاد ژئوپلیتیکی و غیره

419
00:15:03,279 –> 00:15:06,560
گردش کار فرآیند nlp

420
00:15:06,560 –> 00:15:08,399
اکنون شما از همه

421
00:15:08,399 –> 00:15:10,399
ابزارهای nltk آگاهی دارید،

422
00:15:10,399 –> 00:15:12,160
بنابراین اکنون بیایید

423
00:15:12,160 –> 00:15:14,399
روند کار پردازش زبان طبیعی

424
00:15:14,399 –> 00:15:17,519
مرحله 1 توکن‌سازی را درک کنیم،

425
00:15:17,519 –> 00:15:20,480
متن را به قطعات یا کلمات تقسیم می‌کند و

426
00:15:20,480 –> 00:15:22,240

427
00:15:22,240 –> 00:15:25,199
مرحله نقطه‌گذاری را حذف می‌کند. 2 حذف کلمه متوقف

428
00:15:25,199 –> 00:15:26,000
می شود و

429
00:15:26,000 –> 00:15:29,600
کلمات رایج مانند is are و غیره را

430
00:15:29,600 –> 00:15:32,079
حذف می کند اینها مربوط به مرحله تجزیه و تحلیل

431
00:15:32,079 –> 00:15:34,880
مرحله 3 نیستند و با محدود

432
00:15:34,880 –> 00:15:37,279
کردن، کلمات را به شکل پایه کاهش می دهد تا

433
00:15:37,279 –> 00:15:39,600
به عنوان یک مورد تجزیه و تحلیل شوند.

434
00:15:39,600 –> 00:15:43,360

435
00:15:43,360 –> 00:15:44,399

436
00:15:44,399 –> 00:15:47,680

437
00:15:47,680 –> 00:15:48,560

438
00:15:48,560 –> 00:15:52,880
مرحله 5 زمینه، بازیابی اطلاعات،

439
00:15:52,880 –> 00:15:54,959
اطلاعات مربوطه را

440
00:15:54,959 –> 00:15:56,800
از منبع

441
00:15:56,800 –> 00:16:00,480
استخراج می‌کند mo1 بیانیه مشکل پیکره قهوه‌ای مجموعه

442
00:16:00,480 –> 00:16:03,040
استاندارد دانشگاه قهوه‌ای

443
00:16:03,040 –> 00:16:05,040
انگلیسی آمریکایی امروزی

444
00:16:05,040 –> 00:16:08,000
که عموماً به عنوان مجموعه قهوه‌ای نیز شناخته می‌شود،

445
00:16:08,000 –> 00:16:10,240
در دهه 1960

446
00:16:10,240 –> 00:16:12,399
به عنوان یک مجموعه کلی در زمینه

447
00:16:12,399 –> 00:16:14,160
زبان‌شناسی پیکره گردآوری

448
00:16:14,160 –> 00:16:16,480
شد. حاوی 500 نمونه

449
00:16:16,480 –> 00:16:17,759
متن انگلیسی است

450
00:16:17,759 –> 00:16:20,320
که در مجموع حدود 1 میلیون کلمه

451
00:16:20,320 –> 00:16:22,079
از آثار منتشر شده در

452
00:16:22,079 –> 00:16:24,720
ایا

پاسخ دهید لغو پاسخ

اکانت vip

دوره آموزش پایتون

مطالب تصادفی

فیلم آموزشی: تفاوت بین تابع – روش – ماژول – کتابخانه در برنامه نویسی پایتون

فیلم آموزشی: آموزش شماره 2 پایتون متخصص – روش‌های داندر/جادو و مدل داده‌های پایتون با زیرنویس فارسی

فیلم آموزشی: مقیاس‌سازی زیرساخت‌های علم داده و یادگیری ماشین مانند Netflix | پادکست واقعی پایتون شماره 61 با زیرنویس فارسی

فیلم آموزشی: خودکار کردن پیام رسان فیس بوک با پایتون

فیلم آموزشی: تست API در پایتون: دریافت درخواست و اعتبار کد وضعیت

فیلم آموزشی: حرف اول یک لیست یا آرایه را در پایتون پیدا کنید

فیلم آموزشی: ایمیل اکسل با پایتون | اتوماسیون اکسل پایتون با زیرنویس فارسی

فیلم آموزشی: برنامه پایتون برای تبدیل دما از سلسیوس به فارنهایت با زیرنویس فارسی

فیلم آموزشی: نحوه رسم فایل NetCDF در پایتون با زیرنویس فارسی

فیلم آموزشی: دوره کامل پایتون | یادگیری پایتون در 8 ساعت | آموزش پایتون برای مبتدیان | Simplile Learn

فیلم آموزشی: پایتون برای جغرافیدانان با زیرنویس فارسی

فیلم آموزشی: برنامه نویسی با پایتون فایل جدید و چاپ () در PyCharm

فیلم آموزشی: Numpy Data Science ایجاد آرایه با استفاده از متدهای NumPy و ساختارهای پایتون با زیرنویس فارسی

فیلم آموزشی: برنامه نویسی پیشرفته پهپاد در 4 ساعت | OpenCV Python با زیرنویس فارسی

فیلم آموزشی: جعبه های گفتگوی هشدار برای KivyMD – آموزش رابط کاربری گرافیکی Python Kivy #48 با زیرنویس فارسی

فیلم آموزشی: پروفایل پایتون: مقدمه ای برای درک ردپای منبع کد شما با زیرنویس فارسی

پشتیبانی سایت

نماد اعتماد اینماد و زیبال

فیلم آموزشی: آموزش NLTK Python | پردازش زبان طبیعی (NLP) با پایتون با استفاده از NLTK | Simplile Learn با زیرنویس فارسی

برای دانلود این فیلم ، عضو vip سایت شوید.

دانلود 17000 فیلم پایتون با پرداخت 15 هزار تومان (عضویت یک ماهه)

مطالب مرتبط: