در این مطلب، ویدئو چرا باید آنالیز متن را در پایتون انجام دهید (حتی اگر نمی خواهید) – Bhargav Srinivasa Desikan با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:48:31
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:06,630 –> 00:00:09,240
متشکرم از همه شما متشکرم که اینجا هستید.
2
00:00:09,240 –> 00:00:13,120
من در مورد اینکه ما صحبت می کنم صحبت
3
00:00:13,120 –> 00:00:14,940
خواهم کرد که چرا باید آنالیز متن
4
00:00:14,940 –> 00:00:18,000
پایتون را انجام دهید حتی اگر نمی خواهید این
5
00:00:18,000 –> 00:00:19,560
نام من باشد یا مورد او کسی
6
00:00:19,560 –> 00:00:23,820
علاقه مند است و من می خواهم شروع کنم
7
00:00:23,820 –> 00:00:27,360
چرا تجزیه و تحلیل متن منظورم این است که بحث به این
8
00:00:27,360 –> 00:00:28,860
نام است که چرا باید تجزیه و تحلیل متن را
9
00:00:28,860 –> 00:00:30,750
در پایتون انجام دهید، بنابراین من
10
00:00:30,750 –> 00:00:32,159
کمی در مورد تجزیه و تحلیل متن به
11
00:00:32,159 –> 00:00:35,430
طور کلی صحبت خواهم کرد تا همه شما را
12
00:00:35,430 –> 00:00:36,629
متوجه این موضوع کند که چیست و چرا ممکن است
13
00:00:36,629 –> 00:00:38,309
باشد. جالب است و سپس به این موضوع بروید که چرا
14
00:00:38,309 –> 00:00:41,780
پایتون ها انتخاب جالب و سرگرم کننده ای برای انجام این
15
00:00:41,780 –> 00:00:44,969
کار به صورت شخصی هستند، منظورم این است که شما می
16
00:00:44,969 –> 00:00:46,860
توانید تحلیل متن را به عنوان تجزیه و تحلیل داده در
17
00:00:46,860 –> 00:00:49,489
نظر بگیرید، اما داده های شما فقط متن درست است و
18
00:00:49,489 –> 00:00:52,649
مطمئناً منظورم این است که مطمئن باشید که عالی است و می
19
00:00:52,649 –> 00:00:54,059
توانید دریافت کنید. اگر خیلی
20
00:00:54,059 –> 00:00:55,739
مرتب باشد، انجام دادن آن نیز سرگرم کننده است، اما چیزی که من
21
00:00:55,739 –> 00:00:57,539
شخصاً در مورد
22
00:00:57,539 –> 00:00:59,760
تجزیه و تحلیل متن بسیار جالب یافتم این بود که داده ها
23
00:00:59,760 –> 00:01:02,399
شخصی تر به نظر می رسیدند، می توانم از همان
24
00:01:02,399 –> 00:01:04,530
جایی شروع کردم.
25
00:01:04,530 –> 00:01:06,030
چیزی
26
00:01:06,030 –> 00:01:07,200
جالب یا پیش بینی s چیزی که من
27
00:01:07,200 –> 00:01:08,760
میدانستم این اطلاعات واقعاً شخصی
28
00:01:08,760 –> 00:01:10,920
است و در واقع با
29
00:01:10,920 –> 00:01:13,380
این برنامه پیامرسانی به نام whatsapp شروع به کار کرد، من
30
00:01:13,380 –> 00:01:14,760
مطمئن نیستم که چقدر در
31
00:01:14,760 –> 00:01:16,799
آمریکا
32
00:01:16,799 –> 00:01:18,360
بسیار محبوب است، اما در آسیا و اروپا بسیار محبوب است. دوستان من،
33
00:01:18,360 –> 00:01:20,010
ما همه در واتساپ بودیم و
34
00:01:20,010 –> 00:01:22,050
یک گروه واتساپ داشتیم که تقریباً شش
35
00:01:22,050 –> 00:01:24,210
یا هفت سال طول می کشد، زیرا
36
00:01:24,210 –> 00:01:26,460
شبیه سال 2010 است و یک نکته من
37
00:01:26,460 –> 00:01:28,140
به خوبی متوجه شدم که آیا به همه این داده های متنی دسترسی دارم یا خیر.
38
00:01:28,140 –> 00:01:30,930
39
00:01:30,930 –> 00:01:32,280
من با دوستانم کار میکردم،
40
00:01:32,280 –> 00:01:34,380
آیا میتوانم کار سرگرمکنندهای با
41
00:01:34,380 –> 00:01:34,800
آن
42
00:01:34,800 –> 00:01:37,110
انجام دهم، بنابراین من آن را مثل سال به سال تقسیم
43
00:01:37,110 –> 00:01:39,000
کردم و فقط برای این که بتوانید
44
00:01:39,000 –> 00:01:40,890
تمام دادههای پیام واتساپ خود را به طور کامل دانلود
45
00:01:40,890 –> 00:01:43,230
کنید، روی چت گروهی خود کلیک کنید و
46
00:01:43,230 –> 00:01:45,270
سپس شما دوست دارید تا ایمیل ارسال کنید و
47
00:01:45,270 –> 00:01:48,180
می توانید کل تاریخچه چت لایک خود را درست ایمیل کنید
48
00:01:48,180 –> 00:01:49,650
و می توانید این کار را
49
00:01:49,650 –> 00:01:51,180
با فیس بوک انجام دهید همچنین فکر می کنم مسنجر
50
00:01:51,180 –> 00:01:53,250
مطمئن نبودم اما می دانم که می توانید این کار را
51
00:01:53,250 –> 00:01:55,200
با واتس اپ انجام دهید و من این کار را انجام دادم و سپس
52
00:01:55,200 –> 00:01:57,870
انجام دادم من هر سال جدا شدم ght
53
00:01:57,870 –> 00:02:00,420
مانند 2010 11 و غیره و من
54
00:02:00,420 –> 00:02:02,850
شروع به اجرای برخی از موارد اولیه تجزیه و تحلیل متن
55
00:02:02,850 –> 00:02:05,430
کردم، مانند اینکه چه کسی بیشتر صحبت می کند چه کسی
56
00:02:05,430 –> 00:02:07,440
بیشترین مکالمات را شروع می کند در
57
00:02:07,440 –> 00:02:09,479
گروه هایی که بیشترین شکلک ها را انجام می دهند چه
58
00:02:09,479 –> 00:02:11,519
چیزی را کاهش می دهد که مردم چگونه صحبت
59
00:02:11,519 –> 00:02:13,019
می کنند. ما چیزهایی را پیدا می کنیم که
60
00:02:13,019 –> 00:02:14,400
مردم در مورد آن صحبت می کنند، سپس من
61
00:02:14,400 –> 00:02:16,230
چیزهایی به نام مدل های موضوع را پیدا کردم که به
62
00:02:16,230 –> 00:02:18,870
شما امکان می دهد در واقع موضوعات را در متن پیدا کنید
63
00:02:18,870 –> 00:02:20,819
و مانند تابستان
64
00:02:20,819 –> 00:02:22,739
در طول جام جهانی مانند جام جهانی فوتبال
65
00:02:22,739 –> 00:02:24,930
، جام جهانی فوتبال که
66
00:02:24,930 –> 00:02:26,370
در مورد آن صحبت می کردیم، جالب بود. فوتبال کمی بیشتر بود
67
00:02:26,370 –> 00:02:27,730
و
68
00:02:27,730 –> 00:02:28,989
اتاق تابستانی سختی وجود داشت که همه شما به نوعی
69
00:02:28,989 –> 00:02:30,069
از روابط خارج شده اید، آنها در
70
00:02:30,069 –> 00:02:31,540
مورد دختران و چیزهای دیگر صحبت می کنند و
71
00:02:31,540 –> 00:02:34,000
جالب بود که ببینیم چگونه هر سال
72
00:02:34,000 –> 00:02:35,709
در مورد چیزهای مختلف صحبت می کنیم و
73
00:02:35,709 –> 00:02:36,970
این چگونه می شود برو چه کسی بیشترین مکالمات را شروع می کند،
74
00:02:36,970 –> 00:02:38,890
سپس ما شروع به سفر
75
00:02:38,890 –> 00:02:40,120
و حرکت در اطراف کردیم،
76
00:02:40,120 –> 00:02:42,280
بنابراین مناطق زمانی متفاوتی داشتیم، بنابراین
77
00:02:42,280 –> 00:02:44,379
پویایی آن نیز تغییر کرد و این چیزی بود که
78
00:02:44,379 –> 00:02:46,180
در واقع باعث شد من شروع کنم. همه
79
00:02:46,180 –> 00:02:47,799
فقط با پایتون و فایل های متنی است که
80
00:02:47,799 –> 00:02:49,870
برای خودم پست کردم و فکر کردم وای
81
00:02:49,870 –> 00:02:52,660
این عالی است این واقعاً زیبا است من می
82
00:02:52,660 –> 00:02:54,549
توانم چیزهایی در مورد نحوه صحبتم
83
00:02:54,549 –> 00:02:56,049
با دوستانم و نوع کلماتی که
84
00:02:56,049 –> 00:02:59,230
فقط با استفاده از آن استفاده می کنم پیدا کنم اسکریپت های ساده پایتون و
85
00:02:59,230 –> 00:03:01,329
سپس شروع کردم به وارد کردن بیشتر به آن و
86
00:03:01,329 –> 00:03:02,650
کمک به منبع باز و
87
00:03:02,650 –> 00:03:04,180
اینگونه شروع شد، اما بعد
88
00:03:04,180 –> 00:03:05,440
متوجه شدم که چیزهای جالب زیادی وجود دارد
89
00:03:05,440 –> 00:03:07,750
وقتی در مورد شخصی صحبت کردم که چگونه
90
00:03:07,750 –> 00:03:10,690
می تواند بسیار شخصی باشد، برای مثال شما
91
00:03:10,690 –> 00:03:12,849
می توانید همه انواع تحقیقات جالب را انجام دهید من
92
00:03:12,849 –> 00:03:14,079
واقعاً دوست دارم بخوانم و در یک نقطه
93
00:03:14,079 –> 00:03:15,430
مانند ما در حال اجرای نمایشنامه هستیم و به این ترتیب
94
00:03:15,430 –> 00:03:16,900
آبجوی آجری وجود دارد و سپس سعی کردم
95
00:03:16,900 –> 00:03:19,090
اطلاعات بیشتری در مورد تجزیه و تحلیل متن با
96
00:03:19,090 –> 00:03:21,220
شکسپیر پیدا کنم و ظاهراً
97
00:03:21,220 –> 00:03:22,930
این کار توسط تعدادی از افراد انجام شده است. دوستانی که در
98
00:03:22,930 –> 00:03:24,970
UPenn هستند، من معتقدم هر چند در این مورد از من نقل قول نمی
99
00:03:24,970 –> 00:03:25,599
100
00:03:25,599 –> 00:03:27,129
کنند، اما آنها سعی داشتند در مورد
101
00:03:27,129 –> 00:03:29,709
نویسندگان دیگری که احتمالاً می توانستند
102
00:03:29,709 –> 00:03:32,560
با شکسپیر همکاری داشته باشند، بیابند و
103
00:03:32,560 –> 00:03:34,000
این یک مشکل، یک مشکل و یک
104
00:03:34,000 –> 00:03:36,400
مشکل تحقیقاتی یا بیان مجدد در
105
00:03:36,400 –> 00:03:38,079
در مطالعه شکسپیر برای مدت طولانی
106
00:03:38,079 –> 00:03:39,669
که میتوانست مانند افرادی باشد که
107
00:03:39,669 –> 00:03:40,810
شبیه شکسپیر هستند، این حتی واقعی نیست و
108
00:03:40,810 –> 00:03:42,250
همه چیزهای دیوانهکننده وجود دارد، اما بعد این
109
00:03:42,250 –> 00:03:44,139
احتمال قوی وجود داشت که شخص
110
00:03:44,139 –> 00:03:46,030
دیگری واقعاً با
111
00:03:46,030 –> 00:03:47,980
شکسپیر درست مینویسد و آنها متوجه شدند که من
112
00:03:47,980 –> 00:03:49,269
فکر می کنم برای یک دسته از جایی که فکر می
113
00:03:49,269 –> 00:03:51,340
کنم هنری هفتم و هشتم بود و آنها متوجه
114
00:03:51,340 –> 00:03:52,299
شدند که سبک نوشتن بسیار
115
00:03:52,299 –> 00:03:54,280
شبیه به کریستوفر مارلو است که
116
00:03:54,280 –> 00:03:56,650
نویسنده دیگری در همان دوره بود که
117
00:03:56,650 –> 00:03:58,569
با نمایشنامه نویس و نحوه
118
00:03:58,569 –> 00:04:00,430
انجام این کار پیوند داشت. در واقع با ساختن
119
00:04:00,430 –> 00:04:02,560
این گرافهای سبک نویسنده یا
120
00:04:02,560 –> 00:04:04,209
نمودارهای شبکهای بود که در آن سعی میکردند
121
00:04:04,209 –> 00:04:07,000
بفهمند که چه تعداد از مقالاتی که
122
00:04:07,000 –> 00:04:08,709
این نویسندهها از نمایشنامهنویسان
123
00:04:08,709 –> 00:04:10,540
استفاده میکردند در زمانهای مختلف و
124
00:04:10,540 –> 00:04:12,220
نوع کلمات، فراوانی کلمات و
125
00:04:12,220 –> 00:04:14,709
فقط سبک استفاده میکردند. از نویسندگی و آنها متوجه
126
00:04:14,709 –> 00:04:16,389
شدند که با میانگین بالایی میتوانستند این را بیان کنند،
127
00:04:16,389 –> 00:04:18,220
مثل اینکه ما یک تصور قوی داریم که
128
00:04:18,220 –> 00:04:19,839
کریستوفر است و بعد از آن مثل
129
00:04:19,839 –> 00:04:21,820
اینکه منتقدان ادبی واقعی داشتند.
130
00:04:21,820 –> 00:04:23,260
احتمالاً درست می گوییم وای شما پاپ هستید
131
00:04:23,260 –> 00:04:24,789
و آنها این نمودارهای سبک واقعاً منظمی داشتند،
132
00:04:24,789 –> 00:04:26,949
بنابراین می توانید در
133
00:04:26,949 –> 00:04:29,110
ادبیات انگلیسی با تجزیه و تحلیل متن تحقیق
134
00:04:29,110 –> 00:04:30,849
کنید و می توانید کارهای زیادی انجام دهید و این
135
00:04:30,849 –> 00:04:32,949
داستان دیگری است که من معمولاً دوست دارم
136
00:04:32,949 –> 00:04:36,280
در مورد آن صحبت کنم. فوق العاده سرگرم کننده است، اما این
137
00:04:36,280 –> 00:04:39,310
به سال 2016 برمی گردد. درست است، این زمانی است که
138
00:04:39,310 –> 00:04:41,169
فکر می کنم درست قبل از انتخابات 16 آمریکا
139
00:04:41,169 –> 00:04:41,440
140
00:04:41,440 –> 00:04:43,480
بود، بنابراین ترامپ در حال توئیت های زیادی از
141
00:04:43,480 –> 00:04:45,610
دونالد ترامپ بود و یک
142
00:04:45,610 –> 00:04:47,620
پروژه تحقیقاتی جالب یا فقط در مورد یک پروژه
143
00:04:47,620 –> 00:04:50,320
که در حال انجام بود. این بود که ترامپ واقعاً چه زمانی
144
00:04:50,320 –> 00:04:51,640
از تلفن خودش استفاده می کند و
145
00:04:51,640 –> 00:04:54,340
توییت می کند و چه زمانی از لایک استفاده می کند یا
146
00:04:54,340 –> 00:04:56,470
چه زمانی متعلق به خودش است، می دانید تیم روابط عمومی او این کار
147
00:04:56,470 –> 00:04:58,330
را برای او انجام می دهد، چه زمانی آژانس
148
00:04:58,330 –> 00:05:00,580
واقعاً این توییت ها را برای او انجام می دهد و واقعاً چه چیز
149
00:05:00,580 –> 00:05:02,710
جالبی بود که ترامپ به آن عادت داشت. چنین توییتی
150
00:05:02,710 –> 00:05:04,390
در سال 2016 بازگشته است، درست فقط برای
151
00:05:04,390 –> 00:05:06,400
کمی زمینه، بنابراین
152
00:05:06,400 –> 00:05:08,050
او با همان چای رایگان ASSA توییت نمیکرد که
153
00:05:08,050 –> 00:05:10,120
الان بود، اما خیلی جالب بود
154
00:05:10,120 –> 00:05:11,380
زیرا او همچنین از یک
155
00:05:11,380 –> 00:05:14,080
گوشی سامسونگ گلکسی توییت میکرد. درست است پس او
156
00:05:14,080 –> 00:05:15,640
توییت کرده بود g از یک گوشی سامسونگ گلکسی، اما
157
00:05:15,640 –> 00:05:16,990
تعداد زیادی توییت آیفون نیز
158
00:05:16,990 –> 00:05:18,520
در جریان بود، همچنین این توییتهای فوقالعاده خوبی بودند،
159
00:05:18,520 –> 00:05:20,230
مانند تشکر از بازگشت
160
00:05:20,230 –> 00:05:21,460
به رالی و بیایید آمریکا را
161
00:05:21,460 –> 00:05:23,890
عالی کنیم، همه چیزهای مثبت، اما زمانی که او
162
00:05:23,890 –> 00:05:25,810
با این گوشی کهکشانی توییت میکرد. درست است
163
00:05:25,810 –> 00:05:27,820
او فقط فریاد می زد که کلاه هستند
164
00:05:27,820 –> 00:05:29,470
و همه چیز در حال انجام است و
165
00:05:29,470 –> 00:05:31,540
چیزهای جالب دیگری نیز وجود داشت
166
00:05:31,540 –> 00:05:33,610
وقتی ترامپ معمولاً ریتوئیت می کند
167
00:05:33,610 –> 00:05:36,040
دوست ندارد با استفاده از دکمه “او برای رفتن
168
00:05:36,040 –> 00:05:38,440
به مدرسه قدیمی” ریتوئیت کند او هنوز هم من RT انجام می دهم و سپس
169
00:05:38,440 –> 00:05:40,180
مثل دریافت
170
00:05:40,180 –> 00:05:42,520
گیومهها و دوست داشتن توییتهایی مثل آن، و اینها با
171
00:05:42,520 –> 00:05:44,980
یک سری توییتهای کهکشانی بود و
172
00:05:44,980 –> 00:05:46,480
مردم به نوعی الگوی را پیدا میکنند که میتوانید
173
00:05:46,480 –> 00:05:48,070
انجام دهید، مانند تجزیه و تحلیل احساسات، که
174
00:05:48,070 –> 00:05:49,840
من کمی در مورد آن صحبت خواهم کرد.
175
00:05:49,840 –> 00:05:51,400
برای انجام تجزیه و تحلیل احساسات استفاده می شود که
176
00:05:51,400 –> 00:05:53,320
نوعی روش برای شناسایی احساسات در
177
00:05:53,320 –> 00:05:55,510
متن است تا بفهمیم چه زمانی
178
00:05:55,510 –> 00:05:57,220
ترامپ واقعاً خودش توییت می کند یا
179
00:05:57,220 –> 00:05:59,140
شخص دیگری این کار را برای او انجام می دهد و
180
00:05:59,140 –> 00:06:00,400
چیزهای واقعا جالب دیگری وجود داشت.
181
00:06:00,400 –> 00:06:01,720
همه اینها تجزیه و تحلیل متن است، به این صورت که
182
00:06:01,720 –> 00:06:03,280
میتوانید توییتها را خیلی آسان از اینترنت دریافت کنید
183
00:06:03,280 –> 00:06:05,770
و میتوانید توییتهای پایه پایتون را اجرا کنید.
184
00:06:05,770 –> 00:06:07,690
185
00:06:07,690 –> 00:06:09,100
186
00:06:09,100 –> 00:06:11,590
187
00:06:11,590 –> 00:06:12,940
مانند تیم روابط عمومی که این کار را انجام
188
00:06:12,940 –> 00:06:14,740
میداد، بنابراین او فقط متن
189
00:06:14,740 –> 00:06:17,260
معمولاً متنهای عصبانی را میکشید، اما بیشتر متنها را متن میکشید
190
00:06:17,260 –> 00:06:19,510
و در یک نقطه جالبتر شد،
191
00:06:19,510 –> 00:06:21,490
آنها نمیتوانستند بفهمند، زیرا
192
00:06:21,490 –> 00:06:22,840
همه افرادی که این تحلیل متن را انجام میدهند
193
00:06:22,840 –> 00:06:25,390
مطمئن نبودند که شما میدانید واقعاً این کار است. او
194
00:06:25,390 –> 00:06:27,310
این کار را انجام میدهد یا نه و بعد متوجه
195
00:06:27,310 –> 00:06:28,630
شدند کسی است که سعی میکند مستقیماً ترامپ را زیر سوال ببرد و
196
00:06:28,630 –> 00:06:29,020
197
00:06:29,020 –> 00:06:31,210
سعی کند از همان
198
00:06:31,210 –> 00:06:33,250
نوع کلمات و سبک استفاده کند اما
199
00:06:33,250 –> 00:06:35,169
آنقدر عصبانی نباشد که شما واقعاً بتوانید آن را
200
00:06:35,169 –> 00:06:37,330
بفهمید و این پست وبلاگ واقعاً خوب است.
201
00:06:37,330 –> 00:06:38,650
وارد جزئیات می شود و شما
202
00:06:38,650 –> 00:06:40,630
در واقع می توانید این کار را برای خودتان انجام دهید، به
203
00:06:40,630 –> 00:06:42,040
این ترتیب اکنون ترامپ برای خودش یک
204
00:06:42,040 –> 00:06:43,930
آیفون دارد، بنابراین
205
00:06:43,930 –> 00:06:45,820
از زمانی که او به دفتر ریاست جمهوری رسیده است کمی
206
00:06:45,820 –> 00:06:47,410
دشوارتر است، اما این قبل از اینکه
207
00:06:47,410 –> 00:06:49,120
رئیس جمهور شود. بنابراین این روش دیگری است که
208
00:06:49,120 –> 00:06:50,919
شما می توانید تجزیه و تحلیل علوم سیاسی انجام دهید، بنابراین تجزیه و
209
00:06:50,919 –> 00:06:53,080
تحلیل جامعه شناختی نابسامان فقط
210
00:06:53,080 –> 00:06:55,200
با استفاده از پایتون بسیار ساده و
211
00:06:55,200 –> 00:06:58,080
خراش دادن وب و تجزیه و تحلیل متن، بنابراین وقتی
212
00:06:58,080 –> 00:07:00,240
معمولاً می گویم چرا تجزیه و تحلیل متن می توانید
213
00:07:00,240 –> 00:07:03,090
تقریباً هر نوع داده متنی را
214
00:07:03,090 –> 00:07:04,590
که دارید انجام دهید. دادههای ایمیل خود
215
00:07:04,590 –> 00:07:06,150
را دارید، هر نوع دادهای دارید، اگر
216
00:07:06,150 –> 00:07:07,980
نوع خاصی از کتاب را دوست دارید یا چیزی را
217
00:07:07,980 –> 00:07:10,410
که میتوانید تقریباً هر
218
00:07:10,410 –> 00:07:12,720
نوع داده متنی را تجزیه و تحلیل کنید، این امکان را
219
00:07:12,720 –> 00:07:14,370
دارد که شخصی باشد و به نوعی
220
00:07:14,370 –> 00:07:15,930
مانند یک پروژه حیوان خانگی باشد. شما در حال یادگیری
221
00:07:15,930 –> 00:07:17,490
چیزهای جالبی هستید و همچنین در حال غر
222
00:07:17,490 –> 00:07:19,080
زدن هستید و می توانید پست وبلاگ خوبی بنویسید
223
00:07:19,080 –> 00:07:21,240
این بسیار سرگرم کننده بود و
224
00:07:21,240 –> 00:07:22,920
فکر می کنم این یک انگیزه بزرگ حداقل
225
00:07:22,920 –> 00:07:24,690
برای من است و چرا معمولاً دوست دارم به
226
00:07:24,690 –> 00:07:26,730
مردم بگویم چرا من تجزیه و تحلیل متن را انجام دهید، اما به غیر
227
00:07:26,730 –> 00:07:28,380
از آن، البته
228
00:07:28,380 –> 00:07:29,640
چیزهای کاربردی تری نیز دارید،
229
00:07:29,640 –> 00:07:32,550
مثلاً فیلتر ایمیل هرزنامه و نه هرزنامه
230
00:07:32,550 –> 00:07:34,560
نیز تجزیه و تحلیل متن است، یادگیری ماشینی
231
00:07:34,560 –> 00:07:35,730
در متن است، وقتی متوجه می شوم که
232
00:07:35,730 –> 00:07:37,410
چیزی هرزنامه است یا نه. o یک
233
00:07:37,410 –> 00:07:39,210
برنامه کاربردی بزرگ تجاری برای این وجود دارد،
234
00:07:39,210 –> 00:07:41,610
شما دارای ربات های چت هستید، شما یک دنیای کامل
235
00:07:41,610 –> 00:07:44,280
از چیزهایی دارید که احتمالاً می توانید با
236
00:07:44,280 –> 00:07:47,310
تجزیه و تحلیل متن انجام دهید، بنابراین
237
00:07:47,310 –> 00:07:48,840
اینها بخشی از صحبت است که در آن سعی می کنم
238
00:07:48,840 –> 00:07:50,730
به شما بگویم واقعاً باید
239
00:07:50,730 –> 00:07:53,670
تجزیه و تحلیل متن را بررسی کنید، بسیار بسیار منظم است و
240
00:07:53,670 –> 00:07:55,290
این بخشی از انگیزه است که من
241
00:07:55,290 –> 00:07:59,070
اکنون به خوبی ادامه خواهم داد تا چرا پایتون
242
00:07:59,070 –> 00:08:01,110
خوب است چرا پایتون البته این داده های PI است
243
00:08:01,110 –> 00:08:02,820
و من مطمئن هستم که افراد زیادی در اینجا هستند
244
00:08:02,820 –> 00:08:04,440
میدانید چرا باید از پایتون استفاده کنید، اما
245
00:08:04,440 –> 00:08:06,510
بهترین
246
00:08:06,510 –> 00:08:08,550
دلیل این است که این یک زبان واقعاً خوب برای خراش دادن متن
247
00:08:08,550 –> 00:08:10,800
است، مانند افرادی که قبلاً از Perl
248
00:08:10,800 –> 00:08:12,570
برای خراش دادن متن استفاده میکردند یا میدانید فقط
249
00:08:12,570 –> 00:08:14,790
سعی کنید اسکریپتهایی را برای زبان برنامهنویسی بدانید
250
00:08:14,790 –> 00:08:16,740
اما پایتونها واقعاً نگه دارند.
251
00:08:16,740 –> 00:08:18,480
اکنون مسلما بهترین
252
00:08:18,480 –> 00:08:21,060
زبان برنامه نویسی
253
00:08:21,060 –> 00:08:22,620
254
00:08:22,620 –> 00:08:24,690
255
00:08:24,690 –> 00:08:26,820
256
00:08:26,820 –> 00:08:28,230
257
00:08:28,230 –> 00:08:29,340
است. به f تمایل دارد پایین دیگری
258
00:08:29,340 –> 00:08:32,429
واقعاً این یک اکوسیستم بسیار قوی است، من
259
00:08:32,429 –> 00:08:34,289
واقعاً نیازی به فروش اکوسیستم
260
00:08:34,289 –> 00:08:35,880
به چند نفر ندارم زیرا همه
261
00:08:35,880 –> 00:08:38,700
شما میدانید که پایتون
262
00:08:38,700 –> 00:08:41,549
در این زمینه چه نامی دارد، اما برای تجزیه و تحلیل متن،
263
00:08:41,549 –> 00:08:42,900
به خصوص زمانی که شما با آن مقایسه میکنید.
264
00:08:42,900 –> 00:08:45,030
موارد دیگر برای مثال اگر می خواهید
265
00:08:45,030 –> 00:08:46,380
اکثر مردم احتمالاً دوست داشته باشند دوست دارند
266
00:08:46,380 –> 00:08:48,210
که پایتون این کار را انجام دهد در این
267
00:08:48,210 –> 00:08:50,100
مورد، من فکر می کنم پایتون واقعاً برنده است زیرا
268
00:08:50,100 –> 00:08:51,990
برای تجزیه و تحلیل متن عالی است
269
00:08:51,990 –> 00:08:54,270
کتابخانه های زیادی نیز وجود دارد که
270
00:08:54,270 –> 00:08:56,850
واقعاً برای آنها خوب است. تجزیه و تحلیل متن شما
271
00:08:56,850 –> 00:08:59,190
کتابخانه های درجه صنعتی دارید که من
272
00:08:59,190 –> 00:09:00,660
دوباره در مورد آنها صحبت خواهم کرد نه
273
00:09:00,660 –> 00:09:02,400
اینکه فقط بگویم وجود دارد، بلکه
274
00:09:02,400 –> 00:09:05,190
وجود دارد و بنابراین ترکیبی از این
275
00:09:05,190 –> 00:09:07,200
واقعیت است که یک اکوسیستم واقعاً خوب وجود دارد
276
00:09:07,200 –> 00:09:08,250
به خصوص کل که شما عدد کامل را می شناسید.
277
00:09:08,250 –> 00:09:08,670
278
00:09:08,670 –> 00:09:10,680
پشته و پشته داده های پای به
279
00:09:10,680 –> 00:09:12,960
طور کلی واقعاً بسیار مفید است و شما دارید.
280
00:09:12,960 –> 00:09:14,610
منظورم چیزهایی مانند scikit-learn من
281
00:09:14,610 –> 00:09:16,350
نگاه کردن به طبقه بندی متن
282
00:09:16,350 –> 00:09:18,360
همه این موارد را دارد جنسن که من
283
00:09:18,360 –> 00:09:20,370
هم واقعاً طرفدار زیادی هستم از همه
284
00:09:20,370 –> 00:09:22,020
اینها واقعا ابزارهای بسیار خوبی
285
00:09:22,020 –> 00:09:24,510
هستند که استفاده از آنها در پایتون بسیار آسان است،
286
00:09:24,510 –> 00:09:26,310
من نمی گویم که سایر
287
00:09:26,310 –> 00:09:27,840
زبان های برنامه نویسی این موارد
288
00:09:27,840 –> 00:09:29,910
را ندارند، اما اکوسیستم
289
00:09:29,910 –> 00:09:33,660
به خوبی در پایتون به هم متصل می شود، اگر و اگر
290
00:09:33,660 –> 00:09:34,920
دارید هر سوالی
291
00:09:34,920 –> 00:09:36,270
داشتید می توانید در این بین صحبت های من را قطع کنید، دستان خود را
292
00:09:36,270 –> 00:09:40,440
بالا بیاورید، هیچ مشکلی وجود ندارد جالب است
293
00:09:40,440 –> 00:09:43,140
قسمت بعدی این است که داده هایی که
294
00:09:43,140 –> 00:09:44,700
قبلاً در مورد آن صحبت کردم کجا هستند،
295
00:09:44,700 –> 00:09:46,920
فکر می کنم وقتی در مورد کل صحبت کردم
296
00:09:46,920 –> 00:09:48,720
همه منابع داده و سه مثال همانطور
297
00:09:48,720 –> 00:09:50,640
که قبلاً در مورد توییتر و
298
00:09:50,640 –> 00:09:52,770
پیامهای شخصی خودم صحبت کردهام و البته
299
00:09:52,770 –> 00:09:54,440
شما کتابهایی دارید که همه آنها را به طور قانونی خریداری
300
00:09:54,440 –> 00:09:58,260
کردهاید، بنابراین شما یک دسته کامل از منابع داده بسیار جالب دارید،
301
00:09:58,260 –> 00:10:00,450
اما میتوانید یک
302
00:10:00,450 –> 00:10:02,010
قدم جلوتر بروید و به دنبال
303
00:10:02,010 –> 00:10:04,290
دادههای واقعا ساختاریافته باشید. اینترنت
304
00:10:04,290 –> 00:10:06,180
یکی از منابع مورد علاقه شخصی من
305
00:10:06,180 –> 00:10:08,550
reddit است. من زمان زیادی را صرف reddit می کنم،
306
00:10:08,550 –> 00:10:10,530
اما جدا از زمان شخصی خود
307
00:10:10,530 –> 00:10:13,410
که در reddit صرف می کنم، فقط برای
308
00:10:13,410 –> 00:10:16,230
برخی زمینه ها وجود دارد reddit یک وب سایت ورزشی جدید است
309
00:10:16,230 –> 00:10:18,060
که در آن افراد مقالاتی را
310
00:10:18,060 –> 00:10:20,430
بر اساس علایق خود پست کنید، بنابراین شما
311
00:10:20,430 –> 00:10:23,730
برای ورزش های سیاسی زیرمجموعه هایی داشته باشید، همه
312
00:10:23,730 –> 00:10:25,500
انواع ورزش هایی که واقعاً در آن شرکت می کنند، دارای
313
00:10:25,500 –> 00:10:27,810
زیرمجموعه های بسیار مبهم هستند، همچنین
314
00:10:27,810 –> 00:10:29,850
سفرهای غذایی دسته ای از
315
00:10:29,850 –> 00:10:31,650
آن ها وجود دارد، اما دلیلی که من در مورد آن صحبت می کنم این است
316
00:10:31,650 –> 00:10:33,900
که تا حد زیادی این است. متنی منظورم این است که شما
317
00:10:33,900 –> 00:10:35,430
تصاویری دارید که فقط یک دسته کلی از الگوهای رفتاری دارند،
318
00:10:35,430 –> 00:10:38,430
اما متنی بزرگی برای
319
00:10:38,430 –> 00:10:40,680
Reddit وجود دارد و همچنین به این سوال پاسخ داده شده است
320
00:10:40,680 –> 00:10:43,290
که دقیقاً به چه معناست که شما
321
00:10:43,290 –> 00:10:44,880
فقط می توانید این را حذف کنید و می
322
00:10:44,880 –> 00:10:46,680
توانید نحوه صحبت افراد با هر یک را مدل کنید. دیگر
323
00:10:46,680 –> 00:10:48,840
واقعاً خوب شما دارای مهرهای زمانی نیز در
324
00:10:48,840 –> 00:10:51,510
قالب JSON واقعاً منظم هستید، منظورم این است که این
325
00:10:51,510 –> 00:10:53,490
فقط یک مثال است که به درستی خوانده شده است، فقط یک
326
00:10:53,490 –> 00:10:54,000
مثال است
327
00:10:54,000 –> 00:10:55,650
که شما همچنین توییتر دارید و
328
00:10:55,650 –> 00:10:57,900
فیس بوک دارید، اگر خیلی دوست دارید از آن استفاده کنید،
329
00:10:57,900 –> 00:10:59,580
پست وبلاگ دارید، همچنین می توانید به معنای واقعی کلمه فقط
330
00:10:59,580 –> 00:11:02,100
Scrape the Internet ابزارهایی مانند
331
00:11:02,100 –> 00:11:02,970
beautifulsoup
332
00:11:02,970 –> 00:11:04,470
وجود دارد که به شما امکان می دهد در واقع به
333
00:11:04,470 –> 00:11:06,600
فایل های HTML تمیز بروید و می توانید دوباره از Python
334
00:11:06,600 –> 00:11:09,330
به عنوان موتوری برای خراش
335
00:11:09,330 –> 00:11:10,890
دادن اینترنت استفاده کنید. به معنای واقعی کلمه
336
00:11:10,890 –> 00:11:12,960
عظیم ترین منبع متنی که اکنون در اختیار
337
00:11:12,960 –> 00:11:14,640
دارید، همه چیزهای بیشتری
338
00:11:14,640 –> 00:11:16,410
در اختیار دارید که تا به حال در مورد آن صحبت کردم، مانند
339
00:11:16,410 –> 00:11:18,030
منابع داده واقعی، درست به این معنا که
340
00:11:18,030 –> 00:11:20,040
مردم صحبت می کنند و به اشتراک می گذارند و می توانید
341
00:11:20,040 –> 00:11:22,209
رفتار انسان را در زمانی که می
342
00:11:22,209 –> 00:11:23,800
توانید دوست داشته باشید، مدل کنید. قبلاً گفتم مثل دانلود
343
00:11:23,800 –> 00:11:26,019
کتابها، اما فقط کتابها نیستند که
344
00:11:26,019 –> 00:11:27,970
میتوانید آنها را تجزیه و تحلیل کنید،
345
00:11:27,970 –> 00:11:30,939
مجموعههای دادههای دستهبندی متن و خوشهبندی
346
00:11:30,939 –> 00:11:33,220
نیز بزرگ هستند، مانند بخش بزرگی از
347
00:11:33,220 –> 00:11:35,139
یادگیری ماشینی و متن، منظورم این است که
348
00:11:35,139 –> 00:11:36,459
یادگیری ماشین به طور کلی فقط
349
00:11:36,459 –> 00:11:38,529
تجزیه و تحلیل متنی است. مجموعه داده های
350
00:11:38,529 –> 00:11:40,149
موجود در هر وب سایتی مانند حتی
351
00:11:40,149 –> 00:11:41,649
caddel دارای یک دسته کامل از
352
00:11:41,649 –> 00:11:43,569
تجزیه و تحلیل متن است، یکی از چیزهایی مانند
353
00:11:43,569 –> 00:11:45,639
تجزیه و تحلیل بررسی فیلم تجزیه و تحلیل احساسات،
354
00:11:45,639 –> 00:11:48,069
مجموعه های داده تمیز زیادی وجود دارد
355
00:11:48,069 –> 00:11:48,999
که در آنها لازم نیست دست خود را
356
00:11:48,999 –> 00:11:50,860
کثیف کنید، اما اگر می خواهید برای
357
00:11:50,860 –> 00:11:53,230
کثیف کردن دستهایتان، دادههای متنی زیادی وجود دارد،
358
00:11:53,230 –> 00:11:55,480
احتمالاً تعداد زیادی از آنها
359
00:11:55,480 –> 00:11:57,309
هستند، فقط زمان کافی برای
360
00:11:57,309 –> 00:11:59,230
تجزیه و تحلیل همه آنها وجود ندارد، اما آنچه واقعاً جالب
361
00:11:59,230 –> 00:12:01,809
است این است که واقعاً پیدا کردن این دادههای متنی واقعاً بسیار آسان است،
362
00:12:01,809 –> 00:12:04,779
مطمئنم که
363
00:12:04,779 –> 00:12:06,610
حتی در لپتاپهای شما هم
364
00:12:06,610 –> 00:12:08,319
نوعی داده متنی و فایلهای متنی
365
00:12:08,319 –> 00:12:10,149
در اطراف شما وجود دارد و دریافت آن واقعاً آسان است،
366
00:12:10,149 –> 00:12:14,019
بنابراین فکر میکنم
367
00:12:14,019 –> 00:12:15,850
منظورم این است که در مورد اینکه داده ها کجا هستند صحبت کنید
368
00:12:15,850 –> 00:12:17,860
من مانند سایر موارد دیگر
369
00:12:17,860 –> 00:12:19,149
یادگیری ماشینی سنتی تر هستم، مانند اینکه من
370
00:12:19,149 –> 00:12:20,949
این شبکه عصبی بیزی واقعاً جالب را پرتاب خواهم کرد
371
00:12:20,949 –> 00:12:22,389
زیرا نمی دانید
372
00:12:22,389 –> 00:12:24,699
دقیقاً چه چیزی را تجزیه و تحلیل می کردید درست به
373
00:12:24,699 –> 00:12:26,649
نظر نمی رسد اما فکر می کنم
374
00:12:26,649 –> 00:12:28,779
داده های متنی به نوعی این را می شکند و این
375
00:12:28,779 –> 00:12:32,129
چیزی است که من واقعاً از پیش پردازش آن لذت می
376
00:12:32,790 –> 00:12:35,049
برم تا کنون من
377
00:12:35,049 –> 00:12:37,199
فقط به طور کلی در مورد
378
00:12:37,199 –> 00:12:39,879
تجزیه و تحلیل متن و پایتون و در مورد اینکه چرا
379
00:12:39,879 –> 00:12:42,639
فکر می کنم هیجان انگیز است صحبت کرده ام و اکنون من
380
00:12:42,639 –> 00:12:44,740
در
381
00:12:44,740 –> 00:12:47,679
مورد برخی از مشکلاتی
382
00:12:47,679 –> 00:12:50,559
که هنگام انجام تجزیه و تحلیل داده های متنی با آن مواجه می شوید، به جزئیات کمی می پردازم و در مورد
383
00:12:50,559 –> 00:12:52,389
چه چیزهایی باید مراقب باشید، بنابراین
384
00:12:52,389 –> 00:12:54,040
منظورم این است که اکثر مردم در
385
00:12:54,040 –> 00:12:55,990
مورد زباله در زباله شنیده
386
00:12:55,990 –> 00:12:57,519
بودند. قرار است
387
00:12:57,519 –> 00:12:58,809
اگر دادههای خیلی بدی ارائه دهید، نتایج بسیار بدی خواهید
388
00:12:58,809 –> 00:13:01,569
گرفت و من فکر میکنم تجزیه و تحلیل متن
389
00:13:01,569 –> 00:13:03,670
بهویژه این اتفاق میافتد
390
00:13:03,670 –> 00:13:06,730
و پیشپردازش مهمترین
391
00:13:06,730 –> 00:13:08,529
بخش تجزیه و تحلیل متن است، منظورم این است که
392
00:13:08,529 –> 00:13:10,179
احتمالاً مهمترین بخش از هر
393
00:13:10,179 –> 00:13:12,339
نوع تجزیه و تحلیل داده هایی که شما انجام می دهید، اما
394
00:13:12,339 –> 00:13:13,869
در تجزیه و تحلیل متن اهمیت بیشتری پیدا می کند،
395
00:13:13,869 –> 00:13:16,540
زیرا به خصوص
396
00:13:16,540 –> 00:13:19,569
بر اساس زمینه،
397
00:13:19,569 –> 00:13:23,230
اگر در مورد مدل های موضوعی صحبت می کنید
398
00:13:23,230 –> 00:13:25,089
که من به طور خلاصه قبل از
399
00:13:25,089 –> 00:13:26,619
آن صحبت می کنید، مثالی برای شما می زنم. کمی
400
00:13:26,619 –> 00:13:28,839
در مورد اینکه این مدلهای موضوعی دقیقاً چه
401
00:13:28,839 –> 00:13:31,089
هستند، بنابراین مدلهای گرافیکی احتمالی وجود دارد،
402
00:13:31,089 –> 00:13:32,550
منظورم این است که
403
00:13:32,550 –> 00:13:34,529
برای آنها مانند توضیحات عید علوم ریاضی است،
404
00:13:34,529 –> 00:13:36,600
اما اینها این
405
00:13:36,600 –> 00:13:38,550
مدلهای گرافیکی احتمالی بودند – که واقعاً جالب
406
00:13:38,550 –> 00:13:40,350
است، اگر دادههای متنی بدون ساختار زیادی دارید،
407
00:13:40,350 –> 00:13:43,200
بیایید به شما فکر کنیم.
408
00:13:43,200 –> 00:13:44,399
برای کارگزاران روزنامه کار میکنید، شما
409
00:13:44,399 –> 00:13:46,529
تعداد زیادی روزنامه دارید، مانند دیجیتال،
410
00:13:46,529 –> 00:13:47,970
و میخواهید
411
00:13:47,970 –> 00:13:49,980
بفهمید که این روزنامهها در
412
00:13:49,980 –> 00:13:52,980
سال 2000 2014 یا چه چیزی هستند. همیشه و میتوانید از
413
00:13:52,980 –> 00:13:54,959
مدلسازی موضوع استفاده کنید و پنج موضوع بگویید که
414
00:13:54,959 –> 00:13:57,029
انتظار دارید پنج مبحث را ببینید و این
415
00:13:57,029 –> 00:13:58,350
الگوریتم یادگیری ماشینی
416
00:13:58,350 –> 00:14:00,540
دادههای متنی شما را بررسی میکند و
417
00:14:00,540 –> 00:14:02,339
با پنج کلمه توزیعی که
418
00:14:02,339 –> 00:14:03,750
موضوعاتی را به اشتراک میگذارد مانند
419
00:14:03,750 –> 00:14:06,120
آبوهوای سیاسی ورزشی بدون ورودی ارائه میشود.
420
00:14:06,120 –> 00:14:08,100
و شما فقط دادههای متنی خام خود را میدهید،
421
00:14:08,100 –> 00:14:10,890
اکنون مسئله این است که اگر این دادهها به
422
00:14:10,890 –> 00:14:13,350
درستی پاک نشده باشند، یک
423
00:14:13,350 –> 00:14:15,180
موضوع کامل خواهید داشت، باید فقط با
424
00:14:15,180 –> 00:14:17,459
ضمایری باشد که کاملاً بیفایده هستند،
425
00:14:17,459 –> 00:14:19,800
میدانید که اینها یک موضوع هستند، اما یا
426
00:14:19,800 –> 00:14:21,630
آنجا اعداد زیادی هستند که این
427
00:14:21,630 –> 00:14:23,310
موارد ممکن است واقعاً مهم نباشند و
428
00:14:23,310 –> 00:14:25,680
من هیچ اطلاعاتی اضافه نمیکنم، اما در برخی
429
00:14:25,680 –> 00:14:27,329
موارد
430
00:14:27,329 –> 00:14:29,190
اگر میخواهید یک ربات را مدل کنید، به عنوان مثال
431
00:14:29,190 –> 00:14:30,870
برای انجام یک ربات چت، این ممکن است واقعاً مهم باشد. میخواستم
432
00:14:30,870 –> 00:14:33,300
در مورد ضمایر بدانم، منظورم این است که بر اساس
433
00:14:33,300 –> 00:14:34,950
زمینه شما، پیشپردازش شما
434
00:14:34,950 –> 00:14:36,990
بسیار متفاوت خواهد بود و
435
00:14:36,990 –> 00:14:38,430
این بخش بسیار مهمی از
436
00:14:38,430 –> 00:14:42,120
تجزیه و تحلیل متن است، بنابراین شما بستههای زیادی دارید
437
00:14:42,120 –> 00:14:44,130
که ما هزینههای زیادی را صرف میکنیم. زمان فقط
438
00:14:44,130 –> 00:14:47,310
روی قسمت پیش پردازش یا
439
00:14:47,310 –> 00:14:49,260
قسمت تمیز کردن متن تمرکز کنید و من دوباره
440
00:14:49,260 –> 00:14:51,240
به طور خلاصه در مورد آن صحبت خواهم
441
00:14:51,240 –> 00:14:52,380
کرد که زیاد نگفتم که
442
00:14:52,380 –> 00:14:53,579
صحبت خواهم کرد، اما قول می دهم که
443
00:14:53,579 –> 00:14:55,649
به آنجا خواهیم رسید، بنابراین کمی
444
00:14:55,649 –> 00:14:57,149
در مورد پیش پردازش می دانم که این
445
00:14:57,149 –> 00:14:59,040
در همه انواع متن مهم است، منظورم
446
00:14:59,040 –> 00:15:00,600
همه انواع تجزیه و تحلیل داده ها است، اما فکر می کنم
447
00:15:00,600 –> 00:15:05,070
در تجزیه و تحلیل متن بسیار بسیار مهم می شود،
448
00:15:05,070 –> 00:15:09,000
یک نکته مختصر درباره همه این موارد
449
00:15:09,000 –> 00:15:10,500
که در اینجا نیز در مورد
450
00:15:10,500 –> 00:15:12,329
آن صحبت خواهم کرد.
451
00:15:12,329 –> 00:15:14,640
452
00:15:14,640 –> 00:15:17,279
من این آموزش را دیروز انجام دادم که
453
00:15:17,279 –> 00:15:19,620
می توانید ویدیوی آن را مشاهده
454
00:15:19,620 –> 00:15:21,750
کنید و همچنین لینک ها را در اختیار شما قرار خواهم داد، بنابراین آنچه که
455
00:15:21,750 –> 00:15:23,520
می خواهم بگویم در حال حاضر این است که شما نمی توانید آن
456
00:15:23,520 –> 00:15:25,140
را مشاهده کنید. باید بیش از حد نگران
457
00:15:25,140 –> 00:15:27,240
نام یا جزئیات کتابخانه باشید. من فقط میخواهم به
458
00:15:27,240 –> 00:15:29,070
شما بفهمم که دقیقاً این فیلد چیست
459
00:15:29,070 –> 00:15:31,230
و برای جزئیاتی مانند کدی که
460
00:15:31,230 –> 00:15:32,730
میخواهید اجرا کنید چگونه
461
00:15:32,730 –> 00:15:34,050
آن را انجام میدهید و همه دادههای متنی
462
00:15:34,050 –> 00:15:35,730
خراش دادن همه چیزهایی که وجود دارد آموزش هایی وجود دارد
463
00:15:35,730 –> 00:15:37,230
که من نوشتم که
464
00:15:37,230 –> 00:15:38,930
به شما پیوند خواهم داد یا می توانید
465
00:15:38,930 –> 00:15:42,420
بعد از این فقط آنها را در YouTube تماشا کنید، این فقط برای
466
00:15:42,420 –> 00:15:43,620
یک زمینه است قبل از اینکه ادامه دهم، زیرا
467
00:15:43,620 –> 00:15:45,209
صحبت های بیشتری در مورد کتابخانه ها
468
00:15:45,209 –> 00:15:45,690
یا
469
00:15:45,690 –> 00:15:49,200
کدهایی که در راه است وجود خواهد داشت، بنابراین یادگیری ماشینی در
470
00:15:49,200 –> 00:15:52,800
متن چیزهایی که قبلاً در
471
00:15:52,800 –> 00:15:54,720
مورد آنها صحبت کردم مانند مدلهای موضوعی،
472
00:15:54,720 –> 00:15:57,560
آنها از نظر فنی الگوریتمهای یادگیری ماشینی
473
00:15:57,560 –> 00:16:00,390
هستند که بر اساس متن درست هستند
474
00:16:00,390 –> 00:16:01,710
و شما کتابخانههای زیادی دارید که
475
00:16:01,710 –> 00:16:03,090
در حال انجام یادگیری scikit هستند، فکر میکنم
476
00:16:03,090 –> 00:16:04,890
احتمالاً محبوبترین
477
00:16:04,890 –> 00:16:06,480
کتابخانه یادگیری ماشین است. حداقل برای
478
00:16:06,480 –> 00:16:08,670
یادگیری ماشینی وانیلی بیشتر شما و یادگیری روانی
479
00:16:08,670 –> 00:16:10,830
، مدلسازی موضوعی دارد و
480
00:16:10,830 –> 00:16:13,500
دارای طبقهبندی متن است،
481
00:16:13,500 –> 00:16:15,240
قبلاً در مورد جایی که طبقهبندی متن
482
00:16:15,240 –> 00:16:18,060
ممکن است مفید باشد صحبت کردم، مانند
483
00:16:18,060 –> 00:16:20,760
چیزی که هرزنامه نیست، احتمالاً یک نمونه بسیار محبوب
484
00:16:20,760 –> 00:16:23,010
از یادگیری ماشینی در متن است. یک
485
00:16:23,010 –> 00:16:25,260
مثال بسیار کلاسیک، یک ریتم سالگا
486
00:16:25,260 –> 00:16:27,360
به نام بیز ساده لوح گاوسی وجود دارد که به نوعی تشخیص می
487
00:16:27,360 –> 00:16:29,670
دهد چه کلماتی
488
00:16:29,670 –> 00:16:32,160
بیشتر در یک زمینه خاص ظاهر می شوند و تصمیم می گیرد
489
00:16:32,160 –> 00:16:34,680
که آیا این در آن کلاس است یا نه، به عنوان مثال
490
00:16:34,680 –> 00:16:37,260
در زمینه هرزنامه یا غیر هرزنامه، شما
491
00:16:37,260 –> 00:16:40,370
می خواهید کلماتی مانند پیشنهاد پول
492
00:16:40,370 –> 00:16:42,510
انبوه یا هر چیز دیگری داشته باشید و این
493
00:16:42,510 –> 00:16:44,220
نوع کلمات را دارید که احتمالاً هرزنامه هستند و
494
00:16:44,220 –> 00:16:45,900
سپس یک سری کلمات دیگر خواهید داشت.
495
00:16:45,900 –> 00:16:47,940
که احتمالاً هرزنامه نیستند، بنابراین بر
496
00:16:47,940 –> 00:16:50,130
اساس کلماتی که تمایل دارند در ایمیلهای هرزنامه ظاهر شوند
497
00:16:50,130 –> 00:16:52,860
و چه چیز دیگری طبقهبندی کننده خود را خواهید ساخت.
498
00:16:52,860 –> 00:16:54,270
499
00:16:54,270 –> 00:16:56,280
500
00:16:56,280 –> 00:16:58,020
501
00:16:58,020 –> 00:16:59,880
ساده، رویکرد کمی بیشتر
502
00:16:59,880 –> 00:17:01,320
به مدل احتمالاتی وجود دارد، بنابراین میفهمد
503
00:17:01,320 –> 00:17:03,210
که احتمال اینکه این کلمه در
504
00:17:03,210 –> 00:17:05,550
اینجا باشد یا نه چقدر است و این کار را انجام میدهد، بنابراین این
505
00:17:05,550 –> 00:17:07,589
یادگیری ماشینی در متن است، این
506
00:17:07,589 –> 00:17:09,720
نمونهای از نحوه انجام آن و این
507
00:17:09,720 –> 00:17:11,579
الگوریتمها و این است. خیلی وقت پیش بود،
508
00:17:11,579 –> 00:17:12,990
منظورم این است که شما فیلترهای هرزنامه را
509
00:17:12,990 –> 00:17:14,910
برای مدت طولانی در اطراف دارید، در حالی که همه چیز در
510
00:17:14,910 –> 00:17:17,010
حال حاضر بسیار پیچیده تر شده است، بنابراین آنچه که من
511
00:17:17,010 –> 00:17:18,180
در مورد آن صحبت خواهم کرد، به عنوان مثال، شما
512
00:17:18,180 –> 00:17:19,829
تکمیل متن سطح دو را نیز دارید
513
00:17:19,829 –> 00:17:21,540
که نمونه دیگری از چگونه
514
00:17:21,540 –> 00:17:23,480
دستگاه شما ل اگر از PI mc3 استفاده میکنید، ظرفیتهای پیشبینی متن
515
00:17:23,480 –> 00:17:27,030
در مدلهای مخصوص
516
00:17:27,030 –> 00:17:29,730
متن به دست
517
00:17:29,730 –> 00:17:31,110
آورید، اما بهترین بخش در این مورد این است که
518
00:17:31,110 –> 00:17:33,270
همه اینها دوباره در
519
00:17:33,270 –> 00:17:35,010
پشته دادههای PI و درست در همه
520
00:17:35,010 –> 00:17:36,780
مدلهای بیزی شما موجود است.
521
00:17:36,780 –> 00:17:38,460
چیزی را پیشبینی کنید یا اگر فقط یک
522
00:17:38,460 –> 00:17:40,020
طبقهبندیکننده ساده میسازید، این است که من میتوانم یاد بگیرم
523
00:17:40,020 –> 00:17:43,170
همه اینها در پایتون وجود دارند، انجام این کار بسیار آسان است،
524
00:17:43,170 –> 00:17:48,840
همچنین این wordham است، بنابراین
525
00:17:48,840 –> 00:17:50,040
این همان جلساتی است که
526
00:17:50,040 –> 00:17:51,330
شما در آنجا نوشتهاید و من میخواهم آن را انجام دهم.
527
00:17:51,330 –> 00:17:53,070
کمی در مورد جاسازی کلمات صحبت کنید،
528
00:17:53,070 –> 00:17:55,050
این به نوعی بر اساس آنچه
529
00:17:55,050 –> 00:17:57,540
قبلاً در مورد یادگیری ماشینی در
530
00:17:57,540 –> 00:17:58,990
متن صحبت کردم، ایجاد می شود، بنابراین عروسی های عجیب و غریب
531
00:17:58,990 –> 00:18:00,340
نوعی یادگیری ماشینی
532
00:18:00,340 –> 00:18:04,390
در جاسازی کلمات متنی هستند،
533
00:18:04,390 –> 00:18:06,640
مشکل بزرگ در تجزیه و تحلیل متن این است که درست است که
534
00:18:06,640 –> 00:18:09,970
اکنون ما همچنان زمینه را از دست میدهیم، چرا این
535
00:18:09,970 –> 00:18:11,950
اتفاق میافتد، به عنوان مثال، من به شما مثال میزنم
536
00:18:11,950 –> 00:18:13,809
که کل هرزنامه به درستی هرزنامه
537
00:18:13,809 –> 00:18:15,760
نیست، بنابراین آنچه در
538
00:18:15,760 –> 00:18:17,350
زیر سرپوش میگذرد این است که ما شمارش میکنیم که
539
00:18:17,350 –> 00:18:20,110
چند کلمه در سند ظاهر میشود. بنابراین اگر
540
00:18:20,110 –> 00:18:21,760
قرعه کشی جوایز را داشته
541
00:18:21,760 –> 00:18:23,650
باشید، با شنیدن همان نامه،
542
00:18:23,650 –> 00:18:24,940
این کلمات را می شمارید و فکر می کنید اوه،
543
00:18:24,940 –> 00:18:27,130
احتمالاً به هرزنامه می رود، اما
544
00:18:27,130 –> 00:18:28,600
زمینه مهم است که ما انسان ها هستیم، ما فقط آن ها را نمی
545
00:18:28,600 –> 00:18:30,880
شماریم. واحد پول کلمات اگر
546
00:18:30,880 –> 00:18:32,350
مردم به شما بگویند شما آنها را
547
00:18:32,350 –> 00:18:34,360
بر اساس کلمات اطراف خود می فهمید درست است
548
00:18:34,360 –> 00:18:36,040
که بخش بسیار مهمی از این موضوع است،
549
00:18:36,040 –> 00:18:38,980
بنابراین اکثر الگوریتم های یادگیری ماشینی
550
00:18:38,980 –> 00:18:41,590
تا زمانی خاص مانند اوایل سال
551
00:18:41,590 –> 00:18:44,140
2010 فاقد این
552
00:18:44,140 –> 00:18:45,820
درک متنی بودند، منظورم این است که تلاش هایی
553
00:18:45,820 –> 00:18:46,870
برای شما انجام شده است. بدانید سعی کنید و آن را با
554
00:18:46,870 –> 00:18:48,190
نگاه کردن به کلماتی که در اطراف چه نوع کلماتی ظاهر میشوند درک کنید
555
00:18:48,190 –> 00:18:49,690
و شما
556
00:18:49,690 –> 00:18:51,040
به آنجا میروید، اینطور نیست که
557
00:18:51,040 –> 00:18:52,960
کاملاً فهرست زمینه باشد، اما به
558
00:18:52,960 –> 00:18:55,090
نوعی ضعیف بود، اما پس از آن این
559
00:18:55,090 –> 00:18:56,650
الگوریتم یادگیری ماشینی واقعاً منظم وجود داشت که
560
00:18:56,650 –> 00:18:59,350
کلمه به نام دارد. عملی که در سال 2013 منتشر
561
00:18:59,350 –> 00:19:01,809
شد، من فکر میکنم در 15 سالگی توسط این
562
00:19:01,809 –> 00:19:03,550
افراد در Google در 13 سالگی بود و
563
00:19:03,550 –> 00:19:06,160
واقعاً کاری که انجام داد بسیار زیبا بود، زیرا
564
00:19:06,160 –> 00:19:08,260
واقعاً درک زمینهای
565
00:19:08,260 –> 00:19:11,410
را به شما میداد. حالا چه کلماتی برای
566
00:19:11,410 –> 00:19:12,730
شما وجود دارد که بفهمید چرا این واقعاً
567
00:19:12,730 –> 00:19:14,940
جالب است، باید به طور خلاصه در مورد اینکه چگونه
568
00:19:14,940 –> 00:19:19,150
رایانهها خود متن را درک میکنند صحبت کنم،
569
00:19:19,150 –> 00:19:20,770
روشی که رایانهها متن را
570
00:19:20,770 –> 00:19:22,300
فقط از طریق کلمات
571
00:19:22,300 –> 00:19:23,530
نمیفهمند، بنابراین نمیداند چه کلماتی هستند، بلکه فقط
572
00:19:23,530 –> 00:19:25,600
میداند که چه اعدادی هستند.
573
00:19:25,600 –> 00:19:26,740
کاری که هنگام ساختن این نوع
574
00:19:26,740 –> 00:19:28,929
الگوریتمهای یادگیری ماشین انجام میدهید این است که
575
00:19:28,929 –> 00:19:31,330
هر کلمه را به یک عدد نگاشت میکنید و
576
00:19:31,330 –> 00:19:33,070
سپس این اعداد را به رایانه میدهید
577
00:19:33,070 –> 00:19:35,080
و سپس آن را میفهمد یا این
578
00:19:35,080 –> 00:19:37,150
مدلها را بر اساس اعداد میسازد و این
579
00:19:37,150 –> 00:19:39,160
اعداد نشان داده میشوند. به عنوان رئیس،
580
00:19:39,160 –> 00:19:41,140
آنها بردار هستند زیرا آنها یک
581
00:19:41,140 –> 00:19:42,850
ساختار ریاضی هستند که به شما می گویند
582
00:19:42,850 –> 00:19:45,100
آیا کلمات خاصی در یک سند خاص ظاهر می شوند
583
00:19:45,100 –> 00:19:46,900
یا نه و سپس شما
584
00:19:46,900 –> 00:19:49,600
بر اساس آن تصمیم می گیرید حالا چه
585
00:19:49,600 –> 00:19:52,030
کلمه ای برای تکان دادن انجام
586
00:19:52,030 –> 00:19:54,910
می شود. بردار
587
00:19:54,910 –> 00:19:58,300
بنابراین درک فتیله ای از
588
00:19:58,300 –> 00:20:00,760
کلمات در یک فضای برداری ایجاد کرد، بنابراین
589
00:20:00,760 –> 00:20:03,730
کلمات را از یک کلمه به یک بردار تبدیل کرد
590
00:20:03,730 –> 00:20:06,250
تا مانند یک کمیت ریاضی را دوست داشته باشد،
591
00:20:06,250 –> 00:20:08,740
بنابراین wha وقتی با متن صحبت می کنیم این به چه معناست،
592
00:20:08,740 –> 00:20:10,809
بنابراین این یک
593
00:20:10,809 –> 00:20:13,210
مثال واقعاً محبوب است که در اکثر
594
00:20:13,210 –> 00:20:15,340
وبلاگ ها یا بیشتر مقالات در مورد کلمه به ik می یابید،
595
00:20:15,340 –> 00:20:17,289
اما به هر حال من همین مثال را انجام می دهم
596
00:20:17,289 –> 00:20:18,399
زیرا فکر می کنم واقعاً خوب است.
597
00:20:18,399 –> 00:20:21,159
مثالی برای توضیح اینکه چرا ما طارق هستیم خیلی
598
00:20:21,159 –> 00:20:23,710
باحال است، بنابراین وقتی ما مانند یک زیر آن را
599
00:20:23,710 –> 00:20:25,330
داریم مانند یک درک متنی یا معنایی
600
00:20:25,330 –> 00:20:28,330
از کلمات برای مثال اگر
601
00:20:28,330 –> 00:20:31,360
بگوییم این درک از
602
00:20:31,360 –> 00:20:36,399
کلمه پادشاه درست است – مرد به اضافه زن پس
603
00:20:36,399 –> 00:20:38,049
شما اینطور دارید ایده انتزاعی که یک پادشاه
604
00:20:38,049 –> 00:20:39,460
چیست و سپس میدانید ایدههای انتزاعی شما درباره آن مرد و زن
605
00:20:39,460 –> 00:20:41,529
چیست، بنابراین
606
00:20:41,529 –> 00:20:43,360
اگر واقعاً
607
00:20:43,360 –> 00:20:46,299
چنین نقشهای را انجام میدادید، بهعنوان مثال پادشاه – مرد به علاوه
608
00:20:46,299 –> 00:20:48,970
زن، احتمالاً خواهید داشت. شهود
609
00:20:48,970 –> 00:20:50,620
این است که احتمالاً ملکه است درست مثل
610
00:20:50,620 –> 00:20:53,049
اینکه شما دارید مانند آن را می گیرید، بخش سلطنتی
611
00:20:53,049 –> 00:20:54,789
چیز پادشاه است و سپس مرد را
612
00:20:54,789 –> 00:20:56,740
بیرون بیاورید و یک زن را در آن قرار دهید، حدس بزنید که ملکه است
613
00:20:56,740 –> 00:20:59,919
اکنون چیز فوق العاده تمیز زمانی است که
614
00:20:59,919 –> 00:21:01,750
مردم گفتند گوگل آن را ساخته است. کلمه به
615
00:21:01,750 –> 00:21:03,940
کار و سپس آنها اساسا
616
00:21:03,940 –> 00:21:06,669
w را تبدیل کردند یا مرطوب تر برای کینگ کلمه rector
617
00:21:06,669 –> 00:21:08,380
برای مرد و کلمه سخنرانی برای زنان
618
00:21:08,380 –> 00:21:09,850
و آنها اساساً این کار را انجام دادند بنابراین
619
00:21:09,850 –> 00:21:12,520
آنها مانند کلمه به بیدار پادشاه – کلمه
620
00:21:12,520 –> 00:21:14,799
– یک سرفه مرد به علاوه برای بیدار کردن زن
621
00:21:14,799 –> 00:21:17,500
بودند بردار جدید که خدا نزدیکترین بود
622
00:21:17,500 –> 00:21:19,840
به کلمه برداری برای ملکه، بنابراین اینها
623
00:21:19,840 –> 00:21:22,179
کامپیوترها یا الگوریتم های یادگیری ماشینی هستند
624
00:21:22,179 –> 00:21:24,340
که اکنون قادر به درک زمینه ای
625
00:21:24,340 –> 00:21:26,200
مانند این هستند که به نظر من واقعاً
626
00:21:26,200 –> 00:21:28,330
باورنکردنی است و این نیز همین چند وقت پیش بود،
627
00:21:28,330 –> 00:21:29,860
درست حدود پنج سال پیش، شما واقعاً می توانید
628
00:21:29,860 –> 00:21:30,789
تصور کنید که همه چیز
629
00:21:30,789 –> 00:21:32,770
بسیار زیاد شده است. در این خصوص
630
00:21:32,770 –> 00:21:35,350
چیزهایی مانند متن سریع و Lda برای کار وجود دارد
631
00:21:35,350 –> 00:21:36,880
که مانند مدلسازی موضوع و
632
00:21:36,880 –> 00:21:38,890
بردارها
633
00:21:38,890 –> 00:21:40,289
634
00:21:40,289 –> 00:21:44,289
635
00:21:44,289 –> 00:21:46,179
636
00:21:46,179 –> 00:21:51,399
است. اکنون به طور خلاصه در مورد زبان شناسی محاسباتی صحبت خواهم کرد
637
00:21:51,399 –> 00:21:53,200
یا نه.
638
00:21:53,200 –> 00:21:55,230
639
00:21:55,230 –> 00:21:58,240
640
00:21:58,240 –> 00:22:00,250
641
00:22:00,250 –> 00:22:02,440
وقتی صحبت از زبان به
642
00:22:02,440 –> 00:22:04,360
میان میآید، برای مثال، مطالعه سنتی زبانشناسی به
643
00:22:04,360 –> 00:22:05,770
این صورت است که اگر به
644
00:22:05,770 –> 00:22:07,630
جملهای نگاه کنید که میخواهید
645
00:22:07,630 –> 00:22:08,980
بخشهای گفتار را به درستی شناسایی کنید، میخواهید بفهمید که
646
00:22:08,980 –> 00:22:11,020
چه چیزی پس اکنون یک کلمه چیست و مانند چهار
647
00:22:11,020 –> 00:22:12,130
زبان مختلف در
648
00:22:12,130 –> 00:22:13,330
زمینههای مختلف مانند مطالعات زبانی بود
649
00:22:13,330 –> 00:22:15,039
و سپس
650
00:22:15,039 –> 00:22:16,990
بخشهای دیگری به نام شناسایی موجودیت
651
00:22:16,990 –> 00:22:19,149
وجود دارد که وقتی به یک سند نگاه میکنید،
652
00:22:19,149 –> 00:22:20,710
متوجه میشوید که خوب این یک سازمان
653
00:22:20,710 –> 00:22:23,139
است، اینجا مکانی است یک موجودیت ژئوپلیتیک
654
00:22:23,139 –> 00:22:25,210
، زمانی است که چیزهایی از این قبیل
655
00:22:25,210 –> 00:22:26,470
دارید و میتوانید همه چیز را تصور کنید. این در از
656
00:22:26,470 –> 00:22:28,750
کشور در زمینه علم داده بسیار مفید خواهد بود،
657
00:22:28,750 –> 00:22:30,309
درست اگر
658
00:22:30,309 –> 00:22:32,289
بتوانید بفهمید که یک مکان یا یک
659
00:22:32,289 –> 00:22:35,020
چیز چیست فقط بر اساس یک کلمه در یک جمله،
660
00:22:35,020 –> 00:22:37,000
منظور من چیزهایی مانند تجزیه وابستگی است
661
00:22:37,000 –> 00:22:40,179
که اساساً شما به دنبال آن هستید.
662
00:22:40,179 –> 00:22:41,799
جمله و در اینجا تجزیه
663
00:22:41,799 –> 00:22:44,260
راه جمله برای دیدن یک مفعول فاعل و
664
00:22:44,260 –> 00:22:45,880
شما می توانید افعال و شما می توانید بفهمید من
665
00:22:45,880 –> 00:22:47,620
به ساختار فرستاده شده است شما می توانید
666
00:22:47,620 –> 00:22:49,450
intent اگر کسی سوال پرسیدن q است. سوال
667
00:22:49,450 –> 00:22:51,039
و شما فقط با یک
668
00:22:51,039 –> 00:22:52,059
علامت سوال در انتهای آن مطمئن نیستید که آیا
669
00:22:52,059 –> 00:22:54,520
هدف درک از دست رفته نیز همین است، بنابراین
670
00:22:54,520 –> 00:22:55,690
می توانید در حال حاضر همه این کارها را با استفاده از
671
00:22:55,690 –> 00:22:58,480
زبان شناسی محاسباتی انجام دهید،
672
00:22:58,480 –> 00:23:00,700
بخش واقعا جالب این است که یک
673
00:23:00,700 –> 00:23:03,250
بسته پایتون به نام Spacey وجود دارد. که من زیاد از آن استفاده می کنم
674
00:23:03,250 –> 00:23:04,900
و دوست دارم در مورد آن
675
00:23:04,900 –> 00:23:06,669
صحبت کنم و همچنین در آموزش های خود در مورد آن صحبت خواهم کرد که
676
00:23:06,669 –> 00:23:09,820
یک SP Acy از Spacey در صورتی که کسی
677
00:23:09,820 –> 00:23:11,289
علاقه مند به
678
00:23:11,289 –> 00:23:12,940
جستجوی سریع گوگل برای چیزی باشد، یک
679
00:23:12,940 –> 00:23:15,520
کتابخانه واقعاً تمیز پایتون است که این کار را انجام می دهد.
680
00:23:15,520 –> 00:23:17,740
مجموعه ای از زبان شناسی
681
00:23:17,740 –> 00:23:20,080
محاسباتی واقعاً بسیار سریع و واقعاً
682
00:23:20,080 –> 00:23:22,809
درجه صنعتی خود را مرتب می کند و من
683
00:23:22,809 –> 00:23:24,669
به طور معمول به شما می دهم وقتی واقعاً
684
00:23:24,669 –> 00:23:26,200
این نوار لغزنده را داشتم قبل از اینکه کسی بگوید چرا
685
00:23:26,200 –> 00:23:27,909
مقداری کد را نشان نمی دهید و من مدام می
686
00:23:27,909 –> 00:23:29,950
گویم می توانید از پنج خط استفاده کنید. کدی برای
687
00:23:29,950 –> 00:23:31,330
یافتن چیزهای واقعا جالبی وجود دارد، بنابراین فکر
688
00:23:31,330