در این مطلب، ویدئو زبان – سخنرانی 6 – مقدمه CS50 بر هوش مصنوعی با پایتون 2020 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 1:54:52
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,590 –> 00:00:14,120
[موسیقی]
2
00:00:14,120 –> 00:00:16,180
3
00:00:17,350 –> 00:00:19,810
خوب است همه را به موضوع نهایی ما
4
00:00:19,810 –> 00:00:21,460
در مقدمه ای بر
5
00:00:21,460 –> 00:00:23,830
هوش مصنوعی با پایتون خوش آمدید و امروز
6
00:00:23,830 –> 00:00:26,169
موضوع زبان است، بنابراین تا کنون در
7
00:00:26,169 –> 00:00:27,610
کلاس ما چندین
8
00:00:27,610 –> 00:00:29,680
روش مختلف برای تعامل با هوش مصنوعی AI دیده ایم،
9
00:00:29,680 –> 00:00:31,450
اما بیشتر این است.
10
00:00:31,450 –> 00:00:33,820
در راه ما در فرمولبندی
11
00:00:33,820 –> 00:00:36,340
مسائل به روشهایی اتفاق میافتد که هوش مصنوعی میتواند
12
00:00:36,340 –> 00:00:38,440
یادگیری صحبت کردن به زبان هوش مصنوعی را بفهمد، بنابراین
13
00:00:38,440 –> 00:00:39,879
با تلاش برای در نظر گرفتن یک مشکل و
14
00:00:39,879 –> 00:00:41,980
فرمولبندی آن بهعنوان مشکل جستجو یا با
15
00:00:41,980 –> 00:00:43,600
تلاش برای برداشتن یک مشکل و تبدیل آن به یک
16
00:00:43,600 –> 00:00:45,129
محدودیت صحبت میکند. مشکل رضایت
17
00:00:45,129 –> 00:00:46,780
چیزی که هوش مصنوعی ما قادر به
18
00:00:46,780 –> 00:00:48,760
درک آن است امروز سعی خواهیم
19
00:00:48,760 –> 00:00:50,770
کرد الگوریتمها و ایدههایی ارائه کنیم که
20
00:00:50,770 –> 00:00:52,870
به هوش مصنوعی اجازه میدهد تا نیمه راه ما را ملاقات کند، بنابراین
21
00:00:52,870 –> 00:00:55,000
بتوانیم به هوش مصنوعی اجازه دهیم قادر
22
00:00:55,000 –> 00:00:56,920
به درک، تفسیر و دریافت باشد.
23
00:00:56,920 –> 00:00:58,930
نوعی معنای خارج از زبان انسانی
24
00:00:58,930 –> 00:01:00,340
نوع زبان در زبان گفتاری
25
00:01:00,340 –> 00:01:01,600
مانند انگلیسی یا
26
00:01:01,600 –> 00:01:03,670
زبان دیگری که ما به طور طبیعی با آن صحبت می کنیم و
27
00:01:03,670 –> 00:01:04,899
این
28
00:01:04,899 –> 00:01:07,060
کار واقعاً چالش برانگیز است. برای هوش مصنوعی و واقعاً
29
00:01:07,060 –> 00:01:08,890
تعدادی از انواع
30
00:01:08,890 –> 00:01:11,080
مختلف وظایف را در بر می گیرد که همه تحت عنوان گسترده
31
00:01:11,080 –> 00:01:13,600
پردازش زبان طبیعی،
32
00:01:13,600 –> 00:01:15,429
ایده ارائه الگوریتم هایی است که به
33
00:01:15,429 –> 00:01:17,800
هوش مصنوعی ما امکان می دهد زبان طبیعی را پردازش و درک کند،
34
00:01:17,800 –> 00:01:20,860
بنابراین این وظایف
35
00:01:20,860 –> 00:01:22,210
از نظر انواع وظایفی که ممکن است
36
00:01:22,210 –> 00:01:24,130
بخواهیم در هوش مصنوعی انجام دهیم و بنابراین
37
00:01:24,130 –> 00:01:25,540
انواع الگوریتم هایی که ممکن است از
38
00:01:25,540 –> 00:01:27,250
آنها استفاده کنیم، اما برخی از کارهای رایج که
39
00:01:27,250 –> 00:01:29,200
ممکن است به نظر برسند مواردی مانند
40
00:01:29,200 –> 00:01:31,479
خلاصه سازی خودکار هستند که به یک هوش مصنوعی یک سند طولانی می دهید
41
00:01:31,479 –> 00:01:33,009
و می خواهید هوش مصنوعی
42
00:01:33,009 –> 00:01:35,200
باشد. قادر به خلاصه کردن آن
43
00:01:35,200 –> 00:01:36,759
با نمایش کوتاه تری از همان
44
00:01:36,759 –> 00:01:38,890
ایده است، اما هنوز به نوعی
45
00:01:38,890 –> 00:01:41,290
زبان طبیعی مانند انگلیسی چیزی شبیه
46
00:01:41,290 –> 00:01:43,210
استخراج اطلاعات با
47
00:01:43,210 –> 00:01:45,430
مجموعه کاملی از اطلاعات در تعدادی از
48
00:01:45,430 –> 00:01:47,020
اسناد یا در اینترنت به عنوان مثال
49
00:01:47,020 –> 00:01:49,090
ما می خواهیم برای هوش مصنوعی ما قادر به
50
00:01:49,090 –> 00:01:51,820
استخراج نوعی اطلاعات معنایی معنادار
51
00:01:51,820 –> 00:01:54,130
از تمام آن محتوایی است
52
00:01:54,130 –> 00:01:56,590
که قادر به بررسی و خواندن
53
00:01:56,590 –> 00:01:58,899
شناسایی زبان است. با توجه به یک صفحه،
54
00:01:58,899 –> 00:02:00,189
می توانید بفهمید که آن
55
00:02:00,189 –> 00:02:02,229
سند به چه زبانی نوشته شده است،
56
00:02:02,229 –> 00:02:03,490
اگر از یک مرورگر وب استفاده می کنید، ممکن است مشاهده کنید.
57
00:02:03,490 –> 00:02:05,320
58
00:02:05,320 –> 00:02:07,119
59
00:02:07,119 –> 00:02:08,889
این
60
00:02:08,889 –> 00:02:10,630
زبان میخواهید آن را برای شما به انگلیسی ترجمه کنم
61
00:02:10,630 –> 00:02:12,220
و آن
62
00:02:12,220 –> 00:02:14,230
فرآیند شناسایی زبان
63
00:02:14,230 –> 00:02:16,329
وظیفهای است که هوش مصنوعی ما باید قادر به انجام
64
00:02:16,329 –> 00:02:18,310
آن باشد که سپس به
65
00:02:18,310 –> 00:02:20,590
ترجمه ماشینی مربوط میشود، فرآیند گرفتن متن
66
00:02:20,590 –> 00:02:22,570
به یک زبان و ترجمه آن را به
67
00:02:22,570 –> 00:02:24,310
زبان دیگری که
68
00:02:24,310 –> 00:02:25,900
69
00:02:25,900 –> 00:02:27,489
واقعاً در طول چندین سال گذشته تحقیق و توسعه زیادی روی آن انجام شده است و
70
00:02:27,489 –> 00:02:28,840
71
00:02:28,840 –> 00:02:30,930
از نظر اینکه هوش مصنوعی چگونه
72
00:02:30,930 –> 00:02:32,909
میتواند متنی را به یک زبان بگیرد و
73
00:02:32,909 –> 00:02:34,980
آن متن را به زبان دیگر تبدیل کند، بهتر میشود.
74
00:02:34,980 –> 00:02:37,799
زبان و همچنین علاوه بر آن،
75
00:02:37,799 –> 00:02:39,329
ما موضوعاتی مانند شناسایی نهادهای نامگذاری
76
00:02:39,329 –> 00:02:41,519
شده با توجه به دنباله ای از متن داریم
77
00:02:41,519 –> 00:02:43,560
78
00:02:43,560 –> 00:02:45,299
79
00:02:45,299 –> 00:02:47,250
. f افراد یا نام مکانها
80
00:02:47,250 –> 00:02:49,230
برای مثال که اغلب مرتبط یا
81
00:02:49,230 –> 00:02:50,849
بخشهای مهم یک سند خاص هستند،
82
00:02:50,849 –> 00:02:53,700
تشخیص گفتار بهعنوان وظیفهای مرتبط
83
00:02:53,700 –> 00:02:55,799
با متنی که نوشته میشود انجام نمیشود، بلکه
84
00:02:55,799 –> 00:02:57,150
متنی که گفته میشود قادر به
85
00:02:57,150 –> 00:02:59,069
پردازش صدا و تشخیص
86
00:02:59,069 –> 00:03:00,689
اینکه کلمات واقعی که در آنجا گفته می شود
87
00:03:00,689 –> 00:03:02,370
و اگر در مورد
88
00:03:02,370 –> 00:03:04,739
دستگاه های خانه هوشمند مانند سیری یا الکسا فکر می کنید،
89
00:03:04,739 –> 00:03:06,480
اینها همه دستگاه هایی هستند که اکنون می توانند
90
00:03:06,480 –> 00:03:08,639
وقتی می توانیم صحبت کنیم به آنها گوش دهیم
91
00:03:08,639 –> 00:03:10,769
و بفهمیم چه کلماتی می گوییم و
92
00:03:10,769 –> 00:03:12,750
نوعی معنی را ترسیم کنیم. از این میان،
93
00:03:12,750 –> 00:03:13,950
ما در مورد اینکه چگونه میتوانید
94
00:03:13,950 –> 00:03:15,659
چیزی را فرموله کنید، مثلاً بهعنوان یک
95
00:03:15,659 –> 00:03:17,430
مدل پنهان مارکوف، برای اینکه بتوانید
96
00:03:17,430 –> 00:03:19,560
آن دسته از نتیجهگیریها را به دست آورید، صحبت کردهایم و
97
00:03:19,560 –> 00:03:21,480
طبقهبندی متن به طور کلی
98
00:03:21,480 –> 00:03:23,609
دستهبندی گستردهای از انواع ایدهها است، هر زمان که
99
00:03:23,609 –> 00:03:25,349
بخواهیم برخی از آنها را در نظر بگیریم. یک نوع متن و
100
00:03:25,349 –> 00:03:27,239
آن را در یک دسته بندی قرار دهید و
101
00:03:27,239 –> 00:03:29,099
ما این مشکلات نوع طبقه بندی
102
00:03:29,099 –> 00:03:31,049
و نحوه استفاده از روش های آماری
103
00:03:31,049 –> 00:03:32,519
یادگیری ماشینی را برای حل
104
00:03:32,519 –> 00:03:33,930
آنها مشاهده کرده ایم. من می توانم کاری بسیار
105
00:03:33,930 –> 00:03:35,819
مشابه با زبان طبیعی انجام دهم که
106
00:03:35,819 –> 00:03:37,109
ممکن است نیاز به انجام چند تنظیم
107
00:03:37,109 –> 00:03:39,419
داشته باشیم که به زودی خواهیم دید و سپس چیزی
108
00:03:39,419 –> 00:03:41,849
مانند ابهام زدایی از معنای کلمه، این ایده
109
00:03:41,849 –> 00:03:44,790
که برخلاف زبان اعداد
110
00:03:44,790 –> 00:03:46,470
که در آن هوش مصنوعی وجود دارد، نمایش های بسیار دقیقی دارد.
111
00:03:46,470 –> 00:03:49,109
از همه چیز کلمات
112
00:03:49,109 –> 00:03:50,579
از نظر معنی کمی مبهم هستند
113
00:03:50,579 –> 00:03:52,019
و کلمات می توانند چندین
114
00:03:52,019 –> 00:03:53,370
معانی مختلف داشته باشند که زبان
115
00:03:53,370 –> 00:03:55,500
طبیعی ذاتا مبهم است و ما امروز
116
00:03:55,500 –> 00:03:57,419
به موقع نگاهی به برخی از این ابهامات خواهیم
117
00:03:57,419 –> 00:03:59,939
داشت، اما اگر می خواهید یک کار چالش برانگیز
118
00:03:59,939 –> 00:04:01,799
هوش مصنوعی برای
119
00:04:01,799 –> 00:04:03,629
اینکه بتوانید زبان طبیعی را بفهمید، توانایی
120
00:04:03,629 –> 00:04:05,939
ابهام زدایی یا تمایز بین
121
00:04:05,939 –> 00:04:08,129
معانی مختلف کلمات است، اگر
122
00:04:08,129 –> 00:04:10,500
جمله ای را بگویم مانند من به بانک رفتم،
123
00:04:10,500 –> 00:04:12,540
باید بفهمید آیا منظورم
124
00:04:12,540 –> 00:04:14,129
مانند بانکی است که در آن پول واریز و برداشت
125
00:04:14,129 –> 00:04:15,479
می کنم یا آیا منظور من این است که کرانه مانند ساحل
126
00:04:15,479 –> 00:04:17,250
رودخانه و کلمات مختلف می توانند
127
00:04:17,250 –> 00:04:18,720
معانی مختلفی داشته باشند که ممکن است بخواهیم
128
00:04:18,720 –> 00:04:20,399
و بر اساس زمینه ای
129
00:04:20,399 –> 00:04:22,320
که یک کلمه در آن ظاهر می شود، معانی متفاوتی داشته باشد؟ جمله
130
00:04:22,320 –> 00:04:24,270
یا پاراگراف یا مقاله گستردهتری است که در آن یک
131
00:04:24,270 –> 00:04:26,130
کلمه خاص ظاهر میشود که میتواند کمک کند
132
00:04:26,130 –> 00:04:28,590
تا بفهمیم چگونه
133
00:04:28,590 –> 00:04:30,539
بین معانی مختلف یا معانی متفاوتی
134
00:04:30,539 –> 00:04:32,639
که ممکن است یک کلمه داشته باشد ابهام میکنیم و
135
00:04:32,639 –> 00:04:34,470
موضوعات زیادی در
136
00:04:34,470 –> 00:04:35,820
زبان طبیعی وجود دارد که الگوریتمهای دیگری را پردازش میکند.
137
00:04:35,820 –> 00:04:37,409
138
00:04:37,409 –> 00:04:39,029
به منظور مقابله و پرداختن به این
139
00:04:39,029 –> 00:04:40,560
نوع مشکلات ابداع شده اند و امروز ما
140
00:04:40,560 –> 00:04:41,789
واقعاً می خواهیم سطح را
141
00:04:41,789 –> 00:04:43,800
با نگاهی به برخی از ایده های اساسی بررسی کنیم
142
00:04:43,800 –> 00:04:44,639
و
143
00:04:44,639 –> 00:04:46,889
بسیاری از این ایده ها را با
144
00:04:46,889 –> 00:04:48,810
پردازش زبان طبیعی در این ایده می یابیم.
145
00:04:48,810 –> 00:04:50,550
تلاش برای دستیابی به الگوریتمهای هوش مصنوعی
146
00:04:50,550 –> 00:04:52,349
که قادر به انجام کاری معنادار
147
00:04:52,349 –> 00:04:54,930
با زبانهایی هستند که هر روز با آنها صحبت میکنیم
148
00:04:54,930 –> 00:04:57,300
و بنابراین برای معرفی این ایده وقتی به
149
00:04:57,300 –> 00:04:58,889
زبان فکر میکنیم، اغلب میتوانیم
150
00:04:58,889 –> 00:05:00,479
در چند بخش مختلف به آن فکر کنیم.
151
00:05:00,479 –> 00:05:02,699
در مورد
152
00:05:02,699 –> 00:05:05,099
نحو زبان، این بیشتر
153
00:05:05,099 –> 00:05:07,499
به ساختار زبان و
154
00:05:07,499 –> 00:05:09,449
نحوه عملکرد آن ساختار مربوط می شود و
155
00:05:09,449 –> 00:05:11,069
اگر فکر می کنید دستور زبان طبیعی ut
156
00:05:11,069 –> 00:05:12,960
یکی از آن چیزهاست و
157
00:05:12,960 –> 00:05:14,520
اگر یک زبان مادری به زبانی
158
00:05:14,520 –> 00:05:16,680
صحبت میکنید، به راحتی به شما میرسد، اگر جملهای از شرلوک سر آرتور کانن دویل به شما بگویم، لازم نیست
159
00:05:16,680 –> 00:05:18,090
زیاد درباره آن فکر
160
00:05:18,090 –> 00:05:20,279
کنید.
161
00:05:20,279 –> 00:05:21,689
به
162
00:05:21,689 –> 00:05:23,699
عنوان مثال، هولمز جمله ای مانند این درست قبل از
163
00:05:23,699 –> 00:05:24,360
ساعت 9،
164
00:05:24,360 –> 00:05:26,610
شرلوک هلمز سریع وارد
165
00:05:26,610 –> 00:05:28,560
اتاق شد، فکر می کنم همه ما احتمالاً می توانیم موافق
166
00:05:28,560 –> 00:05:31,199
باشیم که این یک
167
00:05:31,199 –> 00:05:33,810
جمله دستوری است که
168
00:05:33,810 –> 00:05:35,310
از نظر نحوی به خوبی شکل گرفته است، از نظر نحوه این
169
00:05:35,310 –> 00:05:37,710
جمله خاص منطقی است. ساختاری و نحوی
170
00:05:37,710 –> 00:05:39,360
نه تنها یک زبان طبیعی بلکه
171
00:05:39,360 –> 00:05:40,770
برای زبان های برنامه نویسی نیز اعمال می شود، اگر
172
00:05:40,770 –> 00:05:43,110
تا به حال
173
00:05:43,110 –> 00:05:44,490
در برنامه ای که نوشته اید خطای نحوی دیده اید،
174
00:05:44,490 –> 00:05:46,560
احتمالاً به این دلیل است که نوعی
175
00:05:46,560 –> 00:05:48,750
برنامه نوشته اید که از نظر نحوی به خوبی شکل نگرفته است.
176
00:05:48,750 –> 00:05:50,939
ساختار آن
177
00:05:50,939 –> 00:05:52,860
برنامه معتبری نبود به همان شکلی که بتوانیم
178
00:05:52,860 –> 00:05:54,689
به جملات یا جملات انگلیسی
179
00:05:54,689 –> 00:05:56,639
در هر زبان طبیعی نگاه کنیم و
180
00:05:56,639 –> 00:05:58,529
همان قضاوت ها را انجام دهیم، می توانم بگویم
181
00:05:58,529 –> 00:06:00,509
این جمله نحوی است.
182
00:06:00,509 –> 00:06:02,189
زمانی که تمام قسمتهایی که
183
00:06:02,189 –> 00:06:03,539
همه این کلمات را کنار هم میگذارند،
184
00:06:03,539 –> 00:06:05,639
به خوبی شکل میگیرند، یک
185
00:06:05,639 –> 00:06:07,589
جمله دستوری یا جملهای میسازد که اکثر
186
00:06:07,589 –> 00:06:10,020
مردم موافق هستند دستوری است، اما جملات دستوری نیز وجود دارد که
187
00:06:10,020 –> 00:06:11,879
188
00:06:11,879 –> 00:06:13,919
درست مثل قبل از شرلوک
189
00:06:13,919 –> 00:06:15,960
هلمز 9 است. o
190
00:06:15,960 –> 00:06:17,699
191
00:06:17,699 –> 00:06:19,529
192
00:06:19,529 –> 00:06:21,899
193
00:06:21,899 –> 00:06:23,639
194
00:06:23,639 –> 00:06:25,830
195
00:06:25,830 –> 00:06:27,779
زبان طبیعی ایجاد کنید تا بتوانید
196
00:06:27,779 –> 00:06:29,610
با ما همانطور صحبت کند که یک چت ربات
197
00:06:29,610 –> 00:06:31,830
با ما صحبت می کند، برای مثال خوب، پس هوش مصنوعی
198
00:06:31,830 –> 00:06:33,300
ما باید بتواند این تمایز را بداند
199
00:06:33,300 –> 00:06:34,680
به نحوی می
200
00:06:34,680 –> 00:06:37,080
تواند بفهمد که چه نوع جملات دستوری ماست.
201
00:06:37,080 –> 00:06:39,029
چه نوع جملاتی
202
00:06:39,029 –> 00:06:40,919
نیستند و ممکن است قوانین یا
203
00:06:40,919 –> 00:06:42,479
راه هایی برای یادگیری آماری این ایده ها پیدا
204
00:06:42,479 –> 00:06:43,830
کنیم و در مورد برخی از آن روش ها صحبت خواهیم کرد
205
00:06:43,830 –> 00:06:46,860
همچنین نحو نیز می تواند
206
00:06:46,860 –> 00:06:48,719
مبهم باشد مانند برخی جمله ها ces
207
00:06:48,719 –> 00:06:50,610
هایی که به خوبی شکل گرفته اند و به خوبی شکل
208
00:06:50,610 –> 00:06:52,589
نمی گیرند، اما راه های خاصی وجود
209
00:06:52,589 –> 00:06:53,940
دارد که شما می توانید یک جمله بگیرید و به
210
00:06:53,940 –> 00:06:56,519
طور بالقوه چندین ساختار مختلف
211
00:06:56,519 –> 00:06:58,340
برای آن جمله
212
00:06:58,340 –> 00:07:00,050
جمله بسازید، مانند من مردی را که روی
213
00:07:00,050 –> 00:07:02,060
کوه با تلسکوپ خوب دیدم، این از نظر
214
00:07:02,060 –> 00:07:03,919
دستوری است. درست از لحاظ نحوی
215
00:07:03,919 –> 00:07:06,530
منطقی است، اما
216
00:07:06,530 –> 00:07:08,510
ساختار جمله چیست: مرد روی
217
00:07:08,510 –> 00:07:10,790
کوه که تلسکوپ دارد یا
218
00:07:10,790 –> 00:07:12,290
من مرد روی کوه را می بینم و من
219
00:07:12,290 –> 00:07:14,570
از تلسکوپ برای دیدن
220
00:07:14,570 –> 00:07:15,560
مرد روی کوه آنجا استفاده می کنم. در اینجا چند
221
00:07:15,560 –> 00:07:17,660
مورد جالب و بزرگ وجود دارد
222
00:07:17,660 –> 00:07:19,790
که میتواند به طور بالقوه دو
223
00:07:19,790 –> 00:07:21,650
نوع ساختار متفاوت داشته باشد و این یکی
224
00:07:21,650 –> 00:07:23,479
از ایدههایی است که ما به آن باز خواهیم گشت، همچنین
225
00:07:23,479 –> 00:07:25,280
از نظر نحوه برخورد
226
00:07:25,280 –> 00:07:27,590
با هوش مصنوعی زمانی که زبان طبیعی
227
00:07:27,590 –> 00:07:30,260
ذاتا مبهم است. به طوری که
228
00:07:30,260 –> 00:07:32,150
ساختار زبان را به نحوی بیان می کند
229
00:07:32,150 –> 00:07:33,919
و درک درستی از آن به دست می آورد
230
00:07:33,919 –> 00:07:35,180
که بسته به ترتیب و
231
00:07:35,180 –> 00:07:36,950
قرارگیری کلمات می توانیم
232
00:07:36,950 –> 00:07:39,110
ساختار متفاوتی به دست آوریم. برای زبان است اما
233
00:07:39,110 –> 00:07:40,639
علاوه بر اینکه زبان ساختاری دارد،
234
00:07:40,639 –> 00:07:42,710
زبان نیز معنا دارد و اکنون
235
00:07:42,710 –> 00:07:44,450
وارد دنیای معناشناسی میشویم
236
00:07:44,450 –> 00:07:46,669
که یک کلمه یا دنبالهای
237
00:07:46,669 –> 00:07:48,320
از کلمات یا یک جمله یا کل
238
00:07:48,320 –> 00:07:52,039
مقاله در واقع به چه معناست و بنابراین شما جمله ای را بدانید که
239
00:07:52,039 –> 00:07:53,479
درست قبل از ساعت نه،
240
00:07:53,479 –> 00:07:55,400
شرلوک هلمز با تند تند وارد
241
00:07:55,400 –> 00:07:58,490
اتاق شد، جمله ای متفاوت از
242
00:07:58,490 –> 00:08:00,380
جمله ای است مانند این که شرلوک هلمز
243
00:08:00,380 –> 00:08:02,300
درست قبل از ساعت 9 وارد اتاق شد
244
00:08:02,300 –> 00:08:04,850
و با این حال آنها عملاً
245
00:08:04,850 –> 00:08:06,830
معنای مشابهی دارند که با هم متفاوت هستند.
246
00:08:06,830 –> 00:08:08,930
جملات، بنابراین وقتی هوش مصنوعی آنها را می خواند
247
00:08:08,930 –> 00:08:11,120
آنها را متفاوت تشخیص می دهد، اما ما به عنوان
248
00:08:11,120 –> 00:08:12,320
انسان می توانیم به هر دو
249
00:08:12,320 –> 00:08:13,910
جملات نگاه کنیم و بگوییم بله
250
00:08:13,910 –> 00:08:15,680
اساساً معنای یکسانی دارند و شاید در
251
00:08:15,680 –> 00:08:16,940
این مورد چه کسی لباس پوشیده بود زیرا
252
00:08:16,940 –> 00:08:18,470
من ترتیب کلمات را در
253
00:08:18,470 –> 00:08:20,150
ابتدا به 9 تغییر دادم.
254
00:08:20,150 –> 00:08:21,830
255
00:08:21,830 –> 00:08:23,750
256
00:08:23,750 –> 00:08:24,860
257
00:08:24,860 –> 00:08:26,450
258
00:08:26,450 –> 00:08:28,700
o دقایقی قبل از 9
259
00:08:28,700 –> 00:08:30,500
شرلوک هلمز به سرعت وارد
260
00:08:30,500 –> 00:08:33,289
اتاق شد و بسیار خوب، این نیز معنای بسیار
261
00:08:33,289 –> 00:08:35,599
مشابهی دارد، اما من از
262
00:08:35,599 –> 00:08:37,880
کلمات متفاوتی برای بیان آن ایده استفاده می کنم و در
263
00:08:37,880 –> 00:08:40,010
حالت ایده آل هوش مصنوعی می تواند تشخیص دهد
264
00:08:40,010 –> 00:08:42,140
که این دو جمله
265
00:08:42,140 –> 00:08:43,820
مجموعه های مختلف کلمات هستند. که شبیه
266
00:08:43,820 –> 00:08:46,279
یکدیگر هستند معانی مشابهی دارند و برای اینکه
267
00:08:46,279 –> 00:08:49,040
بتوانیم به آن ایده نیز دست یابیم و
268
00:08:49,040 –> 00:08:50,900
همچنین راه هایی وجود دارد که یک
269
00:08:50,900 –> 00:08:53,029
جمله درست از لحاظ نحوی ممکن است اصلا
270
00:08:53,029 –> 00:08:55,040
معنایی نداشته باشد یک مثال معروف از
271
00:08:55,040 –> 00:08:57,140
زبان شناس نوام چامسکی این جمله
272
00:08:57,140 –> 00:08:58,610
در اینجا بی رنگ است. ایدههای سبز با
273
00:08:58,610 –> 00:09:02,209
عصبانیت از نظر نحوی میخوابند که جمله
274
00:09:02,209 –> 00:09:04,760
کاملاً خوب است بیرنگ و سبز
275
00:09:04,760 –> 00:09:06,650
صفاتی هستند که اسم را تغییر میدهند ایدهها
276
00:09:06,650 –> 00:09:09,110
خواب یک فعل است بهعنوان قید،
277
00:09:09,110 –> 00:09:11,580
اینها از نظر ترتیب کلمات ساختهای درستی هستند،
278
00:09:11,580 –> 00:09:13,470
اما به نظر میرسد که
279
00:09:13,470 –> 00:09:15,210
این جمله به نوعی بیمعنی است.
280
00:09:15,210 –> 00:09:16,560
سعی کردم معنی را به
281
00:09:16,560 –> 00:09:18,600
جمله نسبت دهم که معنی آن چیست و به
282
00:09:18,600 –> 00:09:20,580
راحتی نمی توان تعیین کرد
283
00:09:20,580 –> 00:09:22,620
که ممکن است معنای آن چیست؟
284
00:09:22,620 –> 00:09:25,050
با توجه به اینکه
285
00:09:25,050 –> 00:09:26,340
ساختارهای
286
00:09:26,340 –> 00:09:27,750
مختلف می توانند
287
00:09:27,750 –> 00:09:29,460
انواع مختلفی از معانی داشته باشند، می تواند مبهم باشد، بنابراین یک
288
00:09:29,460 –> 00:09:31,410
جمله با ساختار یکسان ممکن
289
00:09:31,410 –> 00:09:33,540
است به معنای انواع مختلفی از چیزها باشد،
290
00:09:33,540 –> 00:09:35,340
مثال مورد علاقه من از LA Times،
291
00:09:35,340 –> 00:09:36,840
این یک عنوان است که چندی پیش در لس
292
00:09:36,840 –> 00:09:39,210
آنجلس تایمز بود
293
00:09:39,210 –> 00:09:41,490
، تیتر آن میگوید تصادف دکل بزرگ حمل میوه
294
00:09:41,490 –> 00:09:45,030
در اتوبان 210 جام جم را ایجاد میکند، بنابراین
295
00:09:45,030 –> 00:09:46,380
بسته به اینکه چگونه باشد به جمله نگاه میکنید که
296
00:09:46,380 –> 00:09:47,790
چگونه جمله را تفسیر میکنید،
297
00:09:47,790 –> 00:09:50,130
میتواند چندین معانی مختلف داشته باشد
298
00:09:50,130 –> 00:09:51,960
و بنابراین در اینجا دو چالش در این
299
00:09:51,960 –> 00:09:53,130
دنیای پردازش زبان طبیعی است
300
00:09:53,130 –> 00:09:55,740
که بتوانیم
301
00:09:55,740 –> 00:09:57,540
نحو زبان و معناشناسی
302
00:09:57,540 –> 00:09:59,100
زبان را درک کنیم و امروز نگاهی به
303
00:09:59,100 –> 00:10:01,110
هر دوی این ایدهها خواهیم انداخت که با
304
00:10:01,110 –> 00:10:02,880
صحبت در مورد نحو و درک مفهوم شروع میکنیم.
305
00:10:02,880 –> 00:10:04,800
ساختار آن زبان
306
00:10:04,800 –> 00:10:07,290
چگونه است و چگونه میتوانیم
307
00:10:07,290 –> 00:10:09,210
با ارائه قوانینی شروع کنیم، برخی از راههایی که
308
00:10:09,210 –> 00:10:11,370
میتوانیم به رایانه خود بگوییم به هوش مصنوعی ما بگوید.
309
00:10:11,370 –> 00:10:13,830
انواع کلاه چیزهایی جملات معتبر هستند
310
00:10:13,830 –> 00:10:15,660
چه نوع چیزهایی
311
00:10:15,660 –> 00:10:17,610
جمله معتبر نیستند و در نهایت مایلیم
312
00:10:17,610 –> 00:10:19,770
از این اطلاعات استفاده کنیم تا بتوانیم
313
00:10:19,770 –> 00:10:21,750
به هوش مصنوعی ما اجازه دهیم نتایج معناداری بگیرد
314
00:10:21,750 –> 00:10:23,580
تا بتوانیم کاری را با زبان انجام دهیم
315
00:10:23,580 –> 00:10:25,320
و به همین ترتیب این کار را انجام دهیم. ما با
316
00:10:25,320 –> 00:10:27,420
معرفی مفهوم گرامر رسمی شروع می کنیم
317
00:10:27,420 –> 00:10:29,610
و گرامر رسمی چیست و دستور زبان رسمی آن
318
00:10:29,610 –> 00:10:31,830
سیستمی از قواعد است
319
00:10:31,830 –> 00:10:34,470
که جملاتی را به زبانی
320
00:10:34,470 –> 00:10:37,200
321
00:10:37,200 –> 00:10:39,150
تولید می کند. یعنی
322
00:10:39,150 –> 00:10:41,220
فقط از نظر ساختار ساختار نحوی وجود دارد
323
00:10:41,220 –> 00:10:43,500
که چه ساختارهای
324
00:10:43,500 –> 00:10:45,870
انگلیسی معتبر هستند جملات صحیح و چه
325
00:10:45,870 –> 00:10:47,610
ساختارهای انگلیسی معتبر نیستند و
326
00:10:47,610 –> 00:10:49,260
این به روشی بسیار شبیه
327
00:10:49,260 –> 00:10:51,060
به سایر زبان های طبیعی و همچنین
328
00:10:51,060 –> 00:10:53,220
جایی که زبان از انواع خاصی از ساختارها پیروی می کند اعمال می
329
00:10:53,220 –> 00:10:55,740
شود. ما به طور شهودی می دانیم که
330
00:10:55,740 –> 00:10:57,360
این ساختارها به چه معنا هستند، اما این
331
00:10:57,360 –> 00:10:58,920
مفید خواهد بود که تلاش کنیم و واقعاً به طور رسمی
332
00:10:58,920 –> 00:11:00,810
معنای آن ساختارها را تعریف کنیم،
333
00:11:00,810 –> 00:11:02,790
همچنین تعداد زیادی وجود دارد. r از
334
00:11:02,790 –> 00:11:04,920
انواع مختلف گرامر رسمی در سراسر
335
00:11:04,920 –> 00:11:06,930
آنچه که به عنوان سلسله مراتب گرامرهای چامسکی شناخته می شود
336
00:11:06,930 –> 00:11:08,520
و ممکن است قبلاً برخی از
337
00:11:08,520 –> 00:11:09,870
آنها را دیده باشید اگر قبلاً با عبارات منظم کار کرده باشید
338
00:11:09,870 –> 00:11:12,270
قبل از اینکه عبارات
339
00:11:12,270 –> 00:11:14,370
به کلاسی از زبان های معمولی تعلق داشته باشند و با
340
00:11:14,370 –> 00:11:16,350
زبان های منظم مطابقت دارند.
341
00:11:16,350 –> 00:11:19,290
نوع خاصی از زبان است،
342
00:11:19,290 –> 00:11:21,090
اما در این سلسله مراتب نیز نوعی
343
00:11:21,090 –> 00:11:23,520
گرامر است که به عنوان گرامر بدون متن شناخته می شود
344
00:11:23,520 –> 00:11:24,810
و این همان گرامر است که ما امروز بیشترین هزینه را برای
345
00:11:24,810 –> 00:11:25,139
بررسی
346
00:11:25,139 –> 00:11:27,299
آن خواهیم داشت و چه
347
00:11:27,299 –> 00:11:29,819
دستور زبانی بدون متن این
348
00:11:29,819 –> 00:11:33,420
روشی برای تولید جملات در یک
349
00:11:33,420 –> 00:11:35,699
زبان از طریق قوانینی است که به عنوان قوانین بازنویسی شناخته می شوند
350
00:11:35,699 –> 00:11:38,040
و یک نماد را با نمادهای دیگر جایگزین می کنند
351
00:11:38,040 –> 00:11:39,779
و ما در یک
352
00:11:39,779 –> 00:11:41,459
لحظه به معنای
353
00:11:41,459 –> 00:11:44,309
آن نگاه خواهیم کرد، بنابراین بیایید به عنوان مثال یک جمله ساده را تصور کنیم
354
00:11:44,309 –> 00:11:46,889
. انگلیسی یک جمله مانند
355
00:11:46,889 –> 00:11:49,829
she see the city یک جمله انگلیسی معتبر از لحاظ نحوی است
356
00:11:49,829 –> 00:11:52,410
، اما ما می
357
00:11:52,410 –> 00:11:54,629
خواهیم راهی برای هوش مصنوعی ما داشته باشیم تا بتواند
358
00:11:54,629 –> 00:11:56,009
به جمله نگاه کند و
359
00:11:56,009 –> 00:11:58,169
بفهمد که ساختار جمله چیست. به این
360
00:11:58,169 –> 00:12:00,209
دلیل که برای پاسخ دادن به یک سوال، اگر
361
00:12:00,209 –> 00:12:01,919
هوش مصنوعی را در قالب پرسشپاسخ تصور کنید،
362
00:12:01,919 –> 00:12:03,509
اگر میخواهید از هوش مصنوعی سوالی بپرسید
363
00:12:03,509 –> 00:12:06,209
که او چه چیزی را خوب دیده است،
364
00:12:06,209 –> 00:12:07,859
پس هوش مصنوعی میخواهد بتواند به این جمله نگاه کند
365
00:12:07,859 –> 00:12:10,109
و تشخیص دهد که او
366
00:12:10,109 –> 00:12:13,109
اره شهری است که بتواند آن را
367
00:12:13,109 –> 00:12:14,970
بفهمد و نیاز به
368
00:12:14,970 –> 00:12:17,489
درک درستی از این دارد که ساختار این
369
00:12:17,489 –> 00:12:20,129
جمله واقعاً شبیه است، بنابراین از کجا
370
00:12:20,129 –> 00:12:22,470
شروع کنیم هر یک از این کلمات را او
371
00:12:22,470 –> 00:12:24,749
شهری را دید که قرار است در
372
00:12:24,749 –> 00:12:26,639
آنجا نمادهای پایانه بنامیم. نمادهایی در زبان ما هستند
373
00:12:26,639 –> 00:12:28,169
که در آن هر یک از این کلمات
374
00:12:28,169 –> 00:12:31,079
فقط یک نماد است که در نهایت این
375
00:12:31,079 –> 00:12:32,790
چیزی است که ما به تولید آن اهمیت میدهیم، ما
376
00:12:32,790 –> 00:12:35,040
به تولید این کلمات اهمیت میدهیم، اما هر یک از
377
00:12:35,040 –> 00:12:36,929
این کلمات
378
00:12:36,929 –> 00:12:38,249
با چیزی که ما آن را
379
00:12:38,249 –> 00:12:40,319
غیر پایانه مینامیم نیز مرتبط میشوند. نماد و این
380
00:12:40,319 –> 00:12:42,299
نمادهای غیر پایانی در ابتدا به
381
00:12:42,299 –> 00:12:44,339
نوعی شبیه به بخشهای گفتار خواهند بود، اگر
382
00:12:44,339 –> 00:12:45,660
به یاد داشته باشید که گرامر انگلیسی را دوست دارید،
383
00:12:45,660 –> 00:12:50,129
جایی که او یک اسم است،
384
00:12:50,129 –> 00:12:52,799
یک فعل v4 است.
385
00:12:52,799 –> 00:12:54,779
به عنوان مثال a و a و a
386
00:12:54,779 –> 00:12:57,360
و سپس شهر چاه شهر نیز یک اسم است،
387
00:12:57,360 –> 00:13:00,059
بنابراین یک N به آنجا می رود، بنابراین هر یک از این
388
00:13:00,059 –> 00:13:02,779
NV و D اینها چیزی هستند که ما ممکن است
389
00:13:02,779 –> 00:13:04,679
آنها را نمادهای غیر پایانی بنامیم، آنها در
390
00:13:04,679 –> 00:13:07,829
واقع کلمات در زبانی که او دیده است نیستند.
391
00:13:07,829 –> 00:13:09,209
شهر آنها کلمات موجود در
392
00:13:09,209 –> 00:13:11,459
زبان هستند، اما ما از این علامتهای غیر پایانی
393
00:13:11,459 –> 00:13:14,129
برای تولید
394
00:13:14,129 –> 00:13:15,660
نمادهای پایانه استفاده میکنیم.
395
00:13:15,660 –> 00:13:17,579
396
00:13:17,579 –> 00:13:20,579
397
00:13:20,579 –> 00:13:22,859
398
00:13:22,859 –> 00:13:25,169
نمادهای پایانه به نمادهای پایانی ما
399
00:13:25,169 –> 00:13:27,149
چیزی داریم که به عنوان قوانین بازنویسی شناخته می شود و
400
00:13:27,149 –> 00:13:29,100
این قوانین چیزی شبیه به این هستند
401
00:13:29,100 –> 00:13:31,470
ما یک n در سمت چپ فلش داریم
402
00:13:31,470 –> 00:13:33,869
و فلش می گوید اگر من یک
403
00:13:33,869 –> 00:13:36,239
نماد غیر پایانی N داشته باشم، می توانم آن را به آن تبدیل کنم.
404
00:13:36,239 –> 00:13:38,699
هر یک از این امکانهای مختلف
405
00:13:38,699 –> 00:13:39,089
406
00:13:39,089 –> 00:13:41,550
که با یک خط عمودی از هم جدا شدهاند
407
00:13:41,550 –> 00:13:42,720
تا یک اسم
408
00:13:42,720 –> 00:13:45,809
بتواند به کلمه ترجمه شود، یک اسم
409
00:13:45,809 –> 00:13:47,610
میتواند به کلمه شهر یا
410
00:13:47,610 –> 00:13:50,430
ماشین یا هری یا هر چیز دیگری ترجمه
411
00:13:50,430 –> 00:13:52,499
شود، اینها همه نمونههایی از اسمها هستند
412
00:13:52,499 –> 00:13:55,230
برای مثال. در همین حال، یک تعیین کننده D
413
00:13:55,230 –> 00:13:58,529
می تواند به a یا یک
414
00:13:58,529 –> 00:14:00,509
فعل v4 به هر یک از
415
00:14:00,509 –> 00:14:02,459
این افعال
416
00:14:02,459 –> 00:14:04,290
417
00:14:04,290 –> 00:14:07,230
418
00:14:07,230 –> 00:14:09,420
ترجمه شود.
419
00:14:09,420 –> 00:14:11,699
از این صفتهای احتمالی نیز،
420
00:14:11,699 –> 00:14:14,279
پس اینها قوانینی هستند در
421
00:14:14,279 –> 00:14:16,019
گرامر بدون بافت ما، زمانی که ما
422
00:14:16,019 –> 00:14:17,910
تعریف میکنیم که گرامر
423
00:14:17,910 –> 00:14:19,769
ما ساختار زبان انگلیسی
424
00:14:19,769 –> 00:14:21,809
یا هر زبان دیگری است
425
00:14:21,809 –> 00:14:23,759
، این نوع قوانین را به آن میدهیم و میگوییم که
426
00:14:23,759 –> 00:14:25,589
اسم میتواند هر یک از این احتمالات باشد،
427
00:14:25,589 –> 00:14:27,779
یک فعل میتواند هر یک از آن
428
00:14:27,779 –> 00:14:30,120
احتمالات باشد، اما معلوم میشود که ما
429
00:14:30,120 –> 00:14:32,189
میتوانیم شروع به ساختن قواعد دیگری
430
00:14:32,189 –> 00:14:34,860
کنیم که در آن فقط یک غیر پایانی
431
00:14:34,860 –> 00:14:37,110
به یک نماد پایانی ترجمه نمیشود، بلکه
432
00:14:37,110 –> 00:14:38,730
همیشه یک غیر
433
00:14:38,730 –> 00:14:40,199
پایانی داشته باشیم. در سمت چپ
434
00:14:40,199 –> 00:14:41,939
فلش اما در سمت راست
435
00:14:41,939 –> 00:14:43,679
فلش ما میتوانیم چیزهای دیگری داشته باشیم
436
00:14:43,679 –> 00:14:45,749
، حتی میتوانیم نمادهای غیر پایانی دیگری داشته باشیم،
437
00:14:45,749 –> 00:14:47,999
بنابراین منظور من از این چاه چیست،
438
00:14:47,999 –> 00:14:50,999
ما ایده هیچ را داریم بهعنوان مثال، uns like she city
439
00:14:50,999 –> 00:14:53,519
car Harry، اما
440
00:14:53,519 –> 00:14:56,429
عبارات اسمی مانند عباراتی نیز وجود دارد که میتوانند
441
00:14:56,429 –> 00:14:58,800
بهعنوان اسمهایی کار کنند که فقط یک
442
00:14:58,800 –> 00:15:00,809
کلمه نیستند، بلکه چندین کلمه هستند، درست
443
00:15:00,809 –> 00:15:03,569
مانند شهر دو کلمهای هستند که با هم
444
00:15:03,569 –> 00:15:05,370
به عنوان اسمی عمل میکنند.
445
00:15:05,370 –> 00:15:07,470
عبارت آن چند کلمه است اما آنها با
446
00:15:07,470 –> 00:15:09,059
هم به عنوان یک اسم عمل می کنند یا
447
00:15:09,059 –> 00:15:10,949
اگر به یک عبارت پیچیده تر
448
00:15:10,949 –> 00:15:13,350
مانند شهر بزرگ فکر می کنید، سه کلمه که همه
449
00:15:13,350 –> 00:15:16,410
به عنوان یک اسم واحد یا ماشین
450
00:15:16,410 –> 00:15:18,720
در خیابان کار می کنند چندین کلمه در حال حاضر اما
451
00:15:18,720 –> 00:15:21,749
کل مجموعه کلمات و به نوعی
452
00:15:21,749 –> 00:15:23,879
مانند یک اسم عمل می کند که به عنوان یک عبارت اسمی جایگزین می شود
453
00:15:23,879 –> 00:15:26,040
و بنابراین برای انجام این کار
454
00:15:26,040 –> 00:15:28,529
، مفهوم یک نماد غیر پایانی جدید
455
00:15:28,529 –> 00:15:31,139
به نام NP را معرفی می کنیم که مخفف عبارت اسمی است
456
00:15:31,139 –> 00:15:33,569
و این قانون بازنویسی می گوید که
457
00:15:33,569 –> 00:15:36,360
یک عبارت اسمی که می تواند یک اسم پس
458
00:15:36,360 –> 00:15:38,579
چیزی شبیه she یک اسم است و
459
00:15:38,579 –> 00:15:40,050
بنابراین می تواند یک عبارت اسمی نیز باشد،
460
00:15:40,050 –> 00:15:42,470
اما یک عبارت اسمی نیز می تواند
461
00:15:42,470 –> 00:15:46,559
تعیین کننده d باشد که یک اسم به دنبال آن قرار می گیرد، بنابراین از دو
462
00:15:46,559 –> 00:15:48,389
طریق می توانیم در این دستور زبان بسیار ساده یک عبارت اسمی داشته باشیم
463
00:15:48,389 –> 00:15:50,009
البته Eng.
464
00:15:50,009 –> 00:15:51,509
زبان lish پیچیده تر از این است،
465
00:15:51,509 –> 00:15:52,339
اما یک
466
00:15:52,339 –> 00:15:55,610
عبارت یا یک اسم است یا یک
467
00:15:55,610 –> 00:15:57,769
تعیین کننده است که بعد از یک اسم وجود دارد، بنابراین برای
468
00:15:57,769 –> 00:15:59,360
مثال اول یک عبارت اسمی که فقط
469
00:15:59,360 –> 00:16:01,189
یک اسم است که به ما امکان می دهد
470
00:16:01,189 –> 00:16:04,879
عبارات اسمی مانند she را تولید کنیم زیرا یک اسم
471
00:16:04,879 –> 00:16:07,819
عبارت فقط یک اسم است و یک اسم
472
00:16:07,819 –> 00:16:10,720
می تواند کلمه او باشد، به عنوان مثال
473
00:16:10,720 –> 00:16:12,649
اگر بخواهیم به یکی
474
00:16:12,649 –> 00:16:14,120
از مثال های زنبور عسل نگاه کنیم که در آن یک عبارت اسمی
475
00:16:14,120 –> 00:16:17,029
به تعیین کننده و یک اسم تبدیل می
476
00:16:17,029 –> 00:16:18,829
شود، ساختاری مانند این می گیریم و اکنون
477
00:16:18,829 –> 00:16:20,660
با شروع دیدن ساختار
478
00:16:20,660 –> 00:16:23,029
زبان که از این قوانین در یک درخت نحوی پدیدار می شود،
479
00:16:23,029 –> 00:16:25,579
همانطور که این ساختار درختی را می نامیم
480
00:16:25,579 –> 00:16:27,980
که بیانگر نحو
481
00:16:27,980 –> 00:16:30,019
زبان طبیعی ما است، در اینجا یک عبارت اسمی داریم
482
00:16:30,019 –> 00:16:32,509
و این عبارت اسمی
483
00:16:32,509 –> 00:16:34,999
از یک تعیین کننده و یک اسم تشکیل شده است. در جایی که
484
00:16:34,999 –> 00:16:36,860
تعیین کننده کلمه the’ طبق
485
00:16:36,860 –> 00:16:40,309
آن قاعده است و اسم کلمه شهر است، بنابراین
486
00:16:40,309 –> 00:16:42,110
در اینجا یک عبارت اسمی است که
487
00:16:42,110 –> 00:16:44,089
از چندین کلمه در داخل
488
00:16:44,089 –> 00:16:46,639
ساختار تشکیل شده است و با استفاده از این ایده گرفتن
489
00:16:46,639 –> 00:16:49,550
یک نماد و بازنویسی آن با استفاده از غیره.
490
00:16:49,550 –> 00:16:51,439
نمادهایی که ممکن است نمادهای پایانی
491
00:16:51,439 –> 00:16:53,629
مانند شهر و و همچنین
492
00:16:53,629 –> 00:16:55,370
نمادهای غیر پایانی مانند D برای
493
00:16:55,370 –> 00:16:58,100
تعیین کننده یا n برای اسم باشند، سپس میتوانیم
494
00:16:58,100 –> 00:17:00,079
495
00:17:00,079 –> 00:17:02,209
علاوه بر عبارات اسمی، ساختن ساختارهای پیچیدهتر و پیچیدهتری را شروع
496
00:17:02,209 –> 00:17:04,520
کنیم و میتوانیم درباره عبارات فعل نیز فکر کنیم. بنابراین
497
00:17:04,520 –> 00:17:06,770
آنچه ممکن است یک عبارت فعل شبیه باشد،
498
00:17:06,770 –> 00:17:08,898
یک عبارت فعل ممکن است فقط یک
499
00:17:08,898 –> 00:17:12,349
فعل منفرد در جمله ای باشد مانند I walked
500
00:17:12,349 –> 00:17:14,929
walked یک فعل است و به عنوان
501
00:17:14,929 –> 00:17:17,569
عبارت فعل در آن جمله عمل می کند، اما
502
00:17:17,569 –> 00:17:20,329
عبارات فعل پیچیده تری نیز وجود دارد که چنین نیستند
503
00:17:20,329 –> 00:17:21,919
. فقط یک کلمه است، اما
504
00:17:21,919 –> 00:17:23,240
چند کلمه هستند اگر به جمله فکر کنید
505
00:17:23,240 –> 00:17:25,039
مانند او شهر را دید، برای
506
00:17:25,039 –> 00:17:27,740
مثال شهر را دید، واقعاً
507
00:17:27,740 –> 00:17:30,169
کل عبارت فعل است، مانند
508
00:17:30,169 –> 00:17:32,600
آنچه که او انجام می دهد، برای مثال
509
00:17:32,600 –> 00:17:34,909
و بنابراین عبارت فعل ما. ممکن است قاعده ای
510
00:17:34,909 –> 00:17:37,520
مانند این داشته باشد یک عبارت فعل یا فقط یک
511
00:17:37,520 –> 00:17:41,630
فعل ساده است یا یک فعل است که یک عبارت اسمی به دنبال آن می آید
512
00:17:41,630 –> 00:17:44,149
و قبلاً دیدیم که یک
513
00:17:44,149 –> 00:17:46,370
عبارت اسمی یا اسم است یا
514
00:17:46,370 –> 00:17:48,770
تعیین کننده است که بعد از آن یک اسم و به همین ترتیب یک
515
00:17:48,770 –> 00:17:50,360
فعل است. عبارت ممکن است چیزی ساده باشد
516
00:17:50,360 –> 00:17:53,179
مانند عبارت فعل فقط یک فعل است و آن
517
00:17:53,179 –> 00:17:54,710
فعل می تواند برای مثال کلمه walked باشد،
518
00:17:54,710 –> 00:17:56,600
اما همچنین می تواند چیزی
519
00:17:56,600 –> 00:17:58,250
پیچیده تر باشد، چیزی شبیه به این
520
00:17:58,250 –> 00:18:00,260
حالا که ما شروع به دیدن یک
521
00:18:00,260 –> 00:18:02,720
درخت نحو بزرگتر می کنیم که راه خواندن این
522
00:18:02,720 –> 00:18:05,549
درخت نحوی است. این است که یک عبارت
523
00:18:05,549 –> 00:18:08,009
فعل فعل است و یک عبارت اسمی که در آن آن فعل
524
00:18:08,009 –> 00:18:09,899
می تواند چیزی شبیه هق هق باشد و این
525
00:18:09,899 –> 00:18:11,340
یک عبارت اسمی است که قبلاً دیده ایم این
526
00:18:11,340 –> 00:18:13,710
عبارت اسمی است که شهر یک عبارت اسمی است
527
00:18:13,710 –> 00:18:15,450
که از تعیین کننده the
528
00:18:15,450 –> 00:18:18,629
و اسم شهر تشکیل شده است. کنار هم قرار دهید
529
00:18:18,629 –> 00:18:20,549
تا این عبارت فعل بزرگتر را بسازید و
530
00:18:20,549 –> 00:18:22,619
سپس فقط برای ارائه یک مثال دیگر از یک
531
00:18:22,619 –> 00:18:24,119
قاعده، می توانیم قاعده ای مانند این
532
00:18:24,119 –> 00:18:27,450
جمله داشته باشیم که به عبارت اسمی می رود و یک
533
00:18:27,450 –> 00:18:29,249
عبارت فعل ساختار اصلی یک
534
00:18:29,249 –> 00:18:31,080
جمله این است که یک عبارت اسمی است.
535
00:18:31,080 –> 00:18:33,029
پس از یک عبارت فعل و این یک
536
00:18:33,029 –> 00:18:34,980
روش دستور زبان رسمی برای بیان این
537
00:18:34,980 –> 00:18:36,029
ایده است که ممکن است زمانی
538
00:18:36,029 –> 00:18:37,409
که گرامر انگلیسی را یاد گرفته اید، وقتی می
539
00:18:37,409 –> 00:18:39,809
خوانید که یک جمله فرعی مانند یک
540
00:18:39,809 –> 00:18:42,059
موضوع و یک فاعل فعل در عمل است، یاد گرفته اید.
541
00:18:42,059 –> 00:18:43,409
چیزی که برای یک
542
00:18:43,409 –> 00:18:46,019
عبارت اسمی خاص اتفاق میافتد و بنابراین با استفاده از
543
00:18:46,019 –> 00:18:48,119
ساختار میتوانیم جملهای بسازیم
544
00:18:48,119 –> 00:18:50,970
که به این شکل باشد، یک جمله
545
00:18:50,970 –> 00:18:52,799
شامل یک عبارت اسمی و یک عبارت فعل و
546
00:18:52,799 –> 00:18:54,629
عبارت اسمی میتواند فقط یک اسم باشد
547
00:18:54,629 –> 00:18:57,090
مانند کلمه she the verb could be یک
548
00:18:57,090 –> 00:18:58,590
فعل و یک عبارت اسمی که در آن این
549
00:18:58,590 –> 00:19:00,239
چیزی است که ما قبل از دیدن فعل دیدهایم
550
00:19:00,239 –> 00:19:03,230
و عبارت اسمی شهر است و
551
00:19:03,230 –> 00:19:05,489
بنابراین حالا ببینید ما اینجا چه کردهایم آنچه
552
00:19:05,489 –> 00:19:07,529
انجام دادهایم با تعریف مجموعهای از قوانین
553
00:19:07,529 –> 00:19:09,659
وجود دارد. الگوریتمهایی که میتوانیم اجرا
554
00:19:09,659 –> 00:19:12,899
کنیم که این کلمات را میگیرند و در نتیجه
555
00:19:12,899 –> 00:19:14,460
الگوریتم Eyk برای مثال یکی از نمونههای
556
00:19:14,460 –> 00:19:16,019
این است، اگر میخواهید به جایی
557
00:19:16,019 –> 00:19:17,909
که با مجموعهای از نمادهای پایانه شروع میکنید،
558
00:19:17,909 –> 00:19:20,820
مانند اینکه او شهر را دیده شروع کنید و سپس با استفاده از
559
00:19:20,820 –> 00:19:22,200
این قوانین، میتوانید ببینید. برای
560
00:19:22,200 –> 00:19:25,379
اینکه بفهمید چگونه از یک جمله می روید تا
561
00:19:25,379 –> 00:19:27,720
او شهر را دید و تمام
562
00:19:27,720 –> 00:19:29,489
این قوانین بازنویسی وجود دارد، بنابراین جمله
563
00:19:29,489 –> 00:19:31,590
یک عبارت اسمی و یک عبارت فعل است، یک عبارت فعل
564
00:19:31,590 –> 00:19:33,179
می تواند یک فعل و یک عبارت اسمی
565
00:19:33,179 –> 00:19:34,919
از این قبیل باشد و تا جایی که می توانید
566
00:19:34,919 –> 00:19:36,869
تصور کنید ساختار را بگیرید و
567
00:19:36,869 –> 00:19:39,179
بفهمید که چگونه میتوانید
568
00:19:39,179 –> 00:19:42,960
یک درخت تجزیه یک درخت نحوی
569
00:19:42,960 –> 00:19:44,909
برای مجموعه نمادهای پایانی آن مجموعه
570
00:19:44,909 –> 00:19:48,179
کلمات ایجاد کنید و اگر سعی میکنید این کار را برای
571
00:19:48,179 –> 00:19:49,799
جملهای انجام دهید که دستوری نیست،
572
00:19:49,799 –> 00:19:52,950
چیزی شبیه به دیدن شهر خوب
573
00:19:52,950 –> 00:19:54,539
این کار نمی کند، هیچ راهی برای
574
00:19:54,539 –> 00:19:56,970
گرفتن جمله و استفاده از این قوانین
575
00:19:56,970 –> 00:19:58,649
برای ایجاد جمله ای که
576
00:19:58,649 –> 00:20:01,379
در داخل آن زبان نیست، وجود ندارد، بنابراین اگر قوانین به اندازه کافی گویا باشند، این
577
00:20:01,379 –> 00:20:03,809
نوع مدل می تواند بسیار مفید
578
00:20:03,809 –> 00:20:05,820
باشد.
579
00:20:05,820 –> 00:20:07,259
تمام ایده هایی را که ممکن است بخواهید
580
00:20:07,259 –> 00:20:09,480
در زبان طبیعی بیان کنید بیان کنید
581
00:20:09,480 –> 00:20:11,129
البته فقط با استفاده از قوانین ساده ای که
582
00:20:11,129 –> 00:20:13,139
در اینجا داریم جملات زیادی وجود دارد که
583
00:20:13,139 –> 00:20:14,850
نمی توانیم جملاتی را ایجاد
584
00:20:14,850 –> 00:20:16,649
کنیم که ممکن است موافق باشیم که از نظر دستوری
585
00:20:16,649 –> 00:20:18,870
و نحوی به خوبی شکل گرفته باشند اما که
586
00:20:18,870 –> 00:20:20,129
ما نخواهیم توانست
587
00:20:20,129 –> 00:20:22,440
با استفاده از این قوانین بسازیم و در آن
588
00:20:22,440 –> 00:20:24,210
صورت ممکن است فقط نیاز به
589
00:20:24,210 –> 00:20:26,460
قوانین پیچیده تری داشته باشیم تا بتوانیم با
590
00:20:26,460 –> 00:20:28,860
این نوع موارد مقابله کنیم و بنابراین این نوع
591
00:20:28,860 –> 00:20:30,570
رویکرد می تواند اگر
592
00:20:30,570 –> 00:20:32,220
با مجموعهای محدود از
593
00:20:32,220 –> 00:20:34,019
قوانین و کلماتی سروکار دارید که واقعاً به آنها
594
00:20:34,019 –> 00:20:35,850
اهمیت میدهید، قدرتمند باشید و یکی از راههایی که میتوانیم
595
00:20:35,850 –> 00:20:37,499
با آن در پایتون تعامل داشته باشیم،
596
00:20:37,499 –> 00:20:40,529
استفاده از یک کتابخانه پایتون به نام NLT kay
597
00:20:40,529 –> 00:20:42,870
کوتاه برای جعبه ابزار زبان طبیعی است.
598
00:20:42,870 –> 00:20:44,490
امروز چند بار شاهد خواهیم بود که
599
00:20:44,490 –> 00:20:46,169
دارای طیف گسترده ای از
600
00:20:46,169 –> 00:20:47,879
توابع و کلاس های مختلف است که می توانیم از آنها
601
00:20:47,879 –> 00:20:49,529
استفاده کنیم که همگی برای
602
00:20:49,529 –> 00:20:51,659
مقابله با زبان طبیعی هستند و یکی از این
603
00:20:51,659 –> 00:20:53,850
الگوریتم هایی که دارد، توانایی
604
00:20:53,850 –> 00:20:56,039
تجزیه یک زمینه است. گرامر رایگان برای اینکه بتوانیم
605
00:20:56,039 –> 00:20:58,049
برخی از کلمات را برداریم و
606
00:20:58,049 –> 00:20:59,639
با توجه به گرامرهای بدون متن
607
00:20:59,639 –> 00:21:01,860
608
00:21:01,860 –> 00:21:03,899
609
00:21:03,899 –> 00:21:07,019
بفهمیم که چگونه درخت نحو را برای آن میسازید، بنابراین بیایید پیش برویم و نگاهی به NLT kay بیندازیم و بررسی کنیم که چگونه
610
00:21:07,019 –> 00:21:08,940
میتوانیم مقداری بدون متن بسازیم. گرامرها
611
00:21:08,940 –> 00:21:12,509
با آن در اینجا در داخل CFG صفر CFG
612
00:21:12,509 –> 00:21:14,610
کوتاه برای گرامر بدون متن من یک
613
00:21:14,610 –> 00:21:17,100
نمونه گرامر بدون متن دارم که دارای
614
00:21:17,100 –> 00:21:19,649
قوانینی است که قبلاً دیدهایم، بنابراین جمله
615
00:21:19,649 –> 00:21:21,210
به عبارت اسمی میرود و سپس یک فعل
616
00:21:21,210 –> 00:21:23,340
عبارتسازی اسم phra وجود دارد. se یا
617
00:21:23,340 –> 00:21:25,649
تعیین کننده است و یک اسم یا یک عبارت فعل اسمی
618
00:21:25,649 –> 00:21:28,320
یا یک فعل است یا یک فعل و یک
619
00:21:28,320 –> 00:21:30,090
عبارت اسمی ترتیب این چیزها
620
00:21:30,090 –> 00:21:31,769
واقعاً مهم نیست
621
00:21:31,769 –> 00:21:33,690
تعیین کننده ها می توانند کلمه the’
622
00:21:33,690 –> 00:21:36,149
یا کلمه a اسم می توانند کلمه باشند. she
623
00:21:36,149 –> 00:21:38,999
city یا car و یک فعل می تواند کلمه
624
00:21:38,999 –> 00:21:42,179
saw باشد یا می تواند کلمه walked now
625
00:21:42,179 –> 00:21:44,070
با استفاده از n ltk باشد که من اینجا در بالا وارد کرده
626
00:21:44,070 –> 00:21:46,440
ام.
627
00:21:46,440 –> 00:21:48,690
628
00:21:48,690 –> 00:21:51,509
به نام تجزیه کننده بعدی برنامه من
629
00:21:51,509 –> 00:21:53,100
قرار است از کاربر ورودی بخواهد درست
630
00:21:53,100 –> 00:21:55,169
مانند تایپ یک جمله و تقسیم نقطه
631
00:21:55,169 –> 00:21:56,970
فقط آن را در تمام فضاها تقسیم می کند،
632
00:21:56,970 –> 00:21:58,470
بنابراین من هر یک از
633
00:21:58,470 –> 00:22:00,869
کلمات جداگانه را دریافت می کنم که می خواهیم آن را
634
00:22:00,869 –> 00:22:02,759
در داخل این ذخیره کنیم. لیستی به نام جمله ISM
635
00:22:02,759 –> 00:22:06,119
و سپس ادامه می دهیم و سعی می
636
00:22:06,119 –> 00:22:08,429
کنیم جمله را تجزیه کنیم و برای هر جمله ای که
637
00:22:08,429 –> 00:22:10,350
تجزیه می کنیم آن را به زیبایی
638
00:22:10,350 –> 00:22:11,639
روی صفحه چاپ می کنیم تا در ترمینال من نمایش داده
639
00:22:11,639 –> 00:22:13,559
شود و همچنین می خواهیم آن را ترسیم کنیم.
640
00:22:13,559 –> 00:22:14,909
به نظر می رسد که NLT کی دارای مقداری
641
00:22:14,909 –> 00:22:16,649
ظرفیت گرافیکی است، بنابراین ما واقعاً می توانیم
642
00:22:16,649 –> 00:22:18,929
بصری ببینید که آن درخت نیز چگونه به نظر می
643
00:22:18,929 –> 00:22:20,519
رسد و چندین
644
00:22:20,519 –> 00:22:22,320
روش مختلف برای تجزیه جمله وجود دارد
645
00:22:22,320 –> 00:22:23,730
، به همین دلیل است که ما آن را در داخل
646
00:22:23,730 –> 00:22:25,919
حلقه for قرار می دهیم و خواهیم دید که چرا این می
647
00:22:25,919 –> 00:22:28,559
تواند در یک لحظه بسیار مفید باشد، بنابراین اکنون خوب
648
00:22:28,559 –> 00:22:30,179
است. من این را دارم که اجازه دهید ادامه دهیم و
649
00:22:30,179 –> 00:22:32,290
آن را امتحان کنم، سی دی را به CFG می زنم و می رویم
650
00:22:32,290 –> 00:22:35,590
و CFG صفر را اجرا می کنیم، بنابراین از
651
00:22:35,590 –> 00:22:37,600
من می خواهد که یک جمله را تایپ کنم و به من اجازه می دهد
652
00:22:37,600 –> 00:22:38,830
یک جمله بسیار ساده را تایپ
653
00:22:38,830 –> 00:22:41,470
کنم، چیزی شبیه به راه رفتن او برای مثال
654
00:22:41,470 –> 00:22:44,710
بازگشت را فشار دهید تا چیزی که من دریافت میکنم در
655
00:22:44,710 –> 00:22:46,200
سمت چپ باشد شما میتوانید یک نمایش
656
00:22:46,200 –> 00:22:49,240
متنی از درخت نحو را ببینید و در
657
00:22:49,240 –> 00:22:50,560
سمت راست اینجا اجازه دهید من جلوتر بروم و
658
00:22:50,560 –> 00:22:52,930
بزرگتر کنم، ما یک
659
00:22:52,930 –> 00:22:55,120
نمایش بصری از همان درخت نحو را میبینیم.
660
00:22:55,120 –> 00:22:57,190
اینگونه است که کامپیوتر من
661
00:22:57,190 –> 00:22:59,470
جمله ای را که او راه انداخته را تجزیه نکرده
662
00:22:59,470 –> 00:23:01,480
است جمله ای است که از
663
00:23:01,480 –> 00:23:03,070
یک عبارت اسمی و یک عبارت فعل تشکیل شده است که در آن
664
00:23:03,070 –> 00:23:04,720
هر عبارت فقط یک اسم واحد است یک فعل
665
00:23:04,720 –> 00:23:07,210
she و سپس همان نوع سا
666
00:23:07,210 –> 00:23:09,580
تار ما را راه اندازی کرده است. قبلا دیدهایم، اما
667
00:23:09,580 –> 00:23:11,500
اکنون کامپیوتر ما قادر به حذف آن است
668
00:23:11,500 –> 00:23:13,300
ساختار جمله را
669
00:23:13,300 –> 00:23:14,890
بفهمم تا بتوانم نوعی
670
00:23:14,890 –> 00:23:17,050
درک ساختاری از چگونگی
671
00:23:17,050 –> 00:23:19,750
ارتباط اجزای جمله با یکدیگر به دست بیاورم، اجازه دهید
672
00:23:19,750 –> 00:23:21,760
اکنون جمله دیگری به آن بگویم، می توانم
673
00:23:21,760 –> 00:23:24,370
چیزی را امتحان کنم مانند او شهر را دیده است، به
674
00:23:24,370 –> 00:23:26,080
عنوان مثال کلمات ما چند لحظه پیش با آن سروکار
675
00:23:26,080 –> 00:23:28,540
داشتیم و سپس
676
00:23:28,540 –> 00:23:31,570
دوباره این درخت نحو را از آن خارج می کنیم
677
00:23:31,570 –> 00:23:33,550
جمله ای که دارای یک عبارت اسمی در یک
678
00:23:33,550 –> 00:23:35,110
عبارت فعل است.
679
00:23:35,110 –> 00:23:37,540
680
00:23:37,540 –> 00:23:39,640
681
00:23:39,640 –> 00:23:43,300
مثلاً شهر را دیدهایم و بیایید یک مورد دیگر
682
00:23:43,300 –> 00:23:45,490
با این دستور زبان انجام دهیم، بیایید کاری انجام دهیم
683
00:23:45,490 –> 00:23:48,010
مانند او یک ماشین را دید و
684
00:23:48,010 –> 00:23:49,960
بسیار شبیه به نظر میرسد که ما نیز او را دریافت
685
00:23:49,960 –> 00:23:51,850
میکنیم، اما عبارت فعل ما فرقی نمیکند آن
686
00:23:51,850 –> 00:23:53,800
را دیدم ماشین چون چندین وجود دارد.
687
00:23:53,800 –> 00:23:55,810
تعیین کننده های ممکن در زبان ما و
688
00:23:55,810 –> 00:23:57,820
چندین اسم ممکن من به
689
00:23:57,820 –> 00:23:59,530
این گرامر آن همه کلمه نگفته ام، اما اگر
690
00:23:59,530 –> 00:24:01,600
واژگان بزرگتری به آن بدهم،
691
00:24:01,600 –> 00:24:03,520
می تواند بیشتر و بیشتر
692
00:24:03,520 –> 00:24:06,700
انواع مختلف جملات و j را درک کند. برای
693
00:24:06,700 –> 00:24:07,870
اینکه به شما احساس
694
00:24:07,870 –> 00:24:09,940
پیچیدگی بیشتری بدهیم، میتوانیم اینجا اضافه کنیم، هرچه
695
00:24:09,940 –> 00:24:11,890
گرامر پیچیدهتر باشد، قوانین
696
00:24:11,890 –> 00:24:13,660
بیشتری اضافه کنیم، انواع مختلف
697
00:24:13,660 –> 00:24:15,220
جملات بیشتری را میتوان
698
00:24:15,220 –> 00:24:17,200
تولید کرد، بنابراین اجازه دهید نگاهی به CFG
699
00:24:17,200 –> 00:24:19,570
بیندازیم. تعداد کاملی
700
00:24:19,570 –> 00:24:21,280
از انواع مختلف قواعد
701
00:24:21,280 –> 00:24:23,890
دیگر را اضافه کردهام. من عبارات صفتی را اضافه کردهام که
702
00:24:23,890 –> 00:24:26,020
میتوانیم چندین صفت را در داخل
703
00:24:26,020 –> 00:24:28,240
یک عبارت اسمی نیز داشته باشیم، بنابراین اگر میخواهم بگویم یک عبارت اسمی
704
00:24:28,240 –> 00:24:30,190
میتواند مانند یک عبارت صفتی باشد که
705
00:24:30,190 –> 00:24:31,780
بعد از آن یک عبارت اسمی وجود دارد.
706
00:24:31,780 –> 00:24:33,790
چیزی شبیه شهر بزرگ که
707
00:24:33,790 –> 00:24:35,830
یک عبارت صفتی است که یک عبارت اسمی به دنبال آن می آید
708
00:24:35,830 –> 00:24:39,190
یا می توانیم یک اسم و
709
00:24:39,190 –> 00:24:41,830
یک عبارت اضافه داشته باشیم، بنابراین ماشین در
710
00:24:41,830 –> 00:24:44,380
خیابان به عنوان مثال در خیابان یک
711
00:24:44,380 –> 00:24:46,149
عبارت اضافه است و ما
712
00:24:46,149 –> 00:24:47,679
می خواهیم این دو ایده را با هم ترکیب کنیم
713
00:24:47,679 –> 00:24:50,439
زیرا ماشین در خیابان هنوز هم می
714
00:24:50,439 –> 00:24:52,719
تواند به عنوان چیزی شبیه یک
715
00:24:52,719 –> 00:24:54,399
عبارت اسمی عمل کند، بنابراین نیازی به درک
716
00:24:54,399 –> 00:24:56,049
همه این قوانین با جزئیات زیاد نیست،
717
00:24:56,049 –> 00:24:58,029
شروع به ورود به ماهیت دستور زبان انگلیسی می کند.
718
00:24:58,029 –> 00:25:00,999
اما اکنون ما راه پیچیده تری
719
00:25:00,999 –> 00:25:03,879
برای درک این نوع
720
00:25:03,879 –> 00:25:06,759
جملات داریم، بنابراین اگر Python CFG one را اجرا کنم و
721
00:25:06,759 –> 00:25:10,179
میتوانم چیزی مانند
722
00:25:10,179 –> 00:25:13,329
او خیابان عریض را تایپ کنم به عنوان مثال یک
723
00:25:13,329 –> 00:25:15,309
جمله پیچیدهتر و اگر آن را
724
00:25:15,309 –> 00:25:18,429
بزرگتر کنیم، میتوانید ببینید که این چیست. جمله به
725
00:25:18,429 –> 00:25:19,689
نظر می رسد که من ادامه خواهم داد و آن را
726
00:25:19,689 –> 00:25:22,599
کمی کوچکتر می کنم، بنابراین اکنون یک جمله
727
00:25:22,599 –> 00:25:26,199
مانند این داریم she saw the wide street the
728
00:25:26,199 –> 00:25:28,239
wide street یک عبارت اسمی کامل است
729
00:25:28,239 –> 00:25:30,699
saw the wide street یک عبارت فعل کامل است
730
00:25:30,699 –> 00:25:33,039
و او street wide را دید در
731
00:25:33,039 –> 00:25:36,129
نهایت کل جمله را تشکیل می دهد، بنابراین
732
00:25:36,129 –> 00:25:37,659
بیایید یک مثال دیگر برای
733
00:25:37,659 –> 00:25:40,179
معرفی این مفهوم ابهام بیندازیم تا بتوانم
734
00:25:40,179 –> 00:25:42,549
Python CFG را اجرا کنم، یکی اجازه دهید
735
00:25:42,549 –> 00:25:46,469
جمله ای مانند او سگی را با
736
00:25:46,469 –> 00:25:49,479
دوربین دوچشمی دیده است تایپ کنم، بنابراین جمله ما وجود دارد
737
00:25:49,479 –> 00:25:53,019
و اکنون یکی ممکن است درخت نحو برای
738
00:25:53,019 –> 00:25:55,989
نشان دادن این ایده او
739
00:25:55,989 –> 00:25:58,539
عبارت اسمی سگ را دید و سپس عبارت اضافه را
740
00:25:58,539 –> 00:26:00,759
با دوربین دوچشمی دید و نحوه
741
00:26:00,759 –> 00:26:02,949
تفسیر جمله این است که آنچه
742
00:26:02,949 –> 00:26:06,699
او دید سگ بود و
743
00:26:06,699 –> 00:26:09,579
صحنه ای را که انجام داد چگونه انجام داد. صحنه ای با
744
00:26:09,579 –> 00:26:12,249
دوربین دوچشمی و بنابراین این یکی از
745
00:26:12,249 –> 00:26:13,719
راه های ممکن برای تفسیر این است که او از
746
00:26:13,719 –> 00:26:16,269
ISM تک چشمی با استفاده از آن دوربین های دوچشمی استفاده می
747
00:26:16,269 –> 00:26:19,479
کرد که یک سگ را دید، اما راه ممکن دیگر برای
748
00:26:19,479 –> 00:26:22,449
تجزیه این جمله می تواند با این
749
00:26:22,449 –> 00:26:24,969
درخت در اینجا باشد، جایی که چیزی
750
00:26:24,969 –> 00:26:29,289
شبیه به او سگ دیده است. با دوربین دوچشمی که در آن
751
00:26:29,289 –> 00:26:31,869
یک سگ با دوربین دوچشمی یک
752
00:26:31,869 –> 00:26:34,299
عبارت اسمی کامل از همان کلمات خود را به
753
00:26:34,299 –> 00:26:35,859
همان ترتیب اما ساختار دستوری متفاوتی
754
00:26:35,859 –> 00:26:38,679
تشکیل می دهد که در آن اکنون ما یک سگ با
755
00:26:38,679 –> 00:26:40,539
دوربین دوچشمی داریم که تماماً در داخل این
756
00:26:40,539 –> 00:26:42,879
عبارت اسمی به معنای آن چیزی است که
757
00:26:42,879 –> 00:26:44,919
او دیده است. یک سگ و آن سگ
758
00:26:44,919 –> 00:26:47,079
به طور اتفاقی با سگ دوچشمی داشتند، بنابراین
759
00:26:47,079 –> 00:26:49,149
روش های متفاوتی برای تجزیه ساختار یک جمله
760
00:26:49,149 –> 00:26:51,429
برای جمله حتی با
761
00:26:51,429 –> 00:26:53,499
توجه به همان توالی احتمالی کلمات وجود داشت و
762
00:26:53,499 –> 00:26:55,569
الگوریتم NLT Ches در این
763
00:26:55,569 –> 00:26:57,579
الگوریتم خاص توانایی یافتن همه
764
00:26:57,579 –> 00:26:59,460
اینها را دارد تا بتواند برای درک
765
00:26:59,460 –> 00:27:00,960
روش های مختلف که ممکن است بتوانید
766
00:27:00,960 –> 00:27:02,549
جمله را تجزیه کنید و بتوانید
767
00:27:02,549 –> 00:27:04,860
نوعی معنای مفید را
768
00:27:04,860 –> 00:27:09,029
از آن جمله استخراج کنید تا سپس
769
00:27:09,029 –> 00:27:12,200
نگاهی کوتاه است به آنچه که می توانیم با استفاده
770
00:27:12,200 –> 00:27:14,370
از ساختار
771
00:27:14,370 –> 00:27:16,230
زبان استفاده از این قواعد گرامری بدون بافت انجام دهیم
772
00:27:16,230 –> 00:27:18,179
تا بتوانیم ساختاری از زبان را توصیف کنیم
773
00:27:18,179 –> 00:27:20,340
، اما چیزی که ممکن است به
774
00:27:20,340 –> 00:27:22,799
آن اهمیت دهد این است که بفهمیم
775
00:27:22,799 –> 00:27:25,289
این توالی کلمات چگونه است. احتمالاً
776
00:27:25,289 –> 00:27:27,090
از نظر کلمات واقعی خود به یکدیگر مربوط می
777
00:27:27,090 –> 00:27:29,580
شوند، دستور زبانی
778
00:27:29,580 –> 00:27:30,690
که قبلاً دیدیم
779
00:27:30,690 –> 00:27:32,399
می تواند به ما اجازه دهد جمله ای
780
00:27:32,399 –> 00:27:35,730
مانند I eate a banana را ایجاد کنیم، به عنوان مثال که من
781
00:27:35,730 –> 00:27:38,039
عبارت اسمی است و eate a banana یک
782
00:27:38,039 –> 00:27:40,080
عبارت فعل است. همچنین
783
00:27:40,080 –> 00:27:43,289
جملاتی مانند I eate a blue car را
784
00:27:43,289 –> 00:27:45,299
میدهد که از نظر نحوی
785
00:27:45,299 –> 00:27:47,640
نیز مطابق قوانین شکل گرفته است،
786
00:27:47,640 –> 00:27:49,559
اما احتمالاً احتمال کمتری وجود دارد
787
00:27:49,559 –> 00:27:51,840
که یک فرد صحبت کند و
788
00:27:51,840 –> 00:27:53,850
ممکن است ما بخواهیم هوش مصنوعی ما بتواند
789
00:27:53,850 –> 00:27:55,860
این ایده را محصور کنید که
790
00:27:55,860 –> 00:27:57,929
توالی های خاصی از کلمات بیشتر یا کمتر
791
00:27:57,929 –> 00:28:00,809
از بقیه محتمل هستند، بنابراین برای مقابله با آن
792
00:28:00,809 –> 00:28:03,419
، مفهوم Engram را معرفی می کنیم
793
00:28:03,419 –> 00:28:05,610
و Engram به طور کلی تر فقط
794
00:28:05,610 –> 00:28:08,940
به دنباله ای از n مورد اشاره دارد. de از
795
00:28:08,940 –> 00:28:11,010
متن ما و آن موارد ممکن است
796
00:28:11,010 –> 00:28:12,570
اشکال مختلف داشته باشند، می توانیم یک
797
00:28:12,570 –> 00:28:14,760
نویسه نویسی داشته باشیم که فقط
798
00:28:14,760 –> 00:28:17,130
دنباله ای از n کاراکتر به هم پیوسته است، بنابراین
799
00:28:17,130 –> 00:28:19,140
سه کاراکتر در یک ردیف، به عنوان مثال از
800
00:28:19,140 –> 00:28:21,059
چهار کاراکتر در یک ردیف، می توانیم
801
00:28:21,059 –> 00:28:23,250
انگرام های کلمه ای را نیز داشته باشیم.
802
00:28:23,250 –> 00:28:26,250
دنباله پیوسته ای از n کلمه در یک ردیف از یک
803
00:28:26,250 –> 00:28:29,250
نمونه خاص از متن و اینها در
804
00:28:29,250 –> 00:28:30,870
نهایت بسیار مفید هستند و شما می
805
00:28:30,870 –> 00:28:33,480
توانید n ما را انتخاب کنید تا تصمیم بگیرید که چند
806
00:28:33,480 –> 00:28:35,549
دنباله ما خواهد بود، بنابراین وقتی n 1 است
807
00:28:35,549 –> 00:28:37,500
ما فقط به آن نگاه می کنیم تک کلمه
808
00:28:37,500 –> 00:28:39,539
یا یک کاراکتر و این همان چیزی است که
809
00:28:39,539 –> 00:28:42,809
ما میتوانیم آن را یونیگرام فقط یک آیتم
810
00:28:42,809 –> 00:28:44,460
بنامیم اگر به دو کاراکتر یا دو
811
00:28:44,460 –> 00:28:44,909
کلمه نگاه
812
00:28:44,909 –> 00:28:47,100
کنیم که به طور کلی بیگرام نامیده میشوند، بنابراین
813
00:28:47,100 –> 00:28:49,049
Engram که در آن n برابر است با دو نگاه کردن
814
00:28:49,049 –> 00:28:51,750
به دو کلمه متوالی. و
815
00:28:51,750 –> 00:28:53,039
سپس اگر سه مورد وجود داشته باشد که ممکن است
816
00:28:53,039 –> 00:28:55,020
تصور کنید اغلب آن سه ضلعی ها را می نامید،
817
00:28:55,020 –> 00:28:57,390
بنابراین سه کاراکتر پشت سر هم یا سه
818
00:28:57,390 –> 00:28:59,610
کلمه که اتفاقاً در یک دنباله به هم پیوسته هستند
819
00:28:59,610 –> 00:29:03,120
و بنابراین اگر یک جمله را
820
00:29:03,120 –> 00:29:05,370
برای مثال در نظر بگیریم، در اینجا یک جمله از باز هم
821
00:29:05,370 –> 00:29:07,559
شرلوک هلمز چند بار به شما گفته ام
822
00:29:07,559 –> 00:29:08,730
که وقتی غیرممکن را حذف کردید،
823
00:29:08,730 –> 00:29:10,289
هرچه غیرمحتمل باقی بماند،
824
00:29:10,289 –> 00:29:13,170
باید حقیقت باشد
825
00:29:13,170 –> 00:29:15,030
که
826
00:29:15,030 –> 00:29:16,260
827
00:29:16,260 –> 00:29:18,780
اگر به دنباله های سه کلمه به خوبی نگاه کنیم، سه خطی که می توانیم از جمله استخراج کنیم، چیست.
828
00:29:18,780 –> 00:29:21,240
سه خط اول این است که هر
829
00:29:21,240 –> 00:29:23,310
چند وقت یکبار فقط دنباله سه کلمه داشته باشد
830
00:29:23,310 –> 00:29:25,350
و سپس ما می توانیم به سه ضلعی بعدی نگاه کنیم
831
00:29:25,350 –> 00:29:28,590
اغلب اگر من سه خط بعدی این است که من
832
00:29:28,590 –> 00:29:31,080
گفتم بعد گفتم به شما بگویم
833
00:29:31,080 –> 00:29:33,420
که به عنوان مثال همه اینها سه خطی
834
00:29:33,420 –> 00:29:35,730
از کلمات هستند. دنباله ای از سه
835
00:29:35,730 –> 00:29:38,270
کلمه به هم پیوسته که در متن نشان داده می شوند و
836
00:29:38,270 –> 00:29:41,400
استخراج آن نمودارها و
837
00:29:41,400 –> 00:29:43,650
سه ضلعی ها یا انگرام ها به طور کلی
838
00:29:43,650 –> 00:29:45,930
بسیار مفید است زیرا اغلب
839
00:29:45,930 –> 00:29:47,340
وقتی با تجزیه و تحلیل بسیاری از
840
00:29:47,340 –> 00:29:49,170
متن سر و کار داریم، برای آن معنی خاصی نخواهد داشت.
841
00:29:49,170 –> 00:29:50,640
سعی
842
00:29:50,640 –> 00:29:53,970
کنیم کل متن را در یک زمان تجزیه و تحلیل کنیم، اما در
843
00:29:53,970 –> 00:29:55,890
عوض میخواهیم آن متن
844
00:29:55,890 –> 00:29:58,620
را به قطعاتی تقسیم کنیم تا بتوانیم
845
00:29:58,620 –> 00:30:01,020
تحلیلی از آنهایی که هوش مصنوعی ما هرگز
846
00:30:01,020 –> 00:30:03,180
ندیده است، انجام دهیم. قبل از این کل جمله است
847
00:30:03,180 –> 00:30:06,540
اما احتمالاً سه ضلعی برای شما
848
00:30:06,540 –> 00:30:08,700
که قبلاً دیده شده است زیرا برای شما
849
00:30:08,700 –> 00:30:09,990
چیزی است که ممکن است در
850
00:30:09,990 –> 00:30:12,870
اسناد دیگری که رای قبلاً دیده است آمده باشد
851
00:30:12,870 –> 00:30:14,400
و بنابراین کمی
852
00:30:14,400 –> 00:30:17,510
در مورد آن دنباله خاص از سه
853
00:30:17,510 –> 00:30:20,370
کلمه پشت سر هم می داند. یا چیزی شبیه به
854
00:30:20,370 –> 00:30:22,740
مثالی دیگر از یک دنباله دیگر
855
00:30:22,740 –> 00:30:24,930
از سه کلمه گفته ام که احتمالاً از
856
00:30:24,930 –> 00:30:26,880
نظر جایی که آن را در زبان انگلیسی می بینید بسیار محبوب
857
00:30:26,880 –> 00:30:29,130
است، بنابراین ما می
858
00:30:29,130 –> 00:30:30,930
خواهیم راهی برای استخراج این
859
00:30:30,930 –> 00:30:33,150
نوع انگرام ها و نحوه انجام آن وجود داشته باشد. اینکه
860
00:30:33,150 –> 00:30:34,740
چگونه میتوانیم مانند دنبالههای
861
00:30:34,740 –> 00:30:36,630
سه کلمه را به خوبی استخراج کنیم، باید ورودی خود را بگیریم
862
00:30:36,630 –> 00:30:40,110
و به نحوی آن را به همه کلمات جداگانه جدا کنیم
863
00:30:40,110 –> 00:30:42,090
و این
864
00:30:42,090 –> 00:30:44,250
فرآیندی است که عموماً به عنوان نشانهسازی شناخته میشود
865
00:30:44,250 –> 00:30:46,620
، وظیفه تقسیم کردن تعدادی از دنبالهها
866
00:30:46,620 –> 00:30:48,720
به قطعات متمایز، جایی که آنها را مینامیم.
867
00:30:48,720 –> 00:30:51,570
نشانههای قطعه معمولاً
868
00:30:51,570 –> 00:30:53,490
به چیزی شبیه نشانهسازی کلمه
869
00:30:53,490 –> 00:30:55,170
870
00:30:55,170 –> 00:30:56,640
871
00:30:56,640 –> 00:30:59,130
اشاره دارد. متن اما
872
00:30:59,130 –> 00:31:01,200
ممکن است در زمینه چیزی
873
00:31:01,200 –> 00:31:03,570
مانند نشانهسازی جملات ظاهر شود. من
874
00:31:03,570 –> 00:31:05,400
دنبالهای طولانی از متون دارم و میخواهم آنها
875
00:31:05,400 –> 00:31:08,220
را به جملاتی تقسیم کنم و بنابراین
876
00:31:08,220 –> 00:31:10,020
چگونه میتوان توکنسازی کلمات
877
00:31:10,020 –> 00:31:11,790
وظیفه تقسیم کردن دنبالههای ما را انجام داد.
878
00:31:11,790 –> 00:31:12,930
کاراکترها را به کلمات تبدیل
879
00:31:12,930 –> 00:31:15,570
میکنیم، همچنین قبلاً این ایده
880
00:31:15,570 –> 00:31:16,770
را دیدهایم، مشاهده کردهایم که در توکنسازی کلمه
881
00:31:16,770 –> 00:31:19,260
، همین چند لحظه پیش من یک
882
00:31:19,260 –> 00:31:21,900
توالی ورودی گرفتم و من فقط روش تقسیم پایتون را روی آن صدا زدم،
883
00:31:21,900 –> 00:31:23,970
جایی که متد split
884
00:31:23,970 –> 00:31:25,650
آن دنباله کلمات را گرفت و فقط
885
00:31:25,650 –> 00:31:26,970
جدا شد. این
886
00:31:26,970 –> 00:31:29,490
کار بر اساس جایی انجام شد که فاصله ها در آن کلمه نشان داده شد
887
00:31:29,490 –> 00:31:31,020
و بنابراین اگر من جمله ای مانند
888
00:31:31,020 –> 00:31:33,720
هر چیزی که باقی می ماند هر چند غیرممکن باشد
889
00:31:33,720 –> 00:31:36,710
باید حقیقت باشد، چگونه می توانم این را به
890
00:31:36,710 –> 00:31:39,000
خوبی نشان دهم، رویکرد ساده لوحانه فقط این است که بگوییم
891
00:31:39,000 –> 00:31:41,909
هر زمان که فضایی را دیدید، پیش بروید و
892
00:31:41,909 –> 00:31:43,980
آن را تقسیم کنید. ما می خواهیم این
893
00:31:43,980 –> 00:31:45,929
رشته خاص را فقط با جستجوی
894
00:31:45,929 –> 00:31:47,880
فاصله ها از هم جدا کنیم و آنچه در هنگام انجام این کار به دست می
895
00:31:47,880 –> 00:31:50,460
آوریم جمله ای شبیه به این است که هرچه
896
00:31:50,460 –> 00:31:53,280
بعید باقی بماند باید حقیقت باشد اما
897
00:31:53,280 –> 00:31:55,110
آنچه در اینجا متوجه خواهید شد این است که اگر
898
00:31:55,110 –> 00:31:57,360
فقط چیزها را از نظر
899
00:31:57,360 –> 00:31:59,669
مکان فاصلهها تقسیم کنیم، در نهایت مانند نگه
900
00:31:59,669 –> 00:32:01,530
داشتن علامتگذاری در اطراف، یک ویرگول وجود دارد،
901
00:32:01,530 –> 00:32:03,390
بعد از اینکه کلمه باقی میماند، یک کاما
902
00:32:03,390 –> 00:32:05,610
بعد از یک نقطه غیرمحتمل بعد از حقیقت وجود دارد
903
00:32:05,610 –> 00:32:07,559
و این کمی
904
00:32:07,559 –> 00:32:09,450
چالش را ایجاد میکند. به تلاش برای
905
00:32:09,450 –> 00:32:11,309
تبدیل کردن چیزها به کلمات جداگانه
906
00:32:11,309 –> 00:32:13,620
فکر کنید زیرا اگر کلمات را با یکدیگر مقایسه کنید
907
00:32:13,620 –> 00:32:16,020
این کلمه حقیقت را با نقطه
908
00:32:16,020 –> 00:32:18,059
بعد از آن مقایسه کنید اگر فقط آن را رشته ای مقایسه کنید
909
00:32:18,059 –> 00:32:19,440
با کلمه
910
00:32:19,440 –> 00:32:20,909
حقیقت بدون نقطه بعد از آن متفاوت خواهد بود
911
00:32:20,909 –> 00:32:22,620
و بنابراین این نشانهگذاری گاهی اوقات میتواند
912
00:32:22,620 –> 00:32:24,390
برای ما مشکل ایجاد کند و بنابراین ممکن است
913
00:32:24,390 –> 00:32:25,650
بخواهیم راهی برای مقابله با آن داشته باشیم، یا اینکه
914
00:32:25,650 –> 00:32:27,809
علائم نگارشی را بهعنوان یک نشانه جداگانه در نظر بگیریم
915
00:32:27,809 –> 00:32:29,520
یا شاید آن
916
00:32:29,520 –> 00:32:31,559
نقطهگذاری را به طور کامل از توالی خود حذف
917
00:32:31,559 –> 00:32:34,080
کنیم تا شاید کاری باشد که
918
00:32:34,080 –> 00:32:35,669
میخواهیم انجام دهیم، اما وجود دارد. موارد دیگر
919
00:32:35,669 –> 00:32:37,590
که
920
00:32:37,590 –> 00:32:40,110
اگر من چیزی بگویم درست قبل از ساعت 9، کمی کمتر روشن می شود که
921
00:32:40,110 –> 00:32:40,559
922
00:32:40,559 –> 00:32:42,390
شرلوک هلمز با سرعت وارد
923
00:32:42,390 –> 00:32:44,909
اتاق شد و این آپستروف پس از آن
924
00:32:44,909 –> 00:32:46,980
ساعت 9 دقیقاً بعد از O در
925
00:32:46,980 –> 00:32:48,299
ساعت 9، چیزی است که
926
00:32:48,299 –> 00:32:50,250
باید حذف کنیم، اگر بر اساس آن نیز تقسیم کنیم
927
00:32:50,250 –> 00:32:52,380
و – اوه و ساعت،
928
00:32:52,380 –> 00:32:54,210
سؤالات جالبی وجود دارد – و
929
00:32:54,210 –> 00:32:55,890
اگر شروع به فکر کردن در مورد آن کنید، حتی دشوارتر می شود.
930
00:32:55,890 –> 00:32:57,630
مانند کلمات خط فاصله، چیزی
931
00:32:57,630 –> 00:32:59,700
شبیه به این، که در آن ما یک دسته کامل از
932
00:32:59,700 –> 00:33:02,669
کلمات داریم که خط فاصله دارند و سپس
933
00:33:02,669 –> 00:33:03,960
شما باید قضاوت کنید،
934
00:33:03,960 –> 00:33:05,250
جایی است که می خواهید
935
00:33:05,250 –> 00:33:07,440
چیزها را به کلمات جداگانه تقسیم کنید یا
936
00:33:07,440 –> 00:33:09,240
می خواهید فروک را در نظر بگیرید. – کت و
937
00:33:09,240 –> 00:33:11,580
خوش تراش و خاکستری مرواریدی که کلمات منحصر به فرد
938
00:33:11,580 –> 00:33:14,490
خودشان باشد و بنابراین آنهایی که تمایل
939
00:33:14,490 –> 00:33:15,990
دارند چالش هایی را ارسال کنند که ما باید به نوعی
940
00:33:15,990 –> 00:33:17,220
با آنها مقابله کنیم و چیزی که باید
941
00:33:17,220 –> 00:33:20,159
در تلاش برای انجام
942
00:33:20,159 –> 00:33:22,559
این نوع تحلیل چالش های مشابه تصمیم بگیریم.
943
00:33:22,559 –> 00:33:23,850
وقتی نوبت به دنیای
944
00:33:23,850 –> 00:33:26,909
نشانهسازی جملات میرسد، این توالی جملات را تصور کنید
945
00:33:26,909 –> 00:33:29,460
، به عنوان مثال،
946
00:33:29,460 –> 00:33:30,870
اگر به این دنباله خاص
947
00:33:30,870 –> 00:33:32,309
از جملهها نگاهی بیندازید، احتمالاً
948
00:33:32,309 –> 00:33:34,020
میتوانید تصور کنید که میتوانید جملات را زیبا استخراج کنید.
949
00:33:34,020 –> 00:33:36,840
به راحتی اینجا یک جمله است و
950
00:33:36,840 –> 00:33:38,789
این یک جمله دوم است، بنابراین ما دو
951
00:33:38,789 –> 00:33:40,380
جمله متفاوت در
952
00:33:40,380 –> 00:33:43,230
کنار این قطعه خاص داریم و
953
00:33:43,230 –> 00:33:45,480
وجه تمایز ظاهراً
954
00:33:45,480 –> 00:33:47,460
مانند دوره ای است که یک نقطه یک
955
00:33:47,460 –> 00:33:49,530
جمله را از دیگری جدا می کند و شاید
956
00:33:49,530 –> 00:33:51,060
انواع دیگری از نقطه گذاری شما وجود داشته باشد. ممکن
957
00:33:51,060 –> 00:33:53,220
است در اینجا یک علامت تعجب
958
00:33:53,220 –> 00:33:55,830
به عنوان مثال یا یک علامت سوال نیز وجود داشته باشد، اما
959
00:33:55,830 –> 00:33:57,390
اینها انواع علائم نگارشی هستند که
960
00:33:57,390 –> 00:33:59,640
می دانیم تمایل دارند در انتهای
961
00:33:59,640 –> 00:34:02,010
جملات آمده باشند، اما اگر
962
00:34:02,010 –> 00:34:04,050
به جمله ای مانند این نگاه کنید نه
963
00:34:04,050 –> 00:34:05,910
فقط مطمئن باشید که با آنها صحبت می کنید، دوباره مشکل تر می شود. شرلوک اما
964
00:34:05,910 –> 00:34:07,440
به جای صحبت با شرلوک
965
00:34:07,440 –> 00:34:10,320
با آقای. هولمز خوب حالا ما یک دوره
966
00:34:10,320 –> 00:34:11,969
در پایان Mr. و بنابراین اگر
967
00:34:11,969 –> 00:34:13,379
فقط در مورد پریود جدا میشوید، ممکن است
968
00:34:13,379 –> 00:34:15,418
تصور کنید که این یک جمله خواهد بود و
969
00:34:15,418 –> 00:34:17,610
سپس فقط هولمز یک جمله خواهد بود و
970
00:34:17,610 –> 00:34:19,050
سپس ما یک جمله سوم را در
971
00:34:19,050 –> 00:34:21,719
زیر خواهیم داشت،
972
00:34:21,719 –> 00:34:23,790
وقتی شروع به تصور این گونهها میکنید، همه چیز کمی پیچیدهتر میشود.
973
00:34:23,790 –> 00:34:25,889
از موقعیتها و گفتوگوها
974
00:34:25,889 –> 00:34:27,780
با یادداشتها نیز این موضوع را پیچیدهتر میکند که
975
00:34:27,780 –> 00:34:30,270
اگر شما چنین خطوطی داشته باشید که
976
00:34:30,270 –> 00:34:32,610
در داخل چیزی هستند که او گفته است، به
977
00:34:32,610 –> 00:34:34,800
عنوان مثال که او این
978
00:34:34,800 –> 00:34:36,360
توالی خاص از کلمات و این
979
00:34:36,360 –> 00:34:38,100
توالی خاص از کلمات را گفته است،
980
00:34:38,100 –> 00:34:40,080
چالشهای جالبی هستند. از
981
00:34:40,080 –> 00:34:41,699
نظر نحوه گرفتن
982
00:34:41,699 –> 00:34:44,040
جمله و تقسیم آن به
983
00:34:44,040 –> 00:34:46,980
جملات فردی نیز به آنجا می رسد و اینها فقط
984
00:34:46,980 –> 00:34:48,149
چیزهایی هستند که الگوریتم ما باید
985
00:34:48,149 –> 00:34:50,129
در عمل تصمیم بگیرد.
986
00:34:50,129 –> 00:34:51,690
987
00:34:51,690 –> 00:34:53,580
دوره های خاصی
988
00:34:53,580 –> 00:34:55,350
مانند دوره بعد از آقای وجود دارد. وقتی
989
00:34:55,350 –> 00:34:57,600
مثالهای دیگری میدانیم که
990
00:34:57,600 –> 00:34:59,280
شروع یک جمله جدید نیست و بنابراین
991
00:34:59,280 –> 00:35:01,890
میتوانیم آن قوانین را در هوش مصنوعی خود رمزگذاری کنیم تا
992
00:35:01,890 –> 00:35:03,450
به آن اجازه دهیم تا بتواند این
993
00:35:03,450 –> 00:35:05,280
توکنسازی را به روشی که ما میخواستیم انجام
994
00:35:05,280 –> 00:35:08,400
دهد، بنابراین وقتی این دو توانایی را برای
995
00:35:08,400 –> 00:35:10,230
توکن کردن داشته باشیم. یک قطعه خاص،
996
00:35:10,230 –> 00:35:12,090
آن را به کلمات جداگانه تقسیم می کند،
997
00:35:12,090 –> 00:35:14,550
از آنجا می توانیم شروع به استخراج
998
00:35:14,550 –> 00:35:17,310
کنیم که انگرام ها در واقع چه هستند، بنابراین
999
00:35:17,310 –> 00:35:20,040
می توانیم با رفتن
1000
00:35:20,040 –> 00:35:21,540
به یک برنامه پایتون که
1001
00:35:21,540 –> 00:35:23,790
به هدف استخراج این انگرام ها
1002
00:35:23,790 –> 00:35:26,430
و دوباره انجام می شود، نگاهی به آن بیندازیم. ما میتوانیم از
1003
00:35:26,430 –> 00:35:27,840
جعبه ابزار زبان طبیعی NL TK استفاده کنیم تا در اینجا به ما کمک کند،
1004
00:35:27,840 –> 00:35:29,520
بنابراین ما به سمت
1005
00:35:29,520 –> 00:35:31,770
engrams برویم و نگاهی به engrams
1006
00:35:31,770 –> 00:35:35,580
dot Pi بیندازیم و آنچه در اینجا داریم این است که میخواهیم مجموعهای از آنها را در نظر بگیریم.
1007
00:35:35,580 –> 00:35:37,710
متن
1008
00:35:37,710 –> 00:35:39,720
یا دنباله ای از اسناد را استفاده کنید و از همه
1009
00:35:39,720 –> 00:35:41,850
آن اسناد استفاده کنید و
1010
00:35:41,850 –> 00:35:45,000
محبوب ترین انگرام ها را استخراج کنید،
1011
00:35:45,000 –> 00:35:46,650
بنابراین برای انجام این کار، آن را سرفصل می کنیم
1012
00:35:46,650 –> 00:35:48,420
و داده ها را از دایرکتوری بارگیری
1013
00:35:48,420 –> 00:35:49,740
می کنیم که به عنوان دستور آن آرگومان مشخص می
1014
00:35:49,740 –> 00:35:52,110
کنیم. اراده همچنین یک عدد n را به
1015
00:35:52,110 –> 00:35:53,819
عنوان یک آرگومان خط فرمان در نظر بگیرید و همچنین
1016
00:35:53,819 –> 00:35:55,769
از نظر اینکه تعداد ما از
1017
00:35:55,769 –> 00:35:58,349
نظر تعداد کلمات دنبالهای که به ترتیب به آنها نگاه میکنیم چقدر باید باشد،
1018
00:35:58,349 –> 00:36:00,809
سپس ادامه میدهیم
1019
00:36:00,809 –> 00:36:03,029
و فقط میشماریم. همه
1020
00:36:03,029 –> 00:36:05,910
NLT K dot Engram بنابراین ما به
1021
00:36:05,910 –> 00:36:08,249
تمام انگرامها در کل این
1022
00:36:08,249 –> 00:36:10,469
مجموعه نگاه میکنیم و آن را در داخل این
1023
00:36:10,469 –> 00:36:12,509
انگرامهای متغیر ذخیره میکنیم و سپس به رایجترین آنها نگاه میکنیم و ادامه میدهیم
1024
00:36:12,509 –> 00:36:14,759
و
1025
00:36:14,759 –> 00:36:16,559
آنها را چاپ میکنیم. برای انجام این کار، من نه
1026
00:36:16,559 –> 00:36:18,329
تنها از NLT K استفاده می کنم، بلکه از شمارنده ای نیز استفاده می کنم
1027
00:36:18,329 –> 00:36:20,190
که در پایتون
1028
00:36:20,190 –> 00:36:22,109
1029
00:36:22,109 –> 00:36:24,029
تعبیه شده است و می توانم شمارش کنم که این انگرام های مختلف چند بار
1030
00:36:24,029 –> 00:36:26,729
ظاهر می شوند، بنابراین ادامه می دهم و نشان می دهم که
1031
00:36:26,729 –> 00:36:29,579
وارد Engrams میشود و من
1032
00:36:29,579 –> 00:36:31,559
چیزی شبیه پایتون و گرم میگویم و
1033
00:36:31,559 –> 00:36:33,239
اجازه دهید ابتدا
1034
00:36:33,239 –> 00:36:36,539
دنبالههای یونگرام یک کلمه را در داخل یک پیکره جستجو کنیم
1035
00:36:36,539 –> 00:36:38,670
و مجموعهای که من آماده کردهام این است که
1036
00:36:38,670 –> 00:36:41,069
من همه یا برخی از این داستانها را دارم.
1037
00:36:41,069 –> 00:36:43,619
شرلوک هلمز همه اینجا که هر کدام هستند
1038
00:36:43,619 –> 00:36:45,749
فقط یکی از شرلوک
1039
00:36:45,749 –> 00:36:47,729
هلمز را می شناسید داستانها و بنابراین من یک
1040
00:36:47,729 –> 00:36:49,410
دسته کامل از متن اینجا در داخل این مجموعه
1041
00:36:49,410 –> 00:36:52,289
دارم و ادامه میدهم و آن
1042
00:36:52,289 –> 00:36:53,789
پیکره را به عنوان یک آرگومان خط فرمان ارائه
1043
00:36:53,789 –> 00:36:55,799
میکنم و حالا کاری که برنامه من میخواهد انجام
1044
00:36:55,799 –> 00:36:57,449
دهد این است که همه شرلوک هلمز را بارگیری میکند.
1045
00:36:57,449 –> 00:36:59,400
داستان ها در حافظه یا تمام
1046
00:36:59,400 –> 00:37:00,719
مواردی که حداقل در این مجموعه ارائه
1047
00:37:00,719 –> 00:37:02,309
کرده ام و فقط به دنبال
1048
00:37:02,309 –> 00:37:04,469
محبوب ترین یونیگرام و آن
1049
00:37:04,469 –> 00:37:07,199
دنباله های محبوب یک کلمه می گردم و
1050
00:37:07,199 –> 00:37:09,180
به نظر می رسد محبوب ترین آنها فقط
1051
00:37:09,180 –> 00:37:11,759
کلمه ای است که 97 صد بار استفاده شده است. و به
1052
00:37:11,759 –> 00:37:13,829
دنبال آن من پنج هزار بار
1053
00:37:13,829 –> 00:37:15,959
استفاده کردم و حدود پنج هزار بار از
1054
00:37:15,959 –> 00:37:18,569
انواع کلماتی که ممکن است انتظار داشتید استفاده کردم، پس حالا
1055
00:37:18,569 –> 00:37:20,160
بیایید ادامه دهیم و برای مثال خرید گرم
1056
00:37:20,160 –> 00:37:24,959
و گرم به هولمز و خیلی
1057
00:37:24,959 –> 00:37:27,029
خوب دوباره دنباله هایی از دو کلمه
1058
00:37:27,029 –> 00:37:29,759
که اکنون چندین بار ظاهر می شوند را بررسی کنیم. از جمله در
1059
00:37:29,759 –> 00:37:32,219
آن بود که من یکی را دارم و
1060
00:37:32,219 –> 00:37:34,079
به همین ترتیب اینها انواع بر حسب گرم
1061
00:37:34,079 –> 00:37:35,249
هستند که اغلب
1062
00:37:35,249 –> 00:37:37,259
در داخل این مجموعه از داخل
1063
00:37:37,259 –> 00:37:38,999
داستانهای شرلوک هلمز ظاهر می شوند و احتمالاً
1064
00:37:38,999 –> 00:37:40,949
در سایر موارد نیز صادق است. پیکرههای er نیز وجود دارد،
1065
00:37:40,949 –> 00:37:42,329
اما ما فقط میتوانیم بفهمیم که آیا
1066
00:37:42,329 –> 00:37:44,519
واقعاً در آن آزمایش میکنیم یا نه، و اکنون فقط برای
1067
00:37:44,519 –> 00:37:45,660
اندازهگیری خوب، بیایید یک مورد دیگر را
1068
00:37:45,660 –> 00:37:48,479
امتحان کنیم، شاید سه مورد را امتحان کنیم و به دنبال سهگرامهایی باشیم که
1069
00:37:48,479 –> 00:37:51,269
اتفاقاً ظاهر میشوند و حالا میبینیم
1070
00:37:51,269 –> 00:37:54,449
که یکی از مواردی است که فکر میکنم که از بین
1071
00:37:54,449 –> 00:37:56,309
اینها دنبالهای از سه کلمه هستند
1072
00:37:56,309 –> 00:37:58,170
که در حال حاضر چندین بار
1073
00:37:58,170 –> 00:38:01,319
در این مجموعه خاص ظاهر میشوند، بنابراین
1074
00:38:01,319 –> 00:38:03,209
موارد استفاده بالقوه در اینجا چیست، اکنون
1075
00:38:03,209 –> 00:38:04,890
ما نوعی داده داریم، دادههایی
1076
00:38:04,890 –> 00:38:07,589
در مورد تعداد دفعات نمایش توالیهای خاصی از
1077
00:38:07,589 –> 00:38:09,960
این مجموعه داریم. ترتیب خاص و
1078
00:38:09,960 –> 00:38:12,180
با استفاده از آن میتوانیم شروع به انجام
1079
00:38:12,180 –> 00:38:14,249
نوعی پیشبینی کنیم، ممکن است بتوانیم بگوییم
1080
00:38:14,249 –> 00:38:17,880
که اگر کلمات را ببینید،
1081
00:38:17,880 –> 00:38:19,499
میدانید که احتمال معقولی وجود دارد
1082
00:38:19,499 –> 00:38:21,599
که کلمه بعد از آن باید
1083
00:38:21,599 –> 00:38:24,210
کلمه a باشد و اگر من آن را ببینم یکی از کلمات
1084
00:38:24,210 –> 00:38:26,670
منطقی است تصور کنیم که کلمه بعدی
1085
00:38:26,670 –> 00:38:28,799
ممکن است کلمه the باشد، به عنوان مثال،
1086
00:38:28,799 –> 00:38:31,380
زیرا ما این داده ها را در مورد
1087
00:38:31,380 –> 00:38:33,029
دنباله های سه ضلعی از سه کلمه و تعداد دفعات
1088
00:38:33,029 –> 00:38:35,069
آنها داریم و اکنون بر اساس دو
1089
00:38:35,069 –> 00:38:37,589
کلمه ممکن است بتوانید پیش بینی کنید که در
1090
00:38:37,589 –> 00:38:40,799
کلمه سوم اتفاق می افتد و یکی از مدل
1091
00:38:40,799 –> 00:38:42,390
هایی که می توانیم برای آن استفاده کنیم، مدلی است که در
1092
00:38:42,390 –> 00:38:44,249
واقع قبل از آن دیده بودیم، مدل مارکوف
1093
00:38:44,249 –> 00:38:46,559
دوباره یادآوری می کند که مدل مارکوف
1094
00:38:46,559 –> 00:38:48,569
واقعاً فقط به دنباله ای از رویدادها اشاره دارد
1095
00:38:48,569 –> 00:38:50,519
که یک مرحله بعد از یک اتفاق می افتد.
1096
00:38:50,519 –> 00:38:53,700
مرحله زمانی که در آن هر واحد تا حدی
1097
00:38:53,700 –> 00:38:56,249
توانایی پیشبینی واحد بعدی
1098
00:38:56,249 –> 00:38:58,440
را دارد یا شاید دو واحد گذشته پیشبینی میکنند که واحد بعدی چه خواهد بود یا سه واحد گذشته
1099
00:38:58,440 –> 00:38:59,849
پیشبینی میکنند که واحد
1100
00:38:59,849 –> 00:39:02,069
1101
00:39:02,069 –> 00:39:03,869
بعدی چه خواهد بود و ما میتوانیم استفاده کنیم. یک
1102
00:39:03,869 –> 00:39:05,969
مدل مارکوف و به کار بردن آن در زبان
1103
00:39:05,969 –> 00:39:08,160
برای یک رویکرد بسیار ساده و ساده در
1104
00:39:08,160 –> 00:39:10,170
تلاش برای تولید زبان طبیعی
1105
00:39:10,170 –> 00:39:12,420
برای اینکه هوش مصنوعی ما بتواند
1106
00:39:12,420 –> 00:39:14,880
مانند متن به انگلیسی صحبت کند و روشی که قرار
1107
00:39:14,880 –> 00:39:17,099
است کار کند این است که ما چیزی
1108
00:39:17,099 –> 00:39:18,900
شبیه به بیا بگوییم با مقداری
1109
00:39:18,900 –> 00:39:22,049
توزیع احتمال با توجه به این دو کلمه
1110
00:39:22,049 –> 00:39:23,759
توزیع احتمال بر روی
1111
00:39:23,759 –> 00:39:25,950
آنچه که کلمه سوم احتمالاً
1112
00:39:25,950 –> 00:39:28,259
بر اساس همه داده ها می تواند باشد چیست اگر می بینید
1113
00:39:28,259 –> 00:39:30,450
که کلمات سوم
1114
00:39:30,450 –> 00:39:31,979
ممکن است که ممکن است داشته باشیم چند وقت یکبار آنها به شما می آیند p و
1115
00:39:31,979 –> 00:39:34,109
با استفاده از آن اطلاعات میتوانیم تلاش کنیم
1116
00:39:34,109 –> 00:39:36,660
و آنچه را که انتظار داریم کلمه سوم باشد بسازیم
1117
00:39:36,660 –> 00:39:38,729
و اگر به این کار ادامه دهید، نتیجه این
1118
00:39:38,729 –> 00:39:41,190
است که مدل مارکوف ما میتواند به
1119
00:39:41,190 –> 00:39:43,680
طور موثر شروع به تولید متن کند،
1120
00:39:43,680 –> 00:39:45,930
میتواند متنی را تولید کند که در
1121
00:39:45,930 –> 00:39:48,539
مجموعه اصلی وجود ندارد. اما به نظر می رسد
1122
00:39:48,539 –> 00:39:50,339
که شبیه مجموعه اصلی است،
1123
00:39:50,339 –> 00:39:52,019
از همان قوانینی استفاده می کند که
1124
00:39:52,019 –> 00:39:54,390
مجموعه اصلی از آن استفاده می کرد، بنابراین بیایید
1125
00:39:54,390 –> 00:39:56,930
به یک نمونه از آن نگاهی بیندازیم، همچنین
1126
00:39:56,930 –> 00:40:00,059
ما اکنون اینجا هستیم، من مجموعه دیگری
1127
00:40:00,059 –> 00:40:02,910
دارم که من اینجا دارم و آن هم هست. مجموعه
1128
00:40:02,910 –> 00:40:04,380
تمام آثار ویلیام شکسپیر،
1129
00:40:04,380 –> 00:40:07,319
بنابراین من یک دسته کامل داستان
1130
00:40:07,319 –> 00:40:09,989
از شکسپیر دارم و همه آنها
1131
00:40:09,989 –> 00:40:12,719
فقط در داخل این فایل متنی بزرگ هستند و بنابراین
1132
00:40:12,719 –> 00:40:15,269
آنچه که ممکن است بخواهم انجام دهم این است که به
1133
00:40:15,269 –> 00:40:17,249
همه انگرام ها نگاه کنم. شاید به
1134
00:40:17,249 –> 00:40:19,319
تمام سهضلعیهای داخل متن شکسپیر نگاه
1135
00:40:19,319 –> 00:40:21,480
کنید و
1136
00:40:21,480 –> 00:40:23,760
کلمات داده شده را بفهمم آیا میتوانم پیشبینی کنم که کلمه سوم
1137
00:40:23,760 –> 00:40:25,380
احتمالاً چه خواهد بود و سپس فقط
1138
00:40:25,380 –> 00:40:26,790
این روند را تکرار کنید.
1139
00:40:26,790 –> 00:40:28,470
1140
00:40:28,470 –> 00:40:29,760
کلمه ird کلمه چهارم را پیشبینی میکند
1141
00:40:29,760 –> 00:40:30,930
و از کلمه سوم و
1142
00:40:30,930 –> 00:40:32,580
چهارم کلمه پنجم را پیشبینی میکند و
1143
00:40:32,580 –> 00:40:35,820
در نهایت جملات تصادفی
1144
00:40:35,820 –> 00:40:37,470
شبیه شکسپیر ایجاد میکند که
1145
00:40:37,470 –> 00:40:39,510
از الگوهای کلمات مشابهی استفاده میکنند که
1146
00:40:39,510 –> 00:40:41,010
شکسپیر استفاده میکند اما در
1147
00:40:41,010 –> 00:40:44,850
واقع هرگز در خود شکسپیر دیده نمیشود و
1148
00:40:44,850 –> 00:40:46,950
بنابراین من این کار را انجام میدهم. به شما مولد dot pie را نشان
1149
00:40:46,950 –> 00:40:48,990
1150
00:40:48,990 –> 00:40:51,570
میدهم که دوباره فقط دادهها را از یک فایل خاص میخواند و من از یک
1151
00:40:51,570 –> 00:40:53,850
کتابخانه پایتون به نام Markova Phi استفاده
1152
00:40:53,850 –> 00:40:55,440
میکنم که این فرآیند را برای من انجام میدهد،
1153
00:40:55,440 –> 00:40:57,300
بنابراین کتابخانههایی در اینجا وجود دارند که
1154
00:40:57,300 –> 00:40:59,730
میتوانند آموزش دهند. روی یک دسته از متون
1155
00:40:59,730 –> 00:41:01,590
و یک مدل مارکوف بر اساس آن
1156
00:41:01,590 –> 00:41:03,869
متن ایجاد کنید و من ادامه میدهم و فقط
1157
00:41:03,869 –> 00:41:06,330
پنج جمله بهطور تصادفی تولید
1158
00:41:06,330 –> 00:41:09,560
میکنم، بنابراین ادامه میدهیم و وارد Markov میشویم.
1159
00:41:09,560 –> 00:41:12,780
1160
00:41:12,780 –> 00:41:15,359
خواهیم دید
1161
00:41:15,359 –> 00:41:17,670
که دادهها را بارگیری میکند و سپس این
1162
00:41:17,670 –> 00:41:19,470
چیزی است که به دست میآوریم، پنج
1163
00:41:19,470 –> 00:41:21,359
جمله مختلف را میشناسیم و اینها جملاتی هستند
1164
00:41:21,359 –> 00:41:23,369
که هرگز در هیچ
1165
00:41:23,369 –> 00:41:25,619
نمایشنامهای شکسپیر دیده نشدند، اما برای صدا طراحی شدهاند.
1166
00:41:25,619 –> 00:41:27,900
مانند شکسپیر که
1167
00:41:27,900 –> 00:41:29,580
فقط برای گرفتن دو کلمه و
1168
00:41:29,580 –> 00:41:31,830
پیش بینی با توجه به این دو کلمه طراحی شده
1169
00:41:31,830 –> 00:41:33,480
اند.
1170
00:41:33,480 –> 00:41:36,060
1171
00:41:36,060 –> 00:41:37,290
1172
00:41:37,290 –> 00:41:39,000
1173
00:41:39,000 –> 00:41:41,190
برای بیان هر نوع
1174
00:41:41,190 –> 00:41:42,960
معنای زیربنایی در اینجا فقط سعی می
1175
00:41:42,960 –> 00:41:44,910
شود بر اساس دنباله
1176
00:41:44,910 –> 00:41:47,190
کلمات بفهمد که چه چیزی احتمالاً بعد از آن به
1177
00:41:47,190 –> 00:41:50,790
عنوان کلمه بعدی می آید و
1178
00:41:50,790 –> 00:41:53,010
اینها انواع جملاتی هستند که
1179
00:41:53,010 –> 00:41:54,510
فقط با تولید آنها می تواند بیاید و اگر شما
1180
00:41:54,510 –> 00:41:56,130
این را چندین بار اجرا کردید و در
1181
00:41:56,130 –> 00:41:58,140
نهایت به نتایج متفاوتی می رسید که من
1182
00:41:58,140 –> 00:42:00,060
می توانم این را دوباره اجرا کنم و سپس
1183
00:42:00,060 –> 00:42:02,190
مجموعه ای کاملاً متفاوت از پنج جمله مختلف را دریافت
1184
00:42:02,190 –> 00:42:04,410
کنم و همچنین قرار است به
1185
00:42:04,410 –> 00:42:07,020
نوعی شبیه
1186
00:42:07,020 –> 00:42:09,350
جملات شکسپیر به نظر برسد
1187
00:42:09,350 –> 00:42:12,210
و به همین ترتیب سپس نگاهی به این شد که چگونه
1188
00:42:12,210 –> 00:42:14,600
میتوانیم از مدلهای مارکوف استفاده کنیم تا بتوانیم
1189
00:42:14,600 –> 00:42:16,800
سادهلوحانه بهعنوان یک زبان تولیدکننده تلاش کنیم که
1190
00:42:16,800 –> 00:42:18,000
این زبان در
1191
00:42:18,000 –> 00:42:19,230
حال حاضر معنای زیادی ندارد. نمیخواهیم
1192
00:42:19,230 –> 00:42:21,510
از سیستم به این شکل فعلی برای
1193
00:42:21,510 –> 00:42:23,070
انجام کاری مانند ترجمه ماشینی استفاده
1194
00:42:23,070 –> 00:42:24,210
کنیم، زیرا نمیتواند
1195
00:42:24,210 –> 00:42:26,250
هیچ معنایی را در برگیرد، اما
1196
00:42:26,250 –> 00:42:28,230
اکنون داریم میبینیم که هوش مصنوعی ما
1197
00:42:28,230 –> 00:42:30,840
در تلاش برای صحبت کردن ما کمی بهتر شده است.
1198
00:42:30,840 –> 00:42:32,130
زبان ما سعی می کنیم
1199
00:42:32,130 –> 00:42:34,470
بتوانیم زبان طبیعی را به نوعی معنادار پردازش
1200
00:42:34,470 –> 00:42:35,480
1201
00:42:35,480 –> 00:42:37,890
کنیم، بنابراین اکنون به چند
1202
00:42:37,890 –> 00:42:40,080
کار دیگر که ممکن است بخواهیم Rai قادر به انجام آنها باشد، می پردازیم
1203
00:42:40,080 –> 00:42:42,180
و یکی از این کارها
1204
00:42:42,180 –> 00:42:44,670
دسته بندی متن است که واقعاً فقط
1205
00:42:44,670 –> 00:42:46,560
یک مشکل طبقهبندی است و ما قبلاً در
1206
00:42:46,560 –> 00:42:48,030
مورد مشکلات طبقهبندی صحبت
1207
00:42:48,030 –> 00:42:49,440
کردهایم، این مشکلات که در
1208
00:42:49,440 –> 00:42:52,380
آن میخواهیم مقداری از شی را برداریم و
1209
00:42:52,380 –> 00:42:53,820
آن را به چند کلاس مختلف طبقهبندی کنیم،
1210
00:42:53,820 –> 00:42:56,400
بنابراین هر زمان که نمونهای از متن دارید، روشی که در متن ظاهر میشود این است.
1211
00:42:56,400 –> 00:42:58,500
و
1212
00:42:58,500 –> 00:43:00,990
شما می خواهید آن را در یک دسته قرار دهید
1213
00:43:00,990 –> 00:43:02,820
که در آن من می خواهم بگویم که
1214
00:43:02,820 –> 00:43:05,100
آیا یک ایمیل به ایمیل داده شده متعلق به صندوق ورودی است یا
1215
00:43:05,100 –> 00:43:07,050
در هرزنامه ها قرار دارد، مثلاً به کدام یک از
1216
00:43:07,050 –> 00:43:08,400
این دو دسته تعلق ندارد
1217
00:43:08,400 –> 00:43:11,130
و شما این کار را با این کار انجام می دهید. با توجه به متن
1218
00:43:11,130 –> 00:43:13,170
و اینکه بتوانم نوعی
1219
00:43:13,170 –> 00:43:15,510
تحلیل روی آن متن انجام دهم تا بتوانم
1220
00:43:15,510 –> 00:43:18,210
نتیجه گیری کنم تا بتوانم بگویم که با
1221
00:43:18,210 –> 00:43:20,040
توجه به کلماتی که در ایمیل نشان داده می شود،
1222
00:43:20,040 –> 00:43:21,750
فکر می کنم این احتمالاً متعلق به
1223
00:43:21,750 –> 00:43:24,150
صندوق ورودی است یا فکر می کنم این است احتمالاً در
1224
00:43:24,150 –> 00:43:26,640
عوض به هرزنامه تعلق دارد و ممکن است تصور کنید که این کار را
1225
00:43:26,640 –> 00:43:28,560
برای تعدادی از انواع مختلف
1226
00:43:28,560 –> 00:43:30,990
مشکلات طبقهبندی از این نوع انجام دهید،
1227
00:43:30,990 –> 00:43:32,670
بنابراین ممکن است تصور کنید که یکی دیگر از
1228
00:43:32,670 –> 00:43:34,080
نمونههای رایج این نوع ایده
1229
00:43:34,080 –> 00:43:36,450
چیزی شبیه به تجزیه و تحلیل احساسات است که
1230
00:43:36,450 –> 00:43:38,850
من میخواهم آن را با نمونهای از آن تحلیل کنم. متن
1231
00:43:38,850 –> 00:43:42,030
احساس مثبتی ندارد یا
1232
00:43:42,030 –> 00:43:43,440
احساسات منفی دارد و
1233
00:43:43,440 –> 00:43:45,540
این ممکن است در مورد
1234
00:43:45,540 –> 00:43:47,130
بررسی محصولات مشابه در یک وب سایت
1235
00:43:47,130 –> 00:43:49,380
یا بازخورد در وب سایتی که در آن شما
1236
00:43:49,380 –> 00:43:51,240
مجموعه ای کامل از نمونه های داده از متون را دارید
1237
00:43:51,240 –> 00:43:52,680
نشان داده شود. توسط کاربران یک وب سایت ارائه شده است
1238
00:43:52,680 –> 00:43:54,120
و شما می خواهید بتوانید به سرعت
1239
00:43:54,120 –> 00:43:56,670
تجزیه و تحلیل کنید که آیا این نظرات مثبت
1240
00:43:56,670 –> 00:43:59,460
هستند، نظرات منفی هستند چه چیزی است که
1241
00:43:59,460 –> 00:44:01,230
مردم می گویند فقط
1242
00:44:01,230 –> 00:44:03,480
برای اینکه بفهمید مردم چه چیزی را بیان می کنند. گفتن
1243
00:44:03,480 –> 00:44:05,820
اینکه بتوانیم متون را در یکی از
1244
00:44:05,820 –> 00:44:09,000
این دو دسته مختلف طبقه بندی کنیم، بنابراین چگونه
1245
00:44:09,000 –> 00:44:10,710
می توانیم به این مشکل برخورد کنیم،
1246
00:44:10,710 –> 00:44:12,510
بیایید نگاهی به بررسی های نمونه محصول بیندازیم در
1247
00:44:12,510 –> 00:44:14,040
اینجا چند نمونه بررسی محصول وجود دارد
1248
00:44:14,040 –> 00:44:16,110
که ممکن است به این نتیجه برسیم که
1249
00:44:16,110 –> 00:44:18,210
نوه من آن را بسیار دوست داشته است. محصول سرگرم کننده
1250
00:44:18,210 –> 00:44:20,760
پس از چند روز شکسته شد یکی از بهترین
1251
00:44:20,760 –> 00:44:22,770
بازی هایی که من در مدت طولانی بازی کرده ام به نوعی
1252
00:44:22,770 –> 00:44:24,330
ارزان و ضعیف ارزشش را ندارد
1253
00:44:24,330 –> 00:44:25,860
نظرات متفاوتی درباره محصول که ممکن است
1254
00:44:25,860 –> 00:44:28,620
تصور کنید در آمازون یا ای بی یا
1255
00:44:28,620 –> 00:44:30,030
وب سایت دیگری که در آن مردم محصولات می فروشند مشاهده کنید.
1256
00:44:30,030 –> 00:44:32,340
به عنوان مثال و ما انسانها
1257
00:44:32,340 –> 00:44:33,990
به راحتی میتوانیم اینها
1258
00:44:33,990 –> 00:44:36,630
را به احساسات مثبت یا احساسات منفی دستهبندی
1259
00:44:36,630 –> 00:44:38,250
کنیم، احتمالاً میگوییم که
1260
00:44:38,250 –> 00:44:39,690
اولین و سومین
1261
00:44:39,690 –> 00:44:42,000
پیامهای احساسات مثبت هستند،
1262
00:44:42,000 –> 00:44:44,010
دومی و چهارمی
1263
00:44:44,010 –> 00:44:46,200
احتمالاً پیامهای احساسات منفی هستند، اما
1264
00:44:46,200 –> 00:44:48,450
چگونه میتوانیم کامپیوتر همان کار را انجام می
1265
00:44:48,450 –> 00:44:48,950
دهد
1266
00:44:48,950 –> 00:44:51,680
که سعی می کند و این بررسی ها را انجام می دهد و ارزیابی
1267
00:44:51,680 –> 00:44:53,900
می کند که می دانید آنها مثبت هستند یا
1268
00:44:53,900 –> 00:44:56,930
منفی هستند، در نهایت بستگی به این دارد
1269
00:44:56,930 –> 00:44:59,420
کلماتی که اتفاقاً در
1270
00:44:59,420 –> 00:45:01,520
این بررسی خاص وجود دارند،
1271
00:45:01,520 –> 00:45:03,980
در داخل این جملات خاص قرار دارند، در
1272
00:45:03,980 –> 00:45:05,960
حال حاضر ما ساختار
1273
00:45:05,960 –> 00:45:07,310
و چگونگی ارتباط کلمات با
1274
00:45:07,310 –> 00:45:09,260
یکدیگر را نادیده می گیریم و ما فقط بر روی
1275
00:45:09,260 –> 00:45:11,540
آنچه در واقع کلمات تمرکز می کنیم بنابراین
1276
00:45:11,540 –> 00:45:13,820
احتمالاً برخی از کلمات کلیدی در اینجا کلماتی مانند
1277
00:45:13,820 –> 00:45:17,060
دوست داشتنی و سرگرم کننده وجود دارد و بهترین آنها
1278
00:45:17,060 –> 00:45:20,359
احتمالاً در بررسی های مثبت تری نشان داده می شوند در حالی که
1279
00:45:20,359 –> 00:45:22,490
کلماتی مانند شکسته و ارزان و
1280
00:45:22,490 –> 00:45:24,650
ضعیف کلماتی هستند
1281
00:45:24,650 –> 00:45:26,270
که احتمالاً به جای این که در
1282
00:45:26,270 –> 00:45:28,760
بررسی های منفی ظاهر شوند، احتمالاً بیشتر از آنها استفاده می شود. نقدهای مثبت،
1283
00:45:28,760 –> 00:45:31,760
بنابراین یکی از راههای نزدیک شدن به این نوع
1284
00:45:31,760 –> 00:45:34,670
ایده تحلیل متن این است که بگوییم
1285
00:45:34,670 –> 00:45:36,859
بیایید فعلا ساختار این
1286
00:45:36,859 –> 00:45:38,599
جملات را نادیده بگیریم تا بگوییم که اهمیتی نمیدهیم
1287
00:45:38,599 –> 00:45:40,579
که کلمات چگونه با یکدیگر ارتباط
1288
00:45:40,579 –> 00:45:41,900
دارند، ما تلاش نمیکنیم و
1289
00:45:41,900 –> 00:45:43,609
این جملات را تجزیه کنید که ساختار دستوری آنها را
1290
00:45:43,609 –> 00:45:44,839
درست می کند، همانطور که چند
1291
00:45:44,839 –> 00:45:47,720
لحظه پیش دیدیم، اما احتمالاً می توانیم فقط به
1292
00:45:47,720 –> 00:45:49,220
کلماتی که در واقع استفاده شده اند
1293
00:45:49,220 –> 00:45:51,140
تکیه کنیم و بر این واقعیت تکیه کنیم که
1294
00:45:51,140 –> 00:45:53,150
بررسی مثبت ISM احتمال بیشتری وجود دارد که کلماتی
1295
00:45:53,150 –> 00:45:55,069
مانند بهترین و دوست داشتنی و سرگرم کننده داشته باشند و در
1296
00:45:55,069 –> 00:45:56,990
بررسی های منفی احتمال بیشتری وجود دارد که
1297
00:45:56,990 –> 00:45:58,520
کلمات منفی را داشته باشند که در
1298
00:45:58,520 –> 00:46:00,710
آنجا برجسته کرده ایم نیز در این
1299
00:46:00,710 –> 00:46:02,060
نوع مدل، این رویکرد برای
1300
00:46:02,060 –> 00:46:03,890
تفکر در مورد زبان به طور کلی به
1301
00:46:03,890 –> 00:46:05,810
عنوان مدل کیسه ای از کلمات که در آن ما
1302
00:46:05,810 –> 00:46:07,880
قصد داریم یک نمونه از متن را نه با
1303
00:46:07,880 –> 00:46:09,950
اهمیت دادن به ساختار آن، بلکه فقط با
1304
00:46:09,950 –> 00:46:12,140
اهمیت دادن به مجموعه نامرتب
1305
00:46:12,140 –> 00:46:14,599
کلماتی که در داخل یک نمونه ظاهر
1306
00:46:14,599 –> 00:46:16,940
می شود مدل سازی کنیم و تنها چیزی که ما به آن اهمیت می دهیم این است که کلمات
1307
00:46:16,940 –> 00:46:19,460
در متن وجود دارند. و برای ما مهم نیست
1308
00:46:19,460 –> 00:46:20,990
که ترتیب آن کلمات چگونه است، ما
1309
00:46:20,990 –> 00:46:22,579
به ساختار کلمات
1310
00:46:22,579 –> 00:46:24,560
اهمیت نمی دهیم، مهم نیست که چه اسمی با چه
1311
00:46:24,560 –> 00:46:26,180
صفت هایی همراه است یا چگونه چیزها با یکدیگر همخوانی
1312
00:46:26,180 –> 00:46:28,849
دارند، ما فقط به کلمات اهمیت می دهیم و
1313
00:46:28,849 –> 00:46:30,950
به نظر می رسد که این رویکرد
1314
00:46:30,950 –> 00:46:33,230
برای انجام طبقه بندی
1315
00:46:33,230 –> 00:46:35,270
هایی مانند احساسات مثبت یا احساسات منفی بسیار خوب کار می
1316
00:46:35,270 –> 00:46:37,010
کند و می توانید تصور کنید که این کار را
1317
00:46:37,010 –> 00:46:38,690
به روش های مختلفی انجام دهید که در
1318
00:46:38,690 –> 00:46:40,430
مورد رویکردهای مختلف برای تلاش برای
1319
00:46:40,430 –> 00:46:42,589
حل طبقه بندی صحبت کرده ایم. n مشکل سبک،
1320
00:46:42,589 –> 00:46:44,000
اما وقتی صحبت از زبان طبیعی به میان می آید، یکی از
1321
00:46:44,000 –> 00:46:46,069
محبوب ترین رویکردها،
1322
00:46:46,069 –> 00:46:48,470
رویکرد ساده بیز بیز است و این یکی از
1323
00:46:48,470 –> 00:46:50,450
رویکردهای تلاش برای تجزیه و تحلیل
1324
00:46:50,450 –> 00:46:53,030
احتمال این است که شما
1325
00:46:53,030 –> 00:46:54,680
احساسات مثبت یا احساسات منفی را می شناسید
1326
00:46:54,680 –> 00:46:56,839
یا فقط سعی می کنید متنی را دسته بندی کنید.
1327
00:46:56,839 –> 00:46:58,819
در دسته بندی های ممکن قرار می گیرد و نه
1328
00:46:58,819 –> 00:47:00,260
تنها برای متن کار می کند، بلکه برای
1329
00:47:00,260 –> 00:47:02,150
انواع دیگر ایده ها نیز کار می کند، بلکه
1330
00:47:02,150 –> 00:47:02,810
1331
00:47:02,810 –> 00:47:04,730
در دنیای تجزیه و تحلیل متن و
1332
00:47:04,730 –> 00:47:06,800
زبان طبیعی بسیار محبوب است و رویکرد ساده لوحانه
1333
00:47:06,800 –> 00:47:09,530
مبتنی بر قانون بیز است
1334
00:47:09,530 –> 00:47:10,670
که ممکن است از آن به یاد بیاورید. وقتی
1335
00:47:10,670 –> 00:47:12,320
در مورد احتمال صحبت کردیم که قانون بیز
1336
00:47:12,320 –> 00:47:14,210
به این شکل است که
1337
00:47:14,210 –> 00:47:18,110
احتمال وقوع یک رویداد B داده شده a را می
1338
00:47:18,110 –> 00:47:19,670
توان با استفاده از این عبارت بیان کرد، در
1339
00:47:19,670 –> 00:47:22,460
اینجا احتمال B داده شده a،
1340
00:47:22,460 –> 00:47:25,250
احتمال B داده شده
1341
00:47:25,250 –> 00:47:27,350
ضرب در احتمال B تقسیم بر B است.
1342
00:47:27,350 –> 00:47:29,300
احتمال a و دیدیم که این
1343
00:47:29,300 –> 00:47:31,250
فقط در نتیجه
1344
00:47:31,250 –> 00:47:33,770
تعریف استقلال مشروط
1345
00:47:33,770 –> 00:47:35,330
و نگاه به معنای آن برای دو نفر به
1346
00:47:35,330 –> 00:47:36,500
وجود آمده است. اگر با هم اتفاق بیفتند،
1347
00:47:36,500 –> 00:47:39,260
این فرمول بندی ما از
1348
00:47:39,260 –> 00:47:40,880
قانون بیز بود که کاملاً
1349
00:47:40,880 –> 00:47:42,590
مفید بود، ما توانستیم با
1350
00:47:42,590 –> 00:47:44,810
1351
00:47:44,810 –> 00:47:47,480
برگرداندن ترتیب آن رویدادها در داخل این
1352
00:47:47,480 –> 00:47:50,270
محاسبه احتمال، یک رویداد را بر حسب رویداد دیگر پیش بینی کنیم و معلوم شد که
1353
00:47:50,270 –> 00:47:51,380
این رویکرد ادامه دارد. بسیار
1354
00:47:51,380 –> 00:47:52,460
مفید است و خواهیم دید که چرا در یک
1355
00:47:52,460 –> 00:47:54,290
لحظه قادر به انجام این نوع
1356
00:47:54,290 –> 00:47:56,210
تحلیل احساسات هستیم زیرا می خواهم بگویم
1357
00:47:56,210 –> 00:47:58,910
که می دانید احتمال
1358
00:47:58,910 –> 00:48:01,130
مثبت بودن یک پیام یا
1359
00:48:01,130 –> 00:48:03,380
احتمال منفی بودن پیام چقدر است
1360
00:48:03,380 –> 00:48:05,330
و من ادامه می دهم و این را فقط
1361
00:48:05,330 –> 00:48:06,860
با استفاده از ایموجی ها برای سادگی انجام
1362
00:48:06,860 –> 00:48:09,620
1363
00:48:09,620 –> 00:48:11,090
می دهم، مانند احتمال مثبت بودن احتمال منفی و این همان چیزی است که می
1364
00:48:11,090 –> 00:48:12,830
خواهم محاسبه کنم، اما می خواهم
1365
00:48:12,830 –> 00:48:14,560
محاسبه کنم که با توجه به برخی از اطلاعات
1366
00:48:14,560 –> 00:48:18,200
داده شده اطلاعاتی مانند اینجا نمونه ای
1367
00:48:18,200 –> 00:48:20,840
از به نوهام آن را دوست داشت و من
1368
00:48:20,840 –> 00:48:22,160
میخواهم بدانم نه تنها
1369
00:48:22,160 –> 00:48:24,710
احتمال مثبت بودن هر پیامی چقدر است،
1370
00:48:24,710 –> 00:48:26,450
بلکه با توجه به نوهام، احتمال
1371
00:48:26,450 –> 00:48:29,750
مثبت بودن پیام چقدر است.
1372
00:48:29,750 –> 00:48:32,990
آن را به عنوان متن نمونه دوست داشتم، بنابراین
1373
00:48:32,990 –> 00:48:34,940
با توجه به این اطلاعات که در داخل
1374
00:48:34,940 –> 00:48:36,500
نمونه کلماتی وجود دارد که نوه من
1375
00:48:36,500 –> 00:48:39,200
آن را دوست داشت، احتمال اینکه
1376
00:48:39,200 –> 00:48:41,960
این یک پیام مثبت باشد،
1377
00:48:41,960 –> 00:48:43,580
با توجه به مدل کیسه کلمات، کاری که
1378
00:48:43,580 –> 00:48:45,920
ما می خواهیم انجام دهیم این است. واقعاً
1379
00:48:45,920 –> 00:48:47,570
ترتیب کلمات را نادیده بگیرید، این را
1380
00:48:47,570 –> 00:48:49,190
مانند یک جمله واحد که
1381
00:48:49,190 –> 00:48:51,320
ساختاری برای آن دارد، در نظر نگیرید، بلکه آن را به عنوان یک
1382
00:48:51,320 –> 00:48:52,820
دسته کلی از کلمات مختلف در نظر بگیرید، ما می
1383
00:48:52,820 –> 00:48:54,380
خواهیم چیزی شبیه به این
1384
00:48:54,380 –> 00:48:56,120
بگوییم که احتمال اینکه این یک پیام مثبت باشد چقدر است.
1385
00:48:56,120 –> 00:48:58,670
که کلمه من
1386
00:48:58,670 –> 00:49:00,770
در پیام بود با توجه به اینکه کلمه
1387
00:49:00,770 –> 00:49:02,420
نوه در پیام داده شده بود که کلمه مورد
1388
00:49:02,420 –> 00:49:04,610
علاقه در پیام بود و با توجه به
1389
00:49:04,610 –> 00:49:06,680
کلمه این پیام نبود مدل کیسه
1390
00:49:06,680 –> 00:49:08,180
کلمات در اینجا ما کل ساده را فقط در نظر می گیریم
1391
00:49:08,180 –> 00:49:11,090
یک دسته کامل از
1392
00:49:11,090 –> 00:49:13,490
کلمات مختلف و بنابراین این همان چیزی است که
1393
00:49:13,490 –> 00:49:14,660
من می خواهم این احتمال
1394
00:49:14,660 –> 00:49:16,610
احتمال را با توجه به همه آن
1395
00:49:16,610 –> 00:49:18,800
کلمات محاسبه کنم، احتمال اینکه این
1396
00:49:18,800 –> 00:49:22,100
یک پیام مثبت باشد چقدر است و اینجاست که
1397
00:49:22,100 –> 00:49:23,660
اکنون می توانیم قانون بیز را اعمال کنیم. و این
1398
00:49:23,660 –> 00:49:26,690
واقعاً احتمال این است که به بعضی ها مقداری a داده شود
1399
00:49:26,690 –> 00:49:29,660
و اکنون چیزی است که من می خواهم
1400
00:49:29,660 –> 00:49:31,220
محاسبه کنم، بنابراین ضبط کردن به قانون بیز
1401
00:49:31,220 –> 00:49:34,850
کل این عبارت برابر است با خوب
1402
00:49:34,850 –> 00:49:36,800
، احتمال اینکه
1403
00:49:36,800 –> 00:49:38,840
ترتیب آنها را تغییر دهم، احتمال همه موارد است.
1404
00:49:38,840 –> 00:49:41,120
با توجه به اینکه این یک
1405
00:49:41,120 –> 00:49:43,700
پیام مثبت ضرب در احتمال است
1406
00:49:43,700 –> 00:49:47,030
که یک پیام مثبت تقسیم
1407
00:49:47,030 –> 00:49:49,580
بر احتمال همه آن کلمات است، بنابراین
1408
00:49:49,580 –> 00:49:51,050
این فقط یک کاربرد
1409
00:49:51,050 –> 00:49:52,970
قانون بیز است که قبلاً دیده ایم که در آن می
1410
00:49:52,970 –> 00:49:55,310
خواهم احتمال مثبت را بیان کنم
1411
00:49:55,310 –> 00:49:59,210
. با توجه به اینکه کلمات
1412
00:49:59,210 –> 00:50:01,790
به نوعی به احتمال کلمات مرتبط هستند
1413
00:50:01,790 –> 00:50:05,270
با توجه به اینکه این یک پیام مثبت است و
1414
00:50:05,270 –> 00:50:06,350
به نظر می رسد که همانطور که ممکن است به خاطر
1415
00:50:06,350 –> 00:50:07,850
بیاورید وقتی در مورد احتمال صحبت
1416
00:50:07,850 –> 00:50:10,430
کردیم این مخرج
1417
00:50:10,430 –> 00:50:12,020
بدون توجه به اینکه آیا ما به دنبال آن هستیم یکسان خواهد بود.
1418
00:50:12,020 –> 00:50:13,880
در پیامهای مثبت یا منفی،
1419
00:50:13,880 –> 00:50:15,470
احتمال این کلمات تغییر نمیکند،
1420
00:50:15,470 –> 00:50:17,090
زیرا ما در پایین یک علامت مثبت
1421
00:50:17,090 –> 00:50:19,400
یا منفی نداریم، بنابراین میتوانیم فقط
1422
00:50:19,400 –> 00:50:20,930
آن را بگوییم نه اینکه فقط بگوییم این
1423
00:50:20,930 –> 00:50:22,520
عبارت در اینجا برابر است با این
1424
00:50:22,520 –> 00:50:24,620
عبارت هیچکدام از زیر، در واقع
1425
00:50:24,620 –> 00:50:27,170
فقط متناسب با صورت است که
1426
00:50:27,170 –> 00:50:28,910
میتوانیم مخرج را نادیده بگیریم در
1427
00:50:28,910 –> 00:50:30,950
حال حاضر با استفاده از مخرج
1428
00:50:30,950 –> 00:50:33,320
احتمال دقیقی برای ما به دست میآید، اما معلوم میشود
1429
00:50:33,320 –> 00:50:35,150
که کاری که واقعاً انجام میدهیم. این است
1430
00:50:35,150 –> 00:50:36,830
که بفهمیم احتمال با چه چیزی متناسب
1431
00:50:36,830 –> 00:50:39,140
است و در پایان باید
1432
00:50:39,140 –> 00:50:41,240
توزیع احتمال را عادی
1433
00:50:41,240 –> 00:50:42,860
کنیم مطمئن شویم که توزیع احتمال
1434
00:50:42,860 –> 00:50:46,370
در نهایت به عدد یک خلاصه می شود، بنابراین
1435
00:50:46,370 –> 00:50:48,800
اکنون من توانستم این
1436
00:50:48,800 –> 00:50:50,600
احتمال را که همان چیزی است که می خواهم، فرموله کنم. اهمیت
1437
00:50:50,600 –> 00:50:53,450
دادن به نسبت ضرب
1438
00:50:53,450 –> 00:50:55,580
این دو چیز در یکدیگر، احتمال
1439
00:50:55,580 –> 00:50:58,640
کلمات داده شده پیام مثبت ضرب
1440
00:50:58,640 –> 00:51:00,710
در احتمال پیام مثبت است،
1441
00:51:00,710 –> 00:51:02,840
اما دوباره اگر به
1442
00:51:02,840 –> 00:51:05,000
قوانین احتمال ما فکر کنید، می توانیم این را
1443
00:51:05,000 –> 00:51:07,850
واقعاً به عنوان یک احتمال مشترک از
1444
00:51:07,850 –> 00:51:10,160
همه این موارد محاسبه کنیم. که
1445
00:51:10,160 –> 00:51:13,030
احتمال یک پیام مثبت
1446
00:51:13,030 –> 00:51:15,230
ضرب در احتمال این
1447
00:51:15,230 –> 00:51:17,600
کلمات با توجه به پیام مثبت است
1448
00:51:17,600 –> 00:51:20,120
که j است به احتمال مشترک
1449
00:51:20,120 –> 00:51:21,830
همه این موارد این
1450
00:51:21,830 –> 00:51:23,990
همان احتمال این است که پیام مثبت است
1451
00:51:23,990 –> 00:51:27,170
و من در جمله یا
1452
00:51:27,170 –> 00:51:28,730
در پیام است و نوه در
1453
00:51:28,730 –> 00:51:29,890
نمونه و عشق
1454
00:51:29,890 –> 00:51:33,280
جمع شده است و در نمونه است بنابراین
1455
00:51:33,280 –> 00:51:35,290
با استفاده از آن قانون برای تعریف
1456
00:51:35,290 –> 00:51:37,390
احتمال مشترک من توانستم بگویم
1457
00:51:37,390 –> 00:51:40,570
که کل این عبارت اکنون
1458
00:51:40,570 –> 00:51:44,020
با این توالی این
1459
00:51:44,020 –> 00:51:46,390
احتمال مشترک این کلمات و این
1460
00:51:46,390 –> 00:51:49,660
مثبت که در آنجا وجود دارد متناسب است و بنابراین
1461
00:51:49,660 –> 00:51:51,580
اکنون سؤال جالب این است که چگونه
1462
00:51:51,580 –> 00:51:54,070
می توان آن را محاسبه کرد. احتمال مشترک چگونه
1463
00:51:54,070 –> 00:51:55,540
می توانم احتمالی را بفهمم که
1464
00:51:55,540 –> 00:51:57,940
با دادن پیام دلخواه
1465
00:51:57,940 –> 00:52:00,070
مثبت است و کلمه من در آنجا است
1466
00:52:00,070 –> 00:52:01,870
و کلمه نوه در آنجا است و
1467
00:52:01,870 –> 00:52:03,670
کلمه دوست داشتنی در آنجا وجود دارد و کلمه
1468
00:52:03,670 –> 00:52:05,770
آن در آنجا وجود دارد خوب شما خواهید فهمید به یاد بیاورید که
1469
00:52:05,770 –> 00:52:08,080
1470
00:52:08,080 –> 00:52:10,150
1471
00:52:10,150 –> 00:52:12,490
اگر
1472
00:52:12,490 –> 00:52:14,680
بخواهم احتمال a و
1473
00:52:14,680 –> 00:52:17,500
B و C را بدانم، می توانیم با ضرب کردن همه این احتمالات شرطی با هم یک احتمال مشترک را محاسبه کنیم، می توانم آن را به صورت p محاسبه کنم.
1474
00:52:17,500 –> 00:52:19,630
robability of a time
1475
00:52:19,630 –> 00:52:22,810
احتمال B داده شده یک زمان است احتمال C
1476
00:52:22,810 –> 00:52:25,600
داده شده a و B من فقط می توانم این
1477
00:52:25,600 –> 00:52:27,400
احتمالات شرطی را با هم ضرب
1478
00:52:27,400 –> 00:52:28,990
کنم تا احتمال مشترک کلی را
1479
00:52:28,990 –> 00:52:31,720
که برای من مهم است به دست بیاورم و
1480
00:52:31,720 –> 00:52:33,160
می توانیم همین کار را در اینجا انجام دهیم. می توانم بگویم
1481
00:52:33,160 –> 00:52:35,380
بیایید ضرب احتمال
1482
00:52:35,380 –> 00:52:37,780
مثبت در احتمال حضور کلمه
1483
00:52:37,780 –> 00:52:39,520
من در پیام با توجه به
1484
00:52:39,520 –> 00:52:41,260
اینکه مثبت است ضرب در
1485
00:52:41,260 –> 00:52:43,300
احتمال حضور نوه
1486
00:52:43,300 –> 00:52:45,220
در پیام با توجه به اینکه کلمه من در
1487
00:52:45,220 –> 00:52:47,260
آنجا است و اینکه مثبت ضرب
1488
00:52:47,260 –> 00:52:49,330
در احتمال دوست داشتنی است. با توجه به این
1489
00:52:49,330 –> 00:52:50,620
سه مورد ضربدر
1490
00:52:50,620 –> 00:52:52,570
احتمال آن، با توجه به این چهار
1491
00:52:52,570 –> 00:52:54,640
چیز، در نهایت یک
1492
00:52:54,640 –> 00:52:57,460
محاسبه نسبتاً پیچیده خواهد بود تا محاسبه
1493
00:52:57,460 –> 00:52:58,600
کنیم که احتمالاً
1494
00:52:58,600 –> 00:53:00,160
راه خوبی برای دانستن پاسخ آن نخواهیم
1495
00:53:00,160 –> 00:53:02,650
داشت که احتمال آن نوه چقدر است.
1496
00:53:02,650 –> 00:53:05,200
در پیام داده شده است که مثبت است
1497
00:53:05,200 –> 00:53:08,080
و کلمه من در پیام است که این
1498
00:53:08,080 –> 00:53:09,430
چیزی نیست که ما واقعاً
1499
00:53:09,430 –> 00:53:12,580
به راحتی پاسخ آن را خواهیم داشت. و بنابراین اینجاست
1500
00:53:12,580 –> 00:53:14,680
که بخش ساده لوح بیز به وجود
1501
00:53:14,680 –> 00:53:16,090
می آید، ما این مفهوم را ساده می کنیم
1502
00:53:16,090 –> 00:53:18,460
به جای اینکه دقیقاً محاسبه کنیم
1503
00:53:18,460 –> 00:53:20,500
که توزیع احتمال چیست
1504
00:53:20,500 –> 00:53:23,380
و فرض می کنیم که این کلمات
1505
00:53:23,380 –> 00:53:25,840
به طور مؤثر مستقل از
1506
00:53:25,840 –> 00:53:27,640
یکدیگر هستند اگر ما بدانید که قبلاً
1507
00:53:27,640 –> 00:53:29,200
یک پیام مثبت است که اگر
1508
00:53:29,200 –> 00:53:31,930
پیام مثبتی باشد،
1509
00:53:31,930 –> 00:53:33,880
احتمال اینکه کلمه نوه
1510
00:53:33,880 –> 00:53:35,560
پیام نیست را تغییر نمیدهد، اگر بدانم که کلمه
1511
00:53:35,560 –> 00:53:37,510
دوست داشتنی برای مثال پیامی نیست
1512
00:53:37,510 –> 00:53:39,130
و ممکن است لزوماً درست نباشد. در
1513
00:53:39,130 –> 00:53:40,810
عمل در دنیای واقعی ممکن است
1514
00:53:40,810 –> 00:53:42,340
اینطور نباشد که این کلمات
1515
00:53:42,340 –> 00:53:42,950
در واقع
1516
00:53:42,950 –> 00:53:44,690
آویز باشند، اما ما آن را برای
1517
00:53:44,690 –> 00:53:46,670
ساده کردن مدل خود فرض میکنیم و معلوم میشود که
1518
00:53:46,670 –> 00:53:48,800
سادهسازی همچنان به ما اجازه میدهد تا
1519
00:53:48,800 –> 00:53:51,650
نتایج بسیار خوبی نیز از آن بگیریم. بنابراین
1520
00:53:51,650 –> 00:53:53,420
آنچه ما می خواهیم فرض کنیم این است که
1521
00:53:53,420 –> 00:53:55,460
احتمال اینکه همه این کلمات نشان داده
1522
00:53:55,460 –> 00:53:57,740
شوند فقط به مثبت یا منفی بودن آن بستگی دارد،
1523
00:53:57,740 –> 00:54:00,050
هنوز هم می توانم بگویم که دوست داشتن
1524
00:54:00,050 –> 00:54:01,730
بیشتر در یک پیام مثبت ظاهر می شود
1525
00:54:01,730 –> 00:54:03,290
تا یک نفی. پیام اکتیو که
1526
00:54:03,290 –> 00:54:05,210
احتمالاً درست است، اما ما نیز به
1527
00:54:05,210 –> 00:54:07,130
همان صورت پیش میرویم
1528
00:54:07,130 –> 00:54:09,020
که اگر بدانم که کلمه Mai برای مثال در پیام وجود دارد، تغییری نمیکند که دوست داشتنی یا دوستداشتنی بیشتر یا
1529
00:54:09,020 –> 00:54:10,730
کمتر احتمال
1530
00:54:10,730 –> 00:54:12,740
1531
00:54:12,740 –> 00:54:14,750
دارد ظاهر شود. فرضیاتی
1532
00:54:14,750 –> 00:54:16,550
که ما می خواهیم انجام دهیم، بنابراین در حالی که
1533
00:54:16,550 –> 00:54:18,770
عبارت بالا متناسب با این
1534
00:54:18,770 –> 00:54:20,810
عبارت پایین است، ما می خواهیم بگوییم
1535
00:54:20,810 –> 00:54:23,300
که این به طور ساده لوحانه با
1536
00:54:23,300 –> 00:54:26,240
احتمال مثبت بودن این عبارت متناسب
1537
00:54:26,240 –> 00:54:28,430
است و سپس برای هر یک
1538
00:54:28,430 –> 00:54:30,349
از کلماتی که در نمونه نشان داده می شود.
1539
00:54:30,349 –> 00:54:32,089
1540
00:54:32,089 –> 00:54:34,369
با توجه به اینکه احتمال
1541
00:54:34,369 –> 00:54:36,440
1542
00:54:36,440 –> 00:54:38,060
حضور نوه در پیام
1543
00:54:38,060 –> 00:54:39,710
مثبت است چند برابر میکنم و سپس غیره و
1544
00:54:39,710 –> 00:54:41,690
غیره را برای کلمات دیگری که
1545
00:54:41,690 –> 00:54:44,599
اتفاقاً در داخل نمونه وجود دارد، ضرب میکنم. و معلوم شد
1546
00:54:44,599 –> 00:54:46,970
که اینها اعدادی هستند که ما می توانیم
1547
00:54:46,970 –> 00:54:48,710
محاسبه کنیم دلیل اینکه ما همه
1548
00:54:48,710 –> 00:54:50,810
این ریاضیات را انجام داده ایم این است که به این نقطه برسیم
1549
00:54:50,810 –> 00:54:52,640
تا بتوانیم این احتمال
1550
00:54:52,640 –> 00:54:55,250
توزیع را که با توجه به این موارد به آن اهمیت می دهیم محاسبه کنیم.
1551
00:54:55,250 –> 00:54:57,500
شرایطی که ما واقعاً
1552
00:54:57,500 –> 00:54:59,359
میتوانیم محاسبه کنیم و میتوانیم آنها را
1553
00:54:59,359 –> 00:55:02,450
با توجه به برخی دادههای موجود محاسبه کنیم و
1554
00:55:02,450 –> 00:55:04,010
این چیزی است که بسیاری از
1555
00:55:04,010 –> 00:55:05,480
پردازشهای زبان طبیعی این روزها به آن
1556
00:55:05,480 –> 00:55:07,910
مربوط میشوند.
1557
00:55:07,910 –> 00:55:09,710
1558
00:55:09,710 –> 00:55:11,390
بررسیها و من آنها را بهعنوان
1559
00:55:11,390 –> 00:55:13,970
مثبت یا منفی برچسبگذاری کردهام، سپس میتوانید شروع
1560
00:55:13,970 –> 00:55:16,420
به محاسبه این عبارات خاص کنید.
1561
00:55:16,420 –> 00:55:19,040
1562
00:55:19,040 –> 00:55:20,900
1563
00:55:20,900 –> 00:55:22,550
1564
00:55:22,550 –> 00:55:24,650
1565
00:55:24,650 –> 00:55:26,359
تعداد کل نمونه ها
1566
00:55:26,359 –> 00:55:28,369
که احتمال مثبت بودن یک پیام من است
1567
00:55:28,369 –> 00:55:30,500
چه احتمالی است
1568
00:55:30,500 –> 00:55:32,180
که کلمه دوست داشتم پیام نیست با توجه به
1569
00:55:32,180 –> 00:55:33,800
اینکه مثبت است خوب می توانم
1570
00:55:33,800 –> 00:55:35,900
آن را بر اساس داده هایم محاسبه کنم تا به من اجازه دهد فقط
1571
00:55:35,900 –> 00:55:37,609
به چند نمونه مثبت نگاه کنم.
1572
00:55:37,609 –> 00:55:39,680
کلمه دوست داشتنی را در آن داشته باشید و آن را بر
1573
00:55:39,680 –> 00:55:41,510
تعداد کل نمونه های مثبت من تقسیم کنید و
1574
00:55:41,510 –> 00:55:43,970
این به من تقریبی
1575
00:55:43,970 –> 00:55:46,040
می دهد که احتمال اینکه
1576
00:55:46,040 –> 00:55:47,329
عشق در داخل آن ظاهر شود چقدر است.
1577
00:55:47,329 –> 00:55:49,700
با توجه به اینکه می دانیم مرور
1578
00:55:49,700 –> 00:55:53,450
مثبت است و بنابراین این به ما امکان می دهد
1579
00:55:53,450 –> 00:55:55,160
این احتمالات را محاسبه کنیم،
1580
00:55:55,160 –> 00:55:56,750
بنابراین اجازه دهید این محاسبه را انجام
1581
00:55:56,750 –> 00:55:59,030
ندهیم، بیایید برای جمله ای که
1582
00:55:59,030 –> 00:56:01,280
نوه من دوست داشت محاسبه کنیم این است که یک بررسی مثبت یا
1583
00:56:01,280 –> 00:56:02,660
منفی چگونه می توانیم بفهمیم
1584
00:56:02,660 –> 00:56:04,970
این احتمالات را دوباره به خوبی بررسی کنید،
1585
00:56:04,970 –> 00:56:06,230
این عبارتی است که ما سعی می کنیم
1586
00:56:06,230 –> 00:56:08,600
محاسبه کنیم و من در اینجا
1587
00:56:08,600 –> 00:56:10,610
داده هایی را که در دسترس ما است به شما می دهم و
1588
00:56:10,610 –> 00:56:12,500
روش تفسیر این داده ها در این مورد،
1589
00:56:12,500 –> 00:56:15,830
تمام پیام های چهل است. نه
1590
00:56:15,830 –> 00:56:17,290
درصد از آنها مثبت و
1591
00:56:17,290 –> 00:56:19,640
پنجاه و یک درصد از آنها منفی بودند،
1592
00:56:19,640 –> 00:56:21,410
شاید بررسی های آنلاین
1593
00:56:21,410 –> 00:56:22,880
کمی بیشتر از مثبت بودن آنها منفی باشد
1594
00:56:22,880 –> 00:56:23,840
یا حداقل بر اساس این
1595
00:56:23,840 –> 00:56:26,840
نمونه داده خاص که من دارم و سپس
1596
00:56:26,840 –> 00:56:30,200
برای هر کدام توزیع دارم. از بین
1597
00:56:30,200 –> 00:56:32,840
کلمات مختلف که با توجه به
1598
00:56:32,840 –> 00:56:34,700
اینکه پیام مثبت است چند
1599
00:56:34,700 –> 00:56:37,070
پیام مثبت کلمه my در
1600
00:56:37,070 –> 00:56:39,620
آنها وجود دارد، می دانید که حدود 30٪ است و برای
1601
00:56:39,620 –> 00:56:41,120
پیام های منفی چند مورد از آنها
1602
00:56:41,120 –> 00:56:43,670
t او در آنها حدود 20٪ کلمه من را بیان کرد، بنابراین
1603
00:56:43,670 –> 00:56:46,760
به نظر می رسد که کلمه من
1604
00:56:46,760 –> 00:56:48,620
بیشتر در پیام های مثبت حداقل
1605
00:56:48,620 –> 00:56:50,540
کمی بیشتر بر اساس این
1606
00:56:50,540 –> 00:56:53,690
تجزیه و تحلیل در اینجا آمده است، مثلاً
1607
00:56:53,690 –> 00:56:55,490
شاید در 1٪ از همه
1608
00:56:55,490 –> 00:56:58,520
پیام های مثبت و 2٪ از پیام های مثبت ظاهر شود. در تمام پیامهای
1609
00:56:58,520 –> 00:57:00,530
منفی کلمه نوه وجود داشت، کلمه
1610
00:57:00,530 –> 00:57:03,050
دوست داشتم در 32 درصد از همه پیامهای مثبت،
1611
00:57:03,050 –> 00:57:06,170
8 درصد از همه پیامهای منفی به
1612
00:57:06,170 –> 00:57:08,180
عنوان مثال و سپس کلمه آن
1613
00:57:08,180 –> 00:57:11,090
در 30 درصد در پیامهای مثبت، 40 درصد از
1614
00:57:11,090 –> 00:57:13,370
پیامهای منفی دوباره این خودسرانه نشان داده شد.
1615
00:57:13,370 –> 00:57:15,440
دادهها در اینجا فقط به عنوان مثال، اما اکنون
1616
00:57:15,440 –> 00:57:16,970
دادههایی داریم که میتوانیم با آنها شروع به
1617
00:57:16,970 –> 00:57:19,940
محاسبه این عبارت کنیم، بنابراین چگونه میتوانم
1618
00:57:19,940 –> 00:57:22,130
ضرب همه این مقادیر را
1619
00:57:22,130 –> 00:57:23,660
با هم خوب محاسبه کنم، این فقط
1620
00:57:23,660 –> 00:57:26,300
ضرب احتمالی است که مثبت
1621
00:57:26,300 –> 00:57:28,520
ضربدر احتمال ضربهای مثبت داده شده من
1622
00:57:28,520 –> 00:57:30,350
است.
1623
00:57:30,350 –> 00:57:32,690
نوه
1624
00:57:32,690 –> 00:57:34,430
برای هر یک از کلمات دیگر چنین و غیره مثبت داده می شود و
1625
00:57:34,430 –> 00:57:36,170
اگر این ضرب را انجام دهید
1626
00:57:36,170 –> 00:57:38,240
همه آن مقادیر را با هم ضرب کنید این
1627
00:57:38,240 –> 00:57:43,130
امتیاز را به خودی خود دریافت می کنید 0 0 0 1 4 1 1 2 این
1628
00:57:43,130 –> 00:57:45,260
عدد معنیداری نیست، اما
1629
00:57:45,260 –> 00:57:47,750
ا