در این مطلب، ویدئو نحوه پاک کردن داده های متن در پایتون (کد) – پردازش زبان طبیعی (NLP) برای امور مالی با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:17:07
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:10,000 –> 00:00:11,200
در این ویدیو ما میخواهیم یاد بگیریم که چگونه
2
00:00:11,200 –> 00:00:13,440
دادههای متنی را در پایتون
3
00:00:13,440 –> 00:00:15,280
فقط با یک خلاصهنویسی سریع پاک کنیم، هرچند به یاد بیاوریم که
4
00:00:15,280 –> 00:00:16,720
گفتیم پاک کردن دادههای متن
5
00:00:16,720 –> 00:00:18,560
اساساً شامل تبدیل
6
00:00:18,560 –> 00:00:20,720
متن خام به قالبی است که برای
7
00:00:20,720 –> 00:00:22,960
تجزیه و تحلیل متن یا در واقع تحلیل احساسات مناسب است
8
00:00:22,960 –> 00:00:23,680
9
00:00:23,680 –> 00:00:25,439
و ما به طور رسمی این را گفتیم. اساساً
10
00:00:25,439 –> 00:00:27,599
شامل بردار کردن دادههای متنی است
11
00:00:27,599 –> 00:00:30,640
که از یک لکه متن به یک
12
00:00:30,640 –> 00:00:33,760
13
00:00:33,760 –> 00:00:36,880
کیسه نسبتاً ساختاریافتهتر از کلمات یا فهرستی از کلمات یا
14
00:00:36,880 –> 00:00:39,440
نشانههایی از کلمات میرویم، به یاد بیاوریم که ما
15
00:00:39,440 –> 00:00:41,200
گفتیم پاک کردن متن نوعی
16
00:00:41,200 –> 00:00:42,399
فرآیند سه مرحلهای است
17
00:00:42,399 –> 00:00:44,320
که در آن شروع میکنیم. حذف
18
00:00:44,320 –> 00:00:45,840
نمادهای اعداد و همه
19
00:00:45,840 –> 00:00:47,840
کاراکترهای غیر الفبایی و سپس
20
00:00:47,840 –> 00:00:49,440
به هماهنگ کردن حرف k
21
00:00:49,440 –> 00:00:51,440
ادامه دهید، به عنوان مثال اطمینان حاصل شود که همه کلمات
22
00:00:51,440 –> 00:00:53,440
کوچک هستند و در نهایت حذف
23
00:00:53,440 –> 00:00:54,960
رایج ترین
24
00:00:54,960 –> 00:00:57,520
کلمات، حذف کلمات توقف در حال حاضر خوشبختانه
25
00:00:57,520 –> 00:00:58,000
26
00:00:58,000 –> 00:01:00,000
پایتون این روند را فوق العاده
27
00:01:00,000 –> 00:01:02,000
آسان می کند، بنابراین بیایید ادامه دهیم. و ببینید که این
28
00:01:02,000 –> 00:01:03,840
در دفترچه یادداشت jupyter ما چگونه به نظر می رسد، بنابراین
29
00:01:03,840 –> 00:01:05,199
در اینجا ما در یک نوت بوک کاملاً جدید jupyter هستیم
30
00:01:05,199 –> 00:01:05,760
31
00:01:05,760 –> 00:01:07,040
و اولین چیزی که نخواهید داشت
32
00:01:07,040 –> 00:01:08,799
مطمئناً این است که قبلاً
33
00:01:08,799 –> 00:01:09,600
کدی
34
00:01:09,600 –> 00:01:11,520
در اینجا وجود دارد ، بنابراین در این مورد من فقط
35
00:01:11,520 –> 00:01:13,520
برخی از ماژول هایی
36
00:01:13,520 –> 00:01:15,360
را وارد کردم که قرار است با آنها کار کنیم ،
37
00:01:15,360 –> 00:01:16,799
بنابراین مطمئناً ما به سیستم عامل نیاز داریم زیرا قرار است
38
00:01:16,799 –> 00:01:18,560
با آنها کار کنیم. برخی از فایلها تنها
39
00:01:18,560 –> 00:01:20,400
دلیلی که ما به صورت تصادفی وارد کردهایم این
40
00:01:20,400 –> 00:01:21,680
است که به معنای واقعی کلمه
41
00:01:21,680 –> 00:01:24,240
یک فایل را از بین همه فایلهای mdna انتخاب
42
00:01:24,240 –> 00:01:26,240
میکنیم که بهطور تصادفی دریافت کردهایم،
43
00:01:26,240 –> 00:01:28,640
کلمات توقف برای زبان انگلیسی
44
00:01:28,640 –> 00:01:29,360
45
00:01:29,360 –> 00:01:32,079
در واقع در چارچوب جعبه ابزار زبان طبیعی پایتون ساخته شدهاند.
46
00:01:32,079 –> 00:01:33,439
47
00:01:33,439 –> 00:01:36,640
یا nltk و به همین ترتیب برای وارد کردن که
48
00:01:36,640 –> 00:01:39,439
شما فقط میخواهید از کلیدواژههای
49
00:01:39,439 –> 00:01:42,799
وارد کردن پیکره nltk تایپ کنید و این
50
00:01:42,799 –> 00:01:44,720
به ما این امکان را میدهد که بعداً
51
00:01:44,720 –> 00:01:47,040
مجموعه کلمات توقف را برای زبان انگلیسی بکشیم
52
00:01:47,040 –> 00:01:47,759
53
00:01:47,759 –> 00:01:49,680
اگر این اولین باری است
54
00:01:49,680 –> 00:01:52,479
که کلمات توقف را وارد میکنید.
55
00:01:52,479 –> 00:01:54,399
ltk ممکن است خطا را مشاهده کنید و این
56
00:01:54,399 –> 00:01:56,560
احتمالاً به این دلیل است که شما در واقع
57
00:01:56,560 –> 00:01:59,520
برخی از فایلهای اصلی را ندارید که nltk برای وارد کردن کلمات توقف نیاز دارد
58
00:01:59,520 –> 00:02:01,600
59
00:02:01,600 –> 00:02:03,439
و بنابراین برای غلبه بر این مشکل، کاری که
60
00:02:03,439 –> 00:02:06,240
میخواهید انجام دهید ابتدا وارد کردن nltk
61
00:02:06,240 –> 00:02:09,038
و سپس فقط ltk dot download را تایپ کنید
62
00:02:09,038 –> 00:02:11,200
و کلمات توقف را به عنوان آرگومان
63
00:02:11,200 –> 00:02:13,440
در آنجا در نقل قول های تکی یا دوگانه قرار دهید
64
00:02:13,440 –> 00:02:15,360
و سپس فایل های اصلی
65
00:02:15,360 –> 00:02:18,160
مورد نیاز را دانلود کنید تا بتوانید
66
00:02:18,160 –> 00:02:19,680
67
00:02:19,680 –> 00:02:22,879
کلمات توقف را از nltk.corpus وارد کنید بسیار خوب و آخرین
68
00:02:22,879 –> 00:02:25,040
مورد این است که دانه تصادفی و من بهتازگی
69
00:02:25,040 –> 00:02:26,319
در یکی
70
00:02:26,319 –> 00:02:28,800
71
00:02:28,800 –> 00:02:31,120
72
00:02:31,120 –> 00:02:33,920
از آنها عبور کردهام و تمام این کار این است که اطمینان حاصل کنیم که عدد تصادفی که در آن به دست میآوریم فقط کمی فایل mdna را بهطور تصادفی انتخاب میکنیم
73
00:02:33,920 –> 00:02:34,879
74
00:02:34,879 –> 00:02:36,720
و آن عدد تصادفی همان
75
00:02:36,720 –> 00:02:38,879
عددی است که میبینید
76
00:02:38,879 –> 00:02:41,200
اگر و هنگامی که این نوت بوک jupyter را به
77
00:02:41,200 –> 00:02:43,440
صورت محلی بر روی رایانه خود اجرا می کنید
78
00:02:43,440 –> 00:02:45,040
، اجازه دهید من برای
79
00:02:45,040 –> 00:02:46,560
وارد کردن این بسته ها این را اجرا کنم
80
00:02:46,560 –> 00:02:48,400
و سپس چیز بعدی که در اینجا
81
00:02:48,400 –> 00:02:50,160
داریم کدی است که امیدواریم قبلاً
82
00:02:50,160 –> 00:02:52,080
با آن آشنا شده باشید زیرا این اساساً
83
00:02:52,080 –> 00:02:53,599
کدی است که وقتی
84
00:02:53,599 –> 00:02:56,800
مجموعه دادههای mdna یا متن را کاوش کردیم، دیدهاید،
85
00:02:56,800 –> 00:02:58,480
بنابراین به معنای واقعی کلمه تمام
86
00:02:58,480 –> 00:03:01,840
فایلهای mdna را که داخل پوشه mdna هستند فهرست میکنیم
87
00:03:01,840 –> 00:03:04,239
که به نوبه خود در داخل پوشه داده است
88
00:03:04,239 –> 00:03:06,400
و سپس فقط از
89
00:03:06,400 –> 00:03:09,599
کش dstor خلاص میشویم. به این صورت فایل کنید اجازه دهید من فقط آن را اجرا کنم
90
00:03:09,599 –> 00:03:11,440
و اکنون ما به نوعی خوب هستیم و اکنون
91
00:03:11,440 –> 00:03:12,959
اولین کاری که باید انجام دهیم این است
92
00:03:12,959 –> 00:03:14,400
که فایلی را انتخاب
93
00:03:14,400 –> 00:03:16,159
کنیم که قرار است با آن کار کنیم و
94
00:03:16,159 –> 00:03:17,760
در این مورد خاص من فقط به معنای واقعی کلمه
95
00:03:17,760 –> 00:03:19,680
می خواهم کار کنم با یک فایل تصادفی،
96
00:03:19,680 –> 00:03:20,879
ابتدا
97
00:03:20,879 –> 00:03:23,200
یک عدد تصادفی میگیرم و بنابراین میخواهم بگویم که
98
00:03:23,200 –> 00:03:24,799
99
00:03:24,799 –> 00:03:28,640
فایل تصادفی idx کوتاه برای
100
00:03:28,640 –> 00:03:30,640
index برابر با تصادفی است، بنابراین
101
00:03:30,640 –> 00:03:32,159
ماژول تصادفی را فراخوانی میکنیم
102
00:03:32,159 –> 00:03:34,080
و سپس میخواهیم می گوییم dot brand
103
00:03:34,080 –> 00:03:35,920
int که قرار است یک
104
00:03:35,920 –> 00:03:36,879
عدد صحیح تصادفی
105
00:03:36,879 –> 00:03:40,480
بین 1 و لنز فایل های mda به دست بیاورد،
106
00:03:40,480 –> 00:03:41,760
بنابراین اساساً ما فقط یک
107
00:03:41,760 –> 00:03:43,040
عدد تصادفی
108
00:03:43,040 –> 00:03:45,519
بین 1 و تعداد کل
109
00:03:45,519 –> 00:03:47,040
فایل های mda که داریم به دست
110
00:03:47,040 –> 00:03:48,959
می آوریم. قرار است آن را به عنوان
111
00:03:48,959 –> 00:03:50,319
فایل تصادفی idx ذخیره کنم،
112
00:03:50,319 –> 00:03:52,480
بنابراین اجازه دهید Shift enter را بزنم و
113
00:03:52,480 –> 00:03:54,640
اگر فایل تصادفی
114
00:03:54,640 –> 00:03:56,319
idx را فراخوانی کنیم، خواهید دید که به معنای واقعی کلمه
115
00:03:56,319 –> 00:03:59,120
فقط یک عدد است در این مورد 276 است.
116
00:03:59,120 –> 00:04:02,000
و شما باید همان مقدار را ببینید حتی
117
00:04:02,000 –> 00:04:02,879
اگر این تصادفی است
118
00:04:02,879 –> 00:04:05,360
تا زمانی که دانه های نقطه تصادفی را روی
119
00:04:05,360 –> 00:04:06,159
یکی
120
00:04:06,159 –> 00:04:08,319
در اینجا تنظیم کنید بسیار خوب و اکنون تنها کاری که می خواهیم
121
00:04:08,319 –> 00:04:10,720
انجام دهیم این است که فایلی را
122
00:04:10,720 –> 00:04:14,480
که در فایلهای mda میگوید index 276 باز میشود، بنابراین اگر من
123
00:04:14,480 –> 00:04:15,120
فقط
124
00:04:15,120 –> 00:04:18,320
فایلهای mda را فراخوانی کنم و سپس
125
00:04:18,320 –> 00:04:21,279
فایل زیر خط تصادفی underscore idx را در اینجا ارسال کنم،
126
00:04:21,279 –> 00:04:22,320
این
127
00:04:22,320 –> 00:04:25,600
فایل mda را میکشد که ایندکس 276 است
128
00:04:25,600 –> 00:04:27,600
که اتفاقاً این فایل درست است.
129
00:04:27,600 –> 00:04:29,199
در اینجا اما اکنون در واقع می خواهیم
130
00:04:29,199 –> 00:04:31,280
این فایل را باز کنیم تا بتوانیم حباب
131
00:04:31,280 –> 00:04:32,960
متن داخل آن را دریافت
132
00:04:32,960 –> 00:04:35,919
کنیم و به این ترتیب با open می گوییم و
133
00:04:35,919 –> 00:04:37,919
سپس کل
134
00:04:37,919 –> 00:04:38,800
135
00:04:38,800 –> 00:04:41,280
مسیر این فایل را به درستی عبور می دهیم، بنابراین به یاد داشته باشید که
136
00:04:41,280 –> 00:04:42,400
این فایل در
137
00:04:42,400 –> 00:04:45,520
داخل پوشه mda ذخیره می شود که به نوبه خود
138
00:04:45,520 –> 00:04:47,520
در پوشه داده ذخیره می شود که
139
00:04:47,520 –> 00:04:48,720
البته در پوشه اصلی ذخیره می شود،
140
00:04:48,720 –> 00:04:50,880
بنابراین کاری که من می
141
00:04:50,880 –> 00:04:52,479
خواهم انجام دهم این است که به معنای واقعی کلمه
142
00:04:52,479 –> 00:04:54,240
تمام این مسیر را کپی می کنم
143
00:04:54,240 –> 00:04:56,560
تا نقطه نقطه به جلو اسلش داده ها
144
00:04:56,560 –> 00:04:58,320
به جلو اسلش mda
145
00:04:58,320 –> 00:05:00,320
ما آن را در گیومه ها در اینجا قرار می دهیم
146
00:05:00,320 –> 00:05:03,039
و پس از اینکه در این پوشه mda قرار
147
00:05:03,039 –> 00:05:05,280
گرفتیم می خواهیم این فایل را باز کنیم تا
148
00:05:05,280 –> 00:05:06,800
در واقع بتوانیم این کار را با استفاده از
149
00:05:06,800 –> 00:05:09,199
رشته های f انجام دهیم و بنابراین من می خواهم
150
00:05:09,199 –> 00:05:11,120
کمی f را در اینجا قرار دهید
151
00:05:11,120 –> 00:05:12,000
که اساساً f str را پیاده سازی می کند
152
00:05:12,000 –> 00:05:14,880
در داخل این مجموعه گیومههای دوگانه قرار میگیرد
153
00:05:14,880 –> 00:05:15,680
154
00:05:15,680 –> 00:05:17,360
و بنابراین کاری که من میخواهم انجام دهم این است که
155
00:05:17,360 –> 00:05:19,440
مجموعهای از براکتهای فرفری را در اینجا باز کنم
156
00:05:19,440 –> 00:05:22,080
که در اصل قسمت f
157
00:05:22,080 –> 00:05:22,960
رشته این
158
00:05:22,960 –> 00:05:24,479
نوع رشتهها در صورت تمایل است و اکنون
159
00:05:24,479 –> 00:05:26,320
میتوانیم اساساً کدی را در این قسمت ارسال کنیم.
160
00:05:26,320 –> 00:05:26,880
در اینجا
161
00:05:26,880 –> 00:05:28,560
و به طور خاص البته ما فقط
162
00:05:28,560 –> 00:05:31,280
این کد را می خواهیم اینجا این فایل های mda
163
00:05:31,280 –> 00:05:33,680
فایل تصادفی idx است که به معنای واقعی کلمه فقط
164
00:05:33,680 –> 00:05:34,560
165
00:05:34,560 –> 00:05:36,080
این رشته را که مربوط به این
166
00:05:36,080 –> 00:05:38,160
فایل خاص است می کشد، بنابراین اگر من فقط
167
00:05:38,160 –> 00:05:39,120
این را در اینجا منتقل کنم
168
00:05:39,120 –> 00:05:40,160
چه اتفاقی می افتد ما به
169
00:05:40,160 –> 00:05:42,160
معنای واقعی کلمه هستیم
170
00:05:42,160 –> 00:05:44,080
کل این فایل را باز می کنیم، بنابراین ما
171
00:05:44,080 –> 00:05:46,080
آن فایل را باز می کنیم و به طور موقت
172
00:05:46,080 –> 00:05:46,800
آن را
173
00:05:46,800 –> 00:05:50,080
به عنوان فایل ذخیره می کنیم و سپس می گوییم دو نقطه و سپس اینتر را فشار می
174
00:05:50,080 –> 00:05:52,160
دهیم تا به خط بعدی برویم و
175
00:05:52,160 –> 00:05:54,080
حالا کاری که انجام دادیم این است که ما ”
176
00:05:54,080 –> 00:05:56,240
این فایل را درست باز کرده ایم، بنابراین ما اکنون در داخل
177
00:05:56,240 –> 00:05:57,919
فایل هستیم و کاری که می خواهیم انجام دهیم
178
00:05:57,919 –> 00:06:00,400
این است که متن داخل این
179
00:06:00,400 –> 00:06:02,080
فایل را دریافت کنیم و برای انجام این کار، می
180
00:06:02,080 –> 00:06:03,280
گوییم متن mda
181
00:06:03,280 –> 00:06:06,720
برابر است با فایل dot read
182
00:06:06,720 –> 00:06:08,479
right و چه چیزی این کار به این صورت است که
183
00:06:08,479 –> 00:06:10,160
پس از باز شدن فایل، آن را باز
184
00:06:10,160 –> 00:06:12,400
می کند d تمام متنی
185
00:06:12,400 –> 00:06:13,520
که در داخل
186
00:06:13,520 –> 00:06:15,039
آن فایل است و سپس متنی را که داخل آن فایل است
187
00:06:15,039 –> 00:06:17,759
استخراج می کنیم
188
00:06:17,759 –> 00:06:20,800
و آن متن را به عنوان یک متغیر جدید
189
00:06:20,800 –> 00:06:23,039
به نام متن زیرخط mda ذخیره می کنیم، بنابراین اجازه دهید من ادامه دهم
190
00:06:23,039 –> 00:06:24,800
و این را اجرا کنم و اگر
191
00:06:24,800 –> 00:06:27,280
اکنون mda را صدا کنیم متن می توانید ببینید که ما
192
00:06:27,280 –> 00:06:29,520
تمام متنی را داریم که در داخل آن فایل است
193
00:06:29,520 –> 00:06:31,039
و در واقع متن بسیار زیادی
194
00:06:31,039 –> 00:06:33,600
در اینجا وجود دارد، اما می توانید ببینید که اکنون
195
00:06:33,600 –> 00:06:35,360
تمام متنی است که به آن
196
00:06:35,360 –> 00:06:36,240
197
00:06:36,240 –> 00:06:38,319
فایل uh خاص مربوط می شود و حالا که ما این
198
00:06:38,319 –> 00:06:40,080
لکه متن را داریم البته کاری که میخواهیم
199
00:06:40,080 –> 00:06:41,840
انجام دهیم این است که از شر علامت دلار خلاص شویم، به
200
00:06:41,840 –> 00:06:43,919
عنوان مثال خلاص شدن از شر اعداد خلاص شدن
201
00:06:43,919 –> 00:06:46,160
از شر پرانتز، خلاص شدن از
202
00:06:46,160 –> 00:06:49,120
شر نقطه، کاما و دو نقطه و همه
203
00:06:49,120 –> 00:06:51,039
علائم نگارشی دیگر
204
00:06:51,039 –> 00:06:53,120
این موارد در این سند هستند و
205
00:06:53,120 –> 00:06:54,880
البته به نظر می رسد که کار بسیار
206
00:06:54,880 –> 00:06:55,440
زیادی است،
207
00:06:55,440 –> 00:06:58,160
اما در واقع پایتون این کار را بسیار
208
00:06:58,160 –> 00:06:59,039
آسان می کند،
209
00:06:59,039 –> 00:07:01,440
بنابراین اولین کاری که می خواهیم انجام دهیم این است که
210
00:07:01,440 –> 00:07:02,160
211
00:07:02,160 –> 00:07:05,599
این لکه متن را به یک
212
00:07:05,599 –> 00:07:08,240
لیست فقط تبدیل کنیم. انواع عناصر درست است، بنابراین
213
00:07:08,240 –> 00:07:09,520
ما چه کار می کنیم به
214
00:07:09,520 –> 00:07:11,520
جای اینکه این لکه متن به عنوان یک
215
00:07:11,520 –> 00:07:13,599
رشته باشد، ما لیستی خواهیم داشت که در آن
216
00:07:13,599 –> 00:07:15,440
هر
217
00:07:15,440 –> 00:07:18,160
عنصر فقط چیزهایی است که در داخل این لکه متن هستند
218
00:07:18,160 –> 00:07:18,639
219
00:07:18,639 –> 00:07:21,120
اما با فاصله سفید درست از هم جدا شده اند، بنابراین
220
00:07:21,120 –> 00:07:22,319
221
00:07:22,319 –> 00:07:24,240
به رویکردی که در هنگام بررسی آن در نظر گرفتیم فکر
222
00:07:24,240 –> 00:07:25,919
کنید. مجموعه داده
223
00:07:25,919 –> 00:07:27,840
mdna ما رشته ها را بر اساس زیرخط تقسیم می کردیم
224
00:07:27,840 –> 00:07:29,120
225
00:07:29,120 –> 00:07:30,880
و اکنون کاری که می خواهیم انجام دهیم این است که
226
00:07:30,880 –> 00:07:32,240
کل رشته را
227
00:07:32,240 –> 00:07:34,160
بر اساس فضای سفید تقسیم کنیم و سپس
228
00:07:34,160 –> 00:07:35,520
229
00:07:35,520 –> 00:07:37,680
همه آن عناصر را به عنوان یک لیست ذخیره
230
00:07:37,680 –> 00:07:39,440
می کنیم و ذخیره می کنیم به عنوان یک
231
00:07:39,440 –> 00:07:41,599
شی جداگانه به شما قول می دهم که این در واقع فقط
232
00:07:41,599 –> 00:07:43,280
پیچیده به نظر می رسد زیرا اجرای آن
233
00:07:43,280 –> 00:07:45,360
فوق العاده آسان است، بنابراین بیایید ادامه دهیم
234
00:07:45,360 –> 00:07:46,400
و این کار را انجام دهیم که می خواهیم بگوییم
235
00:07:46,400 –> 00:07:47,039
236
00:07:47,039 –> 00:07:50,800
کلمات برابر با mda text split هستند
237
00:07:50,800 –> 00:07:52,720
و این به معنای واقعی کلمه تمام چیزی است که باید انجام دهیم،
238
00:07:52,720 –> 00:07:54,560
به یاد داشته باشید که
239
00:07:54,560 –> 00:07:57,599
نوع تقسیم پیشفرض در متد split
240
00:07:57,599 –> 00:07:58,400
فضای سفید است،
241
00:07:58,400 –> 00:08:00,720
بنابراین میتوانید فضای سفید را مشخص کنید، اما
242
00:08:00,720 –> 00:08:01,680
واقعاً نیازی به این کار ندارید،
243
00:08:01,680 –> 00:08:03,840
زیرا به هر حال این پیشفرض است، بنابراین من
244
00:08:03,840 –> 00:08:05,120
فقط میروم و shift
245
00:08:05,120 –> 00:08:06,879
enter را برای اجرای آن فشار میدهم و اگر ما حالا تماس بگیرید
246
00:08:06,879 –> 00:08:07,440
247
00:08:07,440 –> 00:08:10,240
ما اکنون تمام این لکه
248
00:08:10,240 –> 00:08:11,280
متن را در اینجا
249
00:08:11,280 –> 00:08:13,680
بر اساس فضای سفید جدا کردهایم، به طوری که اکنون
250
00:08:13,680 –> 00:08:16,160
از یک لکه متن
251
00:08:16,160 –> 00:08:18,879
به چیزی که تا حدودی
252
00:08:18,879 –> 00:08:21,199
بهعنوان فهرست یا کیسهای
253
00:08:21,199 –> 00:08:23,199
از کلمات ساختار یافته است فاصله میگیریم، اما البته مهم است.
254
00:08:23,199 –> 00:08:24,639
این فقط کلمات
255
00:08:24,639 –> 00:08:26,960
نیست، زیرا ما همچنین اعداد
256
00:08:26,960 –> 00:08:28,800
و علائم نگارشی و نمادها را داریم و
257
00:08:28,800 –> 00:08:29,520
شما چه چیزهایی ندارید،
258
00:08:29,520 –> 00:08:31,039
بنابراین ما می خواهیم از شر آن خلاص شویم و
259
00:08:31,039 –> 00