در این مطلب، ویدئو پایتون – پردازش متن خام قسمت 1 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 1:04:56
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:02,080 –> 00:00:04,080
و خیلی خوب شروع کنید،
2
00:00:04,080 –> 00:00:06,399
بنابراین در فصل سه چیزی که
3
00:00:06,399 –> 00:00:07,120
ما در مورد آن صحبت خواهیم کرد نشانه گذاری است
4
00:00:07,120 –> 00:00:08,800
5
00:00:08,800 –> 00:00:11,360
و اوم، سپس فصل پنجم
6
00:00:11,360 –> 00:00:12,960
به بخشی از برچسب گذاری گفتار
7
00:00:12,960 –> 00:00:16,079
می رسیم و بنابراین این فصل واقعاً گسترش می یابد
8
00:00:16,079 –> 00:00:18,240
که ما در مورد آن صحبت کردیم. فصل
9
00:00:18,240 –> 00:00:19,359
دوم،
10
00:00:19,359 –> 00:00:20,960
همه مجموعههای مختلف ممکنی که
11
00:00:20,960 –> 00:00:22,480
میتوانید استفاده کنید و چند کار جالب که
12
00:00:22,480 –> 00:00:23,600
میتوانیم با آن انجام دهیم
13
00:00:23,600 –> 00:00:25,920
و سپس این یکی
14
00:00:25,920 –> 00:00:27,519
مجموعه
15
00:00:27,519 –> 00:00:31,840
گزینههایی را که باید
16
00:00:32,000 –> 00:00:33,520
متن را پردازش کنید، گسترش میدهد، بنابراین ما در مورد
17
00:00:33,520 –> 00:00:35,120
وارد کردن متن خام
18
00:00:35,120 –> 00:00:37,600
و html صحبت میکنیم. و بعداً با مقداری xml کار می کنیم،
19
00:00:37,600 –> 00:00:39,840
بنابراین یک نکته قابل توجه
20
00:00:39,840 –> 00:00:42,399
این است که متن می تواند انواع مختلفی داشته باشد،
21
00:00:42,399 –> 00:00:44,239
بنابراین لازم نیست فقط از یک
22
00:00:44,239 –> 00:00:46,800
مجموعه شناخته شده باشد، ما می توانیم شروع به ایجاد
23
00:00:46,800 –> 00:00:49,039
متغیرهای خود کنیم،
24
00:00:49,039 –> 00:00:51,039
بنابراین در این درس خاص ما ‘میخواهیم
25
00:00:51,039 –> 00:00:52,480
26
00:00:52,480 –> 00:00:55,440
با اینجا کار کنیم، بیایید
27
00:00:55,440 –> 00:00:56,079
کمی بیشتر
28
00:00:56,079 –> 00:00:59,680
um nltk re را برای بسته عبارات معمولی بزرگنمایی کنیم
29
00:00:59,680 –> 00:01:00,640
و
30
00:01:00,640 –> 00:01:03,760
برای p print خوب چاپ کنیم،
31
00:01:03,760 –> 00:01:05,760
همچنین میخواهیم کلمه
32
00:01:05,760 –> 00:01:09,040
تابع tokenize را از nltk وارد کنیم و این به
33
00:01:09,040 –> 00:01:10,159
ما امکان میدهد ایجاد
34
00:01:10,159 –> 00:01:13,280
لیست های کلمه از آنجایی که توکنسازی
35
00:01:13,280 –> 00:01:16,080
36
00:01:16,640 –> 00:01:19,759
فرآیندی است که در آن رشتههایی از
37
00:01:19,759 –> 00:01:21,759
تعداد زیادی کاراکتر را میگیریم و آنها را به
38
00:01:21,759 –> 00:01:24,400
پاراگرافهای جمله یا کلمات تقسیم
39
00:01:24,400 –> 00:01:26,320
میکنیم، میتوانیم کاراکترها را نیز انجام دهیم، اما معمولاً
40
00:01:26,320 –> 00:01:29,759
در سطح کلمه تمرکز میکنیم،
41
00:01:29,759 –> 00:01:33,600
بنابراین اجازه دهید یاد بگیریم که چگونه چیزها را وارد
42
00:01:33,600 –> 00:01:35,759
کنیم. تا
43
00:01:35,759 –> 00:01:37,360
حدی با تکلیف این
44
00:01:37,360 –> 00:01:38,560
فصل برابر باشد،
45
00:01:38,560 –> 00:01:41,040
بنابراین فرض کنید میخواهیم
46
00:01:41,040 –> 00:01:43,759
متنی را از جایی در اینترنت
47
00:01:43,759 –> 00:01:46,079
48
00:01:46,079 –> 00:01:47,600
49
00:01:47,600 –> 00:01:50,720
بیاوریم. از
50
00:01:50,720 –> 00:01:53,600
پروژه گوتنبرگ، ممکن است وبسایت کسی باشد،
51
00:01:53,600 –> 00:01:54,799
52
00:01:54,799 –> 00:01:56,479
اوم، ما کارهایی را انجام میدهیم که در آن چیزهایی را
53
00:01:56,479 –> 00:01:58,240
از اخبار فاکس بیرون
54
00:01:58,240 –> 00:01:59,920
میکشیم، مثلاً به متن علاقهمندیم به طور کلی و
55
00:01:59,920 –> 00:02:02,240
این همان چیزی است که اینترنت است
56
00:02:02,240 –> 00:02:04,719
و بنابراین تا زمانی
57
00:02:04,719 –> 00:02:06,399
که شما به آن متصل هستید، میتوانیم این کار را انجام دهیم. اینترنت
58
00:02:06,399 –> 00:02:09,598
با استفاده از تابع درخواست،
59
00:02:09,598 –> 00:02:12,959
بنابراین url lib یک بسته um یا کتابخانه است
60
00:02:12,959 –> 00:02:14,160
که باید به عنوان
61
00:02:14,160 –> 00:02:17,200
بخشی از بارگیری آناکوندا
62
00:02:17,200 –> 00:02:19,120
داشته باشیم و تابع درخواست را وارد
63
00:02:19,120 –> 00:02:20,239
64
00:02:20,239 –> 00:02:22,560
می کنیم تا به من امکان دسترسی به هر چیزی را بدهد. به
65
00:02:22,560 –> 00:02:24,160
اینترنت مراجعه کنید تا ممکن است یک صفحه وب یا
66
00:02:24,160 –> 00:02:25,120
67
00:02:25,120 –> 00:02:28,000
منبع وب باشد، مانند این پروژه گوتنبرگ،
68
00:02:28,000 –> 00:02:28,480
69
00:02:28,480 –> 00:02:30,270
یکی یک فایل متنی
70
00:02:30,270 –> 00:02:31,519
[موسیقی]
71
00:02:31,519 –> 00:02:33,360
است و بنابراین برای اینکه بفهمیم این یکی
72
00:02:33,360 –> 00:02:35,280
چه کاری میتوانیم انجام دهیم، فقط لینک را کپی کرده
73
00:02:35,280 –> 00:02:38,480
و برویم.
74
00:02:38,959 –> 00:02:42,560
خوب است یا پروژه گوگبرگ ممکن است از کار بیفتد
75
00:02:42,560 –> 00:02:42,959
76
00:02:42,959 –> 00:02:46,879
و این نمی تواند امروز کار کند، اوه مرد
77
00:02:46,879 –> 00:02:49,280
، یک دوشنبه در یک پنج شنبه است، بیایید ببینیم
78
00:02:49,280 –> 00:02:51,200
که آیا ممکن است فقط با من بد باشد،
79
00:02:51,200 –> 00:02:52,800
پس بیایید بگوییم که ما فقط یک کتاب تصادفی را اینجا انتخاب می کنیم
80
00:02:52,800 –> 00:02:54,319
81
00:02:54,319 –> 00:02:55,760
و شما می توانید کتابها را جستجو کنید ببینیم
82
00:02:55,760 –> 00:02:59,920
آیا میتوانیم هاکلبری فین را پیدا کنیم،
83
00:03:01,519 –> 00:03:03,360
بنابراین فکر نمیکنم وبسایت آنها
84
00:03:03,360 –> 00:03:06,000
امروز کاملاً درست کار میکند،
85
00:03:06,000 –> 00:03:08,560
اما اگر زمانی
86
00:03:08,560 –> 00:03:10,080
که وبسایت کار میکند کتابی پیدا
87
00:03:10,080 –> 00:03:13,120
کردید، اساساً میتوانید به فایل متنی
88
00:03:13,120 –> 00:03:14,720
مرتبط با آن کتاب برسید و این
89
00:03:14,720 –> 00:03:16,879
کاری است که میخواهید انجام دهید، بنابراین در اینجا ما
90
00:03:16,879 –> 00:03:18,959
فایل متنی خاصی را پیدا کردیم و
91
00:03:18,959 –> 00:03:20,319
به نظر میرسد که کار میکند
92
00:03:20,319 –> 00:03:23,040
، به نظر میرسد که آن را باز کرده است، حتی اگر
93
00:03:23,040 –> 00:03:24,080
94
00:03:24,080 –> 00:03:25,920
به نظر نمیرسد گزینههای جستجوی خاص
95
00:03:25,920 –> 00:03:27,760
در این وبسایت کاملاً کار میکنند
96
00:03:27,760 –> 00:03:28,799
97
00:03:28,799 –> 00:03:31,040
، اما به نظر نمیرسد. که بو را پیدا کرد
98
00:03:31,040 –> 00:03:33,040
k برای ما اما فرمت به این صورت است
99
00:03:33,040 –> 00:03:33,920
100
00:03:33,920 –> 00:03:38,400
ln.txt، بنابراین در حال حاضر ما در حال باز کردن
101
00:03:38,400 –> 00:03:39,840
فایل های متنی از اینترنت هستیم، شما
102
00:03:39,840 –> 00:03:43,760
همچنین می توانید فایل های متنی را از رایانه خود باز کنید،
103
00:03:43,760 –> 00:03:45,360
بنابراین می خواهیم بگوییم درخواست این است که
104
00:03:45,360 –> 00:03:47,200
تابع نقطه
105
00:03:47,200 –> 00:03:51,280
باز است. یک url بنابراین تابع url باز
106
00:03:51,280 –> 00:03:52,959
است و سپس آدرس مورد نظر خود را وارد میکنید،
107
00:03:52,959 –> 00:03:54,959
108
00:03:54,959 –> 00:03:56,400
اکنون لازم نیست متن باشد،
109
00:03:56,400 –> 00:03:58,239
میتواند یک صفحه html خام باشد، اما
110
00:03:58,239 –> 00:04:01,360
راههای بهتری برای انجام این کار وجود دارد
111
00:04:01,360 –> 00:04:03,120
و وقتی آن را ذخیره میکنید، به این تبدیل میشود.
112
00:04:03,120 –> 00:04:04,959
113
00:04:04,959 –> 00:04:07,439
شیء پاسخ عجیب http، بنابراین ما
114
00:04:07,439 –> 00:04:08,319
آن
115
00:04:08,319 –> 00:04:10,799
را به چیزی قابل استفاده تبدیل می کنیم، بنابراین بسیاری
116
00:04:10,799 –> 00:04:11,599
از کارهایی که
117
00:04:11,599 –> 00:04:15,040
از اینجا به بعد انجام می دهیم این است که در مورد
118
00:04:15,040 –> 00:04:17,600
فرآیندهای مختلف در
119
00:04:17,600 –> 00:04:18,880
پردازش زبان طبیعی
120
00:04:18,880 –> 00:04:21,279
فکر کنیم و چگونه از یک به شی تبدیل کنیم.
121
00:04:21,279 –> 00:04:22,240
به دیگری،
122
00:04:22,240 –> 00:04:24,240
بنابراین این نوع خاص از شی
123
00:04:24,240 –> 00:04:25,680
در حال حاضر قابل استفاده نیست، ما باید
124
00:04:25,680 –> 00:04:27,919
آن را به چیزی قابل استفاده تبدیل کنیم و اینجاست
125
00:04:27,919 –> 00:04:30,210
که توکن سازی کلمه در
126
00:04:30,210 –> 00:04:32,639
[Music] می آید
127
00:04:32,639 –> 00:04:34,160
و بنابراین ما آن را در
128
00:04:34,160 –> 00:04:36,080
قالبی خوانا قرار می دهیم. پس این
129
00:04:36,080 –> 00:04:37,120
جنایت و مجازات است
130
00:04:37,120 –> 00:04:40,880
nt کتاب است و بنابراین ما از تابع نقطه
131
00:04:40,880 –> 00:04:43,919
خواندن استفاده می کنیم که
132
00:04:43,919 –> 00:04:46,960
در اطلاعاتی که وارد کرده اید خوانده می شود و
133
00:04:46,960 –> 00:04:47,360
134
00:04:47,360 –> 00:04:50,800
در واقع رمزگشایی نقطه ای را با هم انجام می دهیم، بنابراین
135
00:04:50,800 –> 00:04:52,479
برای من واقعا عجیب است زیرا
136
00:04:52,479 –> 00:04:55,520
پاسخ.read.decode است
137
00:04:55,520 –> 00:04:57,440
و آن پاسخ را به خاطر بسپارید. متغیری است
138
00:04:57,440 –> 00:04:59,919
که در اینجا ایجاد کردیم، جایی که
139
00:04:59,919 –> 00:05:03,600
آنچه را در url بود باز کردیم، بنابراین request.urlopen
140
00:05:03,600 –> 00:05:04,000
نوعی
141
00:05:04,000 –> 00:05:07,919
اطلاعات را می کشد که خوانده
142
00:05:07,919 –> 00:05:11,680
می شود، آن را به طور موثر در رمزگشایی می خواند و
143
00:05:11,680 –> 00:05:14,320
این را به قالبی ترجمه می کند که
144
00:05:14,320 –> 00:05:15,280
می توانیم از آن استفاده
145
00:05:15,280 –> 00:05:17,120
کنیم، بنابراین کمی صحبت کردیم. در یک
146
00:05:17,120 –> 00:05:19,039
سخنرانی قبلی در مورد
147
00:05:19,039 –> 00:05:22,479
فرمتهای مختلف که
148
00:05:22,479 –> 00:05:24,720
متن میتواند um
149
00:05:24,720 –> 00:05:26,960
و به وضوح زبانهای مبتنی بر لاتین را بگیرد
150
00:05:26,960 –> 00:05:28,720
و سپس مانند
151
00:05:28,720 –> 00:05:31,199
چینی یا ژاپنی اگر از
152
00:05:31,199 –> 00:05:32,479
ایدئوگرافی شخصیتهای کوچک
153
00:05:32,479 –> 00:05:34,560
استفاده میکنید که قرار است
154
00:05:34,560 –> 00:05:35,600
155
00:05:35,600 –> 00:05:39,039
یک مجموعه کاراکتر متفاوت باشد. یا عربی
156
00:05:39,039 –> 00:05:41,039
یا سیریلیک مانند اینها همه متفاوت به نظر می رسند
157
00:05:41,039 –> 00:05:42,639
158
00:05:42,639 –> 00:05:44,960
و کد نقطه d تابعی است که به
159
00:05:44,960 –> 00:05:48,560
ما امکان می دهد بین آنها ترجمه کنیم
160
00:05:49,199 –> 00:05:50,880
و بنابراین برخورد با
161
00:05:50,880 –> 00:05:52,400
کاراکترهای خاص مشکل جالبی خواهد بود.
162
00:05:52,400 –> 00:05:53,759
بسته به زبانی که
163
00:05:53,759 –> 00:05:55,840
میخواهید با آن کار کنید و بنابراین
164
00:05:55,840 –> 00:05:59,600
ما میتوانیم آن را به utf-8 رمزگشایی کنیم، بسیار خوب،
165
00:05:59,600 –> 00:06:01,199
من این کار را کمی متفاوت از فصل کتاب انجام دادم
166
00:06:01,199 –> 00:06:03,039
167
00:06:03,039 –> 00:06:04,639
زیرا این یکی بهتر کار میکند،
168
00:06:04,639 –> 00:06:07,360
فرمت جدیدتری است،
169
00:06:07,360 –> 00:06:08,880
اما میتوانیم آن را در مجموعهای متفاوت رمزگشایی کنیم.
170
00:06:08,880 –> 00:06:11,520
از کاراکترها خوب است، بنابراین ما
171
00:06:11,520 –> 00:06:12,800
فقط میخواهیم مطمئن شویم که از یک
172
00:06:12,800 –> 00:06:14,479
گزینه رمزگشایی استفاده
173
00:06:14,479 –> 00:06:16,319
میکنیم که با مجموعه کاراکتری مطابقت دارد که
174
00:06:16,319 –> 00:06:18,160
175
00:06:18,160 –> 00:06:20,400
معمولاً یکی از آنها میپرسد، بنابراین چگونه
176
00:06:20,400 –> 00:06:22,560
میتوانم آزمایش و خطا را بدانم
177
00:06:22,560 –> 00:06:25,759
یا گاهی جستجو کردن آسانتر است،
178
00:06:25,759 –> 00:06:28,080
میدانید مجموعه شخصیتها چیست؟ سیریلیک
179
00:06:28,080 –> 00:06:29,120
درست است و بنابراین
180
00:06:29,120 –> 00:06:35,360
من باید از چه رمزگذاری um استفاده کنم،
181
00:06:35,360 –> 00:06:37,600
بنابراین وقتی این را ترجمه میکنم،
182
00:06:37,600 –> 00:06:38,400
از کلمه
183
00:06:38,400 –> 00:06:41,520
خام در اینجا استفاده میکنیم تا در یک رشته خام باشد و
184
00:06:41,520 –> 00:06:43,919
این فقط یک یادگاری نامگذاری است
185
00:06:43,919 –> 00:06:46,160
که مردم دوست دارند از آن استفاده کنند وقتی
186
00:06:46,160 –> 00:06:48,000
منظورشان این است که اینطور نبوده است.
187
00:06:48,000 –> 00:06:49,680
مشخص شده که هیچ کاری برای آن انجام نشده است این است
188
00:06:49,680 –> 00:06:51,599
که با فرمتی که ما آن را در آن قرار دادیم،
189
00:06:51,599 –> 00:06:52,800
مانند گوشت خام است
190
00:06:52,800 –> 00:06:56,319
و بعداً آن را میپزیم
191
00:06:57,039 –> 00:06:58,960
و بنابراین در حال خواندن آن و رمزگشایی آن
192
00:06:58,960 –> 00:07:01,599
در این utf-8 هستیم.
193
00:07:01,599 –> 00:07:02,800
بین
194
00:07:02,800 –> 00:07:04,639
انواع مختلف کامپ سوئیچ شده است کاربرانی مانند مک
195
00:07:04,639 –> 00:07:05,520
و ویندوز،
196
00:07:05,520 –> 00:07:07,199
این یکی از مشکلاتی است که ممکن است
197
00:07:07,199 –> 00:07:08,720
با آنها داشته باشید این است که رمزگذاری
198
00:07:08,720 –> 00:07:10,160
در هر کدام کمی متفاوت است، بنابراین ممکن است مجبور
199
00:07:10,160 –> 00:07:12,880
شوید آنها را ترجمه کنید
200
00:07:12,880 –> 00:07:16,479
و اگر قبلاً نوع را چاپ کنم
201
00:07:16,479 –> 00:07:19,680
202
00:07:19,680 –> 00:07:22,720
http یا نوع شی بود،
203
00:07:22,720 –> 00:07:26,080
اکنون رشته و رشتههایی که میتوانیم
204
00:07:26,080 –> 00:07:26,880
با
205
00:07:26,880 –> 00:07:29,599
آن کار کنیم، بنابراین با خواندن آن و
206
00:07:29,599 –> 00:07:31,840
رمزگشایی آن را تبدیل کردهایم
207
00:07:31,840 –> 00:07:34,000
و سپس به آن گفتم چاپ کند تا
208
00:07:34,000 –> 00:07:35,280
بتوانید ببینید چیست و
209
00:07:35,280 –> 00:07:37,520
جرم و مجازات است،
210
00:07:37,520 –> 00:07:40,800
بنابراین وقتی خودتان این کار را انجام میدهید
211
00:07:40,800 –> 00:07:42,800
برای تکلیفی که میخواهید
212
00:07:42,800 –> 00:07:45,759
کتاب دیگری انتخاب کنید،
213
00:07:45,759 –> 00:07:47,520
نکتهای که در اینجا نیز باید به آن توجه کنید این است که این
214
00:07:47,520 –> 00:07:49,360
کاراکترهای انتهای خط هستند،
215
00:07:49,360 –> 00:07:51,199
بنابراین اسلش r و اسلش n
216
00:07:51,199 –> 00:07:52,960
انواع مختلفی از کاراکترهای انتهای خط هستند که
217
00:07:52,960 –> 00:07:54,800
ممکن است در متن خام ببینید،
218
00:07:54,800 –> 00:07:56,840
بنابراین ما خواهیم داشت. برای مقابله با آنها
219
00:07:56,840 –> 00:07:59,840
220
00:08:00,319 –> 00:08:03,680
و این به این دلیل است که هر متنی که
221
00:08:03,680 –> 00:08:05,199
خودمان
222
00:08:05,199 –> 00:08:06,560
میکشیم بسیار نامرتب
223
00:08:06,560 –> 00:08:08,560
خواهد بود، همه در حال کار بر روی برخی تحقیقات است
224
00:08:08,560 –> 00:08:10,160
در حال حاضر ما در مورد بهترین راه برای
225
00:08:10,160 –> 00:08:10,840
پردازش
226
00:08:10,840 –> 00:08:13,759
متن صحبت میکنیم و بنابراین مجبور شدیم صحبت کنیم. در مورد مانند
227
00:08:13,759 –> 00:08:14,160
228
00:08:14,160 –> 00:08:15,599
توکنیزاسیون خوب که ما
229
00:08:15,599 –> 00:08:18,400
امروز را پوشش میدهیم، سپس محدودیتهایی که ما نیز
230
00:08:18,400 –> 00:08:20,550
در مورد آن صحبت خواهیم کرد، اما احتمالاً هفته آینده
231
00:08:20,550 –> 00:08:21,759
[موسیقی]
232
00:08:21,759 –> 00:08:23,440
چگونه با کدهای انتهای خط برخورد کنم چگونه
233
00:08:23,440 –> 00:08:25,120
با نمادهای بد بو مانند
234
00:08:25,120 –> 00:08:28,080
اینکه چگونه میتوان تمام مزخرفات را
235
00:08:28,080 –> 00:08:31,120
در یک متن حذف کرد
236
00:08:31,599 –> 00:08:34,159
و بنابراین نشانهسازی یک
237
00:08:34,159 –> 00:08:36,000
اصطلاح گسترده برای ایجاد
238
00:08:36,000 –> 00:08:39,760
رشتههایی از نوع خاصی است و بنابراین
239
00:08:39,760 –> 00:08:41,519
نشانهسازی کلمه جایی است که شما
240
00:08:41,519 –> 00:08:44,240
یک کاراکتر را یک رشته طولانی بزرگ میگیرید و
241
00:08:44,240 –> 00:08:47,120
آن را به کلمات جداگانه تقسیم میکنید،
242
00:08:47,120 –> 00:08:48,720
ما در واقع قبلاً از این
243
00:08:48,720 –> 00:08:50,160
در اسلاید استفاده کردهایم اما
244
00:08:50,160 –> 00:08:51,519
نشانهسازی جمله جایی است که شما
245
00:08:51,519 –> 00:08:53,279
جملاتی را ایجاد
246
00:08:53,279 –> 00:08:56,959
می کنید، همچنین می توانید پاراگراف ها یا
247
00:08:56,959 –> 00:08:58,399
فصل هایی مانند ما می توانیم در سطوح مختلف کار کنیم،
248
00:08:58,399 –> 00:09:01,519
بسیار خوب است، بنابراین نشانه گذاری
249
00:09:01,519 –> 00:09:03,279
به طور کلی در سطح کلمه یا جمله
250
00:09:03,279 –> 00:09:05,200
است،
251
00:09:05,200 –> 00:09:08,800
اما می تواند بزرگتر از آن باشد،
252
00:09:08,800 –> 00:09:10,560
بنابراین بیایید از کلمه tokenize در اینجا استفاده
253
00:09:10,560 –> 00:09:11,760
کنیم و ما تماس می گیریم این توکنها
254
00:09:11,760 –> 00:09:13,120
را خام نامیدیم
255
00:09:13,120 –> 00:09:15,120
زیرا قالب کلمه خام
256
00:09:15,120 –> 00:09:17,360
بود که هنوز کاری برای آن انجام نداده
257
00:09:17,360 –> 00:09:18,959
بودیم، میخواهیم این یکی را توکن بنامیم
258
00:09:18,959 –> 00:09:21,120
زیرا آن را به کلمات جداگانه تقسیم
259
00:09:21,120 –> 00:09:22,399
کردهایم یا از آن استفاده کردهایم.
260
00:09:22,399 –> 00:09:26,240
ng از نشانه به عنوان فهرستی از کلمات استفاده میکند
261
00:09:26,240 –> 00:09:27,760
و یک تابع آسان کلمه
262
00:09:27,760 –> 00:09:30,320
tokenize است،
263
00:09:30,320 –> 00:09:32,399
اگر نوع آن را چاپ کنم، اکنون به جای یک رشته کاراکتر به یک لیست تبدیل میشود،
264
00:09:32,399 –> 00:09:34,399
265
00:09:34,399 –> 00:09:37,120
زیرا فهرستی از کلمات جداگانه است
266
00:09:37,120 –> 00:09:38,800
و به نظر خیلی خوب میرسد، درست
267
00:09:38,800 –> 00:09:40,480
هر کلمه شکسته میشود.
268
00:09:40,480 –> 00:09:44,080
um علائم نگارشی به کلمات خودشان تبدیل می شوند،
269
00:09:44,080 –> 00:09:47,360
مگر اینکه مخفف باشد
270
00:09:47,839 –> 00:09:52,240
و تمام کدهای انتهای خط
271
00:09:52,959 –> 00:09:57,680
تمام شده اند، ببخشید،
272
00:09:58,080 –> 00:10:00,480
اکنون می توانم آن لیست را
273
00:10:00,480 –> 00:10:01,760
274
00:10:01,760 –> 00:10:06,720
با استفاده از چیزی مانند
275
00:10:06,720 –> 00:10:10,240
nltk.txt به متن nltk تبدیل کنم و توکن ها را بریزم که برای آن کار می کند.
276
00:10:10,240 –> 00:10:11,680
من این است که به من اجازه می دهد از
277
00:10:11,680 –> 00:10:12,640
همخوانی
278
00:10:12,640 –> 00:10:14,640
مشابهی مانند همه چیزهایی که
279
00:10:14,640 –> 00:10:16,399
شما برای تکالیف فصل 2
280
00:10:16,399 –> 00:10:19,839
281
00:10:20,000 –> 00:10:22,560
282
00:10:22,560 –> 00:10:23,120
283
00:10:23,120 –> 00:10:25,920
284
00:10:25,920 –> 00:10:27,680
انجام می دهید استفاده کنم. یک
285
00:10:27,680 –> 00:10:28,240
جورهایی کل
286
00:10:28,240 –> 00:10:31,360
فایل ام اما به نظر نمی رسد
287
00:10:31,360 –> 00:10:33,360
گوتنبرگ به من اجازه دهد
288
00:10:33,360 –> 00:10:34,180
شاید اکنون
289
00:10:34,180 –> 00:10:39,440
[موسیقی]
290
00:10:39,440 –> 00:10:43,200
اوه شبیه آن نیست، ام و بنابراین
291
00:10:43,200 –> 00:10:46,079
اگر بگویم فقط فرمت کلمه خام را به صورت خام چاپ کرده ام،
292
00:10:46,079 –> 00:10:46,959
293
00:10:46,959 –> 00:10:51,680
این چنین خواهد بود. یک دسته چیز
294
00:10:52,959 –> 00:10:56,720
اوه اوه ما دوباره از خام استفاده کردیم بعداً
295
00:10:56,720 –> 00:11:00,320
نگه دارید اجازه دهید
296
00:11:00,320 –> 00:11:04,800
خوب اوم خوب حالا کار نمی
297
00:11:04,800 –> 00:11:07,519
کند دوباره امتحان کنیم بسیار
298
00:11:08,079 –> 00:11:10,959
خوب که اجرا شد من نمی دانم چرا
299
00:11:10,959 –> 00:11:14,560
باز می شود اما در مرورگر کار نمی کند
300
00:11:14,560 –> 00:11:16,800
خوب
301
00:11:16,800 –> 00:11:20,150
[Music]
302
00:11:20,160 –> 00:11:22,800
کل قالب کلمه خام را در اینجا چاپ کنید
303
00:11:22,800 –> 00:11:23,279
برو
304
00:11:23,279 –> 00:11:24,640
پس در ابتدا یک سری مطالب تلخ وجود دارد
305
00:11:24,640 –> 00:11:26,480
، چیزی است که من سعی می کنم بگویم،
306
00:11:26,480 –> 00:11:29,519
بنابراین ما تمام اطلاعاتی را
307
00:11:29,519 –> 00:11:31,200
از پروژه gutenberg
308
00:11:31,200 –> 00:11:32,720
که آنها در ابتدا گیر کرده اند به دست آورده ایم این
309
00:11:32,720 –> 00:11:34,800
کتاب الکترونیکی برای هر کسی که می توانید آن را کپی کنید رایگان است.
310
00:11:34,800 –> 00:11:37,279
311
00:11:37,600 –> 00:11:40,720
تاریخ انتشار باقی مانده است، بنابراین ما
312
00:11:40,720 –> 00:11:43,120
میخواهیم همه این موارد را پاک کنیم،
313
00:11:43,120 –> 00:11:46,320
زیرا این
314
00:11:46,320 –> 00:11:49,519
ابردادههای اطلاعاتی یا دادههایی است که مربوط به
315
00:11:49,519 –> 00:11:50,720
خود کتاب است،
316
00:11:50,720 –> 00:11:52,959
اما متن واقعی کتاب نیست،
317
00:11:52,959 –> 00:11:54,720
بنابراین نمیخواهیم هیچکدام از این موارد را در کتاب
318
00:11:54,720 –> 00:11:56,320
خود لحاظ کنیم. تجزیه و تحلیل کتاب زیرا
319
00:11:56,320 –> 00:11:59,839
به معنای واقعی کلمه بخشی از کتاب نیست
320
00:12:00,880 –> 00:12:03,920
و بنابراین کاری که من می خواهم انجام دهم این
321
00:12:03,920 –> 00:12:09,120
است که بفهمم چگونه آن داده ها را حذف کنم
322
00:12:09,120 –> 00:12:10,560
و این کمی آزمون و
323
00:12:10,560 –> 00:12:12,639
خطا است که در آن چیزی که ما می خواهیم انجام
324
00:12:12,639 –> 00:12:15,600
دهیم استفاده از پیدا است. تابع یا تابع r
325
00:12:15,600 –> 00:12:17,839
find که به نوعی شبیه
326
00:12:17,839 –> 00:12:20,880
find در کلمه است بنابراین مانند ctrl یا فرمان
327
00:12:20,880 –> 00:12:24,160
f، مشکل این دو مورد است که ما
328
00:12:24,160 –> 00:12:26,079
در مورد گزینههای دیگر صحبت خواهیم کرد، این است
329
00:12:26,079 –> 00:12:27,600
که فقط برای اولین نمونه به نظر میرسد،
330
00:12:27,600 –> 00:12:30,880
بنابراین پیدا کردن
331
00:12:30,880 –> 00:12:32,959
به معنای واقعی کلمه اولین باری که هر چیزی را
332
00:12:32,959 –> 00:12:33,920
که جستجو میکنید
333
00:12:33,920 –> 00:12:37,680
اتفاق میافتد. پیدا کردن یک پیدا کردن معکوس
334
00:12:37,680 –> 00:12:39,279
آخرین باری که چیزی
335
00:12:39,279 –> 00:12:40,800
اتفاق می افتد،
336
00:12:40,800 –> 00:12:44,320
بنابراین از پایان
337
00:12:44,320 –> 00:12:46,399
برای این نمونه خاص مفید است، جایی که ما
338
00:12:46,399 –> 00:12:47,600
فقط سعی می
339
00:12:47,600 –> 00:12:49,519
کنیم شروع فصل یک را پیدا کنیم،
340
00:12:49,519 –> 00:12:51,120
اساساً زیرا فصل یک قرار نیست
341
00:12:51,120 –> 00:12:52,560
دوباره اتفاق بیفتد،
342
00:12:52,560 –> 00:12:53,839
اما اگر سعی می کنید هر
343
00:12:53,839 –> 00:12:56,160
نمونه ای از آن را پیدا کنید. یک کلمه خاص
344
00:12:56,160 –> 00:12:59,519
این تابع برای شما کار نمی کند،
345
00:13:00,240 –> 00:13:04,560
بنابراین ما از رشته خام استفاده می کنیم
346
00:13:04,560 –> 00:13:06,000
خوب توجه کنید که من از رشته توکنیز خود استفاده نمی کنم،
347
00:13:06,000 –> 00:13:08,160
348
00:13:08,160 –> 00:13:09,760
کاری که می خواهم انجام دهم این است که به
349
00:13:09,760 –> 00:13:11,200
مجموعه داده های خام برگردم
350
00:13:11,200 –> 00:13:12,959
و می روم برای پیدا کردن جایی که میگوید قسمت
351
00:13:12,959 –> 00:13:14,639
اول
352
00:13:14,639 –> 00:13:17,680
وقتی میروید این کار را روی
353
00:13:17,680 –> 00:13:19,839
تکالیف خود انجام دهید، ممکن است قسمت اول نباشد،
354
00:13:19,839 –> 00:13:21,279
ممکن است فصل اول
355
00:13:21,279 –> 00:13:24,480
باشد، ممکن است چند کلمه اول
356
00:13:24,480 –> 00:13:26,079
357
00:13:26,079 –> 00:13:28,079
پاراگراف اول کتاب باشد، بنابراین باید آن را
358
00:13:28,079 –> 00:13:30,000
باز کنید. فایل متنی به نوعی به آن نگاه
359
00:13:30,000 –> 00:13:31,680
کنید بفهمید که این چه چیزی باید باشد،
360
00:13:31,680 –> 00:13:33,360
این امر تجویزی نیست،
361
00:13:33,360 –> 00:13:35,519
به این معنی نیست که همیشه قسمت اول
362
00:13:35,519 –> 00:13:37,760
را میگوید، فقط در این کتاب خاص
363
00:13:37,760 –> 00:13:39,279
، جایی که
364
00:13:39,279 –> 00:13:42,320
فصل اول شروع میشود،
365
00:13:42,560 –> 00:13:45,360
سپس میخواهم از انتهای
366
00:13:45,360 –> 00:13:46,800
آن جایی که میگوید پایان
367
00:13:46,800 –> 00:13:48,320
جنایت گوتنبرگ را پروژه کنید، زیرا
368
00:13:48,320 –> 00:13:49,839
این پایان کتاب است، بنابراین به پایین پیمایش کردم
369
00:13:49,839 –> 00:13:51,760
و به انتهای آن نگاه کردم
370
00:13:51,760 –> 00:13:56,639
و اینجا جایی بود که آخرین فصل به پایان میرسد،
371
00:13:57,440 –> 00:13:59,199
زیرا دادههای خام میگویند یک
372
00:13:59,199 –> 00:14:00,639
رشته کاراکتر بزرگ
373
00:14:00,639 –> 00:14:05,199
، این فهرستی است که قسمت اول از آنجا شروع میشود.
374
00:14:05,199 –> 00:14:08,000
بنابراین قسمت اول در شاخص پنج است و سی و پنج
375
00:14:08,000 –> 00:14:08,800
هزار
376
00:14:08,800 –> 00:14:12,079
بلاههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههههه
377
00:14:12,079 –> 00:14:14,079
378
00:14:14,079 –> 00:14:17,199
379
00:14:17,199 –> 00:14:19,199
380
00:14:19,199 –> 00:14:21,279
381
00:14:21,279 –> 00:14:24,240
382
00:14:24,240 –> 00:14:26,079
فقط چیزهایی است که در بین آنها وجود دارد
383
00:14:26,079 –> 00:14:28,839
و این چیزی است که من می خواهم جنبه های بیرونی را از بین
384
00:14:28,839 –> 00:14:31,839
ببرم،
385
00:14:33,920 –> 00:14:36,079
اوه سوال بسیار خوبی است که این فقط
386
00:14:36,079 –> 00:14:37,680
اولین
387
00:14:37,680 –> 00:14:40,800
باری است که به آن اشاره می شود و به
388
00:14:40,800 –> 00:14:42,079
همین دلیل است که گفتم برای شما مهم است
389
00:14:42,079 –> 00:14:43,519
که کتاب را باز کنید تا بدانید که
390
00:14:43,519 –> 00:14:46,720
چیزی است که
391
00:14:46,720 –> 00:14:48,480
نشانگر مانند فصل اول
392
00:14:48,480 –> 00:14:51,519
[موسیقی] خواهد بود،
393
00:14:52,639 –> 00:14:55,360
بنابراین اگر میخواهید همیشه چیزی را که ذکر شده است پیدا کنید، فقط اولین
394
00:14:55,360 –> 00:14:55,839
اشاره
395
00:14:55,839 –> 00:14:58,560
یا آخرین ذکر را پیدا کنید و پیدا کنید
396
00:14:58,560 –> 00:14:59,360
،
397
00:14:59,360 –> 00:15:00,480
398
00:15:00,480 –> 00:15:03,519
عملکرد متفاوتی برای آن وجود دارد،
399
00:15:03,519 –> 00:15:04,399
بنابراین نکته مهمی که
400
00:15:04,399 –> 00:15:06,750
باید در مورد تابع find
401
00:15:06,750 –> 00:15:10,350
[Music]
402
00:15:11,360 –> 00:15:13,279
um به خاطر بسپارید، بنابراین با کنار گذاشتن مختصر
403
00:15:13,279 –> 00:15:14,800
فایل های متنی، بیایید به
404
00:15:14,800 –> 00:15:18,000
um html
405
00:15:18,000 –> 00:15:20,639
نگاهی بیاندازیم تا برای یک ثانیه یک نسخه پشتیبان تهیه
406
00:15:20,639 –> 00:15:22,079
407
00:15:22,079 –> 00:15:25,600
408
00:15:25,600 –> 00:15:27,200
کنیم. سند خام قابل استفاده ام
409
00:15:27,200 –> 00:15:28,959
[موسیقی]
410
00:15:28,959 –> 00:15:31,120
که همه
411
00:15:31,120 –> 00:15:32,800
چیزهای اضافی را ندارد،
412
00:15:32,800 –> 00:15:35,920
بنابراین گاهی اوقات با
413
00:15:35,920 –> 00:15:38,480
تیم تحقیقاتی آزمایشگاهم شوخی می کنم که زمان بیشتری را
414
00:15:38,480 –> 00:15:40,720
صرف تمیز کردن فایل های متنی می کنیم تا اینکه
415
00:15:40,720 –> 00:15:42,240
واقعاً تجزیه و تحلیل را انجام دهیم
416
00:15:42,240 –> 00:15:43,680
و همه راه هایی را که
417
00:15:43,680 –> 00:15:46,000
مردم دوست دارند را کشف کنیم. چیزهای احمقانه ای نوشت تا
418
00:15:46,000 –> 00:15:47,199
بتوانیم آنها را بیرون بیاوریم
419
00:15:47,199 –> 00:15:50,240
و این در مورد اکثر پروژه های nlp صدق می کند که شما
420
00:15:50,240 –> 00:15:51,920
زمان زیادی را صرف
421
00:15:51,920 –> 00:15:53,839
تمیز کردن اسناد می کنید زیرا آنها
422
00:15:53,839 –> 00:15:56,000
هرگز در قالب خوب و
423
00:15:56,000 –> 00:15:58,080
مرتب و خوب نیستند
424
00:15:58,080 –> 00:15:59,360
[Music]،
425
00:15:59,360 –> 00:16:01,519
بنابراین برای فایل های متنی خام ممکن است
426
00:16:01,519 –> 00:16:04,560
همه را حذف کنیم. تی قطعاتی که نمی
427
00:16:04,560 –> 00:16:06,560
خواهیم اگر به html نگاه کنیم این موضوع
428
00:16:06,560 –> 00:16:08,800
حتی پیچیده تر می شود زیرا
429
00:16:08,800 –> 00:16:11,839
اوم در وب سایت bbc این
430
00:16:11,839 –> 00:16:16,720
مقاله جوک مسخره ای وجود دارد که در مورد اینکه چگونه
431
00:16:16,720 –> 00:16:18,560
افراد مو بور به طور طبیعی بلوند هستند به
432
00:16:18,560 –> 00:16:19,759
نوعی از ژنتیک ناپدید می
433
00:16:19,759 –> 00:16:22,880
شود زیرا
434
00:16:22,880 –> 00:16:24,320
آنها یک ویژگی مغلوب هستند یا چیزی
435
00:16:24,320 –> 00:16:25,839
شبیه به دلیل احمقانهای وجود دارد که این یک
436
00:16:25,839 –> 00:16:27,680
مقاله شوخی است،
437
00:16:27,680 –> 00:16:31,040
بنابراین فرض کنید ما باز میکنیم که
438
00:16:31,040 –> 00:16:33,920
وبسایتهای خوب و جدیدتر حتی
439
00:16:33,920 –> 00:16:36,480
بدتر هستند، پردازش آنها حتی سختتر است
440
00:16:36,480 –> 00:16:40,560
و بنابراین ما در آدرس اینترنتی خود قرار میدهیم و درخواست میکنیم
441
00:16:40,560 –> 00:16:43,839
آدرس اینترنتی باز شود و سپس من فقط چسبیده بودم
442
00:16:43,839 –> 00:16:44,480
و همه این
443
00:16:44,480 –> 00:16:47,040
کارها را در یک مرحله انجام دادم، بنابراین آن را خواندم و
444
00:16:47,040 –> 00:16:48,800
رمزگشایی کردم از رمزگشای کمی متفاوت استفاده
445
00:16:48,800 –> 00:16:51,120
کردم زیرا بهتر
446
00:16:51,120 –> 00:16:54,560
از utf-8 کار می کرد
447
00:16:54,560 –> 00:16:57,600
و این یک عکس سریع از این است که چرا
448
00:16:57,600 –> 00:16:58,639
این خیلی
449
00:16:58,639 –> 00:17:01,519
مسخره است و فکر می کنم وقتی می روید
450
00:17:01,519 –> 00:17:03,680
451
00:17:03,680 –> 00:17:05,839
زمانی که این کار را
452
00:17:05,839 –> 00:17:07,119
روی تکالیف خود انجام میدهید، وبسایت خود را اجرا کنید، میبینید،
453
00:17:07,119 –> 00:17:10,959
اما تمام ابردادههای html را دریافت میکنید،
454
00:17:10,959 –> 00:17:13,919
پس بیایید ببینیم
455
00:17:14,240 –> 00:17:16,240
کدام یک از شما بچهها یا منبع خبری مورد علاقهتان چیست،
456
00:17:16,240 –> 00:17:18,959
457
00:17:18,959 –> 00:17:20,480
تا کسی وبسایت خبری مورد علاقهاش را به من بدهد.
458
00:17:20,480 –> 00:17:22,880
459
00:17:26,319 –> 00:17:32,480
r برای اولین بار خوب می شود،
460
00:17:32,480 –> 00:17:37,120
ما می توانیم به چند نفر از آنها نگاهی بیندازیم،
461
00:17:37,120 –> 00:17:38,880
اوه وال استریت که
462
00:17:38,880 –> 00:17:40,400
قرار است انجام شود، بنابراین من مدت زیادی است که به وب سایت اخبار گوگل نگاه نکرده ام،
463
00:17:40,400 –> 00:17:42,480
464
00:17:42,480 –> 00:17:45,039
اوه بله، بنابراین خیلی سخت است
465
00:17:45,039 –> 00:17:45,760
که بگوییم
466
00:17:45,760 –> 00:17:48,240
هدف خود را دارید. برای انجام برخی از صفحات وب،
467
00:17:48,240 –> 00:17:49,760
شما سعی می کنید
468
00:17:49,760 –> 00:17:52,960
همه این مقالات مختلف را بیرون بیاورید، پس
469
00:17:52,960 –> 00:17:54,799
بیایید به سارا سندرز در اینجا نگاه کنیم،
470
00:17:54,799 –> 00:17:56,160
خوب این در واقع احتمالا
471
00:17:56,160 –> 00:17:58,400
ما را به جای دیگری می برد، بنابراین سایت گوگل به
472
00:17:58,400 –> 00:18:00,320
نظر می رسد که یک redirector است، اما
473
00:18:00,320 –> 00:18:01,440
این نیز کار خواهد کرد.
474
00:18:01,440 –> 00:18:04,400
اوم، اجازه دهید به داخل این سند html نگاه
475
00:18:04,400 –> 00:18:07,840
کنیم، بنابراین من میخواهم منبع را مشاهده
476
00:18:07,840 –> 00:18:10,240
کنم، خب، من روی مشاهده منبع کلیک راست
477
00:18:10,240 –> 00:18:10,880
478
00:18:10,880 –> 00:18:13,360
میکنم، بله، منبع صفحه را مشاهده کنید، بنابراین ما
479
00:18:13,360 –> 00:18:14,559
این
480
00:18:14,559 –> 00:18:18,160
um را با استفاده از تابع html خود وارد کردیم.
481
00:18:18,160 –> 00:18:20,480
و به
482
00:18:20,480 –> 00:18:21,600
483
00:18:21,600 –> 00:18:23,440
پهلو نمیچرخد، این فقط یک چیز غول پیکر
484
00:18:23,440 –> 00:18:25,200
است، بنابراین به این همه
485
00:18:25,200 –> 00:18:28,559
چیزهای html مزخرف اضافی نگاه کنید و سپس
486
00:18:28,559 –> 00:18:30,480
برخی از وب سایت ها هستند مانند می دانم که fox news این کار را انجام می دهد
487
00:18:30,480 –> 00:18:32,559
که در جاوا اسکریپت همه چیز پنهان است،
488
00:18:32,559 –> 00:18:34,400
بنابراین دریافت واقعی آن حتی سخت تر است.
489
00:18:34,400 –> 00:18:36,240
چندتا پیامک کن جایی
490
00:18:36,240 –> 00:18:37,600
که فکر میکنم وال استریت ژورنال همین
491
00:18:37,600 –> 00:18:40,080
مشکل را دارد، بیایید نگاه
492
00:18:40,080 –> 00:18:42,240
کنیم، زیرا ما پروژههای اسکراپی متن را انجام میدهیم
493
00:18:42,240 –> 00:18:44,240
و همیشه کار
494
00:18:44,240 –> 00:18:47,919
سختی است که بفهمیم چگونه میتوان متن واقعی را به درستی دریافت کرد.
495
00:18:48,080 –> 00:18:50,880
496
00:18:50,880 –> 00:18:52,880
497
00:18:52,880 –> 00:18:55,280
498
00:18:55,280 –> 00:18:56,799
اگر
499
00:18:56,799 –> 00:18:58,320
محتوای آنها مسدود شده باشد و شما باید به
500
00:18:58,320 –> 00:19:00,799
501
00:19:01,050 –> 00:19:02,720
[موسیقی] دسترسی
502
00:19:02,720 –> 00:19:04,240
داشته باشید، بنابراین این یک مثال خوب است، اوه بله، این یک
503
00:19:04,240 –> 00:19:05,919
مثال عالی است همه اینها در اینجا هیچ کدام از
504
00:19:05,919 –> 00:19:07,440
اینها واقعی نیستند مانند
505
00:19:07,440 –> 00:19:08,080
محتوای
506
00:19:08,080 –> 00:19:11,120
جالب، تمام html um و
507
00:19:11,120 –> 00:19:14,240
شیوه نامه ها را ببینید برگههای سبک محتوا
508
00:19:14,240 –> 00:19:17,919
و سپس یک کار دیگر انجام میدهیم،
509
00:19:18,559 –> 00:19:20,400
بیایید
510
00:19:20,400 –> 00:19:22,840
این بار به والمارت نگاه
511
00:19:22,840 –> 00:19:27,120
512
00:19:28,559 –> 00:19:31,520
کنیم، نه هیچکدام از آن مزخرفات، ما آنجا نیستیم، میرویم، بنابراین اگر
513
00:19:31,520 –> 00:19:32,960
به منبع صفحه
514
00:19:32,960 –> 00:19:36,880
اینجا نگاه کنم، این یک جایی در وسط است.
515
00:19:36,880 –> 00:19:41,120
بنابراین هزاران چیز که ما به آن نیاز نداریم
516
00:19:41,200 –> 00:19:44,720
ایده اصلی اینجا است
517
00:19:44,720 –> 00:19:46,240
و بنابراین یک بسته واقعاً جالب
518
00:19:46,240 –> 00:19:48,160
به نام سوپ زیبا وجود دارد و گزینه های دیگری نیز وجود دارد،
519
00:19:48,160 –> 00:19:50,080
اما سوپ زیبا
520
00:19:50,080 –> 00:19:52,080
توصیه کتاب است
521
00:19:52,080 –> 00:19:55,200
که به ما امکان می دهد
522
00:19:55,200 –> 00:19:58,960
اساساً همه چیز را از بین ببریم.
523
00:19:58,960 –> 00:20:01,360
اگر این را اجرا می کنید و جواب نمی
524
00:20:01,360 –> 00:20:02,960
دهد، این مشکلی ندارد
525
00:20:02,960 –> 00:20:06,159
، هدف این است که فقط ببینید چه
526
00:20:06,159 –> 00:20:07,679
زمانی آزمایش و خطای ممکن
527
00:20:07,679 –> 00:20:10,559
است هنگام اجرای این پروژه ها انجام دهید،
528
00:20:10,559 –> 00:20:13,840
اما سوپ زیبا
529
00:20:13,840 –> 00:20:18,080
بسته ای است که بخشی
530
00:20:18,240 –> 00:20:20,720
از دانلود برای آناکوندا است و آن را
531
00:20:20,720 –> 00:20:21,520
532
00:20:21,520 –> 00:20:24,480
بیشتر در برخی از صفحات جدیدتر به سبک جاوا اسکریپت تمیز می
533
00:20:24,480 –> 00:20:25,600
کند،
534
00:20:25,600 –> 00:20:29,679
امم، اصلاً خوب کار نمی کند،
535
00:20:31,280 –> 00:20:33,280
بنابراین در اینجا یک نمونه از سوپ زیبای سوپ
536
00:20:33,280 –> 00:20:35,919
4 وارداتی زیبا آورده شده است
537
00:20:35,919 –> 00:20:37,120
که ما می خواهیم سوپ زیبا را اجرا کنیم.
538
00:20:37,120 –> 00:20:39,679
عملکردی در html ما که وارد کرده ایم
539
00:20:39,679 –> 00:20:42,880
و از متن دریافت نقطه استفاده می
540
00:20:42,880 –> 00:20:45,360
کنیم و معمولاً متن را برای ما بیرون می کشد
541
00:20:45,360 –> 00:20:46,720
542
00:20:46,720 –> 00:20:49,039
اگر شما یک فرد r هستید، این
543
00:20:49,039 –> 00:20:50,799
شبیه کاری است که arvest
544
00:20:50,799 –> 00:20:53,360
وقتی می توانید صفحات وب را باز کنید و متن را از آنها بیرون بکشید، انجام می
545
00:20:53,360 –> 00:20:56,240
دهد،
546
00:20:57,679 –> 00:20:59,600
اما گاهی اوقات فقط به
547
00:20:59,600 –> 00:21:01,280
دلیل قالببندی صفحه وب
548
00:21:01,280 –> 00:21:02,000
549
00:21:02,000 –> 00:21:04,799
کار نمیکند، بنابراین برخی از صفحات نمیخواهند
550
00:21:04,799 –> 00:21:05,600
آنها را پاک کنید،
551
00:21:05,600 –> 00:21:06,880
زیرا در این صورت به تبلیغات آنها نگاه نمیکنید،
552
00:21:06,880 –> 00:21:09,120
553
00:21:09,600 –> 00:21:12,320
بنابراین من میتوانم آن متن خام را بگیرم و
554
00:21:12,320 –> 00:21:14,159
کار کنم آن را توکنیزه کنم و اکنون این به نظر می رسد
555
00:21:14,159 –> 00:21:16,720
خیلی خوب کار کرده است
556
00:21:16,720 –> 00:21:17,760
بنابراین w به شما می گویم اگر
557
00:21:17,760 –> 00:21:20,240
به کار با html علاقه دارید، آزمون
558
00:21:20,240 –> 00:21:22,400
و خطای زیادی دارد،
559
00:21:22,400 –> 00:21:24,000
اما سوپ زیبا نوعی
560
00:21:24,000 –> 00:21:25,679
بسته است که به ما کمک می کند
561
00:21:25,679 –> 00:21:28,960
یکی از چندین بسته است که
562
00:21:28,960 –> 00:21:32,400
به ما کمک می کند تا html را پاک کنیم
563
00:21:34,159 –> 00:21:36,159
و سپس آخرین نمونه در وارد کردن
564
00:21:36,159 –> 00:21:37,360
و پرداختن به
565
00:21:37,360 –> 00:21:40,880
فایلها استفاده از فایل خودتان است، بنابراین فرض کنید
566
00:21:40,880 –> 00:21:41,760
567
00:21:41,760 –> 00:21:45,120
من این فایل را دارم که در آن
568
00:21:45,120 –> 00:21:48,240
از مردم میپرسم چه چیزی باعث میشود فلیپر یک
569
00:21:48,240 –> 00:21:51,360
بالهباز باشد و بنابراین مردم
570
00:21:51,360 –> 00:21:53,039
البته دلفینها را فهرست میکنند.
571
00:21:53,039 –> 00:21:55,520
572
00:21:55,520 –> 00:21:57,600
573
00:21:57,600 –> 00:22:02,000
در مورد برنامه تلویزیونی
574
00:22:02,000 –> 00:22:06,320
و غیره هنوز این مورد در یک فایل متنی ذخیره شده است،
575
00:22:06,320 –> 00:22:08,559
یک تابع باز فقط به شما امکان می دهد
576
00:22:08,559 –> 00:22:09,919
آنها را باز
577
00:22:09,919 –> 00:22:13,120
کنید بسیاری از افراد فایل ها را
578
00:22:13,120 –> 00:22:17,120
فقط می نامند و این یک سنت نامگذاری است
579
00:22:17,120 –> 00:22:20,000
و بنابراین کاری که شما انجام می دهید کمی عجیب است
580
00:22:20,000 –> 00:22:21,280
زیرا فکر می کنم احساس می کنم مانند زمانی که
581
00:22:21,280 –> 00:22:22,720
یک فایل را باز می کنید، باید قبلاً آن را خوانده باشد،
582
00:22:22,720 –> 00:22:24,640
اما به یاد داشته باشید که در همه این موارد،
583
00:22:24,640 –> 00:22:27,120
آنها را باز می کنید، یا url را باز
584
00:22:27,120 –> 00:22:30,799
می کنید یا یک نوع
585
00:22:30,799 –> 00:22:34,960
عملکرد باز را انجام می دهید، بنابراین ممکن است
586
00:22:34,960 –> 00:22:37,600
در اینجا درخواست URL باشد، اگر می خواهید فقط باز می شود اینطوری انجامش بده
587
00:22:37,600 –> 00:22:41,120
بدون هیچ
588
00:22:41,120 –> 00:22:42,799
مسیر اضافی در اطراف آن، فقط آن را در
589
00:22:42,799 –> 00:22:45,600
همان پوشه فایل jupiter خود قرار دهید،
590
00:22:45,600 –> 00:22:48,480
ما آن را برای فایل f صدا می کنیم و
591
00:22:48,480 –> 00:22:48,799
سپس
592
00:22:48,799 –> 00:22:51,039
هر تابعی را که پس از
593
00:22:51,039 –> 00:22:53,360
باز کردن فایل اجرا می کنیم یا درخواست url یا
594
00:22:53,360 –> 00:22:56,400
باز کردن آن را انجام می دهیم، نقطه را انجام می دهیم. بخوانید
595
00:22:56,400 –> 00:22:58,000
پس مطمئن شوید که متوجه شده اید که
596
00:22:58,000 –> 00:22:59,919
مانند مرحله باز و سپس مرحله خواندن وجود دارد
597
00:22:59,919 –> 00:23:00,720
598
00:23:00,720 –> 00:23:02,640
و مرحله خواندن اغلب به رمزگشایی گره خورده است
599
00:23:02,640 –> 00:23:03,760
600
00:23:03,760 –> 00:23:06,640
همچنین این فایل را مجبور به رمزگشایی نکردم
601
00:23:06,640 –> 00:23:07,280
602
00:23:07,280 –> 00:23:10,799
زیرا از قبل می دانستم که
603
00:23:10,799 –> 00:23:14,430
utf-8 است زیرا من فایل
604
00:23:14,430 –> 00:23:15,919
[Music] را ساختم
605
00:23:15,919 –> 00:23:17,120
و سپس آن را چاپ کردم تا بتوانید
606
00:23:17,120 –> 00:23:19,200
ببینید که اساساً مردم
607
00:23:19,200 –> 00:23:23,840
کلمه flipper
608
00:23:24,080 –> 00:23:27,520
را درست تعریف می کنند، بنابراین بسیاری از چیزها ممکن
609
00:23:27,520 –> 00:23:29,200
است در این مرحله اشتباه پیش بروند،
610
00:23:29,200 –> 00:23:31,280
بنابراین فایل باید در همان
611
00:23:31,280 –> 00:23:32,240
دایرکتوری
612
00:23:32,240 –> 00:23:34,799
شما باشد. فایل پایتون، مگر
613
00:23:34,799 –> 00:23:37,360
اینکه بخواهید از مسیری
614
00:23:37,360 –> 00:23:38,880
استفاده کنید، میتوانید به دایرکتوری خاصی پیوند دهید،
615
00:23:38,880 –> 00:23:40,880
اما باید مراقب باشید،
616
00:23:40,880 –> 00:23:42,240
زیرا گاهی اوقات
617
00:23:42,240 –> 00:23:44,400
وقتی دوست دارم یک دایرکتوری را کپی کنم، بگذارید به
618
00:23:44,400 –> 00:23:46,159
شما نشان
619
00:23:46,159 –> 00:23:49,279
دهم فرض کنید به جایی که این فایل
620
00:23:49,279 –> 00:23:53,600
پوشهها را آموزش میدهد میروم و پوشه ها و پوشه ها
621
00:23:53,600 –> 00:23:57,520
درست است بنابراین اینجا m y فایل فلیپر
622
00:23:57,520 –> 00:24:00,640
درست است من می توانم اطلاعاتی را دریافت کنم
623
00:24:00,640 –> 00:24:02,840
این به من می گوید که در اینجا در رایانه من کجاست اگر بخواهم
624
00:24:02,840 –> 00:24:04,480
625
00:24:04,480 –> 00:24:10,000
آن را کپی کنم
626
00:24:10,000 –> 00:24:13,840
و در آن قرار دهم، باید آن را
627
00:24:13,840 –> 00:24:15,440
به قالب بندی مناسب تغییر دهم، بنابراین
628
00:24:15,440 –> 00:24:16,960
باید چند نقل قول اضافه
629
00:24:16,960 –> 00:24:19,440
کنم. باید اینها را در اینجا اضافه کنید باید اسلایس های
630
00:24:19,440 –> 00:24:21,360
رو به جلو
631
00:24:21,360 –> 00:24:24,000
باشند، بنابراین مواظب برش های رو به جلو در مقابل
632
00:24:24,000 –> 00:24:25,200
عقب
633
00:24:25,200 –> 00:24:27,279
باشید، این بستگی به این دارد که روی چه کامپیوتری هستید
634
00:24:27,279 –> 00:24:29,360
و
635
00:24:29,360 –> 00:24:33,440
اینکه کد چگونه می خواهد
636
00:24:33,440 –> 00:24:34,000
پردازش کند،
637
00:24:34,000 –> 00:24:36,000
معمولاً باید به جلو باشند، اما
638
00:24:36,000 –> 00:24:37,440
اگر روی یک به نظر میرسد که دستگاه ویندوز
639
00:24:37,440 –> 00:24:39,279
باید عقب باشد،
640
00:24:39,279 –> 00:24:41,679
بنابراین به نوعی بستگی دارد و سپس
641
00:24:41,679 –> 00:24:43,919
کتاب در مورد این موضوع بسیار بیشتر صحبت میکند، بنابراین
642
00:24:43,919 –> 00:24:45,120
اگر میخواهید فایلها را وارد کنید و
643
00:24:45,120 –> 00:24:46,320
مشکلی
644
00:24:46,320 –> 00:24:48,960
دارید، میتوانید
645
00:24:49,440 –> 00:24:51,600
دستهای مفید دیگری را برای این موضوع بخوانید.
646
00:24:51,600 –> 00:24:52,880
مشکل دیگر این است که
647
00:24:52,880 –> 00:24:56,159
ویندوز مک و لینوکس تمایل به انجام
648
00:24:56,159 –> 00:24:57,520
یک کار دارند، زیرا
649
00:24:57,520 –> 00:24:59,840
مکهای مک روی یونیکس اجرا میشوند که
650
00:24:59,840 –> 00:25:01,120
اساساً
651
00:25:01,120 –> 00:25:05,120
ویندوزهای لینوکس um
652
00:25:05,120 –> 00:25:07,440
از نظر کاراکترهای انتهای خط خود متفاوت هستند، بنابراین
653
00:25:07,440 –> 00:25:08,480
نحوه ظاهر آنها از
654
00:25:08,480 –> 00:25:10,880
نظر رایانه نیز اغلب متفاوت
655
00:25:10,880 –> 00:25:11,760
656
00:25:11,760 –> 00:25:17,679
است. o کمی آزمون و خطا در اینجا،
657
00:25:18,799 –> 00:25:21,120
بنابراین فرض کنید ما در حال تلاش برای ایجاد یک
658
00:25:21,120 –> 00:25:23,200
خط لوله یک خط لوله پردازش هستیم، بنابراین من
659
00:25:23,200 –> 00:25:25,120
سعی می کنم از ابتدا تا انتها
660
00:25:25,120 –> 00:25:29,600
از وارد کردن فایل خود به
661
00:25:29,600 –> 00:25:33,039
اجرای تجزیه و تحلیل بر روی آن،
662
00:25:33,039 –> 00:25:34,799
اولین کاری که ممکن است انجام دهم این است. اگر من
663
00:25:34,799 –> 00:25:37,679
آن را از یک وب سایت بیرون می کشم، می توانم از url open
664
00:25:37,679 –> 00:25:40,720
روی url خود استفاده کنم و آن را
665
00:25:40,720 –> 00:25:42,320
در یک تابع دیگر به نام clean
666
00:25:42,320 –> 00:25:44,799
html وجود دارد که باید به پاک کردن متن
667
00:25:44,799 –> 00:25:46,559
موجود در nltk کمک کند
668
00:25:46,559 –> 00:25:48,080
، می گویم سوپ زیبا
669
00:25:48,080 –> 00:25:50,640
بسیار بهتر عمل می کند
670
00:25:50,640 –> 00:25:54,080
و ما می توانیم هر گونه
671
00:25:54,080 –> 00:25:56,320
محتوای اضافی را که به آن علاقه نداریم برداریم، بنابراین
672
00:25:56,320 –> 00:25:59,279
می توانم تمام نظرات را از
673
00:25:59,279 –> 00:26:01,440
دیسک یا سیستم نظردهی دیگری
674
00:26:01,440 –> 00:26:03,200
که آنها
675
00:26:03,200 –> 00:26:05,080
استفاده می کنند حذف
676
00:26:05,080 –> 00:26:07,200
677
00:26:07,200 –> 00:26:08,960
678
00:26:08,960 –> 00:26:11,440
کنم. یک نوع خاص از فایل متنی من استدلال می کنم
679
00:26:11,440 –> 00:26:12,720
که بیشتر شما قصد دارید
680
00:26:12,720 –> 00:26:14,400
این را به یونیکد تبدیل کنید
681
00:26:14,400 –> 00:26:17,679
که در اینجا کمی به آن خواهیم پرداخت.
682
00:26:18,080 –> 00:26:20,720
683
00:26:20,720 –> 00:26:22,320
684
00:26:22,320 –> 00:26:23,840
685
00:26:23,840 –> 00:26:25,760
این کلمه پانک توک وجود دارد متوجه
686
00:26:25,760 –> 00:26:28,080
شدیم که این نوع از علائم نگارشی
687
00:26:28,080 –> 00:26:30,880
کمی متفاوت است
688
00:26:31,039 –> 00:26:34,080
و ما میتوانیم آن را به متن nltk تبدیل کنیم و
689
00:26:34,080 –> 00:26:35,919
شروع به بازی
690
00:26:35,919 –> 00:26:37,520
با توابع خود کنیم که در فصل
691
00:26:37,520 –> 00:26:39,360
اول و دوم
692
00:26:39,360 –> 00:26:40,960
693
00:26:40,960 –> 00:26:42,880
694
00:26:42,880 –> 00:26:46,960
یاد گرفتیم. مسائل مربوط به آن،
695
00:26:51,440 –> 00:26:53,600
بنابراین بخشی در اینجا وجود دارد که من
696
00:26:53,600 –> 00:26:55,279
واقعاً نمیخواستم آن را پوشش دهم، زیرا
697
00:26:55,279 –> 00:26:57,279
نمیخواهم بدانید که یک فصل چهار
698
00:26:57,279 –> 00:26:58,480
هفته طول
699
00:26:58,480 –> 00:27:00,799
میکشد و در مورد پرداختن به
700
00:27:00,799 –> 00:27:02,880
رشتهها و پردازش متن صحبت میکند،
701
00:27:02,880 –> 00:27:04,240
بنابراین اگر هنوز در این مورد هستید
702
00:27:04,240 –> 00:27:06,159
با بسیاری از کدهای پایتون دست و پنجه نرم می کنم،
703
00:27:06,159 –> 00:27:06,880
قطعاً
704
00:27:06,880 –> 00:27:08,720
به شما می گویم که به عقب برگردید و منظورم
705
00:27:08,720 –> 00:27:10,400
این است که کل فصل را بخوانید، اما این
706
00:27:10,400 –> 00:27:14,159
بخش به خصوص در مورد کاراکترهای خاص صحبت می
707
00:27:14,159 –> 00:27:15,600
کند مانند
708
00:27:15,600 –> 00:27:17,760
هر چیزی در آن ردیف بالا که در آن
709
00:27:17,760 –> 00:27:18,960
کلیدهای شماره شما
710
00:27:18,960 –> 00:27:20,880
هر کاراکتری هستند. علامت تعجب بالا
711
00:27:20,880 –> 00:27:22,799
علامت دلار
712
00:27:22,799 –> 00:27:25,520
، امپرسند بالای هفت،
713
00:27:25,520 –> 00:27:26,960
همه اینها کاراکترهای خاصی هستند که
714
00:27:26,960 –> 00:27:28,640
باید کارهای خاصی با آنها انجام دهید تا
715
00:27:28,640 –> 00:27:29,760
716
00:27:29,760 –> 00:27:33,840
بداند چه هستند. برای
717
00:27:33,840 –> 00:27:34,720
افزودن و تفریق
718
00:27:34,720 –> 00:27:39,120
متن نحوه برش و درک
719
00:27:39,120 –> 00:27:41,279
رشته ها در مقابل لیست ها در مقابل تاپل ها
720
00:27:41,279 –> 00:27:42,640
در مقابل فرهنگ لغت ها،
721
00:27:42,640 –> 00:27:47,200
بنابراین درک اینکه اشیاء پایتون چیست
722
00:27:47,200 –> 00:27:48,159
و سپس اگر هنوز می خواهید
723
00:27:48,159 –> 00:27:49,679
تمرین بیشتری در مورد پایتون انجام دهید،
724
00:27:49,679 –> 00:27:51,840
جولیا را فراموش نکنید که ما به صورت رایگان به آن دسترسی داریم.
725
00:27:51,840 –> 00:27:52,559
726
00:27:52,559 –> 00:27:54,720
از طریق دانشگاه و سپس اگر
727
00:27:54,720 –> 00:27:56,399
حتی بیشتر نیاز
728
00:27:56,399 –> 00:28:00,960
داشته باشید، میتوانم مکانهای اضافی را برای تمرین فراهم کنم،
729
00:28:00,960 –> 00:28:03,200
زیرا پس از این مرحله، کدنویسی
730
00:28:03,200 –> 00:28:04,080
731
00:28:04,080 –> 00:28:06,159
سخت نمیشود، اما
732
00:28:06,159 –> 00:28:07,840
چیزهای بیشتری در حال انجام است، زیرا ما کارهای پیچیدهتری را انجام میدهیم
733
00:28:07,840 –> 00:28:09,380
734
00:28:09,380 –> 00:28:12,529
[ موسیقی]
735
00:28:13,520 –> 00:28:16,640
پس چگونه می توانم این کار را انجام دهم،
736
00:28:16,640 –> 00:28:18,080
منظورم این است که این فصل واقعاً در مورد
737
00:28:18,080 –> 00:28:19,679
پردازش متن است، بنابراین چگونه می توانم
738
00:28:19,679 –> 00:28:24,080
739
00:28:25,039 –> 00:28:28,320
با زبان های مختلف
740
00:28:28,320 –> 00:28:30,480
برخورد کنم، بنابراین فرض کنید من
741
00:28:30,480 –> 00:28:31,360
علاقه مند به
742
00:28:31,360 –> 00:28:35,120
کار با um polish برای مثال هستم
743
00:28:35,120 –> 00:28:37,200
و کاراکترهای کمی اضافی
744
00:28:37,200 –> 00:28:38,559
دارد. که من در
745
00:28:38,559 –> 00:28:39,279
746
00:28:39,279 –> 00:28:42,799
زبان انگلیسی معمولی مبتنی بر لاتین خود ندارم،
747
00:28:42,799 –> 00:28:46,240
بنابراین چگونه می توانم آن را مدیریت کنم،
748
00:28:46,240 –> 00:28:49,840
بنابراین اکثر افراد انگلیسی زبان از
749
00:28:49,840 –> 00:28:52,960
ascii در کدنویسی برای
750
00:28:52,960 –> 00:28:56,080
افرادی که از این زبان استفاده می کنند به راحتی استفاده می
751
00:28:56,080 –> 00:28:57,039
کنند. نقطهها
752
00:28:57,039 –> 00:29:00,000
یا گزینه ae از لاتین توسعهیافته استفاده میکنند،
753
00:29:00,000 –> 00:29:01,279
754
00:29:01,279 –> 00:29:02,720
زیرا انگلیسی از نظر فنی
755
00:29:02,720 –> 00:29:05,200
زبان لاتینی است، بنابراین
756
00:29:05,200 –> 00:29:06,960
لاتین توسعهیافته فقط همه آن سؤالات کوچک اضافی را دارای
757
00:29:06,960 –> 00:29:08,799
758
00:29:08,799 –> 00:29:10,159
علامتهای سوال وارونه است و
759
00:29:10,159 –> 00:29:12,960
همه چیز اما یونیکد
760
00:29:12,960 –> 00:29:14,799
در واقع راهحل همه مشکلات ما است.
761
00:29:14,799 –> 00:29:16,799
762
00:29:16,799 –> 00:29:19,200
ای کاش این راه حلی برای مشکلات رایانه من بود،
763
00:29:19,200 –> 00:29:20,399
764
00:29:20,399 –> 00:29:22,640
اما اوم، راه حلی برای تمام
765
00:29:22,640 –> 00:29:26,320
مشکلات متنی من است
766
00:29:26,320 –> 00:29:29,120
که در آن به هر کاراکتر مهم نیست که چیست
767
00:29:29,120 –> 00:29:29,600
،
768
00:29:29,600 –> 00:29:33,360
اساساً یک کد منحصر به فرد اختصاص داده می شود
769
00:29:33,360 –> 00:29:34,880
و اگر این کار را انجام دهید می توانید از
770
00:29:34,880 –> 00:29:38,159
میلیون ها کاراکتر از جمله ایموجی ها و شکلک ها پشتیبانی کنید.
771
00:29:38,159 –> 00:29:40,480
روشی که آنها در نهایت چاپ می کنند
772
00:29:40,480 –> 00:29:41,360
این است که شما
773
00:29:41,360 –> 00:29:44,399
اینجا برای یونیکد با یک اسلش
774
00:29:44,399 –> 00:29:46,799
و سپس نوعی ترکیب اعداد چهار رقمی است
775
00:29:46,799 –> 00:29:49,200
776
00:29:49,200 –> 00:29:51,200
و این به ما امکان می دهد
777
00:29:51,200 –> 00:29:52,880
778
00:29:52,880 –> 00:29:55,760
مجموعه کاراکترهای مجموعه زبانی را به طور منحصر به فرد نمایش دهیم بدون
779
00:29:55,760 –> 00:29:56,640
اینکه نیازی به
780
00:29:56,640 –> 00:29:59,679
انجام کار خاصی
781
00:30:00,240 –> 00:30:03,200
جز تبدیل به یونیکد داشته باشیم. شما باید به
782
00:30:03,200 –> 00:30:04,799
نوعی بفهمید که
783
00:30:04,799 –> 00:30:08,399
کدگذاری در اصل به چه صورت است و بنابراین من همیشه فقط در
784
00:30:08,399 –> 00:30:09,200
گوگل جستجو میکنم
785
00:30:09,200 –> 00:30:12,320
که رمزگذاری در چه زبانی
786
00:30:12,320 –> 00:30:15,840
عربی است تا به من کمک کند. این کار
787
00:30:15,840 –> 00:30:17,679
به درستی
788
00:30:17,679 –> 00:30:19,679
انجام می شود، زیرا شما باید یک کد را رمزگشایی کنید
789
00:30:19,679 –> 00:30:21,200
و بنابراین در اینجا یک نوع تصویر از
790
00:30:21,200 –> 00:30:22,720
این که چگونه ممکن است به نظر برسد
791
00:30:22,720 –> 00:30:24,159
در اینجا چند
792
00:30:24,159 –> 00:30:26,080
فرمت فایل مختلف است که ما از utf-8
793
00:30:26,080 –> 00:30:28,960
لاتین 2 استفاده کرده
794
00:30:28,960 –> 00:30:30,799
ایم. برای رمزگشایی آن
795
00:30:30,799 –> 00:30:33,360
به یونیکد که در آن هر کاراکتر کاراکتر
796
00:30:33,360 –> 00:30:34,960
خودش را میگیرد،
797
00:30:34,960 –> 00:30:38,399
شما تنظیم میکنید و سپس میتوانم آن
798
00:30:38,399 –> 00:30:42,000
را به دیگری رمزگذاری کنم، بنابراین معمولاً
799
00:30:42,000 –> 00:30:42,320
800
00:30:42,320 –> 00:30:44,480
پردازش در اینجا در مرحله یونیکد اتفاق میافتد،
801
00:30:44,480 –> 00:30:46,080
802
00:30:46,080 –> 00:30:48,880
اما میتوانم آن را از utf-8 به
803
00:30:48,880 –> 00:30:51,360
لاتین 2 رمزگشایی کنم.
804
00:30:51,360 –> 00:30:53,120
و گاهی اوقات وقتی شما فایلی را باز می کنید که
805
00:30:53,120 –> 00:30:54,399
قبلاً از آن استفاده نکرده اید، در واقع
806
00:30:54,399 –> 00:30:55,919
این هشدار را به شما می دهد
807
00:30:55,919 –> 00:30:58,000
مانند اینکه نمی دانم فرمت فایل چیست، بنابراین
808
00:30:58,000 –> 00:30:59,039
ما
809
00:30:59,039 –> 00:31:02,559
آن را به utf um تبدیل می کنیم، من این
810
00:31:02,559 –> 00:31:03,760
مشکل را با
811
00:31:03,760 –> 00:31:07,200
فایل های csv زیاد دارم. گاهی اوقات از ویندوز به مک کار
812
00:31:07,200 –> 00:31:08,159
می کند،
813
00:31:08,159 –> 00:31:10,080
جایی که فقط یک
814
00:31:10,080 –> 00:31:12,080
کاراکتر کوچک تصادفی وجود دارد
815
00:31:12,080 –> 00:31:15,039
که آن را دوست ندارد و بنابراین در نهایت
816
00:31:15,039 –> 00:31:17,200
آن را به عنوان مجموعه اعداد عجیب و غریب رمزگذاری می کند و
817
00:31:17,200 –> 00:31:20,799
مجموعه اعداد عجیب اکنون یونیکد است
818
00:31:21,039 –> 00:31:22,240
که می دانم
819
00:31:22,240 –> 00:31:24,960
کار با آن کمی راحت تر است
820
00:31:25,679 –> 00:31:27,760
بسیار خوب
821
00:31:27,760 –> 00:31:29,679
[موسیقی]،
822
00:31:29,679 –> 00:31:31,440
بنابراین من با یک فایل خاص بازی خواهم کرد
823
00:31:31,440 –> 00:31:33,279
824
00:31:33,279 –> 00:31:35,519
و شما باید این فایل را داشته باشید، اما از آنجایی
825
00:31:35,519 –> 00:31:36,720
که همه ما با رایانه های مختلف
826
00:31:36,720 –> 00:31:37,919
827
00:31:37,919 –> 00:31:41,760
کار می کنیم، بنابراین این یک مشکل است، زیرا تحلیلگران داده و
828
00:31:41,760 –> 00:31:43,960
علم داده جهانی تر می شوند،
829
00:31:43,960 –> 00:31:46,159
ما به دنبال آن هستیم. برای کار بر روی
830
00:31:46,159 –> 00:31:47,760
بسیاری از رایانهها، بنابراین ممکن است از github استفاده کنیم
831
00:31:47,760 –> 00:31:48,480
832
00:31:48,480 –> 00:31:49,600
که در آن همه قالببندی متفاوتی دارند،
833
00:31:49,600 –> 00:31:52,080
در جایی که نام رایانه شما با
834
00:31:52,080 –> 00:31:53,519
نام رای