در این مطلب، ویدئو اسکرپینگ وب با استفاده از پایتون | خراش وب پایتون | آموزش پایتون | ادورکا | پایتون زنده – 1 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:35:08
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,719 –> 00:00:02,000
صبح بخیر عصر بخیر و
2
00:00:02,000 –> 00:00:03,919
عصر بخیر بچه ها بر اساس مناطق زمانی که
3
00:00:03,919 –> 00:00:05,279
همه شما از آن می آیید،
4
00:00:05,279 –> 00:00:07,040
بنابراین بچه ها قبل از شروع جلسه،
5
00:00:07,040 –> 00:00:08,639
می توانید همیشه اطلاعات سریعی به من بدهید،
6
00:00:08,639 –> 00:00:10,719
اگر همه می توانید صفحه نمایش من را ببینید
7
00:00:10,719 –> 00:00:16,480
و به طور معمول صدای من را بشنوید،
8
00:00:16,480 –> 00:00:17,920
ممنونم برای تأیید
9
00:00:17,920 –> 00:00:21,199
همه، بنابراین نام من سوزن کالیا است
10
00:00:21,199 –> 00:00:22,800
و من بیش از 13 سال است که در صنعت شهر کار می کنم،
11
00:00:22,800 –> 00:00:25,359
12
00:00:25,359 –> 00:00:27,199
بنابراین دستور کار اصلی جلسه
13
00:00:27,199 –> 00:00:28,880
امروز ما در مورد نیاز
14
00:00:28,880 –> 00:00:30,560
علم داده بحث خواهیم کرد، موارد استفاده
15
00:00:30,560 –> 00:00:33,200
دقیقاً چه علم داده است. این است که
16
00:00:33,200 –> 00:00:34,320
چه مهارتها و نقشهایی
17
00:00:34,320 –> 00:00:36,320
برای علم داده وجود دارد و سپس ما
18
00:00:36,320 –> 00:00:37,520
19
00:00:37,520 –> 00:00:40,480
با مشاهده عملی بر روی حذف وب کار میکنیم،
20
00:00:40,480 –> 00:00:42,480
بنابراین اگر در مورد
21
00:00:42,480 –> 00:00:44,000
نیاز به علم داده صحبت کنیم، اکنون
22
00:00:44,000 –> 00:00:46,719
علم داده یکی از حوزههایی است که در حال وقوع
23
00:00:46,719 –> 00:00:47,840
است.
24
00:00:47,840 –> 00:00:50,480
چرا چون در حال حاضر
25
00:00:50,480 –> 00:00:51,680
هر صنعت
26
00:00:51,680 –> 00:00:54,000
حجم عظیمی از داده ها را با خود دارد، در حالی که
27
00:00:54,000 –> 00:00:55,840
ما حجم عظیمی از داده ها را داریم،
28
00:00:55,840 –> 00:00:57,520
می دانستیم که باید کاری با
29
00:00:57,520 –> 00:01:00,320
آن داده ها انجام دهیم، زیرا دوباره تا زمانی که در حال
30
00:01:00,320 –> 00:01:02,160
ساخت هستیم از نظر آن
31
00:01:02,160 –> 00:01:04,640
ناظم بزرگ، ما صرفاً در مورد
32
00:01:04,640 –> 00:01:06,960
ارزشمندترین منبعی است که می
33
00:01:06,960 –> 00:01:10,479
توانیم برای شرکت خود داشته باشیم، بنابراین از نظر منابع داده، داده های
34
00:01:10,479 –> 00:01:12,400
متعددی وجود داشته است
35
00:01:12,400 –> 00:01:14,560
که
36
00:01:14,560 –> 00:01:17,680
از قدیم الایام چندین منبع داده بوده اند، بنابراین قبلاً ما از این نوع استفاده می کردیم.
37
00:01:17,680 –> 00:01:20,400
از مجموعه دادهها، به عنوان مثال، ما
38
00:01:20,400 –> 00:01:22,560
در حال حاضر یک ماشین رومیزی تلفن
39
00:01:22,560 –> 00:01:25,280
داریم، میبینیم که تلفن
40
00:01:25,280 –> 00:01:27,119
به تلفنهای هوشمند
41
00:01:27,119 –> 00:01:29,200
و تلفنهای هوشمند تبدیل شده است، آنها
42
00:01:29,200 –> 00:01:31,600
تعداد زیادی نشانگر داده دارند که باید به شکلی
43
00:01:31,600 –> 00:01:33,439
توسعهیافته تولید شوند،
44
00:01:33,439 –> 00:01:34,960
زیرا در حال حاضر
45
00:01:34,960 –> 00:01:35,759
ما تعداد
46
00:01:35,759 –> 00:01:37,840
زیادی از آنها را داریم. دادههایی که اکنون تولید میشوند،
47
00:01:37,840 –> 00:01:39,200
وقتی گفتید هر
48
00:01:39,200 –> 00:01:41,280
دادهای که همه برنامهها
49
00:01:41,280 –> 00:01:43,680
را برآورده میکند، الگوی تحقیق همه دستگاهها
50
00:01:43,680 –> 00:01:45,920
، دادههای شبکه نوزادی
51
00:01:45,920 –> 00:01:48,159
که توسط همه شرکتهای مخابراتی تولید و جمعآوری میشود
52
00:01:48,159 –> 00:01:50,479
و سپس ما
53
00:01:50,479 –> 00:01:52,320
دوباره دسکتاپ داریم، قبلاً یک ساده داشتیم.
54
00:01:52,320 –> 00:01:54,399
دسکتاپ ساده و اکنون کل
55
00:01:54,399 –> 00:01:55,840
سرویس های محاسباتی
56
00:01:55,840 –> 00:01:58,000
آنها به راه حل های ابری منتقل شده اند،
57
00:01:58,000 –> 00:02:00,560
مانند ما aws seo gcp
58
00:02:00,560 –> 00:02:02,320
oracle cloud و مجدداً
59
00:02:02,320 –> 00:02:03,840
آنها برای
60
00:02:03,840 –> 00:02:06,079
نسل 4 نه تنها برای
61
00:02:06,079 –> 00:02:07,600
خدمات محاسباتی بلکه با همه
62
00:02:07,600 –> 00:02:09,440
منابع دیگری که برای
63
00:02:09,440 –> 00:02:11,280
استقرار برنامه نیاز داریم استفاده می شوند و به این
64
00:02:11,280 –> 00:02:12,560
ترتیب آنها
65
00:02:12,560 –> 00:02:15,280
هزاران داده را نیز تولید می کنند و سپس قبلاً
66
00:02:15,280 –> 00:02:15,840
ما
67
00:02:15,840 –> 00:02:18,319
قبلاً اتومبیل های کاملاً مکانیکی
68
00:02:18,319 –> 00:02:20,080
داشتیم و اکنون داریم خودروهایی که به
69
00:02:20,080 –> 00:02:22,640
صدها سنسور مجهز شده اند، برای
70
00:02:22,640 –> 00:02:24,080
مثال اگر در مورد
71
00:02:24,080 –> 00:02:27,680
bmw i8 صحبت کنید، بیش از 10000 سنسور
72
00:02:27,680 –> 00:02:29,760
در سرتاسر خودرو نصب شده است تا به کل تیم کمک کند تا
73
00:02:29,760 –> 00:02:30,800
کل
74
00:02:30,800 –> 00:02:32,959
75
00:02:32,959 –> 00:02:34,319
دینامیک هدر و
76
00:02:34,319 –> 00:02:37,360
سایر اجزای خود خودرو را بهینه کنند. درست است،
77
00:02:37,360 –> 00:02:38,959
به همین دلیل است که دوباره با
78
00:02:38,959 –> 00:02:41,280
تکامل فناوری، ما اکنون
79
00:02:41,280 –> 00:02:43,680
حجم بیشتری از دادهها را نسبت به همیشه دریافت
80
00:02:43,680 –> 00:02:46,160
میکنیم، در حال حاضر نیز iot داریم وقتی در مورد iot صحبت میکنیم،
81
00:02:46,160 –> 00:02:47,519
iot به اینترنت اشیا اشاره دارد،
82
00:02:47,519 –> 00:02:49,440
83
00:02:49,440 –> 00:02:51,360
84
00:02:51,360 –> 00:02:53,280
بنابراین حتماً در مورد
85
00:02:53,280 –> 00:02:55,599
مفهوم شهرهای هوشمند شنیدهاید. و نحوه ادغام داده
86
00:02:55,599 –> 00:02:56,720
87
00:02:56,720 –> 00:02:59,120
ها از بخش های
88
00:02:59,120 –> 00:03:00,800
89
00:03:00,800 –> 00:03:02,480
90
00:03:02,480 –> 00:03:04,800
مختلف و حتی برای خانه ما،
91
00:03:04,800 –> 00:03:05,200
92
00:03:05,200 –> 00:03:07,360
اگر در مورد کاربردهای
93
00:03:07,360 –> 00:03:09,920
iot حتی در خانه ما صحبت کنید،
94
00:03:09,920 –> 00:03:12,080
میتوانیم تعداد زیادی داده را ببینیم که تولید میشود، بنابراین
95
00:03:12,080 –> 00:03:14,159
منابع دادهای داریم که از آنجا میآیند، برای مثال
96
00:03:14,159 –> 00:03:16,319
97
00:03:16,319 –> 00:03:19,040
میتوانیم کل سیستم خنککننده خود را کنترل کنیم، میتوانیم کل آب را کنترل کنیم.
98
00:03:19,040 –> 00:03:20,319
99
00:03:20,319 –> 00:03:22,319
100
00:03:22,319 –> 00:03:24,959
منبعی را که میتوانیم با استفاده از کل اجزای iot کنترل کنیم، میتوانیم
101
00:03:24,959 –> 00:03:25,840
کل
102
00:03:25,840 –> 00:03:27,920
دمای خانه را
103
00:03:27,920 –> 00:03:30,080
104
00:03:30,080 –> 00:03:32,080
105
00:03:32,080 –> 00:03:33,599
106
00:03:33,599 –> 00:03:36,000
کنترل
107
00:03:36,000 –> 00:03:36,879
کنیم.
108
00:03:36,879 –> 00:03:38,959
مجدداً آنها همچنین به طور مداوم
109
00:03:38,959 –> 00:03:40,000
داده تولید می کنند، به
110
00:03:40,000 –> 00:03:42,000
این معنی که اکنون آنها داده هایی را
111
00:03:42,000 –> 00:03:44,640
به صورت روزانه و بر اساس ساعت
112
00:03:44,640 –> 00:03:45,599
استفاده تولید می کنند
113
00:03:45,599 –> 00:03:47,840
که ما می توانیم از آنها برای بهینه سازی بیشتر
114
00:03:47,840 –> 00:03:48,959
برنامه
115
00:03:48,959 –> 00:03:50,640
نه تنها برنامه بلکه
116
00:03:50,640 –> 00:03:52,879
همچنین سخت افزار استفاده کنیم تا بتوانیم
117
00:03:52,879 –> 00:03:54,560
بهتر شویم. عملکرد از آن خارج می شود
118
00:03:54,560 –> 00:03:57,120
و سپس می توانیم هزینه ای را که
119
00:03:57,120 –> 00:03:58,000
120
00:03:58,000 –> 00:04:00,480
برای اجرای صحیح آنها نیاز داریم به عنوان یکی از
121
00:04:00,480 –> 00:04:02,319
موارد استفاده چندگانه
122
00:04:02,319 –> 00:04:05,680
که می توانیم در بالای iot p داشته باشیم کاهش دهیم.
123
00:04:05,680 –> 00:04:08,239
درست است و سپس ما رسانه های اجتماعی داریم، بنابراین رسانه های
124
00:04:08,239 –> 00:04:09,040
اجتماعی
125
00:04:09,040 –> 00:04:12,000
بیش از 13 بایت
126
00:04:12,000 –> 00:04:13,920
داده اضافی را به صورت ماهانه تولید می کنند، به عنوان مثال
127
00:04:13,920 –> 00:04:15,599
اگر در مورد فیس بوک به تنهایی صحبت کنید، فیس بوک
128
00:04:15,599 –> 00:04:18,238
به تنهایی بیش از یک تلویزیون داده
129
00:04:18,238 –> 00:04:20,160
در هر سال تولید می کند، به این معنی است که اکنون وقتی
130
00:04:20,160 –> 00:04:22,079
صحبت می کنیم. تقریباً یک تلویزیون
131
00:04:22,079 –> 00:04:24,320
داده شامل تمام تصاویر همه پستهای
132
00:04:24,320 –> 00:04:25,360
انجامشده توسط کاربران
133
00:04:25,360 –> 00:04:27,759
از جمله کل فعالیتهای برنامهای است
134
00:04:27,759 –> 00:04:29,520
که باید ذخیره شوند و باید
135
00:04:29,520 –> 00:04:31,040
پردازش شوند و همچنین به
136
00:04:31,040 –> 00:04:33,120
همین ترتیب توییتر
137
00:04:33,120 –> 00:04:36,720
بیش از 347000 توییت را در هر دقیقه مشاهده میکند.
138
00:04:36,720 –> 00:04:38,639
همه پلتفرم های دیگر
139
00:04:38,639 –> 00:04:39,919
مانند ما ایمیل داریم که
140
00:04:39,919 –> 00:04:43,040
در حال حاضر به طور متوسط بیش از 24 می
141
00:04:43,040 –> 00:04:44,720
یون ایمیل در هر
142
00:04:44,720 –> 00:04:47,280
قیقه ارسال می شود و این شامل تمام ای
143
00:04:47,280 –> 00:04:48,880
یل های تبلیغاتی نیز می شود که
144
00:04:48,880 –> 00:04:51,440
وسط چندین شرکت برای مخ
145
00:04:51,440 –> 00:04:52,320
146
00:04:52,320 –> 00:04:54,880
طبان هدف خود ارسال می شوند و در اینجا فیس بوک بی
147
00:04:54,880 –> 00:04:57,360
از 4 میلیون لایک و لایک ایجاد می کن
148
00:04:57,360 –> 00:05:00,639
. بیش از 200000 پست در سراسر جهان در
149
00:05:00,639 –> 00:05:02,400
کل پلتفرم آن که خود
150
00:05:02,400 –> 00:05:05,199
تعداد زیادی است که باید پردازش شود و
151
00:05:05,199 –> 00:05:06,240
باید
152
00:05:06,240 –> 00:05:08,880
مدیریت شود و به همان اندازه از سوی دیگر،
153
00:05:08,880 –> 00:05:10,000
باز هم ما
154
00:05:10,000 –> 00:05:11,840
دادههایی داریم که از چندین دامنه نه
155
00:05:11,840 –> 00:05:13,039
فقط از یک دامنه،
156
00:05:13,039 –> 00:05:14,720
بلکه دادهها از
157
00:05:14,720 –> 00:05:16,720
چندین حوزه مانند
158
00:05:16,720 –> 00:05:18,240
حمل و نقل بیمه
159
00:05:18,240 –> 00:05:20,160
از رسانههای مالی بانکی و
160
00:05:20,160 –> 00:05:22,240
آموزش مراقبتهای بهداشتی سرگرمی تولید
161
00:05:22,240 –> 00:05:24,080
میشوند، تعداد بیشماری دامنههایی وجود دارد
162
00:05:24,080 –> 00:05:26,160
که به طور مداوم دادههایی را تولید میکنند که ما آنها را تولید
163
00:05:26,160 –> 00:05:28,240
میکنیم. باید با آن کار کنیم
164
00:05:28,240 –> 00:05:30,080
و به همین دلیل است که به دلیل حجم
165
00:05:30,080 –> 00:05:31,360
عظیمی از دادهها،
166
00:05:31,360 –> 00:05:33,759
ما نیاز داریم که کل
167
00:05:33,759 –> 00:05:36,320
علم داده با ما باقی بماند،
168
00:05:36,320 –> 00:05:38,800
چرا باید تجزیه و تحلیل دادهها را
169
00:05:38,800 –> 00:05:39,840
170
00:05:39,840 –> 00:05:42,960
به دلیل یافتن بینش انجام دهیم، زیرا
171
00:05:42,960 –> 00:05:45,199
هر شرکتی اکنون نیاز به یافتن بینش دارد.
172
00:05:45,199 –> 00:05:47,440
هنگامی که ما در مورد بینش صحبت می کنیم،
173
00:05:47,440 –> 00:05:50,240
به عنوان مثال، آمازون باید بفهمد
174
00:05:50,240 –> 00:05:52,080
که دقیقاً
175
00:05:52,080 –> 00:05:54,320
در شش ماه آینده در بازار چه اتفاقی می افتد، به این
176
00:05:54,320 –> 00:05:56,319
معنی که کدام دسته از
177
00:05:56,319 –> 00:05:58,639
محصولات تقاضای بیشتری خواهند داشت
178
00:05:58,639 –> 00:06:00,880
و چگونه تقاضا در شش ماه آینده گسترش می یابد.
179
00:06:00,880 –> 00:06:02,000
180
00:06:02,000 –> 00:06:04,240
آمازون چگونه از این موضوع مطلع است، بنابراین
181
00:06:04,240 –> 00:06:05,360
مجدداً
182
00:06:05,360 –> 00:06:07,840
یا گروهی از کارشناسان می توانند
183
00:06:07,840 –> 00:06:10,319
بر اساس سابق خود به این سؤال پاسخ دهند
184
00:06:10,319 –> 00:06:13,759
اما آمازون نمی تواند
185
00:06:13,759 –> 00:06:15,680
صدها میلیون دلار خود را صرف
186
00:06:15,680 –> 00:06:16,800
بازاریابی
187
00:06:16,800 –> 00:06:19,039
و ثبت سهام فقط بر اساس این فرضیه سرمایه گذاری کند،
188
00:06:19,039 –> 00:06:20,479
189
00:06:20,479 –> 00:06:22,720
حتی اگر این فرضیه از
190
00:06:22,720 –> 00:06:23,840
سوی متخصصان باشد
191
00:06:23,840 –> 00:06:26,000
، کل تصمیم باید
192
00:06:26,000 –> 00:06:27,199
با داده ها پشتیبانی شود، زیرا باز هم سهامداران متعددی وجود دارند
193
00:06:27,199 –> 00:06:28,960
194
00:06:28,960 –> 00:06:31,520
و هر کدام پنی خرج میکنند و بهدست
195
00:06:31,520 –> 00:06:32,479
میآیند،
196
00:06:32,479 –> 00:06:35,120
بنابراین در اینجا دوباره باید
197
00:06:35,120 –> 00:06:36,240
مراقب باشند
198
00:06:36,240 –> 00:06:38,080
و اینجاست که دادهشناس
199
00:06:38,080 –> 00:06:40,160
نقش اصلی یک دانشمند داده را بازی میکند این
200
00:06:40,160 –> 00:06:42,080
است که به سادگی روی
201
00:06:42,080 –> 00:06:44,800
بهبود دقت پیشبینیهایی
202
00:06:44,800 –> 00:06:45,600
که انجام
203
00:06:45,600 –> 00:06:47,680
دادهایم یا قرار است انجام دهیم، کار کند. با استفاده
204
00:06:47,680 –> 00:06:50,560
از مجموعه دادهها، زیرا اگر مجدداً بدون مشورت با دانشمند دادهای،
205
00:06:50,560 –> 00:06:54,240
فقط در مورد مجموعه دادههای تصادفی تصمیم
206
00:06:54,240 –> 00:06:56,720
207
00:06:56,720 –> 00:06:58,800
بگیریم، این عمل خوبی نخواهد بود
208
00:06:58,800 –> 00:07:00,800
، زیرا
209
00:07:00,800 –> 00:07:03,039
این بینش به ما نمیدهد و دوباره اگر تصمیم بگیریم.
210
00:07:03,039 –> 00:07:05,120
تصمیمات کورکورانه فقط بر اساس
211
00:07:05,120 –> 00:07:06,080
فرضیه،
212
00:07:06,080 –> 00:07:07,919
در نتیجه نتایج نهایی
213
00:07:07,919 –> 00:07:09,199
برای شرکت ما مطلوب نخواهد
214
00:07:09,199 –> 00:07:11,680
بود و به همین ترتیب فرض کنید
215
00:07:11,680 –> 00:07:12,880
آمازون
216
00:07:12,880 –> 00:07:15,520
برای تجزیه و تحلیل خوب آنچه دقیقاً مانند این که چه
217
00:07:15,520 –> 00:07:16,080
نوع
218
00:07:16,080 –> 00:07:17,840
محصولاتی در شش ماه آینده تقاضای بیشتری خواهند داشت،
219
00:07:17,840 –> 00:07:19,199
220
00:07:19,199 –> 00:07:20,960
فرض کنید یک نام تجاری ممکن است در حال حاضر واقعاً خوب عمل کند،
221
00:07:20,960 –> 00:07:23,039
اما دوباره در شش ماه
222
00:07:23,039 –> 00:07:24,800
آینده عملکرد خوبی نخواهد داشت، بنابراین دیگر اجرای
223
00:07:24,800 –> 00:07:26,639
آن را متوقف خواهد
224
00:07:26,639 –> 00:07:29,039
کرد. کمپین های تبلیغاتی روی
225
00:07:29,039 –> 00:07:30,880
آن شروع به انباشته شدن آن
226
00:07:30,880 –> 00:07:31,759
227
00:07:31,759 –> 00:07:33,440
محصول خاص می کند و دوباره به سادگی
228
00:07:33,440 –> 00:07:34,880
موجودی های آن را به
229
00:07:34,880 –> 00:07:37,039
درستی کاهش می دهد و به همین دلیل است که علم داده
230
00:07:37,039 –> 00:07:37,919
چهار
231
00:07:37,919 –> 00:07:40,479
جزء جذاب برای هر شرکتی است
232
00:07:40,479 –> 00:07:42,560
تا مطمئن شود که آنها می توانند
233
00:07:42,560 –> 00:07:44,400
کل کارایی را بداهه دهند.
234
00:07:44,400 –> 00:07:46,319
که آنها در هر
235
00:07:46,319 –> 00:07:48,720
حوزه ای کار می کنند و همه با استفاده از مؤلفه
236
00:07:48,720 –> 00:07:49,520
های
237
00:07:49,520 –> 00:07:53,199
خود علم داده انجام می شوند، به
238
00:07:53,199 –> 00:07:53,919
عنوان مثال،
239
00:07:53,919 –> 00:07:56,639
دانشمند داده ما به عنوان والمارت متوجه شد
240
00:07:56,639 –> 00:07:58,720
که فروش تارت های پاپ توت فرنگی
241
00:07:58,720 –> 00:08:02,000
درست قبل از طوفان دوباره هفت برابر شده است
242
00:08:02,000 –> 00:08:05,280
. اطلاعات
243
00:08:05,280 –> 00:08:07,199
داخلی که
244
00:08:07,199 –> 00:08:09,680
توسط دانشمندان داده خود به والمارت داده شده
245
00:08:09,680 –> 00:08:11,440
است که منجر
246
00:08:11,440 –> 00:08:13,440
به انباشت سهام خوب با شرکت شده است و
247
00:08:13,440 –> 00:08:14,879
این برای تارت های پاپ است.
248
00:08:14,879 –> 00:08:17,120
به نظر می رسد که پاپ تارت ها تمام
249
00:08:17,120 –> 00:08:19,039
نمی شوند
250
00:08:19,039 –> 00:08:22,240
و تارت های پاپ به درستی ذخیره شده اند
251
00:08:22,240 –> 00:08:23,840
و این کمپین های بازاریابی برای
252
00:08:23,840 –> 00:08:25,280
پاپ تارت ها نیز
253
00:08:25,280 –> 00:08:27,440
به شدت اجرا می شود تا اطمینان حاصل شود که حداکثر
254
00:08:27,440 –> 00:08:28,879
تعداد پاپ
255
00:08:28,879 –> 00:08:31,520
تارت درست قبل از طوفان فروخته شده است،
256
00:08:31,520 –> 00:08:33,200
زیرا درست قبل از طوفان مردم طوفان
257
00:08:33,200 –> 00:08:33,839
دوست دارند
258
00:08:33,839 –> 00:08:36,159
اقلام غذایی را ذخیره کنند و
259
00:08:36,159 –> 00:08:38,799
انتقال پاپ یکی از محبوب ترین
260
00:08:38,799 –> 00:08:40,880
اقلام غذایی بود که در
261
00:08:40,880 –> 00:08:42,000
آن زمان
262
00:08:42,000 –> 00:08:44,159
درست ذخیره می شد و این همان چیزی است که دانشمندان داده
263
00:08:44,159 –> 00:08:45,760
به شرکت های شما کمک می کنند تا
264
00:08:45,760 –> 00:08:48,880
همین روش را برای پاپ آپ های رسانه های اجتماعی برای
265
00:08:48,880 –> 00:08:50,480
اعمال نفوذ انجام دهند. کل کمپین های رسانه های اجتماعی
266
00:08:50,480 –> 00:08:51,120
267
00:08:51,120 –> 00:08:54,560
و سپس تصمیم گیری در بالای آن،
268
00:08:54,560 –> 00:08:56,480
بنابراین دقیقاً منظور ما از علم داده چیست،
269
00:08:56,480 –> 00:08:58,160
بنابراین علم داده دوباره
270
00:08:58,160 –> 00:09:00,800
به عنوان مشکل فمینیستی به داده ها تبدیل می شود
271
00:09:00,800 –> 00:09:02,640
و به هر چیزی درست اعتراف می کند
272
00:09:02,640 –> 00:09:05,519
و سپس داده ها به سادگی به زبان
273
00:09:05,519 –> 00:09:07,440
غیرمعمول ساده است. برای
274
00:09:07,440 –> 00:09:09,200
افزایش دقت مدلی
275
00:09:09,200 –> 00:09:11,680
که علم داده را در شرایط پرداخت ساده ایجاد می
276
00:09:11,680 –> 00:09:12,720
277
00:09:12,720 –> 00:09:14,800
کنیم برای افزایش
278
00:09:14,800 –> 00:09:16,880
دقت مدلی که با استفاده از روش های مختلف ایجاد می کنیم استفاده می شود.
279
00:09:16,880 –> 00:09:19,279
نشانگرهای داده
280
00:09:19,279 –> 00:09:20,959
و به همین دلیل در بازار ما
281
00:09:20,959 –> 00:09:22,720
دانشمندان داده خوبی داریم و دانشمندان مانع داریم،
282
00:09:22,720 –> 00:09:23,600
283
00:09:23,600 –> 00:09:25,920
بنابراین موفقیت هر دانشمند داده
284
00:09:25,920 –> 00:09:28,000
به مدل دقت بستگی دارد،
285
00:09:28,000 –> 00:09:30,000
این است که چقدر مدل دقیقی می توانیم
286
00:09:30,000 –> 00:09:31,440
به شرکت ارائه
287
00:09:31,440 –> 00:09:33,040
دهیم تا آنها بتوانند جریان فعلی را بداهه کنند.
288
00:09:33,040 –> 00:09:35,360
و عملیات آینده
289
00:09:35,360 –> 00:09:37,120
دقیقاً همان چیزی است که دانشمند داده در
290
00:09:37,120 –> 00:09:38,959
مورد
291
00:09:38,959 –> 00:09:40,800
آن است و سپس اگر در مورد کل
292
00:09:40,800 –> 00:09:42,320
چرخه حیات علم
293
00:09:42,320 –> 00:09:44,000
داده صحبت کنیم، می دانیم که از نظر
294
00:09:44,000 –> 00:09:46,160
چرخه حیات علم داده، اول از همه باید
295
00:09:46,160 –> 00:09:47,760
296
00:09:47,760 –> 00:09:49,920
نیازهای تجاری را که باید روی آن کار کنیم، درک کنیم.
297
00:09:49,920 –> 00:09:51,120
جمعآوری
298
00:09:51,120 –> 00:09:54,399
دادهها در پردازش دادهها در
299
00:09:54,399 –> 00:09:56,959
استقرار مدلسازی اکتشاف دادهها به عنوان بخشی از
300
00:09:56,959 –> 00:09:59,040
مراحل متعددی است که
301
00:09:59,040 –> 00:10:01,279
ما باید قبل از شروع کار به عنوان
302
00:10:01,279 –> 00:10:04,320
دانشمند داده در هر شرکتی تکمیل کنیم، بنابراین اول
303
00:10:04,320 –> 00:10:05,519
از همه اولین مرحله
304
00:10:05,519 –> 00:10:07,519
است که برای هر شرکتی که
305
00:10:07,519 –> 00:10:09,519
همه آنها میشناسند مشترک است. به عنوان یک شرکت، ما باید روی
306
00:10:09,519 –> 00:10:10,880
جمع آوری داده ها کار کنیم،
307
00:10:10,880 –> 00:10:12,640
بنابراین بر اساس نیاز تجاری
308
00:10:12,640 –> 00:10:14,079
باید داده ها را از منابع متعدد به دست آوریم،
309
00:10:14,079 –> 00:10:15,120
310
00:10:15,120 –> 00:10:17,120
سپس باید روی d کار کنیم. ata
311
00:10:17,120 –> 00:10:18,800
pre-processing بنابراین پیش پردازش
312
00:10:18,800 –> 00:10:19,760
شامل
313
00:10:19,760 –> 00:10:21,519
پاکسازی داده ها می شود یا می توانیم بگوییم
314
00:10:21,519 –> 00:10:23,120
روی بحث و جدل داده ها
315
00:10:23,120 –> 00:10:25,200
کار می کنیم، بنابراین اگر چندین مقدار دورافتاده داریم،
316
00:10:25,200 –> 00:10:26,959
چندین مقدار زباله
317
00:10:26,959 –> 00:10:28,959
داریم، چندین مقدار گم شده داریم،
318
00:10:28,959 –> 00:10:30,480
مجموعه داده های متناقض
319
00:10:30,480 –> 00:10:32,399
داریم، بنابراین باید روی آن کار کنیم.
320
00:10:32,399 –> 00:10:33,519
321
00:10:33,519 –> 00:10:35,920
قبل
322
00:10:35,920 –> 00:10:38,959
از شروع کار بر روی هر پروژه تجزیه و تحلیل دادهها، اطمینان حاصل کنید که همه این ناهماهنگیها حذف شدهاند
323
00:10:38,959 –> 00:10:41,200
، چیزی که اکنون باید اطمینان حاصل کنیم،
324
00:10:41,200 –> 00:10:44,079
325
00:10:44,079 –> 00:10:45,440
اگر در مورد الزامات تجاری صحبت میکنید که در
326
00:10:45,440 –> 00:10:46,800
327
00:10:46,800 –> 00:10:47,920
الزامات کسبوکار بحث کردهایم،
328
00:10:47,920 –> 00:10:49,200
باید مشکلی را که برای شناسایی مرکزی داریم درک کنیم.
329
00:10:49,200 –> 00:10:51,200
اهداف
330
00:10:51,200 –> 00:10:53,120
متغیرهایی را شناسایی میکنند
331
00:10:53,120 –> 00:10:55,600
که باید در اتهام دادهها پیشبینی
332
00:10:55,600 –> 00:10:56,720
333
00:10:56,720 –> 00:10:58,560
334
00:10:58,560 –> 00:11:00,000
335
00:11:00,000 –> 00:11:02,480
336
00:11:02,480 –> 00:11:04,720
337
00:11:04,720 –> 00:11:06,560
338
00:11:06,560 –> 00:11:09,040
شوند. حذف مقادیر از دست رفته
339
00:11:09,040 –> 00:11:12,320
کار بر روی نقاط پرت در حذف نقاط پرت
340
00:11:12,320 –> 00:11:15,200
در مدل سازی کاهش شی و
341
00:11:15,200 –> 00:11:17,120
سپس باید روی expl کار کنیم سخنوری
342
00:11:17,120 –> 00:11:19,040
که در آن ما باید الگوها را درک
343
00:11:19,040 –> 00:11:22,160
میکردیم و بینشهای مفید را بازیابی میکردیم و سپس باید
344
00:11:22,160 –> 00:11:22,959
345
00:11:22,959 –> 00:11:26,000
فرضیه کل توسعه را تشکیل
346
00:11:26,000 –> 00:11:27,920
میدادیم و سپس باید
347
00:11:27,920 –> 00:11:30,079
مدل را بر اساس بیان مسئله توسعه
348
00:11:30,079 –> 00:11:32,880
میدادیم، بنابراین در اینجا باید
349
00:11:32,880 –> 00:11:35,200
ویژگیهای داده بهینه را برای یادگیری ماشین تعیین کنیم. مدل، مدلی را
350
00:11:35,200 –> 00:11:37,519
ایجاد کنید که هدف را دقیقترین پیشبینی کند
351
00:11:37,519 –> 00:11:39,680
و
352
00:11:39,680 –> 00:11:41,200
کارایی
353
00:11:41,200 –> 00:11:44,640
مدلی را که ما داریم ارزیابی و آزمایش
354
00:11:44,640 –> 00:11:46,959
کند و اکنون اگر در مورد
355
00:11:46,959 –> 00:11:48,240
مفهوم یادگیری ماشین صحبت
356
00:11:48,240 –> 00:11:50,160
کنید، دوباره در حال کار بر روی
357
00:11:50,160 –> 00:11:51,519
یادگیری ماشینی
358
00:11:51,519 –> 00:11:53,360
هستیم. اکنون میخواهیم رزرو
359
00:11:53,360 –> 00:11:55,440
کنیم اول از همه اینجا میتوانیم
360
00:11:55,440 –> 00:11:56,800
با حذف وب شروع کنیم،
361
00:11:56,800 –> 00:11:58,079
بنابراین اکنون وقتی در مورد حذف وب صحبت
362
00:11:58,079 –> 00:11:59,760
میکنیم و حذف وب
363
00:11:59,760 –> 00:12:01,680
اساساً برای جمعآوری اطلاعات بزرگ از
364
00:12:01,680 –> 00:12:02,800
وبسایتها استفاده میشود،
365
00:12:02,800 –> 00:12:05,200
اما چرا کسی مجبور است چنین
366
00:12:05,200 –> 00:12:07,279
اطلاعات بزرگی را از وبسایتها جمعآوری کند. برای دانستن
367
00:12:07,279 –> 00:12:08,240
در این مورد،
368
00:12:08,240 –> 00:12:10,399
اجازه دهید به کاربردهای حذف وب نگاهی بیندازیم،
369
00:12:10,399 –> 00:12:11,519
370
00:12:11,519 –> 00:12:13,600
به عنوان مثال، فرض کنید ما در حال
371
00:12:13,600 –> 00:12:15,200
انجام وب اسکرا هستیم.
372
00:12:15,200 –> 00:12:18,079
برای مقایسه قیمت، به عنوان مثال، فرض کنید که
373
00:12:18,079 –> 00:12:19,040
374
00:12:19,040 –> 00:12:22,399
اکنون خدماتی داریم، ممکن است خدماتی داشته باشیم مانند
375
00:12:22,399 –> 00:12:24,399
فروشگاههای تجارت الکترونیکی،
376
00:12:24,399 –> 00:12:26,000
خدمات متعددی داریم، وبسایتهای متعددی داریم که
377
00:12:26,000 –> 00:12:28,160
به ما امکان میدهد قیمتها را
378
00:12:28,160 –> 00:12:30,720
بین چند فروشنده به درستی مقایسه کنیم، بنابراین دوباره
379
00:12:30,720 –> 00:12:31,839
برای ساخت
380
00:12:31,839 –> 00:12:33,920
آن نوع کام از وب سایت مقایسه قیمت،
381
00:12:33,920 –> 00:12:35,040
باید روی
382
00:12:35,040 –> 00:12:37,040
حذف وب برای آدرس ایمیل کار کنیم و
383
00:12:37,040 –> 00:12:39,279
شرکت های زیادی را که از ایمیل
384
00:12:39,279 –> 00:12:40,880
به عنوان رسانه ای برای بازاریابی
385
00:12:40,880 –> 00:12:42,720
استفاده می کنند، جمع آوری کنیم، آنها از حذف وب
386
00:12:42,720 –> 00:12:44,320
برای رنگ آمیزی ایمیل ها استفاده می کنند و سپس
387
00:12:44,320 –> 00:12:47,040
ایمیل های انبوه می فرستند و سپس ما حذف رسانه های اجتماعی را داریم
388
00:12:47,040 –> 00:12:48,320
389
00:12:48,320 –> 00:12:50,079
که حذف وب برای
390
00:12:50,079 –> 00:12:52,079
جمعآوری دادهها از طریق مستقیم از
391
00:12:52,079 –> 00:12:54,639
پلتفرمهای رسانههای اجتماعی مختلف استفاده میشود تا
392
00:12:54,639 –> 00:12:56,399
بفهمیم دقیقاً چه چیزی در حال پیشرفت است
393
00:12:56,399 –> 00:12:58,000
و سپس ما تحقیق و
394
00:12:58,000 –> 00:12:59,839
استقرار را داریم که در آن حذف وب
395
00:12:59,839 –> 00:13:00,880
برای جمعآوری
396
00:13:00,880 –> 00:13:03,600
مجموعههای بزرگی از دادهها استفاده میشود، یعنی میتوانیم
397
00:13:03,600 –> 00:13:05,600
دادهها را در یک قالب داشته باشیم. آمار کلی
398
00:13:05,600 –> 00:13:08,000
دمای اطلاعات از
399
00:13:08,000 –> 00:13:08,959
وب سایت های مختلف که
400
00:13:08,959 –> 00:13:10,959
قابل تجزیه و تحلیل هستند و سپس می توان
401
00:13:10,959 –> 00:13:13,600
از آنها برای انجام r استفاده کرد d
402
00:13:13,600 –> 00:13:16,240
و همچنین برای لیست مشاغل که در آن جزئیات
403
00:13:16,240 –> 00:13:17,839
مصاحبه های فرصت های شغلی
404
00:13:17,839 –> 00:13:19,519
از چندین وب سایت جمع آوری می شود
405
00:13:19,519 –> 00:13:21,440
و سپس آنها در
406
00:13:21,440 –> 00:13:22,560
یک مکان لیست می
407
00:13:22,560 –> 00:13:25,440
شوند تا بتوانیم به راحتی آن را برای جویندگان کار در دسترس قرار دهیم
408
00:13:25,440 –> 00:13:26,160
409
00:13:26,160 –> 00:13:29,920
تا به همین دلیل می توانیم بگوییم که
410
00:13:29,920 –> 00:13:32,079
حذف وب است. یک روش خودکار
411
00:13:32,079 –> 00:13:34,000
که می توانید از آن برای استخراج حجم
412
00:13:34,000 –> 00:13:36,800
زیادی از اطلاعات از وب سایت استفاده کنید،
413
00:13:36,800 –> 00:13:38,399
بنابراین داده های موجود در
414
00:13:38,399 –> 00:13:40,000
وب سایت ها بدون ساختار هستند
415
00:13:40,000 –> 00:13:42,399
و با استفاده از حذف وب می توانیم به سادگی
416
00:13:42,399 –> 00:13:44,480
این مجموعه داده های بدون ساختار را جمع آوری کرده و
417
00:13:44,480 –> 00:13:45,279
418
00:13:45,279 –> 00:13:47,519
در قالبی ساختاریافته ذخیره کنیم و راه های مختلفی برای آن وجود دارد.
419
00:13:47,519 –> 00:13:48,720
420
00:13:48,720 –> 00:13:51,839
وبسایتهای ضایعاتی مانند سرویسهای آنلاین apis
421
00:13:51,839 –> 00:13:54,480
ما میتوانیم کد خودمان را بنویسیم و در اینجا میخواهیم
422
00:13:54,480 –> 00:13:54,959
423
00:13:54,959 –> 00:13:56,800
این کار را در کل این ماژول انجام دهیم،
424
00:13:56,800 –> 00:13:58,639
میخواهیم ببینیم چگونه
425
00:13:58,639 –> 00:13:59,920
حذف وب با استفاده از
426
00:13:59,920 –> 00:14:02,720
زبان پایتون پیادهسازی شود، اکنون چندین
427
00:14:02,720 –> 00:14:05,199
سازگاری نیز وجود
428
00:14:05,199 –> 00:14:07,360
دارد، بنابراین دوباره آیا حذف وب
429
00:14:07,360 –> 00:14:08,240
قانونی است یا نه
430
00:14:08,240 –> 00:14:10,079
و برخی از وب سایت ها اجازه حذف وب را می دهند
431
00:14:10,079 –> 00:14:12,240
و برخی دیگر اجازه نمی دهند، اما اکنون بدانیم که آیا
432
00:14:12,240 –> 00:14:14,560
وب سایت امکان فشرده سازی را دارد یا خیر حذف شده یا نه،
433
00:14:14,560 –> 00:14:15,839
ما میتوانیم به فایل report.txt وبسایت نگاه کنیم، میتوانید
434
00:14:15,839 –> 00:14:18,480
با
435
00:14:18,480 –> 00:14:21,600
افزودن robots.txt به آدرس اینترنتی، این را پیدا کنید و برای
436
00:14:21,600 –> 00:14:23,360
این مثال، من حذف شدهام،
437
00:14:23,360 –> 00:14:25,360
اکنون میخواهیم وبسایت flipkart را حذف
438
00:14:25,360 –> 00:14:27,519
کنیم و میتوانیم از فایل robots.tcp استفاده کنیم.
439
00:14:27,519 –> 00:14:28,399
آدرس اینترنتی را
440
00:14:28,399 –> 00:14:30,880
برای دیدن اینکه آیا وب سایت به
441
00:14:30,880 –> 00:14:31,760
ما اجازه می
442
00:14:31,760 –> 00:14:34,399
دهد داده ها را حذف کنیم یا نه، مثلاً فرض کنید
443
00:14:34,399 –> 00:14:35,600
می خواهیم
444
00:14:35,600 –> 00:14:38,480
کارت تلنگر را ببینیم، بنابراین اکنون اگر
445
00:14:38,480 –> 00:14:39,040
کل
446
00:14:39,040 –> 00:14:41,120
فایل tc را اینجا ببینیم همانطور که می بینید در
447
00:14:41,120 –> 00:14:42,880
حال حاضر در حال بررسی txt هستیم.
448
00:14:42,880 –> 00:14:44,800
ربات ها یا فایل tc برای flipkart،
449
00:14:44,800 –> 00:14:46,959
بنابراین در اینجا می توانیم ببینیم که چه چیزی توسط flipkart مجاز است
450
00:14:46,959 –> 00:14:49,760
و دقیقاً چه چیزی وجود ندارد.
451
00:14:49,760 –> 00:14:51,519
452
00:14:51,519 –> 00:14:54,480
453
00:14:54,480 –> 00:14:56,480
454
00:14:56,480 –> 00:14:58,639
455
00:14:58,639 –> 00:15:00,480
و فروشنده متعهد می شود و صفحات فروش
456
00:15:00,480 –> 00:15:02,399
آنها غیرمجاز هستند
457
00:15:02,399 –> 00:15:04,240
و صفحات جستجویی که آنها را مسدود کرده اند
458
00:15:04,240 –> 00:15:06,079
هک های موقت
459
00:15:06,079 –> 00:15:07,680
صفحات اتحاد را مسدود می کنند
460
00:15:07,680 –> 00:15:08,880
و آنها به دام افتاده اند آنها
461
00:15:08,880 –> 00:15:11,279
وابسته را
462
00:15:11,279 –> 00:15:13,839
که صفحه مرور قدیمی است غیر مجاز می دانند e تجربه
463
00:15:13,839 –> 00:15:15,600
و عامل کاربر به عنوان یک کارت
464
00:15:15,600 –> 00:15:17,760
درست است، بنابراین همه این موارد در حال حاضر
465
00:15:17,760 –> 00:15:19,279
از ساعت google غیرمجاز هستند،
466
00:15:19,279 –> 00:15:21,440
بنابراین
467
00:15:21,440 –> 00:15:22,639
هر زمان که بخواهید می توانید
468
00:15:22,639 –> 00:15:26,240
با مرور آن بخش خاص گزارش را ببینید
469
00:15:26,240 –> 00:15:28,639
و پایتون محبوب ترین زبانی
470
00:15:28,639 –> 00:15:30,000
است که ما برای آن استفاده می کنیم.
471
00:15:30,000 –> 00:15:32,240
حذف وب زیرا پایتون
472
00:15:32,240 –> 00:15:34,639
چندین کتابخانه داخلی دارد که از قبل
473
00:15:34,639 –> 00:15:35,199
شامل
474
00:15:35,199 –> 00:15:37,600
متدهای از پیش پیکربندی شده و
475
00:15:37,600 –> 00:15:39,519
همه پسوندهایی است که میتوانیم مستقیماً
476
00:15:39,519 –> 00:15:40,240
477
00:15:40,240 –> 00:15:42,079
برای اتصال به مجموعه داده و
478
00:15:42,079 –> 00:15:44,399
انجام پاسخها در بالای آن استفاده کنیم
479
00:15:44,399 –> 00:15:46,240
تا در حال حاضر بر روی حذف وب کار کنیم.
480
00:15:46,240 –> 00:15:48,480
از چندین کتابخانه استفاده کنید،
481
00:15:48,480 –> 00:15:49,600
بنابراین اکنون که در مورد کتابخانه ها صحبت می کنیم،
482
00:15:49,600 –> 00:15:50,720
اکنون می خواهیم از
483
00:15:50,720 –> 00:15:52,399
چندین کتابخانه برای
484
00:15:52,399 –> 00:15:55,360
آن استفاده کنیم که بیشتر برای حذف وب
485
00:15:55,360 –> 00:15:56,800
486
00:15:56,800 –> 00:15:57,199
استفاده
487
00:15:57,199 –> 00:15:59,519
می
488
00:15:59,519 –> 00:16:01,440
شود. یک
489
00:16:01,440 –> 00:16:04,320
کتابخانه پایتون برای بیرون کشیدن داده ها از
490
00:16:04,320 –> 00:16:06,959
فایل های html و xml، راه های ساده ای را برای
491
00:16:06,959 –> 00:16:09,440
پیمایش در جستجو و اصلاح
492
00:16:09,440 –> 00:16:10,480
تمام عناصر
493
00:16:10,480 –> 00:16:12,399
مورد نیاز ارائه می دهد. در هر وب سایتی که
494
00:16:12,399 –> 00:16:14,000
هدف اصلی استفاده از
495
00:16:14,000 –> 00:16:17,120
حذف وب است، این هدف اصلی استفاده از
496
00:16:17,120 –> 00:16:18,639
حذف وب است زمانی که ما
497
00:16:18,639 –> 00:16:20,399
هر نوع طرح کلی را که می
498
00:16:20,399 –> 00:16:22,160
خواهیم ارائه می دهیم و سپس
499
00:16:22,160 –> 00:16:23,839
بعد از سوپ زیبا
500
00:16:23,839 –> 00:16:26,079
روی کتابخانه درخواست کار می کنیم اساساً از
501
00:16:26,079 –> 00:16:28,320
درخواست در کتابخانه python
502
00:16:28,320 –> 00:16:30,399
که به طور گسترده برای ارسال و
503
00:16:30,399 –> 00:16:32,320
دریافت اطلاعات از طریق http استفاده می شود
504
00:16:32,320 –> 00:16:33,440
زیرا در انتها
505
00:16:33,440 –> 00:16:35,360
می خواهیم محتوای http
506
00:16:35,360 –> 00:16:36,720
را به درستی حذف
507
00:16:36,720 –> 00:16:37,839
کنیم تا به این ترتیب از
508
00:16:37,839 –> 00:16:39,920
سوپ زیبا استفاده کنیم و سپس
509
00:16:39,920 –> 00:16:41,360
510
00:16:41,360 –> 00:16:43,360
روی این کتابخانه ها کار کنیم. همچنین بخشی
511
00:16:43,360 –> 00:16:45,199
از نیاز
512
00:16:45,199 –> 00:16:47,120
اول از همه قبل از شروع
513
00:16:47,120 –> 00:16:49,120
کار برای هر کتابخانه ای، باید
514
00:16:49,120 –> 00:16:50,880
روی وارد کردن هر دو کتابخانه کار کنیم
515
00:16:50,880 –> 00:16:52,399
و سپس باید درخواستی را ایجاد کنیم
516
00:16:52,399 –> 00:16:53,839
که به این معنی است که چه نوع وب سایتی
517
00:16:53,839 –> 00:16:55,040
را می
518
00:16:55,040 –> 00:16:57,360
خواهیم پاس کنیم و سپس با استفاده از
519
00:16:57,360 –> 00:16:59,040
کتابخانه سوپ زیبا میتوانیم از تجزیهکننده html استفاده کنی