در این مطلب، ویدئو مهندسی داده با پایتون و PySpark با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:47:15
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:04,390 –> 00:00:08,639
[موسیقی]
2
00:00:08,639 –> 00:00:10,080
سلام صبح بخیر ظهر
3
00:00:10,080 –> 00:00:11,360
همگی
4
00:00:11,360 –> 00:00:13,759
بخیر به ارائه امروز خوش آمدید
5
00:00:13,759 –> 00:00:15,599
نام من میخائیل است.
6
00:00:15,599 –> 00:00:16,720
7
00:00:16,720 –> 00:00:20,400
8
00:00:20,400 –> 00:00:22,080
9
00:00:22,080 –> 00:00:24,400
10
00:00:24,400 –> 00:00:25,359
11
00:00:25,359 –> 00:00:27,760
با
12
00:00:27,760 –> 00:00:31,840
پایتون و پای اسپارک
13
00:00:32,640 –> 00:00:35,280
از نظر تدارکات، من می
14
00:00:35,280 –> 00:00:36,000
15
00:00:36,000 –> 00:00:38,320
خواهم ارائه خود را تا حد امکان برای
16
00:00:38,320 –> 00:00:41,360
شما مفید کنم، بنابراین از سؤالات شما استقبال می
17
00:00:41,360 –> 00:00:45,600
کنم، متأسفانه نمی توانم به
18
00:00:45,600 –> 00:00:48,000
شما اجازه صحبت کردن را بدهم،
19
00:00:48,000 –> 00:00:49,680
احتمالاً بهترین راه برای برقراری ارتباط نخواهد بود.
20
00:00:49,680 –> 00:00:50,480
پیامی
21
00:00:50,480 –> 00:00:53,760
به من بفرستید یا بهتر است
22
00:00:53,760 –> 00:00:57,120
سؤال خود را در قسمت سؤالات مطرح کنید
23
00:00:57,120 –> 00:00:58,960
تا اگر
24
00:00:58,960 –> 00:01:00,480
سؤال شخصی دارید بخوانم
25
00:01:00,480 –> 00:01:04,400
و نمی خواهید
26
00:01:04,400 –> 00:01:06,479
نام شما را به زبان بیاورم که من
27
00:01:06,479 –> 00:01:07,760
فقط قصد انجام آن را ندارم.
28
00:01:07,760 –> 00:01:10,960
برای من یک چت خصوصی بفرست، خب،
29
00:01:10,960 –> 00:01:12,400
بیایید شروع
30
00:01:12,400 –> 00:01:15,439
کنیم، ارائه
31
00:01:15,439 –> 00:01:18,960
امروز بسیار کوتاه
32
00:01:18,960 –> 00:01:22,320
33
00:01:22,320 –> 00:01:25,040
خواهد بود. در هر عمقی از آن
34
00:01:25,040 –> 00:01:26,080
35
00:01:26,080 –> 00:01:28,560
بگذریم، اما احتمالاً برخی از نکات مهمتر را لمس میکنیم
36
00:01:28,560 –> 00:01:29,920
37
00:01:29,920 –> 00:01:35,280
و سعی میکنم شما را در جهت دستیابی به اهدافتان شناسایی کنم
38
00:01:35,600 –> 00:01:39,280
که چگونه میتوانید
39
00:01:39,280 –> 00:01:41,680
جنگل را برای درختان ببینید و چگونه چیزها
40
00:01:41,680 –> 00:01:42,880
با هم بازی
41
00:01:42,880 –> 00:01:45,280
میکنند، امیدوارم برای شما مفید باشد. در
42
00:01:45,280 –> 00:01:46,880
هر دو سطح فنی و
43
00:01:46,880 –> 00:01:49,600
شاید نوعی سطح سازمانی
44
00:01:49,600 –> 00:01:51,920
نیز،
45
00:01:52,479 –> 00:01:54,079
بنابراین ما در مورد رشته مهندسی داده به عنوان یک کل صحبت خواهیم کرد،
46
00:01:54,079 –> 00:01:55,759
47
00:01:55,759 –> 00:01:57,600
زیرا در
48
00:01:57,600 –> 00:01:58,799
مورد اینکه واقعاً چه چیزی است
49
00:01:58,799 –> 00:02:01,439
سردرگمی وجود دارد، احتمالاً بهترین راه برای
50
00:02:01,439 –> 00:02:02,560
درک آنچه
51
00:02:02,560 –> 00:02:05,520
از طریق نگاه کردن است. در مهارتهای اصلی و
52
00:02:05,520 –> 00:02:07,119
53
00:02:07,119 –> 00:02:10,878
شایستگیهای یک مهندس داده، ما همچنین
54
00:02:10,878 –> 00:02:13,920
به عنوان مثال به نحوه برخورد
55
00:02:13,920 –> 00:02:16,640
با دادههای از دست رفته در پایتون و پی اسپارک نگاه
56
00:02:16,640 –> 00:02:18,400
میکنیم، همچنین به
57
00:02:18,400 –> 00:02:20,560
فرمتهای ذخیرهسازی دادههای ستونی سریع اشاره میکنیم
58
00:02:20,560 –> 00:02:23,520
که میتواند به شما کمک کند تا با کمترین مقدار، در یک روش بزرگ باشید.
59
00:02:23,520 –> 00:02:25,760
مشارکت شما از
60
00:02:25,760 –> 00:02:26,560
61
00:02:26,560 –> 00:02:28,640
نظر ردپای نیازهای ذخیرهسازی دادهها
62
00:02:28,640 –> 00:02:31,599
و سرعت بخشیدن
63
00:02:31,599 –> 00:02:35,120
به پرسشهای شما، بنابراین
64
00:02:35,120 –> 00:02:37,120
مهندسی دادهها اساساً یک مهندسی نرمافزار است.
65
00:02:37,120 –> 00:02:38,560
همانطور که میدانید،
66
00:02:38,560 –> 00:02:43,040
حرفهای در این
67
00:02:43,040 –> 00:02:45,920
زمینه روی
68
00:02:46,239 –> 00:02:49,519
سیستمهایی که با دادهها و دادهها سر و کار دارند کار میکنند
69
00:02:49,519 –> 00:02:50,879
، پادشاهی است و فکر میکنم
70
00:02:50,879 –> 00:02:54,959
ابتکارات بسیاری وجود دارد
71
00:02:54,959 –> 00:02:57,920
که حول
72
00:02:57,920 –> 00:02:59,440
ایجاد
73
00:02:59,440 –> 00:03:02,800
و ترویج بهترین شیوهها برای
74
00:03:02,800 –> 00:03:03,440
75
00:03:03,440 –> 00:03:06,080
انتقال اکتساب دادهها در زیر دسته
76
00:03:06,080 –> 00:03:08,400
77
00:03:08,400 –> 00:03:10,560
etl درست است و اکنون همه چیز به سمت ابر حرکت می کند و اوم
78
00:03:10,560 –> 00:03:11,440
79
00:03:11,440 –> 00:03:13,519
ناگهان شما
80
00:03:13,519 –> 00:03:16,000
بعد دیگری دارید که باید از آن مراقبت کنید
81
00:03:16,000 –> 00:03:18,879
که هزینه ذخیره سازی
82
00:03:18,879 –> 00:03:20,640
و هزینه انتقال داده ها و هزینه
83
00:03:20,640 –> 00:03:21,599
پردازش
84
00:03:21,599 –> 00:03:24,799
داده های شما خواهد بود. من
85
00:03:24,799 –> 00:03:27,120
چسب آپاچی uh glue را بهعنوان
86
00:03:27,120 –> 00:03:28,959
نمونهای از سیستمی ذکر
87
00:03:28,959 –> 00:03:31,280
میکنم که میتواند شما را از بسیاری از
88
00:03:31,280 –> 00:03:32,480
89
00:03:32,480 –> 00:03:35,519
دردسرهای توسعه در محل کم کند،
90
00:03:35,519 –> 00:03:37,519
اما همچنین
91
00:03:37,519 –> 00:03:40,319
میخواهم آگاهی شما را از برخی از
92
00:03:40,319 –> 00:03:44,720
انواع هزینهها افزایش دهم. جنبه های سودمند آن
93
00:03:44,720 –> 00:03:46,640
و به طور کلی شما با داده های بزرگ سروکار خواهید داشت،
94
00:03:46,640 –> 00:03:48,319
بنابراین
95
00:03:48,319 –> 00:03:50,560
همانطور که می دانید داده های بزرگ با
96
00:03:50,560 –> 00:03:52,400
سه ویژگی سرعت حجم و
97
00:03:52,400 –> 00:03:53,599
تنوع مشخص می شوند، اما
98
00:03:53,599 –> 00:03:56,799
عمدتاً همه چیز در مورد
99
00:03:56,799 –> 00:03:59,920
پردازش است. uh دادههایی که
100
00:03:59,920 –> 00:04:02,959
معمولاً یا خیلی گران هستند یا
101
00:04:02,959 –> 00:04:05,200
102
00:04:05,360 –> 00:04:07,200
برای پردازش با استفاده از
103
00:04:07,200 –> 00:04:09,120
سیستمهای سنتی که
104
00:04:09,120 –> 00:04:13,200
پایگاههای داده رابطهای هستند rdbms
105
00:04:13,360 –> 00:04:17,440
um در حال حاضر آنچه
106
00:04:17,440 –> 00:04:20,720
ایجاد شده است، این سه نقش
107
00:04:20,720 –> 00:04:21,600
مرتبط با داده
108
00:04:21,600 –> 00:04:24,960
در سازمان یا
109
00:04:24,960 –> 00:04:28,000
در هر
110
00:04:28,000 –> 00:04:30,639
نوع پروژههای فرهنگ وب است. شما
111
00:04:30,639 –> 00:04:31,600
در بالای آن
112
00:04:31,600 –> 00:04:35,120
یک دانشمند داده توتم پست دارید
113
00:04:35,120 –> 00:04:38,639
، این بسیار تبلیغی است که
114
00:04:38,639 –> 00:04:40,960
برخی افراد فقط تمایل دارند در مورد آن فکر کنند،
115
00:04:40,960 –> 00:04:42,479
اما در واقع اینطور نیست،
116
00:04:42,479 –> 00:04:45,280
من این نوع لیستی را که با مهندسان داده شروع می شود، معکوس می کنم،
117
00:04:45,280 –> 00:04:45,759
118
00:04:45,759 –> 00:04:47,280
زیرا
119
00:04:47,280 –> 00:04:48,880
این ریشه است.
120
00:04:48,880 –> 00:04:50,639
از همه چیز میتواند ریشه
121
00:04:50,639 –> 00:04:52,400
همه بدیها باشد و بازی
122
00:04:52,400 –> 00:04:53,919
ریشه همه موفقیتها است،
123
00:04:53,919 –> 00:04:56,800
اما حدس میزنم اینگونه است که حداقل
124
00:04:56,800 –> 00:04:59,280
افرادی در
125
00:04:59,280 –> 00:05:01,360
سطح دریای سازمانی دوست دارند چیزها را ببینند، بنابراین
126
00:05:01,360 –> 00:05:02,639
دانشمند دادهای
127
00:05:02,639 –> 00:05:05,680
که در واقع از دادهها استفاده میکند. um
128
00:05:05,680 –> 00:05:08,960
که توسط سازمان مبادله شده یا خریداری
129
00:05:08,960 –> 00:05:11,199
شده است تا نوعی
130
00:05:11,199 –> 00:05:13,039
131
00:05:13,039 –> 00:05:14,479
مدل سازی داده های یادگیری ماشینی را انجام دهد تا
132
00:05:14,479 –> 00:05:16,160
پیش بینی هایی انجام شود،
133
00:05:16,160 –> 00:05:19,360
شاید برخی روندها در داده ها پیدا شود و
134
00:05:19,360 –> 00:05:22,639
این یک موضوع بزرگ است. n خود
135
00:05:22,639 –> 00:05:25,759
اما در واقع هیچ اتفاقی نمی افتد
136
00:05:25,759 –> 00:05:28,000
و هیچ چیز از آن جعبه سیاه بزرگ بیرون نمی آید
137
00:05:28,000 –> 00:05:29,039
138
00:05:29,039 –> 00:05:32,479
اگر داده ها به درستی پردازش نشوند
139
00:05:32,479 –> 00:05:35,840
و داده ها پاک نشوند، شاید
140
00:05:35,840 –> 00:05:38,960
عادی سازی و تعمیر شوند
141
00:05:38,960 –> 00:05:41,280
که مسئولیت آن بر
142
00:05:41,280 –> 00:05:42,560
143
00:05:42,560 –> 00:05:44,800
عهده مهندس داده است.
144
00:05:44,800 –> 00:05:46,000
بین
145
00:05:46,000 –> 00:05:48,960
این دو و بسیاری از افراد فقط تمایل
146
00:05:48,960 –> 00:05:49,919
147
00:05:49,919 –> 00:05:51,919
دارند رزومه خود را زیبا کنند و می گویند که من
148
00:05:51,919 –> 00:05:53,759
یک تحلیلگر داده نیستم، نه،
149
00:05:53,759 –> 00:05:56,000
سال گذشته یکی از آن ها بودم، اما اکنون من یک
150
00:05:56,000 –> 00:05:57,280
دانشمند داده هستم
151
00:05:57,280 –> 00:05:58,800
احتمالاً آنها دوره های منحصر به فردی را
152
00:05:58,800 –> 00:06:00,479
گذرانده اند و به این ترتیب است.
153
00:06:00,479 –> 00:06:01,440
خودشان موقعیتها را میخواهند،
154
00:06:01,440 –> 00:06:04,000
اما مهندس داده قطعاً یک
155
00:06:04,000 –> 00:06:05,759
نقش بسیار متمایز است
156
00:06:05,759 –> 00:06:08,960
که از هر دو نقش پشتیبانی میکند، چه
157
00:06:08,960 –> 00:06:12,319
تحلیلگران داده یا دانشمندان داده،
158
00:06:12,319 –> 00:06:15,199
امم این راه زمین است، این یک
159
00:06:15,199 –> 00:06:15,919
160
00:06:15,919 –> 00:06:18,319
خط لوله پردازش داده معمولی است که در آن شما
161
00:06:18,319 –> 00:06:19,039
162
00:06:19,039 –> 00:06:22,319
چرخه کامل اکتساب یا دادهها را دارید.
163
00:06:22,319 –> 00:06:24,960
بلع و تا
164
00:06:24,960 –> 00:06:28,240
پردازش دادهها و
165
00:06:28,240 –> 00:06:29,680
توسعه نوعی مدل یادگیری ماشینی،
166
00:06:29,680 –> 00:06:31,600
167
00:06:31,600 –> 00:06:34,319
بنابراین این همان چیزی است که مردم در تلاش برای
168
00:06:34,319 –> 00:06:34,639
این کار هستند.
169
00:06:34,639 –> 00:06:38,080
نوعی طرح اولیه
170
00:06:38,080 –> 00:06:41,520
یا چشماندازی است که بسیاری از سازمانها
171
00:06:41,520 –> 00:06:42,319
تلاش میکنند
172
00:06:42,319 –> 00:06:45,360
در
173
00:06:45,360 –> 00:06:47,520
سازمانهای مربوطه خود پیادهسازی کنند، اگر
174
00:06:47,520 –> 00:06:50,060
میتوانید ببینید سه نوع برچسب
175
00:06:50,060 –> 00:06:52,240
[موسیقی] وجود دارد
176
00:06:52,240 –> 00:06:55,520
که
177
00:06:55,520 –> 00:06:59,280
اگر بتوانید
178
00:06:59,280 –> 00:07:02,400
رنگهای آبی را با علامت d e ببینید افسانه هستند. حروف
179
00:07:02,400 –> 00:07:04,639
نماد مهندس داده و به دنبال آن
180
00:07:04,639 –> 00:07:06,319
تحلیلگران داده و دانشمندان داده است، به
181
00:07:06,319 –> 00:07:07,759
همین دلیل است که من حدس میزنم به نظر من
182
00:07:07,759 –> 00:07:11,280
همه چیز به درستی حسابرسی میشود،
183
00:07:11,280 –> 00:07:14,319
بنابراین همانطور که میبینید
184
00:07:14,319 –> 00:07:16,240
جریان داده از چپ به
185
00:07:16,240 –> 00:07:18,000
راست میرود، بنابراین ما
186
00:07:18,000 –> 00:07:21,039
دادهها را دریافت میکنیم و دادهها
187
00:07:21,039 –> 00:07:23,360
احتمالاً از نوعی گزارش تراکنشها میآیند.
188
00:07:23,360 –> 00:07:24,639
فایلها
189
00:07:24,639 –> 00:07:26,639
ممکن است نوعی جریان کلیک یا
190
00:07:26,639 –> 00:07:27,840
دادههایی
191
00:07:27,840 –> 00:07:33,360
باشند که از طریق شراکت با
192
00:07:33,840 –> 00:07:35,520
برخی سازمانهای دیگر
193
00:07:35,520 –> 00:07:36,639
از نوع ارتباط تجاری به کسبوکار دریافت میکنید
194
00:07:36,639 –> 00:07:37,599
195
00:07:37,599 –> 00:07:43,280
و این دادهها میتوانند قبل از
196
00:07:43,599 –> 00:07:45,840
اینکه بیشتر منتقل شوند، باید پاک
197
00:07:45,840 –> 00:07:47,120
شوند. یک
198
00:07:47,120 –> 00:07:50,240
موضوع بزرگ به خودی خود، اوه تمیز کردن داده
199
00:07:50,240 –> 00:07:52,800
شامل اطمینان از مطابقت داده ها
200
00:07:52,800 –> 00:07:54,080
با مدل داده ای است
201
00:07:54,080 –> 00:07:56,479
که در مسیر استفاده می کنید یا
202
00:07:56,479 –> 00:07:58,400
گزارش هایی که می خواهید ایجاد کنید.
203
00:07:58,400 –> 00:08:00,560
شاید نگاشت ابعادی که
204
00:08:00,560 –> 00:08:03,440
در سیستمهای olcp uh خود استفاده میکنید،
205
00:08:03,440 –> 00:08:06,800
به طوری که دادههایی
206
00:08:06,800 –> 00:08:10,080
که پاک شدهاند
207
00:08:10,080 –> 00:08:13,039
، پایه خوبی برای ایجاد نوعی
208
00:08:13,039 –> 00:08:13,919
209
00:08:13,919 –> 00:08:16,479
گزارش گزارش
210
00:08:21,039 –> 00:08:23,280
دادههای شما برای
211
00:08:23,280 –> 00:08:24,560
مصرف
212
00:08:24,560 –> 00:08:27,759
در هر سطحی در سازمان شما باشد و
213
00:08:27,759 –> 00:08:30,240
اگر میخواهید
214
00:08:30,240 –> 00:08:32,080
پردازش پیشرفتهتر دادهها را اعمال کنید تا
215
00:08:32,080 –> 00:08:32,880
216
00:08:32,880 –> 00:08:35,919
مکعبهای چند بعدی داشته باشید، اوه همه مکعبها،
217
00:08:35,919 –> 00:08:36,240
218
00:08:36,240 –> 00:08:39,039
اوه، میتوانید در این نقطه از
219
00:08:39,039 –> 00:08:40,719
زمان و
220
00:08:40,719 –> 00:08:43,919
هر حرکت فیلمی از دادهها،
221
00:08:43,919 –> 00:08:46,800
اما با رویکرد مدرن با
222
00:08:46,800 –> 00:08:48,880
دستگاه علم داده یادگیری
223
00:08:48,880 –> 00:08:51,680
نوعی جذب جذابیت در
224
00:08:51,680 –> 00:08:53,040
سازمانها
225
00:08:53,040 –> 00:08:55,200
در این
226
00:08:55,200 –> 00:08:56,720
برهه زمانی انجام نمیشود، بنابراین چه اتفاقی
227
00:08:56,720 –> 00:08:59,600
میافتد پس از پاکسازی آن، باید
228
00:08:59,600 –> 00:09:00,640
229
00:09:00,640 –> 00:09:04,000
شروع به استفاده حداکثری از دادهها کنید و
230
00:09:04,000 –> 00:09:05,120
معمولاً
231
00:09:05,120 –> 00:09:08,160
اتفاقی که میافتد این است که اوه من حدس میزنم دانشمندان داده
232
00:09:08,160 –> 00:09:09,120
233
00:09:09,120 –> 00:09:12,160
آنها شروع به
234
00:09:12,160 –> 00:09:14,080
انجام فعالیت هایی مانند
235
00:09:14,080 –> 00:09:16,000
ویژگی انتخاب آینده با ویژگی ستون
236
00:09:16,000 –> 00:09:18,240
نمونه گیری داده
237
00:09:18,240 –> 00:09:20,240
های شما خواهند کرد تا مجبور نباشید
238
00:09:20,240 –> 00:09:22,240
aro را جابجا کنید. چند ترابایت داده، اما بهتر است
239
00:09:22,240 –> 00:09:23,760
240
00:09:23,760 –> 00:09:26,959
از نوعی تکنیک نمونهگیری استفاده کنید
241
00:09:26,959 –> 00:09:29,200
و شروع به انجام نوعی
242
00:09:29,200 –> 00:09:30,480
243
00:09:30,480 –> 00:09:33,200
آزمایش فرضیه کنید تا فقط
244
00:09:33,200 –> 00:09:34,080
روی
245
00:09:34,080 –> 00:09:36,320
مجموعههای بسیار کوچکتری از
246
00:09:36,320 –> 00:09:37,200
زیر مجموعهها کار کنید،
247
00:09:37,200 –> 00:09:39,760
شاید 10 یا یک درصد از
248
00:09:39,760 –> 00:09:41,040
دادهها نماینده
249
00:09:41,040 –> 00:09:42,480
جمعیت باشید تا بتوانید
250
00:09:42,480 –> 00:09:44,240
آماری را به دست آورید تا بتوانید
251
00:09:44,240 –> 00:09:47,120
برخی از ویژگی های داده های خود را استنباط کنید
252
00:09:47,120 –> 00:09:48,000
253
00:09:48,000 –> 00:09:50,080
و ما خوب نیستیم من وارد
254
00:09:50,080 –> 00:09:51,040
تمام جزئیات نمی شوم اما
255
00:09:51,040 –> 00:09:54,480
همانطور که می بینید اوه همه آن
256
00:09:54,480 –> 00:09:57,360
فعالیت ها کل
257
00:09:58,720 –> 00:10:02,000
طیف وسیعی از فعالیتهای یادگیری ماشین یا دانشمند داده
258
00:10:02,000 –> 00:10:03,200
259
00:10:03,200 –> 00:10:05,680
که پیشبینی میشود آنها بسیار
260
00:10:05,680 –> 00:10:09,120
وابسته به کار مهندسی داده
261
00:10:10,480 –> 00:10:14,480
و موفقیت هستند و هرچه زودتر
262
00:10:14,480 –> 00:10:17,600
دادههای خود را اصلاح کنید، نتایج بهتری حاصل
263
00:10:17,600 –> 00:10:18,720
264
00:10:18,720 –> 00:10:21,440
میشود و زمان بینش
265
00:10:21,440 –> 00:10:22,720
266
00:10:22,720 –> 00:10:27,200
بسیار سریعتر خواهد بود.
267
00:10:27,200 –> 00:10:29,279
از شما این نمودار را
268
00:10:29,279 –> 00:10:30,320
قبل از
269
00:10:30,320 –> 00:10:32,000
اینکه همه چیز در مورد علم داده باشد، دیده اید، اما آنچه
270
00:10:32,000 –> 00:10:33,440
جالب است این است که علم داده
271
00:10:33,440 –> 00:10:34,160
یک
272
00:10:34,160 –> 00:10:37,200
مفهوم کلی بزرگ و یک نام است.
273
00:10:37,200 –> 00:10:40,000
که در واقع نوعی برچسب
274
00:10:40,000 –> 00:10:41,200
برای تعدادی از فعالیتها است
275
00:10:41,200 –> 00:10:44,240
و مهندسی بتا
276
00:10:44,240 –> 00:10:46,560
بخشی از آن است و من میتوانم بگویم که
277
00:10:46,560 –> 00:10:49,040
احتمالاً یکی از مهمترین بخشهایی است
278
00:10:49,040 –> 00:10:52,959
که در واقع اوم، فکر میکنم با
279
00:10:52,959 –> 00:10:57,360
سایر فعالیتها با تخصص اصلی سروکار دارد،
280
00:10:57,360 –> 00:10:59,040
بنابراین هر زمان که فرآیندی که باید
281
00:10:59,040 –> 00:11:00,640
بدانید چگونه با
282
00:11:00,640 –> 00:11:04,560
دادههای خود رفتار کنید، چه
283
00:11:04,560 –> 00:11:07,600
چیزی میتواند باعث ایجاد نویز در
284
00:11:07,600 –> 00:11:08,160
دادههای شما شود،
285
00:11:08,160 –> 00:11:10,160
بنابراین کسی باید دادهها را درک کند،
286
00:11:10,160 –> 00:11:11,760
در غیر این صورت این اطلاعات به درستی زبالهای در زباله خواهد
287
00:11:11,760 –> 00:11:12,480
288
00:11:12,480 –> 00:11:14,640
بود و هرچه بیشتر در مورد
289
00:11:14,640 –> 00:11:15,760
ریاضیات
290
00:11:15,760 –> 00:11:18,800
آمار بدانید، بهتر میشوید.
291
00:11:18,800 –> 00:11:20,640
هدف نهایی ساخت آن
292
00:11:20,640 –> 00:11:25,200
مدلهای یادگیری ماشینی فانتزی خواهد بود،
293
00:11:25,200 –> 00:11:29,360
بنابراین مهارتها و شایستگیهای اصلی برای
294
00:11:29,360 –> 00:11:32,880
مهندس داده کاملاً ضروری است،
295
00:11:32,880 –> 00:11:35,519
نه تنها دانستن زبانهای برنامهنویسی ضروری
296
00:11:35,519 –> 00:11:36,640
است، این
297
00:11:36,640 –> 00:11:38,720
همان چیزی است که شما انتظار دارید و به
298
00:11:38,720 –> 00:11:40,160
هر حال
299
00:11:40,160 –> 00:11:43,279
پایتون زبانی است که واقعاً خیلی خوب است.
300
00:11:43,279 –> 00:11:45,839
قلب مهندسان داده را به دست آورد،
301
00:11:45,839 –> 00:11:47,120
اگرچه ممکن
302
00:11:47,120 –> 00:11:50,320
است آنقدر کارآمد نباشد که می گوییم c
303
00:11:50,320 –> 00:11:54,240
sharp um golang java،
304
00:11:54,240 –> 00:11:57,519
اما فکر می کنم خودش را دارد. نشان میدهد
305
00:11:57,519 –> 00:12:00,320
که میتواند پردازش را با استفاده از
306
00:12:00,320 –> 00:12:01,360
307
00:12:01,360 –> 00:12:04,079
numpy um و سیستمهای دیگر تسریع کند، میتوانید یک
308
00:12:04,079 –> 00:12:05,279
پل بومی داشته باشید
309
00:12:05,279 –> 00:12:07,279
، نسخه پایتونی که ما
310
00:12:07,279 –> 00:12:09,519
از آن استفاده میکنیم در mc نوشته شده است، بنابراین شما میتوانید پل عظیمی داشته باشید
311
00:12:09,519 –> 00:12:10,639
312
00:12:10,639 –> 00:12:11,920
و میتوانید سرعت کارها را به
313
00:12:11,920 –> 00:12:13,680
میزان قابل
314
00:12:13,680 –> 00:12:15,680
توجهی افزایش دهید. برای آن، شما همچنین
315
00:12:15,680 –> 00:12:17,920
باید به عنوان یک مهندس داده،
316
00:12:17,920 –> 00:12:21,279
317
00:12:21,279 –> 00:12:23,120
مهارتهایی در مورد افراد مختلف داشته باشید تا بتوانید با
318
00:12:23,120 –> 00:12:25,839
آن دسته از سیستمعاملهای بسیار پرهیز و گاهی اوقات به
319
00:12:25,839 –> 00:12:29,680
نوعی سمی بد
320
00:12:29,680 –> 00:12:32,720
و ناپسند صحبت کنید.
321
00:12:32,720 –> 00:12:34,320
دانشمندان
322
00:12:34,320 –> 00:12:37,200
اساساً باید انجام دهید تا
323
00:12:37,200 –> 00:12:41,920
مهارت های ارتباطی خوبی داشته باشید تا
324
00:12:41,920 –> 00:12:43,920
بتوانید در همان زمان از آن افراد حمایت کنید و
325
00:12:43,920 –> 00:12:45,839
به آنها اطلاع دهید که
326
00:12:45,839 –> 00:12:49,120
کار شما کاملاً ضروری است.
327
00:12:49,120 –> 00:12:52,560
328
00:12:52,560 –> 00:12:55,600
329
00:12:55,600 –> 00:12:57,760
فرآیندهایی
330
00:12:57,760 –> 00:13:00,399
که به خودی خود یک موضوع بزرگ و بزرگ هستند، در
331
00:13:00,399 –> 00:13:01,760
بسیاری از موارد ممکن است
332
00:13:01,760 –> 00:13:04,000
فقط استخراج و بارگذاری شوند بدون هیچ
333
00:13:04,000 –> 00:13:04,880
تغییری
334
00:13:04,880 –> 00:13:08,240
به طوری که طرحواره
335
00:13:08,399 –> 00:13:11,920
ببخشید که در زمان مربوطه اعمال شود.
336
00:13:11,920 –> 00:13:14,160
این مورد در مورد هادوپ است که در
337
00:13:14,160 –> 00:13:16,160
آن شما طرحی بر اساس تقاضا
338
00:13:16,160 –> 00:13:21,839
و روشی که میخواهید دادهها را ردیابی کنید
339
00:13:23,760 –> 00:13:27,120
و زمانی که آن
340
00:13:27,120 –> 00:13:30,639
فعالیتهای ctl um را انجام میدهید، باید
341
00:13:30,639 –> 00:13:31,600
342
00:13:31,600 –> 00:13:35,440
از کلی
343
00:13:35,440 –> 00:13:38,160
چیزهای مرتبط با مقیاسپذیری مهارت
344
00:13:38,160 –> 00:13:42,560
قابلیت همکاری سیستم محاسباتی آگاه باشید.
345
00:13:42,639 –> 00:13:44,240
آیا مطمئن میشوید که دادههایی
346
00:13:44,240 –> 00:13:46,000
که بهعنوان
347
00:13:46,000 –> 00:13:49,199
نوعی داده بدون ساختار
348
00:13:49,199 –> 00:13:51,279
به دست میآیند، احتمالاً بهعنوان json کدگذاری میشوند، با
349
00:13:51,279 –> 00:13:52,399
کارایی بیشتری پردازش میشوند،
350
00:13:52,399 –> 00:13:54,720
بنابراین قطعا json بهترین راه
351
00:13:54,720 –> 00:13:56,560
برای پردازش دادهها نیست،
352
00:13:56,560 –> 00:13:58,240
چگونه آنها را به فرمت پارکت
353
00:13:58,240 –> 00:14:00,240
یا فرمت rc تبدیل میکنید
354
00:14:00,240 –> 00:14:05,199
و در حالی که اوه شما به عنوان یک
355
00:14:05,279 –> 00:14:07,120
مهندس نرم افزار، مهندس داده، می توانید
356
00:14:07,120 –> 00:14:08,320
آن را کنار
357
00:14:08,320 –> 00:14:11,120
بزنید تا از هزینه ها عبور کنید و به دیگران اجازه دهید
358
00:14:11,120 –> 00:14:12,800
این مشکل را حل کنند،
359
00:14:12,800 –> 00:14:13,279
360
00:14:13,279 –> 00:14:15,839
برای خودتان بسیار مفید
361
00:14:15,839 –> 00:14:16,959
362
00:14:16,959 –> 00:14:19,680
خواهد بود، اگر همانطور که گفتم آگاه باشید، لطف بزرگی خواهید کرد.
363
00:14:19,680 –> 00:14:21,440
همه این جنبهها
364
00:14:21,440 –> 00:14:23,279
درست است و البته شما باید نرمالسازی دادهها را
365
00:14:23,279 –> 00:14:25,920
بدانید
366
00:14:25,920 –> 00:14:28,240
و در
367
00:14:28,240 –> 00:14:30,079
کجا نرمالسازی دادهها را درک کنید، نه اینکه دادهها را حرارت دهید تا
368
00:14:30,079 –> 00:14:33,040
بتوانید کار خود را کارآمدتر انجام دهید.
369
00:14:33,040 –> 00:14:34,720
و شما به طور کلی یک
370
00:14:34,720 –> 00:14:38,320
کارما خوب در آن
371
00:14:38,320 –> 00:14:41,120
نوع بزرگ از
372
00:14:41,680 –> 00:14:44,720
خطوط لوله پردازش داده خواهید داشت،
373
00:14:44,720 –> 00:14:48,160
بنابراین پایتون چرا همانطور که
374
00:14:48,160 –> 00:14:53,680
قبلاً گفتم پایتون ممکن است سریعترین
375
00:14:53,680 –> 00:14:56,880
زبان و شاید غنیترین
376
00:14:56,880 –> 00:14:59,199
زبان نباشد، قطعاً Scala نیست،
377
00:14:59,199 –> 00:15:00,399
378
00:15:00,399 –> 00:15:03,760
قطعاً احتمالاً c
379
00:15:03,760 –> 00:15:06,959
نیست اما این کار را به روشی بسیار
380
00:15:06,959 –> 00:15:09,360
کارآمد انجام می دهد و جالب اینجاست
381
00:15:09,360 –> 00:15:11,040
که نه تنها از
382
00:15:11,040 –> 00:15:14,079
383
00:15:14,160 –> 00:15:16,639
مدل برنامه نویسی دستوری سنتی شی گرا پشتیبانی می کند
384
00:15:16,639 –> 00:15:17,920
که احتمالاً
385
00:15:17,920 –> 00:15:20,160
برای آن ایجاد نشده است، بلکه از
386
00:15:20,160 –> 00:15:22,079
پارادایم برنامه نویسی تابعی نیز پشتیبانی می کند
387
00:15:22,079 –> 00:15:25,360
به این معنی که شما می توانید آن را بیان کنید.
388
00:15:25,360 –> 00:15:28,560
اهداف خود را برای پردازش به عنوان
389
00:15:28,560 –> 00:15:29,440
توابع
390
00:15:29,440 –> 00:15:31,839
و انتقال آنها به اطراف، بنابراین
391
00:15:31,839 –> 00:15:32,720
392
00:15:32,720 –> 00:15:36,480
از عملیات نوع فیلتر mapreduce uh پشتیبانی می کند و این جایی است
393
00:15:36,480 –> 00:15:37,759
394
00:15:37,759 –> 00:15:40,079
که کاملاً طبیعی است که همانطور که می دانید
395
00:15:40,079 –> 00:15:41,120
برنامه نویسی
396
00:15:41,120 –> 00:15:43,839
عملکردی خود را به مقیاس پذیری uh می دهد زیرا شما
397
00:15:43,839 –> 00:15:44,160
فقط
398
00:15:44,160 –> 00:15:46,160
قصد خود را به نوعی بیانی در قالب بیان می کنید.
399
00:15:46,160 –> 00:15:48,160
از
400
00:15:48,160 –> 00:15:49,839
توابع لامبدا و سپس آن لامبداها می
401
00:15:49,839 –> 00:15:51,759
توانند به طور خودکار مقیاس شوند،
402
00:15:51,759 –> 00:15:53,759
اگر از یک صفحه منتقل شوید شکلی مانند
403
00:15:53,759 –> 00:15:56,399
پایتون یک برنامه مستقل است،
404
00:15:56,399 –> 00:15:59,519
اوه یک ماشین مجازی jvm است نه jvm
405
00:15:59,519 –> 00:16:00,720
که فقط
406
00:16:00,720 –> 00:16:03,759
یک کار دوگانه
407
00:16:03,759 –> 00:16:05,120
ترجمه کد پایتون را انجام می دهد و سپس
408
00:16:05,120 –> 00:16:07,600
یکباره آن را اجرا می
409
00:16:07,600 –> 00:16:10,399
کند.
410
00:16:10,399 –> 00:16:11,040
411
00:16:11,040 –> 00:16:13,920
412
00:16:13,920 –> 00:16:15,600
413
00:16:15,600 –> 00:16:18,240
و دارای ویژگیهای خوبی است که میتوانید
414
00:16:18,240 –> 00:16:19,279
از نخها
415
00:16:19,279 –> 00:16:21,120
برای سرعت بخشیدن به فرآیند سیمهای موازی استفاده کنید،
416
00:16:21,120 –> 00:16:23,120
اما
417
00:16:23,120 –> 00:16:26,320
من حدس میزنم روش اصلی استفاده از پایتون
418
00:16:26,320 –> 00:16:28,320
روی یک رشته اجرا است
419
00:16:28,320 –> 00:16:30,079
تا از معماریهای
420
00:16:30,079 –> 00:16:31,759
چند هستهای
421
00:16:31,759 –> 00:16:36,000
خود استفاده نکنید. کامپیوترها
422
00:16:36,000 –> 00:16:39,120
امم پس پایتون چیزی را به شما می دهد
423
00:16:39,120 –> 00:16:41,440
که من شخصاً در مورد پایتون دوست دارم که
424
00:16:41,440 –> 00:16:42,160
425
00:16:42,160 –> 00:16:45,040
بسیار محجوب است، مطمئناً
426
00:16:45,040 –> 00:16:45,920
عدم تایپ
427
00:16:45,920 –> 00:16:49,199
ممکن است کمی نوعی
428
00:16:49,199 –> 00:16:51,519
قمار باشد آه اگر پروژه بسیار بزرگی دارید
429
00:16:51,519 –> 00:16:52,800
اما معمولاً
430
00:16:52,800 –> 00:16:55,360
اگر بتوانید برنامه خود را قرار دهید در
431
00:16:55,360 –> 00:16:55,839
432
00:16:55,839 –> 00:16:59,040
ذهن خود مطمئناً تمام
433
00:16:59,040 –> 00:17:01,839
تبدیلهای نوع uh را ردیابی
434
00:17:01,839 –> 00:17:02,320
خواهید کرد، اما پایتون
435
00:17:02,320 –> 00:17:04,400
در زمان اجرا کمی در این زمینه به شما کمک میکند،
436
00:17:04,400 –> 00:17:06,079
اما معمولاً
437
00:17:06,079 –> 00:17:08,400
مانند wi اتفاق نمیافتد. سیستمهای دیگر
438
00:17:08,400 –> 00:17:09,119
439
00:17:09,119 –> 00:17:12,160
مانند eclipse یا intellij که در ایجاد برنامهها با
440
00:17:12,160 –> 00:17:15,199
مشکلات زیادی مواجه میشوید،
441
00:17:15,199 –> 00:17:18,000
میگویند در جاوا، فقط به
442
00:17:18,000 –> 00:17:20,880
این نکته اشاره میکند که نه امکانپذیر
443
00:17:20,880 –> 00:17:24,480
نیست، اما فهرستی از درک
444
00:17:24,480 –> 00:17:25,839
445
00:17:25,839 –> 00:17:28,960
فهرستهای طیف وسیعی از کتابخانهها را فشرده میکند تا
446
00:17:28,960 –> 00:17:32,400
با http کار کنید. نقاط پایانی و
447
00:17:32,400 –> 00:17:35,840
فشرده سازی را انجام دهید و به طور کلی، کار
448
00:17:35,840 –> 00:17:38,480
کردن با آن زبان بسیار خوشایند است اوه،
449
00:17:38,480 –> 00:17:39,760
450
00:17:39,760 –> 00:17:43,120
اگر کم و بیش مهارت داشته باشید، به طور طبیعی انجام می
451
00:17:43,120 –> 00:17:45,120
شود،
452
00:17:45,120 –> 00:17:46,960
احتمالاً شاید چند ماه طول بکشد
453
00:17:46,960 –> 00:17:48,240
تا شروع به درک و
454
00:17:48,240 –> 00:17:49,840
قدردانی از زبان کنید.
455
00:17:49,840 –> 00:17:53,440
نکته خوب این
456
00:17:53,440 –> 00:17:56,160
است که وقتی پایتون را یاد
457
00:17:56,160 –> 00:17:57,840
گرفتید، به این عادت عادت
458
00:17:57,840 –> 00:18:00,799
کردید و به نوعی ثابت شد که این یک روش
459
00:18:00,799 –> 00:18:02,559
ماشین محور است،
460
00:18:02,559 –> 00:18:06,720
معمولاً به این فکر می کنید که این
461
00:18:06,720 –> 00:18:10,720
اصطلاحات ترکیبی از
462
00:18:10,720 –> 00:18:13,360
الگوهای مختلف هستند تا خیلی سریع ایجاد کنند، و
463
00:18:13,360 –> 00:18:14,480
464
00:18:14,480 –> 00:18:17,760
سرعت توسعه دهنده عالی به دست می آید.
465
00:18:17,760 –> 00:18:19,840
و هنگامی که با آن دستگاه گیر کرده
466
00:18:19,840 –> 00:18:20,960
اید احتمالاً
467
00:18:20,960 –> 00:18:22,240
468
00:18:22,240 –> 00:18:24,720
چندین رشته را آزمایش خواهید کرد، این امکان وجود دارد که از پایتون
469
00:18:24,720 –> 00:18:27,200
پشتیبانی کند. پردازش چند رشتهای
470
00:18:27,200 –> 00:18:30,799
از طریق کتابخانهها انجام میشود، اما بهتر
471
00:18:30,799 –> 00:18:33,919
است به برنامهنویسی خوشهای روی بیاورید،
472
00:18:33,919 –> 00:18:35,120
جایی که میتوانید
473
00:18:35,120 –> 00:18:38,400
474
00:18:38,400 –> 00:18:41,039
از همان دستور زبان برای پردازش
475
00:18:41,039 –> 00:18:42,400
دادهها در یک خوشه
476
00:18:42,400 –> 00:18:44,080
477
00:18:44,080 –> 00:18:45,679
استفاده کنید. پارادایم برنامه نویسی
478
00:18:45,679 –> 00:18:50,720
زیرا فیلتر mapreduce و سایر
479
00:18:51,200 –> 00:18:54,080
اصطلاحات یا رویه های برنامه نویسی
480
00:18:54,080 –> 00:18:55,440
به شما کمک می کند
481
00:18:55,440 –> 00:18:57,840
تا داده ها را به طور شفاف در
482
00:18:57,840 –> 00:19:00,880
خوشه ای پردازش کنید که در آن مجموعه داده های شما به طور
483
00:19:00,880 –> 00:19:04,240
یکپارچه و
484
00:19:05,760 –> 00:19:08,840
مستقل از شما در پشت صحنه
485
00:19:08,840 –> 00:19:10,240
پردازش شده
486
00:19:10,240 –> 00:19:12,240
در سراسر خوشه ماشین ها در
487
00:19:12,240 –> 00:19:14,640
بلوک ها پخش می شود و سپس سیستم می تواند
488
00:19:14,640 –> 00:19:17,280
به شما این امکان را می دهد که داده ها را به صورت موازی پردازش کنید
489
00:19:17,280 –> 00:19:18,320
490
00:19:18,320 –> 00:19:19,440
و اساساً این
491
00:19:19,440 –> 00:19:21,360
راه حل است، بنابراین راهی برای
492
00:19:21,360 –> 00:19:24,400
مقیاس خودکار
493
00:19:26,000 –> 00:19:28,480
برنامه های خود را با
494
00:19:28,480 –> 00:19:29,120
جابجایی
495
00:19:29,120 –> 00:19:34,400
از یک پلت فرم به پلتفرم دیگر داشته باشید، حدس
496
00:19:34,720 –> 00:19:37,520
می زنم این یک امتیاز برنده بزرگ برای
497
00:19:37,520 –> 00:19:38,480
498
00:19:38,480 –> 00:19:41,200
پایتون است همه شما احتمالاً
499
00:19:41,200 –> 00:19:41,600
میدانید
500
00:19:41,600 –> 00:19:44,640
که راپل محبوب
501
00:19:44,640 –> 00:19:48,640
یوپیتر نوتبوکهای وب
502
00:19:48,640 –> 00:19:50,400
است و همه چیز اینجاست و
503
00:19:50,400 –> 00:19:52,240
فروشندگان ابری که اکنون
504
00:19:52,240 –> 00:19:55,280
قابلیت های مشابهی را در اطراف
505
00:19:55,280 –> 00:19:59,600
نوت بوک های مشتری ارائه
506
00:19:59,600 –> 00:20:01,919
507
00:20:01,919 –> 00:20:02,960
508
00:20:02,960 –> 00:20:06,080
می دهند
509
00:20:06,080 –> 00:20:09,120
510
00:20:09,120 –> 00:20:10,960
511
00:20:10,960 –> 00:20:12,240
پایتون به خودی
512
00:20:12,240 –> 00:20:15,360
خود نسبتاً از نظر محاسباتی ناکارآمد
513
00:20:15,360 –> 00:20:16,080
514
00:20:16,080 –> 00:20:17,840
است. یا یک شی اولیه دارید
515
00:20:17,840 –> 00:20:19,520
که تمام بایت ها را اشغال می کند
516
00:20:19,520 –> 00:20:22,960
و می تواند روی یک پشته قرار داده شود، اما
517
00:20:22,960 –> 00:20:25,679
می توانید از
518
00:20:25,679 –> 00:20:27,200
طریق برنامه های افزودنی به کارایی هایی دست پیدا کنید، به عنوان مثال من
519
00:20:27,200 –> 00:20:28,159
به پانداهای numpy اشاره کردم
520
00:20:28,159 –> 00:20:30,799
، کتابخانه های دیگری از
521
00:20:30,799 –> 00:20:33,039
مجموعه کتابخانه های کتابخانه scipy وجود دارند که
522
00:20:33,039 –> 00:20:37,039
اساسا از آن بومی استفاده می کنند. پل
523
00:20:37,039 –> 00:20:41,120
که میتوانید در کد بومی فشردهشده، پردازش uh را فراخوانی کنید،
524
00:20:41,120 –> 00:20:43,520
جایی که چیزها
525
00:20:43,520 –> 00:20:45,039
به
526
00:20:45,039 –> 00:20:47,120
طور خودکار اختصاص داده میشوند و سپس
527
00:20:47,120 –> 00:20:48,640
پردازش خوشهای
528
00:20:48,640 –> 00:20:51,280
یا pi spark نسخهای از پایتون است
529
00:20:51,280 –> 00:20:51,840
که
530
00:20:51,840 –> 00:20:55,360
بر روی پلتفرم اسپارک اجرا میشود، بنابراین اوم
531
00:20:55,360 –> 00:20:57,200
ما برای بیشتر معرفی نمیکنیم.
532
00:20:57,200 –> 00:20:58,400
533
00:20:58,400 –> 00:21:00,960
در اصل جرقه چیست، این فقط
534
00:21:00,960 –> 00:21:03,200
راهی برای سرعت بخشیدن به پردازش
535
00:21:03,200 –> 00:21:05,520
در هادوپ است، بنابراین هادوپ بود به
536
00:21:05,520 –> 00:21:06,640
دلیل نیاز به پردازش
537
00:21:06,640 –> 00:21:08,960
حجم زیادی از داده ها به وجود آمد، بنابراین یاهو به طور گسترده
538
00:21:08,960 –> 00:21:10,400
این دستور کار را تحت فشار قرار
539
00:21:10,400 –> 00:21:12,559
داد.
540
00:21:12,559 –> 00:21:14,320
541
00:21:14,320 –> 00:21:18,240
542
00:21:18,240 –> 00:21:21,360
543
00:21:21,360 –> 00:21:21,840
544
00:21:21,840 –> 00:21:24,159
545
00:21:24,159 –> 00:21:26,400
دادهها را
546
00:21:26,400 –> 00:21:29,120
در مقیاس پردازش کنید، نه همه چیز،
547
00:21:29,120 –> 00:21:31,200
احتمالاً برای پردازش متوالی دادهها به چندین کار کاهش یافته نقشه نیاز دارید،
548
00:21:31,200 –> 00:21:32,320
549
00:21:32,320 –> 00:21:34,159
اما به طور کلی این
550
00:21:34,159 –> 00:21:35,440
رویکرد درستی است
551
00:21:35,440 –> 00:21:39,360
و فروشندگان ابری این
552
00:21:39,360 –> 00:21:41,679
رویکرد را به سطح بعدی رساندهاند و
553
00:21:41,679 –> 00:21:43,039
اکنون به شما اجازه میدهند
554
00:21:43,039 –> 00:21:46,240
پایتون یا به طور خاصتر پی اسپارک را انتخاب کنید.
555
00:21:46,240 –> 00:21:46,880
و آن را
556
00:21:46,880 –> 00:21:49,360
در فضای ابری اجرا کنید، آنها محیطی به اصطلاح
557
00:21:49,360 –> 00:21:51,039
مدیریت شده ایجاد می کنند که
558
00:21:51,039 –> 00:21:53,919
در آن ابر همه
559
00:21:53,919 –> 00:21:54,799
اجزای ضروری
560
00:21:54,799 –> 00:21:56,880
سیستم را در اختیار شما قرار
561
00:21:56,880 –> 00:21:58,159
می دهد
562
00:21:58,159 –> 00:22:00,320
تا بتوانید کل چرخه توسعه را
563
00:22:00,320 –> 00:22:02,320
از پردازش داده های جذب
564
00:22:02,320 –> 00:22:04,480
داده و ذخیره سازی داده ها طی کنید. ماندن در فضای
565
00:22:04,480 –> 00:22:06,320
ابری و همچنین محیط های ارتباطی بسیار سازنده ای به شما می دهند که
566
00:22:06,320 –> 00:22:08,720
567
00:22:08,720 –> 00:22:10,840
568
00:22:10,840 –> 00:22:14,720
عمدتاً از نوع ژوپیت هستند.
569
00:22:14,720 –> 00:22:17,840
سیستم های مبتنی بر نوت بوک r به عنوان مثال یک مثال عالی
570
00:22:17,840 –> 00:22:18,400
571
00:22:18,400 –> 00:22:21,600
چسب aws است، بنابراین چسب
572
00:22:21,600 –> 00:22:25,919
، راه بسیار خوبی برای نامگذاری سیستم است،
573
00:22:25,919 –> 00:22:26,799
حدس میزنم آمازون
574
00:22:26,799 –> 00:22:30,080
به اعتبار آنها، آه، آنها این
575
00:22:30,080 –> 00:22:32,480
توانایی را دارند که
576
00:22:32,480 –> 00:22:33,120
نامهای خوبی مانند
577
00:22:33,120 –> 00:22:36,240
شماره s3 و چسب بیاورند. خیلی خوب
578
00:22:36,240 –> 00:22:38,480
اوم و این دقیقاً همان چیزی است که آنها
579
00:22:38,480 –> 00:22:40,159
فقط
580
00:22:40,159 –> 00:22:43,200
پلت فرم جرقه را قرض
581
00:22:43,200 –> 00:22:45,120
گرفتند و در بالای آن یک
582
00:22:45,120 –> 00:22:46,880
لایه صحنه ایجاد کردند که
583
00:22:46,880 –> 00:22:49,280
یکپارچه سازی بسیار محکمی با
584
00:22:49,280 –> 00:22:50,240
سرویس های دیگر s3 ارائه
585
00:22:50,240 –> 00:22:54,000
کردند و به شما یک نوت بوک جدا از هم
586
00:22:54,000 –> 00:22:57,280
یا
587
00:22:57,280 –> 00:22:59,280
نوت بوک های Sagemaker می دهند که در آن. میتوانید
588
00:22:59,280 –> 00:23:00,960
برنامههای خود را
589
00:23:00,960 –> 00:23:02,480
طوری توسعه دهید که گویی برنامههای پایتون مستقل معمولی شما هستند،
590
00:23:02,480 –> 00:23:04,880
591
00:23:04,880 –> 00:23:07,440
و من حدس میزنم همه چیز به طور کلی در آن جا پیش میرود،
592
00:23:07,440 –> 00:23:08,080
593
00:23:08,080 –> 00:23:11,039
بنابراین بیایید نگاهی دقیقتر
594
00:23:11,039 –> 00:23:12,240
595
00:23:12,240 –> 00:23:14,320
به نحوه برخورد شما با برخی
596
00:23:14,320 –> 00:23:15,760
از مهمترها
597
00:23:15,760 –> 00:23:17,760
و معمولاً آنها داشته باشیم. یک
598
00:23:17,760 –> 00:23:20,240
نوع تمرین معمولی و معمولی
599
00:23:20,240 –> 00:23:23,760
، اوه، اما آنها کاملاً
600
00:23:23,760 –> 00:23:27,039
حیاتی هستند تا مطمئن شوید که
601
00:23:27,039 –> 00:23:30,960
مردمی که در
602
00:23:31,200 –> 00:23:33,600
پایین جاده هستند،
603
00:23:33,600 –> 00:23:35,840
از داده های شما
60