در این مطلب، ویدئو مهندسی داده با پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:47:33
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:02,879 –> 00:00:04,710
صبح بخیر همه
2
00:00:04,710 –> 00:00:09,780
به این وبینار خوش آمدید به نمایندگی از همه
3
00:00:09,780 –> 00:00:11,129
این راه حل ها من می خواهم به
4
00:00:11,129 –> 00:00:14,339
شما خوش آمد بگویم مهندسی داده با پایتون
5
00:00:14,339 –> 00:00:17,130
ارائه یک ساعته خواهد بود
6
00:00:17,130 –> 00:00:22,019
نام من نیکولا است شام امروز حضور شما خواهم بود
7
00:00:22,019 –> 00:00:25,769
دستور کار ما به شرح زیر است
8
00:00:25,769 –> 00:00:30,689
ما در مورد مهندسی ترکیبی صحبت خواهیم کرد که
9
00:00:30,689 –> 00:00:33,050
چنین رشته مهمی
10
00:00:33,050 –> 00:00:36,090
نقش های بسیار مرتبط را به سرعت بررسی
11
00:00:36,090 –> 00:00:38,899
12
00:00:38,899 –> 00:00:44,160
13
00:00:44,160 –> 00:00:48,030
می
14
00:00:48,030 –> 00:00:52,399
کند.
15
00:00:52,399 –> 00:00:55,769
row و ما در
16
00:00:55,769 –> 00:00:58,350
مورد Python نه خیلی عمیق صحبت خواهیم کرد
17
00:00:58,350 –> 00:01:03,149
، ما قصد نداریم یک ارائه
18
00:01:03,149 –> 00:01:07,009
عمیق در Python انجام دهیم. من احساس می کنم بیشتر یک
19
00:01:07,009 –> 00:01:10,920
زبان هستیم و فقط زبان همه جا در
20
00:01:10,920 –> 00:01:13,380
زمینه موارد استفاده از مهندسی داده است، بنابراین
21
00:01:13,380 –> 00:01:17,340
این یک هدف است و ما.
22
00:01:17,340 –> 00:01:21,840
با دو کتابخانه صحبت خواهم کرد، بنابراین اگر
23
00:01:21,840 –> 00:01:25,950
انتظار دارید از من بشنوید که چگونه نوتبوکهای Python Jupiter را اجرا کنم
24
00:01:25,950 –> 00:01:28,979
و چه
25
00:01:28,979 –> 00:01:31,380
پیکربندی برای راهاندازی آن روی خوشهای
26
00:01:31,380 –> 00:01:34,049
که Apache را اجرا میکند، چگونه است. اسپارک خواهد بود ملی پوشان
27
00:01:34,049 –> 00:01:36,770
مهربان هستند، این یک
28
00:01:36,770 –> 00:01:44,299
مرور کلی در سطح بالایی از آن نقش جدید و
29
00:01:44,299 –> 00:01:47,460
شایستگی های اصلی خواهد بود، این همان چیزی است که مردم
30
00:01:47,460 –> 00:01:51,060
واقعاً درخواست
31
00:01:51,060 –> 00:01:54,719
می کنند، به هر حال، اگر سؤالی دارید، فقط یک تله برای من بفرستید
32
00:01:54,719 –> 00:01:55,549
33
00:01:55,549 –> 00:01:59,070
، باید یک پنجره چت به خوبی وجود داشته باشد. شما
34
00:01:59,070 –> 00:02:01,200
می توانید این کار را به صورت خصوصی انجام دهید یا می توانید آن را
35
00:02:01,200 –> 00:02:05,240
برای همه به جز خانواده ها برای همه شرکت کنندگان بفرستید،
36
00:02:05,240 –> 00:02:09,360
در این مورد، من می خواهم
37
00:02:09,360 –> 00:02:12,150
راهی به شما بدهم تا با من صحبت کنید در
38
00:02:12,150 –> 00:02:15,210
حال حاضر شما در حالت بی صدا هستید، من نمی توانم به
39
00:02:15,210 –> 00:02:16,200
شما اجازه صحبت
40
00:02:16,200 –> 00:02:19,110
کردن را بدهم.
41
00:02:19,110 –> 00:02:22,019
حفظ نظم و ترتیب کمی دشوار است، پس
42
00:02:22,019 –> 00:02:27,890
بیایید ادامه دهیم، بنابراین این نقل قول
43
00:02:27,890 –> 00:02:31,050
توسط بسیاری شناخته شده است که آینده مانند
44
00:02:31,050 –> 00:02:36,450
گذشته نیست و در واقع این نقل
45
00:02:36,450 –> 00:02:40,920
قول به یوگی برا، مربی معروف بازیکن بیسبال نسبت داده می شود.
46
00:02:40,920 –> 00:02:45,390
در ایالات متحده، اما
47
00:02:45,390 –> 00:02:48,959
اگر به این نقل قول نگاه کنید و
48
00:02:48,959 –> 00:02:53,549
در واقع آنچه او گفت و به آن
49
00:02:53,549 –> 00:02:56,760
نگاه کنید به نوعی سرگرم کننده نیست و معمولاً
50
00:02:56,760 –> 00:03:02,610
فعل آن نیست، می
51
00:03:02,610 –> 00:03:07,130
توانید نقل قول را تا پایین دنبال کنید. در حدود
52
00:03:07,130 –> 00:03:10,769
سال 1967 که در آن سیاسی مانند بسیاری از
53
00:03:10,769 –> 00:03:13,860
نوشتن و d رابرت گریوز
54
00:03:13,860 –> 00:03:16,620
برای اولین بار از این عبارت استفاده می کرد،
55
00:03:16,620 –> 00:03:18,480
شاید توسط شخص دیگری استفاده شده باشد، اما به
56
00:03:18,480 –> 00:03:24,260
همین دلیل است که می توانید به عقب برگردید.
57
00:03:24,260 –> 00:03:27,480
58
00:03:27,480 –> 00:03:30,540
59
00:03:30,540 –> 00:03:34,500
در واقع این که به
60
00:03:34,500 –> 00:03:39,260
جای هشت است، در واقع
61
00:03:39,260 –> 00:03:42,630
سردرگمی آنها را ایجاد نمی کند که
62
00:03:42,630 –> 00:03:46,590
اصل و نسب واقعی آن عبارت درست است و اینها
63
00:03:46,590 –> 00:03:49,380
موضوعاتی هستند که مهندسان داده با آنها روبرو هستند،
64
00:03:49,380 –> 00:03:51,690
می توان حدس زد که
65
00:03:51,690 –> 00:03:54,450
کل موضوع را از نظر تجزیه و تحلیل
66
00:03:54,450 –> 00:03:57,959
داده های تجزیه و تحلیل متن و تجزیه و تحلیل داده ها بازنویسی کنید.
67
00:03:57,959 –> 00:04:01,440
چیزی که پردازش زبان طبیعی را پردازش می کند، آن را
68
00:04:01,440 –> 00:04:03,510
یادگیری ماشینی و همه چیزها نامگذاری کنید، اما در واقع
69
00:04:03,510 –> 00:04:05,940
این فقط عقل سلیم است و درک
70
00:04:05,940 –> 00:04:08,130
مشکل شما از یک
71
00:04:08,130 –> 00:04:10,829
دامنه مشکل، زبانی است که ما می خواهیم مطمئن شویم که
72
00:04:10,829 –> 00:04:15,000
حقوق خود را به کسانی که ابتدا از این چهره استفاده می کنند پرداخت
73
00:04:15,000 –> 00:04:16,769
می کنیم. تقریباً به
74
00:04:16,769 –> 00:04:18,660
طور خلاصه آنچه که من حدس میزنم
75
00:04:18,660 –> 00:04:20,910
مهندسی داده درباره آن است،
76
00:04:20,910 –> 00:04:23,880
کمی استعاره است، این دقیقاً این نیست که برخی
77
00:04:23,880 –> 00:04:26,070
افراد ممکن است بگویند، بنابراین
78
00:04:26,070 –> 00:04:27,960
رابطه چیست آنها باید
79
00:04:27,960 –> 00:04:29,960
به افراد دیگری مراجعه کنند که به
80
00:04:29,960 –> 00:04:32,030
نوعی به یک روش بصری برای درک چیزها کمک می
81
00:04:32,030 –> 00:04:40,130
کنند، به طوری که مهندسی این
82
00:04:40,130 –> 00:04:44,539
عملی است که با داده ها همدلی دارد
83
00:04:44,539 –> 00:04:47,900
و منظور من از آن این است که داده ها به
84
00:04:47,900 –> 00:04:50,690
خودی خود داده های پوستی داده ها بسیار مهم هستند و
85
00:04:50,690 –> 00:04:54,080
مهمترین آنها ما هستند. دارایی اما
86
00:04:54,080 –> 00:04:59,090
داده یک نوع زنده از دارایی است که
87
00:04:59,090 –> 00:05:02,180
باید جذب شود، تبدیل شده و
88
00:05:02,180 –> 00:05:06,169
به طور ایمن فکر شود.
89
00:05:06,169 –> 00:05:08,300
90
00:05:08,300 –> 00:05:10,880
91
00:05:10,880 –> 00:05:17,080
92
00:05:17,349 –> 00:05:23,300
به هر حال،
93
00:05:23,300 –> 00:05:26,720
من میخواهم مطمئن شوم که شما میتوانید اسلایدها را ببینید،
94
00:05:26,720 –> 00:05:28,849
زیرا بازخوردی
95
00:05:28,849 –> 00:05:30,349
در مورد اسلایدها ندارم، میدانم که میتوانید صدای
96
00:05:30,349 –> 00:05:33,139
من را بشنوید، اگر میتوانید اسلایدهای من را ببینید
97
00:05:33,139 –> 00:05:34,759
و میتوانید صدایم را بشنوید، میتوانید کمک بگیرید،
98
00:05:34,759 –> 00:05:39,199
اوه ممنون شما خیلی خیلی خوب هستید، پس
99
00:05:39,199 –> 00:05:45,580
بچه ها خیلی متشکرم، پس بیایید ادامه دهیم،
100
00:05:46,570 –> 00:05:52,509
امیدوارم کسانی که در این جلسه حضور دارند،
101
00:05:52,509 –> 00:05:55,880
برای یادگیری عمدی اینجا هستند، گاهی اوقات
102
00:05:55,880 –> 00:06:01,460
وقتی
103
00:06:01,460 –> 00:06:04,550
کلاس های خود را در این کلاس های مجازی برگزار می کنیم، چه اتفاقی می
104
00:06:04,550 –> 00:06:06,800
افتد. شما
105
00:06:06,800 –> 00:06:09,320
مخاطبان را به خوبی نمیشناسید و مخاطبان کاملاً
106
00:06:09,320 –> 00:06:11,680
متنوع هستند، مردم از
107
00:06:11,680 –> 00:06:14,659
اقشار مختلف سازماندهی مجدد وارد میشوند و
108
00:06:14,659 –> 00:06:17,000
پیدا کردن چنین
109
00:06:17,000 –> 00:06:20,509
مخرج مشترکی که به نوعی
110
00:06:20,509 –> 00:06:23,509
با نیازهای همه مطابقت داشته باشد، بسیار دشوار است، بنابراین
111
00:06:23,509 –> 00:06:25,719
فرض من این است که که شما به آن نگاه می کنید
112
00:06:25,719 –> 00:06:28,969
و ما در حال تلاش برای به دست آوردن
113
00:06:28,969 –> 00:06:30,680
اطلاعات بیشتر در مورد مهندسی داده هستیم و
114
00:06:30,680 –> 00:06:33,849
شما علاقه خاصی به آن دارید،
115
00:06:33,849 –> 00:06:36,650
بنابراین در مورد مسائل پایتون بیشتر
116
00:06:36,650 –> 00:06:39,620
است، اما چیزی که من پیدا کردم این است که گاهی اوقات
117
00:06:39,620 –> 00:06:42,560
مردم دقیقاً مانند
118
00:06:42,560 –> 00:06:43,600
زبان و زبان گیر می کنند. آنها
119
00:06:43,600 –> 00:06:45,640
من برای زندگی آماده هستم نیازی به انجام هیچ کار دیگری ندارم، این
120
00:06:45,640 –> 00:06:47,860
چیزی است که همه
121
00:06:47,860 –> 00:06:50,740
استفاده می کنند، این مورد نیست، شما باید برای
122
00:06:50,740 –> 00:06:53,730
برنامه نویس چند زبانه بودن آماده باشید
123
00:06:53,730 –> 00:06:56,560
پایتون تنها یکی از احتمالاً
124
00:06:56,560 –> 00:06:58,990
مهم ترین زبان کشوری است که در یادگیری ماشین استفاده می شود.
125
00:06:58,990 –> 00:07:01,200
و مهندسی
126
00:07:01,200 –> 00:07:03,640
داده سیستمهایی هستند که
127
00:07:03,640 –> 00:07:06,730
بهزودی به آنها اشاره میکنیم تا نقشهای بالا را
128
00:07:06,730 –> 00:07:13,620
بتوانید سه نقش کاملاً متمایز یا
129
00:07:13,620 –> 00:07:22,660
نه چندان متمایز مرتبط
130
00:07:22,660 –> 00:07:25,480
Pepi را تعریف کنید. به هم پیوستگی و
131
00:07:25,480 –> 00:07:30,460
سلسله مراتب آنها، اجازه دهید با نقش مهندس داده شروع کنیم،
132
00:07:30,460 –> 00:07:35,110
133
00:07:35,110 –> 00:07:39,070
اما برای آمادهسازی
134
00:07:39,070 –> 00:07:42,120
دادهها برای تحلیلگران داده و دانشمند داده
135
00:07:42,120 –> 00:07:46,180
ممکن است،
136
00:07:46,180 –> 00:07:48,610
قرار دادن
137
00:07:48,610 –> 00:07:51,390
دانشمندان داده بالاتر از تحلیلگران دادهها کمی صحیح است.
138
00:07:51,390 –> 00:07:54,310
ابزارهای هوش تجاری که به تحلیلگران اجازه میدهد
139
00:07:54,310 –> 00:07:59,970
در بیشتر موارد استفاده کنند،
140
00:07:59,970 –> 00:08:03,610
با ابزارها و ابزارهای استفادهشده توسط
141
00:08:03,610 –> 00:08:06,430
دانشمندان داده سازگار هستند، اما قطعاً برخی از
142
00:08:06,430 –> 00:08:08,920
افراد دارای ذهنیت تجاریتر در جایی
143
00:08:08,920 –> 00:08:12,100
که حوزه مشکل را میدانند،
144
00:08:12,100 –> 00:08:16,960
با افرادی که
145
00:08:16,960 –> 00:08:18,370
احتمالاً تصمیمات تاکتیکی و استراتژیک را
146
00:08:18,370 –> 00:08:22,420
اتخاذ میکنند، ارتباط تنگاتنگی دارند. به نوعی آنها
147
00:08:22,420 –> 00:08:25,440
در بافت تجاری سازمانی تعبیه شدهاند.
148
00:08:25,440 –> 00:08:27,880
دانشمندان دادههای سازمان یا
149
00:08:27,880 –> 00:08:30,400
دانشمندان یادگیری ماشین افرادی هستند که
150
00:08:30,400 –> 00:08:33,490
احتمالاً کمی از
151
00:08:33,490 –> 00:08:35,500
نمودار فاصله دارند و فقط یک
152
00:08:35,500 –> 00:08:38,799
سلسله
153
00:08:38,799 –> 00:08:39,429
154
00:08:39,429 –> 00:08:42,880
مراتب سازمانی خوب هستند.
155
00:08:42,880 –> 00:08:47,790
تجربه یا آموزش در آمار و
156
00:08:47,790 –> 00:08:51,100
بیرون آمد یا یادگیری ماشین اکسپت آزمایشات
157
00:08:51,100 –> 00:08:55,830
با استفاده از روش های علمی،
158
00:08:56,490 –> 00:09:00,750
بنابراین این یک مبارزه بزرگ است، اما ما شاهد بودیم
159
00:09:00,750 –> 00:09:03,690
که قبلاً علم داده نوعی
160
00:09:03,690 –> 00:09:05,880
شایستگی اصلی است و بسیاری از سازمان
161
00:09:05,880 –> 00:09:08,459
ها اکنون در تلاش هستند تا
162
00:09:08,459 –> 00:09:12,089
مکان مناسبی برای این نقش و در
163
00:09:12,089 –> 00:09:14,279
بسیاری از موارد مانند تحلیلگران تجاری شناسایی کنند. آنها
164
00:09:14,279 –> 00:09:16,200
این مسئولیت را بر عهده می گیرند
165
00:09:16,200 –> 00:09:19,010
و تقریباً مسئولیت های شغلی خود را
166
00:09:19,010 –> 00:09:22,550
در آن رشته علوم داده تغییر
167
00:09:22,550 –> 00:09:25,110
می دهند و ناگهان
168
00:09:25,110 –> 00:09:27,540
شما دانشمند می شوید، اما در واقع این
169
00:09:27,540 –> 00:09:30,540
چند چیز است، بنابراین برای ایجاد این قابلیت باید به آنها نیاز داشته باشید.
170
00:09:30,540 –> 00:09:32,730
171
00:09:32,730 –> 00:09:39,209
به همان اندازه مهم است که چگونه میتوانید سازمان را برای
172
00:09:39,209 –> 00:09:42,660
تصمیمگیری تاکتیکی مبتنی بر دادهها و 30
173
00:09:42,660 –> 00:09:45,839
تصمیمگیری که باید تعداد زیادی از آنها را داشته باشید و
174
00:09:45,839 –> 00:09:49,230
از حوزههای مختلف پشتیبانی جمعآوری کنید، بنابراین
175
00:09:49,230 –> 00:09:51,720
آنها تعریف میکنند که این چیزی است که
176
00:09:51,720 –> 00:09:54,060
همه آن چیزها را در یک راه یا
177
00:09:54,060 –> 00:09:54,600
دیگری شامل میشود
178
00:09:54,600 –> 00:09:57,270
قطعاً آمار ریاضی ذهن هکر
179
00:09:57,270 –> 00:09:59,490
میتواند دانشمندان دیوانه به نظر می رسند
180
00:09:59,490 –> 00:10:01,950
نوع رویکرد بسیار مهم است
181
00:10:01,950 –> 00:10:04,770
تخصص حوزه مهم است اما معمولاً
182
00:10:04,770 –> 00:10:07,800
بخشی از نقش تحلیلگر کسب و کار و
183
00:10:07,800 –> 00:10:11,579
موتور داده است. eering باید با هم ترکیب شود،
184
00:10:11,579 –> 00:10:14,160
احتمالاً می توانید این اسلاید را بازنویسی کنید،
185
00:10:14,160 –> 00:10:16,829
جایی که مهندسی داده به علاوه
186
00:10:16,829 –> 00:10:21,200
محاسبات پیشرفته بخش
187
00:10:21,200 –> 00:10:23,399
دیگری است که قلمرو مهندسی داده خواهد
188
00:10:23,399 –> 00:10:25,170
بود، بنابراین امیدوارم
189
00:10:25,170 –> 00:10:29,250
که منطقی باشد اما در کل ایده این است
190
00:10:29,250 –> 00:10:33,930
که داده های خود را در قسمت جلو تنظیم کنیم. و مرکز
191
00:10:33,930 –> 00:10:38,070
تمرکز ما جایی است که میتوانیم دادهها را به
192
00:10:38,070 –> 00:10:42,329
بینشهای عملی تبدیل کنیم و برای سازمانمان ارزش
193
00:10:42,329 –> 00:10:47,910
بیاوریم، بنابراین چه چیزهایی در یک
194
00:10:47,910 –> 00:10:49,350
ثانیه وجود دارد، آیا
195
00:10:49,350 –> 00:10:51,660
پیشنهادی در مورد نشانه بصری دارید
196
00:10:51,660 –> 00:10:55,100
، سوال جالبی است که
197
00:10:55,100 –> 00:10:59,190
منظورم مهندس ساختن است. دوست دارم
198
00:10:59,190 –> 00:11:04,430
نظر شما را بشنوم بازوی QA ما،
199
00:11:06,220 –> 00:11:08,220
میتوانم بگویم که QA کسی است که
200
00:11:08,220 –> 00:11:12,820
فرض میکند اگر شما برای مثال واقعاً
201
00:11:12,820 –> 00:11:16,660
در انبار داده هستید و
202
00:11:16,660 –> 00:11:20,170
فرض میکنید که آن شخص را در نقش کلیدی در
203
00:11:20,170 –> 00:11:23,290
تمام وظایف ایجاد میکنید، به خصوص زمانی که
204
00:11:23,290 –> 00:11:25,900
آنها قبل از انجام آنها باشند.
205
00:11:25,900 –> 00:11:27,460
همه آن اسکریپتهایی را که باید
206
00:11:27,460 –> 00:11:31,630
روی مجموعههای داده کوچکتر آزمایش شوند در مرحله تولید قرار دادند، بنابراین میتوانم
207
00:11:31,630 –> 00:11:34,000
بگویم که در سطح
208
00:11:34,000 –> 00:11:36,160
این مهندسان داده است تا
209
00:11:36,160 –> 00:11:40,360
آن افراد اساساً تأیید همه
210
00:11:40,360 –> 00:11:46,150
اسکریپت ها همه مشاغل تبدیلی که
211
00:11:46,150 –> 00:11:48,370
توسط مهندسان داده ایجاد می شود اما
212
00:11:48,370 –> 00:11:51,700
در عین حال قطعاً QA
213
00:11:51,700 –> 00:11:54,970
با تجزیه و تحلیل
214
00:11:54,970 –> 00:11:57,460
داده ها در مورد دانشمندان داده که مدل
215
00:11:57,460 –> 00:12:00,340
هایی دارند کاری انجام نمی دهد و آن مدل ها نیز باید تأیید
216
00:12:00,340 –> 00:12:03,790
شوند و مشکل وجود دارد. با دانشمندان و
217
00:12:03,790 –> 00:12:06,280
مهندسان، آنها به نوعی این
218
00:12:06,280 –> 00:12:08,620
تخریب را ندارند، نوعی به دنبال و نابود کردن هستند، من
219
00:12:08,620 –> 00:12:11,650
فکر می کنم درست مانند متالیکا،
220
00:12:11,650 –> 00:12:14,440
این در مورد ایجاد
221
00:12:14,440 –> 00:12:16,960
و ایجاد الگوریتم های ارزش
222
00:12:16,960 –> 00:12:19,240
آفرینی نیست و در این مورد بسیار حساس هستند،
223
00:12:19,240 –> 00:12:21,780
باید کسانی باشند که قدم بگذارند. در و شروع به نوعی
224
00:12:21,780 –> 00:12:23,830
بولدوزر کردن همه چیز فقط بیایید
225
00:12:23,830 –> 00:12:26,160
بشکنیم بیایید یک وقفه ایجاد کنیم
226
00:12:26,160 –> 00:12:29,520
که خوراک داده در دسترس نیست
227
00:12:29,520 –> 00:12:32,430
ما طعم استثنا نقطه صفر را میبینیم
228
00:12:32,430 –> 00:12:35,380
بنابراین ایجاد قطعاً در
229
00:12:35,380 –> 00:12:37,660
سطح مهندس داده و به علاوه دانشمند داده وجود دارد
230
00:12:37,660 –> 00:12:39,790
امیدوارم به هر حال توانسته باشم به سوال شما پاسخ دهم،
231
00:12:39,790 –> 00:12:41,600
232
00:12:41,600 –> 00:12:46,220
بنابراین ما در حال حرکت هستیم،
233
00:12:46,220 –> 00:12:48,860
بنابراین البته مهارت و شایستگی
234
00:12:48,860 –> 00:12:52,200
قطعاً برنامه نویسی sk است. به نظر
235
00:12:52,200 –> 00:12:55,310
میرسد پایتون یکی از آن زبانهایی است که مسلط است،
236
00:12:55,310 –> 00:12:59,100
نه، اما اگر
237
00:12:59,100 –> 00:13:01,320
واقعاً میخواهید فردی با
238
00:13:01,320 –> 00:13:05,130
حقوق بالا شوید، خودتان را محدود نکنید و باید به سراغ
239
00:13:05,130 –> 00:13:07,260
شخصی بروید، باید چیزهای دیگری را درک
240
00:13:07,260 –> 00:13:10,529
کنید، احتمالاً جاوا
241
00:13:10,529 –> 00:13:13,320
میتواند برنامهنویسی ما باشد. محدوده آنها
242
00:13:13,320 –> 00:13:16,110
قابلیت همکاری فرمتهای فایل را
243
00:13:16,110 –> 00:13:17,790
بسیار مهم میسازد که میتواند یک اسلاید باشد
244
00:13:17,790 –> 00:13:20,400
که در آن بحث میکنیم که چگونه
245
00:13:20,400 –> 00:13:23,339
با درک چیزهای بسیار ساده
246
00:13:23,339 –> 00:13:26,100
در سطح میتوانند همه
247
00:13:26,100 –> 00:13:29,370
تفاوت را درست کنند و نیاز به درک درست
248
00:13:29,370 –> 00:13:32,580
رابط کاربری در نقش مهندس داده دارند. بنابراین
249
00:13:32,580 –> 00:13:34,260
شما یک مهندس داده دارید که
250
00:13:34,260 –> 00:13:37,339
از شما انتظار می رود، بنابراین باید
251
00:13:37,339 –> 00:13:39,860
در محیطی کار کنید که در آن به
252
00:13:39,860 –> 00:13:43,680
نوعی با
253
00:13:43,680 –> 00:13:46,980
DBS دست و پا می زنید که به معنی ذخیره داده ها است و همه افراد
254
00:13:46,980 –> 00:13:49,709
در این devoxx قطعاً اکنون یک
255
00:13:49,709 –> 00:13:52,560
رشته بسیار محبوب است. شما باید
256
00:13:52,560 –> 00:13:56,610
کل منابع طبقه را درک کنید.
257
00:13:56,610 –> 00:13:58,980
258
00:13:58,980 –> 00:14:01,650
259
00:14:01,650 –> 00:14:04,230
260
00:14:04,230 –> 00:14:06,930
اگر یک تراز دیسک نور خورشید وجود داشته باشد
261
00:14:06,930 –> 00:14:09,000
و داده های شما به
262
00:14:09,000 –> 00:14:11,550
جای دیگری ختم شود، احتمالاً یک فراخوان نهایی دارید،
263
00:14:11,550 –> 00:14:14,100
بنابراین داده های من را وزن کنید و
264
00:14:14,100 –> 00:14:17,550
به تدریج آن نوع شهری را کشف خواهید کرد که
265
00:14:17,550 –> 00:14:20,459
یک نوع دانش قبیله ای است.
266
00:14:20,459 –> 00:14:23,520
267
00:14:23,520 –> 00:14:25,260
بهتر است زمانی که
268
00:14:25,260 –> 00:14:27,120
استخدام شده اید یا به آن سمت منتقل می
269
00:14:27,120 –> 00:14:30,810
شوید این کار را انجام دهید تا بفهمید
270
00:14:30,810 –> 00:14:33,029
مصرف کنندگانی که تحت تاثیر آن قرار می گیرند چه کسانی هستند
271
00:14:33,029 –> 00:14:37,020
، بسیار مهم است زیرا
272
00:14:37,020 –> 00:14:40,380
آنها از بسیاری از فعالیت های دیگر که فقط در نظر گرفته می شوند پشتیبانی مهندسی می کنند.
273
00:14:40,380 –> 00:14:43,350
274
00:14:43,350 –> 00:14:46,230
نقش مهندس داده محوری بسیار مهم
275
00:14:46,230 –> 00:14:51,089
و کارآمد است که در آن شما باید
276
00:14:51,089 –> 00:14:53,339
جنبه هایی از این فرآیند را درک کنید، از جمله
277
00:14:53,339 –> 00:14:53,939
278
00:14:53,939 –> 00:14:59,009
محدودیت های زمانی آب آیا می
279
00:14:59,009 –> 00:15:02,059
توانیم این کار را در زمان جنگ پردازش کنیم و
280
00:15:02,059 –> 00:15:05,789
ذخیره سازی از نظر ظرفیت چقدر
281
00:15:05,789 –> 00:15:08,279
ذخیره سازی نیاز به مقدار زیادی دارد. چیزها
282
00:15:08,279 –> 00:15:10,079
و هر چه بیشتر در این بخش بدانید
283
00:15:10,079 –> 00:15:11,970
بهتر است زیرا گاهی اوقات مردم فقط
284
00:15:11,970 –> 00:15:14,039
راه می روند و می گویند خوب اسکریپت کجاست بیا
285
00:15:14,039 –> 00:15:16,559
بدون درک آن را اجرا کنیم.
286
00:15:16,559 –> 00:15:18,149
یک ارابایت داده
287
00:15:18,149 –> 00:15:20,519
و شما متوجه خواهید شد که من نمی دانم
288
00:15:20,519 –> 00:15:22,709
نوعی خطای دستیار وجود دارد یا ممکن است مجبور شوید
289
00:15:22,709 –> 00:15:26,159
شبکه را به طور کامل مصرف کنید
290
00:15:26,159 –> 00:15:28,789
و صفحه نمایش زیادی و
291
00:15:28,789 –> 00:15:31,769
جایی در آن اتاق وجود دارد، بنابراین باید به
292
00:15:31,769 –> 00:15:34,889
نوعی دلیل آن باشید. من می گویم
293
00:15:34,889 –> 00:15:38,789
که من خودم را معرفی نکرده
294
00:15:38,789 –> 00:15:40,859
ام اما بیش از بیست سال است که در IT
295
00:15:40,859 –> 00:15:42,959
هستم.
296
00:15:42,959 –> 00:15:44,609
297
00:15:44,609 –> 00:15:46,919
298
00:15:46,919 –> 00:15:52,699
299
00:15:52,699 –> 00:15:55,859
شرکت فعلی من میدانم که
300
00:15:55,859 –> 00:15:57,479
افراد به اندازهای وجود دارد که فقط
301
00:15:57,479 –> 00:15:59,729
از دست میدهند، آنها روی جنبههای خاصی تمرکز کردهاند
302
00:15:59,729 –> 00:16:03,199
و میخواهند در
303
00:16:03,199 –> 00:16:08,519
یک زبان باقی بمانند و
304
00:16:08,519 –> 00:16:11,189
چیزی خارج از چشمانداز بسیار محدود ندانند
305
00:16:11,189 –> 00:16:13,319
و این روی شغل شما تأثیر
306
00:16:13,319 –> 00:16:15,149
میگذارد. افرادی که
307
00:16:15,149 –> 00:16:18,029
با شما مشکل دارند می دانید با چیزهایی هم که
308
00:16:18,029 –> 00:16:19,349
درونگرا هستند دوست ندارند با
309
00:16:19,349 –> 00:16:21,959
آنها ارتباط برقرار کنند این افراد شاید
310
00:16:21,959 –> 00:16:23,669
انگلیسی آنها دنبال وب نیست و
311
00:16:23,669 –> 00:16:26,279
هر چیزی را می گویند فقط به من بگویید چه
312
00:16:26,279 –> 00:16:28,739
کار کنم اما شما م خیلی بهتر است اگر
313
00:16:28,739 –> 00:16:31,859
کاملاً درگیر این فرآیند
314
00:16:31,859 –> 00:16:33,959
شوید، اگر به شما کمک کنید تا
315
00:16:33,959 –> 00:16:35,669
شغل خود را رشد دهید، به شما کمک می کند و به
316
00:16:35,669 –> 00:16:37,559
سازمان هایی که شما را استخدام کرده اند کمک می کند به این
317
00:16:37,559 –> 00:16:40,109
امید که او ارزش خوبی برای شما به ارمغان بیاورد، بنابراین
318
00:16:40,109 –> 00:16:42,869
فقط همه این موارد را رزا و سایر نرم افزارها در نظر بگیرید.
319
00:16:42,869 –> 00:16:45,599
مهارتها اما آنها شایستگیهایی هستند
320
00:16:45,599 –> 00:16:48,720
که باید فقط به آنها مسلط شوید، بنابراین
321
00:16:48,720 –> 00:16:51,739
مدلسازی بهتر کمی مهارت پیشرفته است،
322
00:16:51,739 –> 00:16:54,749
باید بدانید
323
00:16:54,749 –> 00:16:56,609
که دقیقاً چگونه دادههای پارتیشن
324
00:16:56,609 –> 00:17:01,470
چه دادههایی که در ساخت شما نگهداری میشوند،
325
00:17:01,470 –> 00:17:03,929
سوابق تکراری دارند و هم از نظر
326
00:17:03,929 –> 00:17:07,650
ذخیرهسازی. یا از نظر به روز رسانی ها،
327
00:17:07,650 –> 00:17:12,599
اما دانش پایه نه در مورد آخرین سیستم های
328
00:17:12,599 –> 00:17:14,579
روشن، بلکه بیشتر سیستم های SQL، اما
329
00:17:14,579 –> 00:17:17,760
به خصوص در حال حاضر Hadoop و
330
00:17:17,760 –> 00:17:19,980
سیستم های مشابه و هر سیستمی که
331
00:17:19,980 –> 00:17:21,959
برای انجام
332
00:17:21,959 –> 00:17:27,390
جرقه HBase Apache در حال اجرا است، باید
333
00:17:27,390 –> 00:17:29,520
درک کنید که در واقع طرحواره چگونه است.
334
00:17:29,520 –> 00:17:31,350
برای تعمیم داده ها و
335
00:17:31,350 –> 00:17:34,400
بهترین رویکرد و مهارت های تحلیلی خوب
336
00:17:34,400 –> 00:17:39,120
کدام است، بنابراین این ایده از فیزیک داده وجود دارد که
337
00:17:39,120 –> 00:17:41,970
چگونه داده ها به نوعی در اطراف آن حرکت می کنند
338
00:17:41,970 –> 00:17:44,670
، کمی به نظر می رسد. شاید دور از ذهن باشد
339
00:17:44,670 –> 00:17:46,860
و برخی می گویند پس شما
340
00:17:46,860 –> 00:17:47,520
در مورد
341
00:17:47,520 –> 00:17:49,710
چه کهکشانی بزرگ صحبت می کنید اگر
342
00:17:49,710 –> 00:17:51,690
با Hadoop با MapReduce آشنا
343
00:17:51,690 –> 00:17:55,559
باشید اساساً
344
00:17:55,559 –> 00:18:01,320
جهت تعامل پردازش سرور مشتری را
345
00:18:01,320 –> 00:18:03,809
به صورت معکوس معکوس می کنید، بنابراین
346
00:18:03,809 –> 00:18:06,210
گاهی اوقات باید این را درک کنید احتمالاً
347
00:18:06,210 –> 00:18:08,670
بهتر خواهید بود. off to تمام مراحل صفر را دنبال می کند
348
00:18:08,670 –> 00:18:12,030
به جای اینکه داده ها
349
00:18:12,030 –> 00:18:13,710
را برای پردازش به دستگاه شما منتقل کند که
350
00:18:13,710 –> 00:18:16,830
احتمالاً راهی را ایجاد می کنید که
351
00:18:16,830 –> 00:18:19,830
محیط پردازشی در آن دستگاه که در آن
352
00:18:19,830 –> 00:18:21,540
داده ها را پردازش می کنید، به نوعی
353
00:18:21,540 –> 00:18:24,870
آن محل داده یا مکان کاری داده هوشمند است.
354
00:18:24,870 –> 00:18:28,140
355
00:18:28,140 –> 00:18:33,200
قضیه سرپوش اصلی چگونه می توانید هر
356
00:18:33,200 –> 00:18:35,340
موجودی و پارتیشن بندی را ثابت کنید که چگونه می توانید
357
00:18:35,340 –> 00:18:36,960
اطمینان حاصل کنید که داده های شما
358
00:18:36,960 –> 00:18:40,100
سازگار هستند، این
359
00:18:40,100 –> 00:18:43,410
تقریباً با هیچ سیستم SQL که
360
00:18:43,410 –> 00:18:46,620
داده D را اجرا می کند ارتباط ندارد، بنابراین فقط یک آشنایی کلی است
361
00:18:46,620 –> 00:18:51,690
که من فقط در وب جستجو می کنم و احتمالاً این
362
00:18:51,690 –> 00:18:54,090
مفاهیم هستند. چرا به هر طریقی
363
00:18:54,090 –> 00:18:57,000
برای شما آشناست و همچنین
364
00:18:57,000 –> 00:19:01,950
باید یک نوع مهارت خوب داشته باشید تا بتوانید
365
00:19:01,950 –> 00:19:06,360
qu antify دادهها را اندازهگیری کنید تا
366
00:19:06,360 –> 00:19:09,690
معیارها یا کیفیت دادهها را ارائه کنید.
367
00:19:09,690 –> 00:19:12,450
نمیدانم برای چه مقدار برنامه کاربردی دارید،
368
00:19:12,450 –> 00:19:14,550
آیا شما افزونگیهایی دارید،
369
00:19:14,550 –> 00:19:16,679
شاید کمی اصطلاحات علم داده
370
00:19:16,679 –> 00:19:20,730
مانند برچسب برچسبهای یک ترانزیستور خانه
371
00:19:20,730 –> 00:19:23,640
و جالب این است که اگر
372
00:19:23,640 –> 00:19:27,480
آنها را به دست آورید. مهارتها به عنوان یک مهندس داده
373
00:19:27,480 –> 00:19:29,370
قدم منطقی بعدی احتمالاً
374
00:19:29,370 –> 00:19:34,980
امتحان برخی از
375
00:19:34,980 –> 00:19:37,680
وظایف مربوط به حیوانات است و به تدریج میتوانید رشد کنید
376
00:19:37,680 –> 00:19:40,050
و قدرتمندتر و قدرتمندتر شوید،
377
00:19:40,050 –> 00:19:43,790
بنابراین فهرست کاملی از
378
00:19:43,790 –> 00:19:48,240
ابزارهای مهندسی و سایر امکانات
379
00:19:48,240 –> 00:19:51,480
نیز وجود دارد به شما کمک می کند تا شاید متنوع تر شوید
380
00:19:51,480 –> 00:19:55,560
، هیچ نوع چکش بزرگی وجود ندارد
381
00:19:55,560 –> 00:19:58,020
که هر میخ را در هر
382
00:19:58,020 –> 00:20:01,620
جنگی بکوبد، قطعا مجموعه کاملی از
383
00:20:01,620 –> 00:20:04,740
ابزارها وجود دارد که می توانید از آنها استفاده کنید و مشکل
384
00:20:04,740 –> 00:20:08,190
اکنون تطبیق آن مورد
385
00:20:08,190 –> 00:20:10,500
خاص با یک ابزار خاص است. البته شما می توانید
386
00:20:10,500 –> 00:20:15,480
این کار را با چکش انجام دهید، اما
387
00:20:15,480 –> 00:20:19,820
راه های دیگری برای انجام کار با
388
00:20:19,820 –> 00:20:22,920
تخریب کمتر و تمرکز بیشتر وجود دارد، بنابراین من
389
00:20:22,920 –> 00:20:27,710
به فرمت های فایل کار و
390
00:20:27,710 –> 00:20:33,200
جنبه های دیگر اشاره کردم. از روشهای مربوط به دادههای فایل،
391
00:20:33,200 –> 00:20:35,970
در اینجا یک اسلاید است
392
00:20:35,970 –> 00:20:40,230
که تصویر بصری بسیار خوبی
393
00:20:40,230 –> 00:20:42,510
را از آنچه میتوانید
394
00:20:42,510 –> 00:20:44,820
با رفتن از یک فرمت به فرمت دیگر به دست آورید، به تصویر میکشد
395
00:20:44,820 –> 00:20:46,710
و بهطوری که من فکر
396
00:20:46,710 –> 00:20:48,840
میکردم فشردهسازی، مربوط به gzip یا
397
00:20:48,840 –> 00:20:50,280
snappy یا چیز دیگری
398
00:20:50,280 –> 00:20:54,630
نیست، بلکه همه چیز است. در مورد رمزگذاری داده ها، بنابراین
399
00:20:54,630 –> 00:20:57,330
ما نیم ترابایت فایل متنی با اندازه اصلی داریم،
400
00:20:57,330 –> 00:21:00,570
بنابراین ممکن است جایی در فضای ابری اگر
401
00:21:00,570 –> 00:21:03,120
بخواهید پرداخت کنید، من نمی دانم مانند یک
402
00:21:03,120 –> 00:21:08,040
دلار در ماه در سال احتمالاً برای یک
403
00:21:08,040 –> 00:21:12,420
گیگابایت، بنابراین به نوعی می شود نیم
404
00:21:12,420 –> 00:21:13,980
هزار دلار برای آن گیگابایت
405
00:21:13,980 –> 00:21:16,410
و احتمالاً از بین بردن ترابایت
406
00:21:16,410 –> 00:21:19,110
داده، فایل کلید ما دیگر مرتبط نیست،
407
00:21:19,110 –> 00:21:23,610
بنابراین فایل پارک و RC دور ریخته شده
408
00:21:23,610 –> 00:21:26,250
فرمت هایی هستند که
409
00:21:26,250 –> 00:21:28,950
تحت تأثیر بافر پروتکل
410
00:21:28,950 –> 00:21:34,369
گوگل قرار می گیرند تا ایمپالا بتواند
411
00:21:34,369 –> 00:21:39,590
در cloudera Polly به آن مراجعه کند. فروشنده Hadoop
412
00:21:39,590 –> 00:21:41,480
آنها قالبهای پارکینگ را فشار میدادند،
413
00:21:41,480 –> 00:21:45,279
این یک قالب ستونی است، نویسنده کار میکند
414
00:21:45,279 –> 00:21:50,179
رویکرد مشابهی را در پیش گرفته است و
415
00:21:50,179 –> 00:21:52,100
اوه من میبینم که این قالبها
416
00:21:52,100 –> 00:21:54,580
در دسترس هستند و میتوانند به شدت
417
00:21:54,580 –> 00:21:59,360
پردازش دادهها را بهبود
418
00:21:59,360 –> 00:22:06,019
میبخشد، زیرا ذخیرههای داده در Colma نوعی مسابقه است که این
419
00:22:06,019 –> 00:22:08,539
نوع آرایهها پرسوجوها را تسهیل میکنند،
420
00:22:08,539 –> 00:22:10,279
به طوری که شما
421
00:22:10,279 –> 00:22:15,049
نسبت به مجموعه دادههای پیوسته درجهبندی میشوید،
422
00:22:15,049 –> 00:22:17,090
بسیار سریع خواهد بود و همچنین به شما امکان میدهد
423
00:22:17,090 –> 00:22:19,609
با کمی از فشرده سازی
424
00:22:19,609 –> 00:22:24,609
شما می توانید کاهش قابل توجهی
425
00:22:24,609 –> 00:22:27,649
در حجم فایل داشته باشید و
426
00:22:27,649 –> 00:22:32,330
فشرده سازی بسیار معروف است، بنابراین در اینجا
427
00:22:32,330 –> 00:22:33,679
ممکن است بگویید خوب است، بنابراین ما در مورد چه چیزی صحبت می کنیم
428
00:22:33,679 –> 00:22:36,019
امیدوارم برخی از شما آشنا باشید،
429
00:22:36,019 –> 00:22:41,960
اما شاید برخی از شما آشنا نباشید و
430
00:22:41,960 –> 00:22:43,879
ممکن است بگویید بنابراین این بخش چیزی است
431
00:22:43,879 –> 00:22:45,230
که ما در مورد این سیستم آبی Impala نامعتبر صحبت می کنیم.
432
00:22:45,230 –> 00:22:47,929
433
00:22:47,929 –> 00:22:53,379
434
00:22:53,379 –> 00:22:56,149
435
00:22:56,149 –> 00:22:59,210
436
00:22:59,210 –> 00:23:02,299
با استفاده
437
00:23:02,299 –> 00:23:05,119
از زبان آشنای SQL،
438
00:23:05,119 –> 00:23:10,009
این همان چیزی است که ما یک فایل
439
00:23:10,009 –> 00:23:13,009
ذخیره شده در Bakke برای نقشه
440
00:23:13,009 –> 00:23:17,659
ها ایجاد می کنیم.
441
00:23:17,659 –> 00:23:19,369
442
00:23:19,369 –> 00:23:22,159
443
00:23:22,159 –> 00:23:24,830
روی خوشه کلیک کنید و اساساً یک
444
00:23:24,830 –> 00:23:26,809
فایل متنی دارید و میخواهید آن فایل
445
00:23:26,809 –> 00:23:33,409
عظیم و کاملاً جدید را
446
00:23:33,409 –> 00:23:36,590
با فرمت CSV بگیرید و فقط یک
447
00:23:36,590 –> 00:23:39,230
بسته کوچکتر جمعوجورتر ایجاد میکند و این
448
00:23:39,230 –> 00:23:39,799
همان چیزی است که
449
00:23:39,799 –> 00:23:43,309
جدول ایجاد میکند، پس بیایید دوباره به آن بازگردیم تا
450
00:23:43,309 –> 00:23:47,049
این استاندارد به شما اجازه می دهد که این کار را به درستی انجام دهید،
451
00:23:47,049 –> 00:23:49,309
زیرا می بینید اگر
452
00:23:49,309 –> 00:23:51,620
مفهوم را درک کنید، این را درک می کنید، تقریباً
453
00:23:51,620 –> 00:23:54,380
می توانید چیزهای زیادی را برای سازمان خود به ارمغان بیاورید،
454
00:23:54,380 –> 00:23:57,140
بنابراین ما نیز آن را به
455
00:23:57,140 –> 00:23:59,690
نوعی دراماتیک تر می کنیم در اینجا مثال دیگری است
456
00:23:59,690 –> 00:24:01,490
که در مورد آن صحبت می کنیم. کارهای مهندسی،
457
00:24:01,490 –> 00:24:04,460
بنابراین میتوانید بگویید که چگونه آنها
458
00:24:04,460 –> 00:24:06,650
لولههای ETL دادهها و
459
00:24:06,650 –> 00:24:09,230
همه چیزهای واقعی و واقعی را پردازش میکنند، اما اینها
460
00:24:09,230 –> 00:24:10,730
چیزهای اساسی هستند که مردم
461
00:24:10,730 –> 00:24:13,100
به نوعی آن را از دست میدهند.
462
00:24:13,100 –> 00:24:14,570
463
00:24:14,570 –> 00:24:17,419
464
00:24:17