در این مطلب، ویدئو علم داده چیست | آموزش پایتون | ادورکا | ML/DS Rewind با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:29:26
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:10,320 –> 00:00:11,599
سلام به همه،
2
00:00:11,599 –> 00:00:13,599
خوب پس همه بیایید شروع کنیم تا
3
00:00:13,599 –> 00:00:15,599
همه این دستور کار
4
00:00:15,599 –> 00:00:17,680
جلسه امروز باشد، بنابراین اساساً در
5
00:00:17,680 –> 00:00:19,920
جلسه امروز بحث خواهیم کرد که چرا علم
6
00:00:19,920 –> 00:00:22,480
داده چیست علم داده چگونه یک
7
00:00:22,480 –> 00:00:24,480
مشکل در علم داده حل می شود در
8
00:00:24,480 –> 00:00:26,400
مورد مؤلفه علم داده صحبت خواهد کرد و من
9
00:00:26,400 –> 00:00:29,039
یک مجموعه کوچک از کدها را به شما نشان میدهیم،
10
00:00:29,039 –> 00:00:31,920
بنابراین بله، بیایید شروع کنیم، اما قبل از شروع،
11
00:00:31,920 –> 00:00:34,079
12
00:00:34,079 –> 00:00:36,640
میخواهم انتظارات را
13
00:00:36,640 –> 00:00:39,200
کاملاً واضح تنظیم کنم و این جلسه
14
00:00:39,200 –> 00:00:41,600
فقط برای ارائه مقدمهای در
15
00:00:41,600 –> 00:00:43,840
مورد علم داده است. صرفاً برای آشنایی شما
16
00:00:43,840 –> 00:00:45,120
با
17
00:00:45,120 –> 00:00:46,719
برخی
18
00:00:46,719 –> 00:00:48,800
اصطلاحات رایج است یا این
19
00:00:48,800 –> 00:00:51,199
فقط برای این است که شما در
20
00:00:51,199 –> 00:00:53,280
مورد نقش یک دانشمند داده آگاه شوید یا مانند
21
00:00:53,280 –> 00:00:55,520
اینکه پس از حضور در این دامنه چه نوع کاری انجام خواهید داد،
22
00:00:55,520 –> 00:00:58,160
بنابراین در
23
00:00:58,160 –> 00:01:00,879
جلسه امروز ما در مورد هیچ یک
24
00:01:00,879 –> 00:01:03,120
از مؤلفه ها با جزئیات بحث نمی شود، خوب، این
25
00:01:03,120 –> 00:01:05,840
فقط برای ارائه یک نمای کلی است یا این
26
00:01:05,840 –> 00:01:07,760
فقط برای ارائه تصویر کاملی
27
00:01:07,760 –> 00:01:10,320
در مورد علم داده است،
28
00:01:10,320 –> 00:01:12,560
بنابراین اول از همه بچه ها اگر صحبت کنم در مورد
29
00:01:12,560 –> 00:01:14,479
منابع داده درست است حتی شما می دانید که
30
00:01:14,479 –> 00:01:16,400
امروزه ما جستجوهای داده های مختلفی داریم،
31
00:01:16,400 –> 00:01:18,080
بنابراین بیایید به منابع داده به درستی نگاه کنیم،
32
00:01:18,080 –> 00:01:19,680
33
00:01:19,680 –> 00:01:23,360
بنابراین بچه ها اول از همه داده ها از
34
00:01:23,360 –> 00:01:25,600
n تعداد منبع می آیند این روزها
35
00:01:25,600 –> 00:01:27,759
منابع داده درست به عنوان یک منبع داده از کجا و همه
36
00:01:27,759 –> 00:01:30,320
داده ها هستند. بنابراین وقتی می
37
00:01:30,320 –> 00:01:32,400
گوییم حجم عظیمی از داده ها
38
00:01:32,400 –> 00:01:34,000
امروزه تولید
39
00:01:34,000 –> 00:01:36,400
می شوند، اولین عامل اصلی چیست که
40
00:01:36,400 –> 00:01:39,119
چیزی جز تکامل فناوری نیست،
41
00:01:39,119 –> 00:01:41,840
درست است، بنابراین شما درست می دانید که مدتی
42
00:01:41,840 –> 00:01:44,000
قبل مانند 10 تا 15 سال قبل ما
43
00:01:44,000 –> 00:01:46,720
از تلفن استفاده می کردیم. آیا از موبایل
44
00:01:46,720 –> 00:01:48,560
درست استفاده می کنیم یا از دستگاه های هوشمند استفاده می کنیم، بنابراین
45
00:01:48,560 –> 00:01:50,880
چه تغییری در اینجا وجود دارد، نه به این دلیل که
46
00:01:50,880 –> 00:01:53,200
ما درست استفاده از دستگاه های هوشمند را شروع کرده
47
00:01:53,200 –> 00:01:54,799
ایم، ما در حال تولید حجم عظیمی از
48
00:01:54,799 –> 00:01:55,840
49
00:01:55,840 –> 00:01:57,759
داده های موجود در اینجا هستیم، دقیقاً همانطور که
50
00:01:57,759 –> 00:02:00,240
از دسکتاپ استفاده می کردیم، اکنون ابر
51
00:02:00,240 –> 00:02:02,000
ابری داریم. یعنی ما می توانیم حجم
52
00:02:02,000 –> 00:02:04,399
عظیمی از داده ها را ذخیره کنیم که می توانیم به درستی آپلود و مصرف
53
00:02:04,399 –> 00:02:07,040
کنیم و در همه جا با ماشین های
54
00:02:07,040 –> 00:02:10,160
هوشمند و همچنین دستگاه های هوشمند سروکار داریم
55
00:02:10,160 –> 00:02:12,080
که نتیجه چه می شود یا نتیجه
56
00:02:12,080 –> 00:02:14,800
مقدار زیادی بعداً دادهها تولید میشوند
57
00:02:14,800 –> 00:02:17,520
ما داریم iot iot چیزی نیست جز
58
00:02:17,520 –> 00:02:20,560
اینترنت اشیا، همانطور که
59
00:02:20,560 –> 00:02:22,560
میدانیم همه
60
00:02:22,560 –> 00:02:25,040
دستگاههایی را که در خانههایمان داریم به
61
00:02:25,040 –> 00:02:27,280
اینترنت وصل میکنیم و
62
00:02:27,280 –> 00:02:29,280
دادهها را مصرف میکنیم، مثل الان که حسگرها
63
00:02:29,280 –> 00:02:31,280
در هر دستگاهی وجود داشته باشید و آن دستگاه
64
00:02:31,280 –> 00:02:34,080
به طور مداوم دادهها را
65
00:02:34,080 –> 00:02:35,599
درست میکند، پس ما چه داریم، ما
66
00:02:35,599 –> 00:02:38,319
پلتفرمهای رسانههای اجتماعی داریم، دوباره حجم عظیمی
67
00:02:38,319 –> 00:02:40,080
از دادهها از پلتفرمهای رسانههای اجتماعی میآیند،
68
00:02:40,080 –> 00:02:43,120
همچنین اینها شروعی
69
00:02:43,120 –> 00:02:45,360
برای همه رسانههای اجتماعی هستند. پلتفرمها برای یک
70
00:02:45,360 –> 00:02:48,480
دقیقه در دقیقه برای یوتیوب 300
71
00:02:48,480 –> 00:02:50,640
ساعت ویدیو در حال آپلود شدن است، بنابراین میتوانید
72
00:02:50,640 –> 00:02:53,519
میزان دادههایی را که
73
00:02:53,519 –> 00:02:55,519
در پایان روز ذخیره
74
00:02:55,519 –> 00:02:56,480
75
00:02:56,480 –> 00:02:59,519
میکنند تصور کنید، بنابراین بله و همچنین باید
76
00:02:59,519 –> 00:03:01,519
سرعت دریافت دادهها را تصور کنید. برای آنها ایجاد شده است،
77
00:03:01,519 –> 00:03:02,720
78
00:03:02,720 –> 00:03:04,720
بنابراین اکنون برای توییتر این تعداد زیادی توییت در
79
00:03:04,720 –> 00:03:07,519
دقیقه برای جیمیل این تعداد ایمیل در
80
00:03:07,519 –> 00:03:09,760
دقیقه درست رسانه های اجتماعی و
81
00:03:09,760 –> 00:03:12,560
عوامل دیگر دوباره در هر
82
00:03:12,560 –> 00:03:14,239
دامنه حجم عظیمی از داده در حال دریافت است.
83
00:03:14,239 –> 00:03:16,159
ایجاد شده است تا بتوانیم در مورد بانکداری خرده فروشی
84
00:03:16,159 –> 00:03:18,080
و رسانه های مالی و
85
00:03:18,080 –> 00:03:20,239
سرگرمی آموزش مراقبت های بهداشتی،
86
00:03:20,239 –> 00:03:22,640
حمل و نقل دولتی و بیمه صحبت کنیم،
87
00:03:22,640 –> 00:03:25,040
بنابراین در هر حوزه
88
00:03:25,040 –> 00:03:26,959
ما حجم زیادی از داده ها داریم،
89
00:03:26,959 –> 00:03:30,560
بنابراین اکنون این مورد استفاده درست است،
90
00:03:30,560 –> 00:03:33,760
بنابراین اساساً والمارت درست است،
91
00:03:33,760 –> 00:03:35,920
دانشمند داده در والمارت او
92
00:03:35,920 –> 00:03:38,000
ارتباطی بین هالووین و
93
00:03:38,000 –> 00:03:39,920
فروش کوکیها ایجاد کرد،
94
00:03:39,920 –> 00:03:42,720
بنابراین در اینجا اساساً مانند کاری است که
95
00:03:42,720 –> 00:03:44,959
دانشمند داده انجام داده است، دانشمندان دادهها
96
00:03:44,959 –> 00:03:46,560
ارتباطی بین هالووین و
97
00:03:46,560 –> 00:03:48,799
فروش کوکیها پیدا کردند درست
98
00:03:48,799 –> 00:03:51,200
وجود دارد یک مورد دیگر استفاده از
99
00:03:51,200 –> 00:03:53,920
Walmart درست دوباره آنها فروش
100
00:03:53,920 –> 00:03:56,080
توت فرنگی پاپ را پیدا کردند. -تارت ها قبل از طوفان هفت بار افزایش یافتند،
101
00:03:56,080 –> 00:03:58,799
102
00:03:58,799 –> 00:04:00,720
آنها ارتباطی را ایجاد کردند، بنابراین ما باید
103
00:04:00,720 –> 00:04:02,959
بفهمیم که در چه مکان هایی می
104
00:04:02,959 –> 00:04:04,640
گویند که ارتباطی
105
00:04:04,640 –> 00:04:07,120
بین تارت پاپ توت فرنگی و یک
106
00:04:07,120 –> 00:04:08,959
طوفان راست وجود دارد
107
00:04:08,959 –> 00:04:12,159
و همچنین آنچه والمارت انجام می دهد والمارت
108
00:04:12,159 –> 00:04:14,560
در حال استفاده از آن است. داده های رسانه های اجتماعی برای پیدا
109
00:04:14,560 –> 00:04:16,478
کردن محصولات پرطرفدار به طوری که
110
00:04:16,478 –> 00:04:18,478
می توان آنها را به خیابان walmart معرفی کرد سنگ معدن
111
00:04:18,478 –> 00:04:20,238
در سراسر جهان درست
112
00:04:20,238 –> 00:04:22,400
همه علاقه مند به افزایش
113
00:04:22,400 –> 00:04:24,800
فروش هستند، بنابراین
114
00:04:24,800 –> 00:04:26,560
آنها باید رفتار مشتری را درک کنند که باید
115
00:04:26,560 –> 00:04:29,040
الگوی مصرف کننده را به درستی درک کنند
116
00:04:29,040 –> 00:04:30,880
117
00:04:30,880 –> 00:04:32,880
و بر این اساس آنها محصول را تولید می کنند و بر این اساس آنها به درستی می
118
00:04:32,880 –> 00:04:35,360
فروشند و
119
00:04:35,360 –> 00:04:37,840
بله به این ترتیب می توانند میزان فروش را افزایش دهند.
120
00:04:37,840 –> 00:04:39,280
در سمت کسب و
121
00:04:39,280 –> 00:04:40,320
کار، اکنون
122
00:04:40,320 –> 00:04:42,720
سوال این است که چه نوع
123
00:04:42,720 –> 00:04:44,240
دانشمند داده شرکتی،
124
00:04:44,240 –> 00:04:46,160
هر شرکتی به دانشمند داده نیاز دارد
125
00:04:46,160 –> 00:04:47,759
، هر زمان
126
00:04:47,759 –> 00:04:49,440
که می خواهیم
127
00:04:49,440 –> 00:04:51,919
پیش بینی درست انجام دهیم یا هر زمان
128
00:04:51,919 –> 00:04:53,680
که می گوییم علاقه مند به
129
00:04:53,680 –> 00:04:56,160
افزایش فروش هستیم، بنابراین به ما بگویید در
130
00:04:56,160 –> 00:04:59,040
چه زمینه هایی می توانیم باشیم. بهتر است و همچنین
131
00:04:59,040 –> 00:05:01,360
اگر بگوییم که شما می دانید که آیا من دقیقاً در مورد زنجیره تامین صحبت می کنم،
132
00:05:01,360 –> 00:05:04,080
بنابراین
133
00:05:04,080 –> 00:05:05,759
باید بدانیم که کدام منطقه
134
00:05:05,759 –> 00:05:07,600
تقاضای بیشتری دارد کدام منطقه تقاضای کمتری دارد
135
00:05:07,600 –> 00:05:09,280
و بر این اساس ما
136
00:05:09,280 –> 00:05:11,120
محصولات را تولید خواهیم کرد یا می دانید که
137
00:05:11,120 –> 00:05:13,440
ما این کار را انجام خواهیم داد. اقلام را توزیع کنید
138
00:05:13,440 –> 00:05:15,840
تا همه این کارها به درستی
139
00:05:15,840 –> 00:05:18,240
توسط دانشمندان داده انجام شود، هر زمان که می
140
00:05:18,240 –> 00:05:19,840
گوییم خوب است، بگویید کجا هستیم باید
141
00:05:19,840 –> 00:05:21,680
بیشتر خرج کنیم و کمتر خرج کنیم
142
00:05:21,680 –> 00:05:24,320
الگو چیست چگونه میتوانیم همه این
143
00:05:24,320 –> 00:05:27,120
موارد را بهبود بخشیم که توسط یک دانشمند داده انجام میشود،
144
00:05:27,120 –> 00:05:29,280
بنابراین شما میتوانید از هر شرکتی
145
00:05:29,280 –> 00:05:32,160
مایکروسافت به عنوان دانشمند داده مثال بزنید، اوکی گوگل
146
00:05:32,160 –> 00:05:33,280
فیسبوک
147
00:05:33,280 –> 00:05:36,240
همه دانشمندان داده دارند
148
00:05:36,240 –> 00:05:38,160
حالا بیایید بفهمیم داده چیست
149
00:05:38,160 –> 00:05:40,800
علم واقعاً خوب است،
150
00:05:40,800 –> 00:05:42,800
بنابراین بچه ها اساساً چیزی نیست، اما این
151
00:05:42,800 –> 00:05:44,880
یک علم مبتنی بر داده است،
152
00:05:44,880 –> 00:05:47,039
بگذارید بگوییم که شما یک دانشمند داده
153
00:05:47,039 –> 00:05:49,360
هستید، شما اینجا هستید
154
00:05:49,360 –> 00:05:51,440
مجموعه داده به شما داده می شود و نیاز به شما داده می شود،
155
00:05:51,440 –> 00:05:52,720
156
00:05:52,720 –> 00:05:55,840
من آمار مربوط به فروش را به شما می دهم.
157
00:05:55,840 –> 00:05:57,759
کوکیها
158
00:05:57,759 –> 00:06:00,560
و من اطلاعاتی در رابطه با هالووین به شما میدهم،
159
00:06:00,560 –> 00:06:02,800
اکنون باید
160
00:06:02,800 –> 00:06:05,120
ارتباط بین آنها را پیدا کنید که وظیفه
161
00:06:05,120 –> 00:06:08,319
شماست، باید ارتباط کوکیها
162
00:06:08,319 –> 00:06:11,440
با هالووین را
163
00:06:11,440 –> 00:06:14,319
پیدا کنید یا باید رابطه بین تارتهای توت فرنگی
164
00:06:14,319 –> 00:06:17,120
و طوفان را درست پیدا کنید. این همان
165
00:06:17,120 –> 00:06:19,919
چیزی است که کار شما انجام می شود، زیرا در شما
166
00:06:19,919 –> 00:06:21,919
فقط داده ها به شما داده می شود،
167
00:06:21,919 –> 00:06:24,400
بنابراین اکنون باید روش بیشتری بدانید یا
168
00:06:24,400 –> 00:06:27,039
باید فرآیندی را بدانید که با استفاده از
169
00:06:27,039 –> 00:06:29,680
آن بنابراین
170
00:06:29,680 –> 00:06:31,919
تعریف رسمی علم داده این است
171
00:06:31,919 –> 00:06:33,840
که به آن علم داده محور می
172
00:06:33,840 –> 00:06:35,600
گویند، این یک زمینه بین رشته ای در مورد
173
00:06:35,600 –> 00:06:37,360
روش های علمی
174
00:06:37,360 –> 00:06:39,840
فرآیندها و سیستم ها برای استخراج
175
00:06:39,840 –> 00:06:42,080
دانش یا بینش از داده ها به
176
00:06:42,080 –> 00:06:43,360
شکل های مختلف است که
177
00:06:43,360 –> 00:06:45,199
اکنون داده هایی که به عنوان داده در اختیار شما قرار
178
00:06:45,199 –> 00:06:47,280
می گیرد. دانشمند می تواند به هر
179
00:06:47,280 –> 00:06:49,680
شکلی باشد، می تواند داده های ساختاری باشد، می تواند
180
00:06:49,680 –> 00:06:51,039
داده های بدون ساختار باشد، می تواند داده های
181
00:06:51,039 –> 00:06:53,599
نیمه ساختاریافته باشد، آنچه شما باید
182
00:06:53,599 –> 00:06:55,440
روی آن داده ها انجام دهید این است که باید از
183
00:06:55,440 –> 00:06:59,120
روش های علمی فرآیندها و سیستم ها
184
00:06:59,120 –> 00:07:02,720
برای یافتن رابطه یا درک آن استفاده کنید.
185
00:07:02,720 –> 00:07:04,800
چه اتفاقی میافتد یا این دادهها چه چیزی را نشان میدهند،
186
00:07:04,800 –> 00:07:06,000
187
00:07:06,000 –> 00:07:08,240
سؤالی که معمولاً از دانشمند داده پرسیده میشود
188
00:07:08,240 –> 00:07:10,560
این است که به ما چیزی بگویید که
189
00:07:10,560 –> 00:07:12,720
ما درست نمیدانیم و چگونه این
190
00:07:12,720 –> 00:07:14,720
کار را انجام میدهید، پس چگونه انجام میدهید
191
00:07:14,720 –> 00:07:16,800
که انگار شما خواهید بود
192
00:07:16,800 –> 00:07:18,560
بدانید که اول از همه باید دانش دامنه خوبی
193
00:07:18,560 –> 00:07:19,599
داشته
194
00:07:19,599 –> 00:07:21,520
باشید، سپس باید آمار را بدانید و
195
00:07:21,520 –> 00:07:23,759
سپس در حال پیاده سازی خواهید بود یا
196
00:07:23,759 –> 00:07:25,599
مثل این است که برنامه هایی را برای
197
00:07:25,599 –> 00:07:27,360
درک این موضوع می نویسید.
198
00:07:27,360 –> 00:07:30,000
بنابراین به عنوان یک دانشمند داده باید
199
00:07:30,000 –> 00:07:33,440
در برنامه نویسی آمار تخصص داشته باشید و
200
00:07:33,440 –> 00:07:36,160
همچنین باید دانش دامنه
201
00:07:36,160 –> 00:07:37,599
را نیز
202
00:07:37,599 –> 00:07:39,759
داشته باشید، بله،
203
00:07:39,759 –> 00:07:43,280
این مراحلی است که ما در هنگام حل
204
00:07:43,280 –> 00:07:45,280
هر مشکلی در علم داده، اول از همه
205
00:07:45,280 –> 00:07:47,440
کشف و آماده سازی داده، دنبال می کنیم.
206
00:07:47,440 –> 00:07:49,280
خیلی مهم است، خوب،
207
00:07:49,280 –> 00:07:52,000
بنابراین شما باید بفهمید که
208
00:07:52,000 –> 00:07:54,960
چه نوع داده هایی دارید
209
00:07:54,960 –> 00:07:57,280
و باید بررسی کنید که آیا
210
00:07:57,280 –> 00:07:59,280
داده ها کافی هستند یا نه، شما
211
00:07:59,280 –> 00:08:01,360
همه این کارها را انجام خواهید داد،
212
00:08:01,360 –> 00:08:03,759
سپس یک مدل درست می کنید. سپس می
213
00:08:03,759 –> 00:08:05,520
گویید خوب این الگوریتمی است که من
214
00:08:05,520 –> 00:08:07,680
باید اعمال کنم، سپس مدل ساخته می شود،
215
00:08:07,680 –> 00:08:09,599
سپس آن را به طور کلی قرار
216
00:08:09,599 –> 00:08:11,120
می دهید، نتایج را دریافت خواهید
217
00:08:11,120 –> 00:08:12,960
کرد و به کار روی آن ادامه می
218
00:08:12,960 –> 00:08:15,840
دهید، حالا بیایید یک به یک با جزئیات بحث کنیم، بسیار
219
00:08:15,840 –> 00:08:16,720
خوب
220
00:08:16,720 –> 00:08:19,199
اول از همه کشف، بنابراین
221
00:08:19,199 –> 00:08:21,360
کشف شامل به دست آوردن داده ها از
222
00:08:21,360 –> 00:08:23,599
همه منابع داده داخلی و خارجی شناسه
223
00:08:23,599 –> 00:08:26,080
نیست، بنابراین اساساً اکنون
224
00:08:26,080 –> 00:08:28,479
خواهید گفت که خوب، ما می دانیم که اوه بله
225
00:08:28,479 –> 00:08:30,479
داده ها کافی نیست و ما به داده های بیشتری نیاز داریم
226
00:08:30,479 –> 00:08:32,159
در این صورت کاری که شما انجام خواهید
227
00:08:32,159 –> 00:08:33,039
228
00:08:33,039 –> 00:08:34,799
داد، ادغام با اشخاص ثالث
229
00:08:34,799 –> 00:08:36,640
را انجام خواهید داد و داده ها را دریافت خواهید کرد یا می
230
00:08:36,640 –> 00:08:39,120
گویید که خوب ما به این جزئیات نیز نیاز داریم
231
00:08:39,120 –> 00:08:42,240
و این حق داده می تواند
232
00:08:42,240 –> 00:08:44,320
از وب باشد. سرور داده های رسانه های اجتماعی یا
233
00:08:44,320 –> 00:08:46,720
مجموعه داده های سرشماری یا می تواند هر نوع
234
00:08:46,720 –> 00:08:48,240
داده ای باشد که
235
00:08:48,240 –> 00:08:49,920
اول از همه مقدار کافی
236
00:08:49,920 –> 00:08:51,440
237
00:08:51,440 –> 00:08:53,760
238
00:08:53,760 –> 00:08:56,320
239
00:08:56,320 –> 00:08:58,399
240
00:08:58,399 –> 00:09:00,000
داده را جمع آوری می کند. رابطه
241
00:09:00,000 –> 00:09:01,839
بین همه کسانی که به داده های کمتری نیاز خواهید داشت،
242
00:09:01,839 –> 00:09:03,920
اما کسی هزار
243
00:09:03,920 –> 00:09:05,600
ویژگی را ارائه می دهد، پس شما برای
244
00:09:05,600 –> 00:09:08,320
انجام تحقیقات خود به داده های بیشتری نیاز دارید،
245
00:09:08,320 –> 00:09:10,560
بنابراین اکنون بیایید بگوییم که این
246
00:09:10,560 –> 00:09:13,279
تاریخچه پزشکی یک بیمار است، خوب این سابقه پزشکی یک بیمار
247
00:09:13,279 –> 00:09:15,200
است. بیمار و
248
00:09:15,200 –> 00:09:17,839
شما این مجموعه دادهها را دریافت
249
00:09:17,839 –> 00:09:20,320
کردهاید، جایی که شما میگویید که
250
00:09:20,320 –> 00:09:22,080
میدانید ما چندین بار گلوکز باردار داریم و
251
00:09:22,080 –> 00:09:26,959
سطح گلوکز bp خوب bmi
252
00:09:26,959 –> 00:09:30,240
دیابت شجرهنامه عملکرد سن درآمد
253
00:09:30,240 –> 00:09:32,320
اکنون میدانید که درآمد مهم است
254
00:09:32,320 –> 00:09:34,560
ویژگی nt در پیشبینی دیابت
255
00:09:34,560 –> 00:09:36,800
، در
256
00:09:36,800 –> 00:09:38,399
حال حاضر هیچ ربطی به آمادهسازی دادهها ندارد،
257
00:09:38,399 –> 00:09:41,040
این جایی است که
258
00:09:41,040 –> 00:09:43,839
70 کار انجام میشود
259
00:09:43,839 –> 00:09:46,320
و کاری که ما بهعنوان یک دانشمند داده در آمادهسازی دادهها انجام میدهیم،
260
00:09:46,320 –> 00:09:48,560
همانطور که در پاکسازی دادهها انجام میدهیم.
261
00:09:48,560 –> 00:09:51,519
دادهها بسیار خوب است، زیرا
262
00:09:51,519 –> 00:09:53,600
دادههای خام را به درستی از
263
00:09:53,600 –> 00:09:55,760
منابع دریافت میکنید، بنابراین گاهی
264
00:09:55,760 –> 00:09:57,920
اوقات مقدار ناخواسته دریافت میکنید، گاهی اوقات مقادیر از دست رفته را به درستی دریافت میکنید،
265
00:09:57,920 –> 00:09:59,680
266
00:09:59,680 –> 00:10:01,440
بنابراین کاری که باید انجام دهید این است که
267
00:10:01,440 –> 00:10:04,560
باید دادهها را پاک کنید و چه زمانی
268
00:10:04,560 –> 00:10:07,360
به پاک کردن دادهها میرسد، تعداد n
269
00:10:07,360 –> 00:10:09,440
چیز درست است،
270
00:10:09,440 –> 00:10:11,200
بنابراین اگر به این دادهها به درستی نگاه کنید،
271
00:10:11,200 –> 00:10:13,120
آنچه ما داریم این است که اساساً این
272
00:10:13,120 –> 00:10:16,399
دادهها دارای ناهنجاریهای زیادی هستند، درست
273
00:10:16,399 –> 00:10:19,519
مانند این برای این مقدار درست است، اما
274
00:10:19,519 –> 00:10:22,000
برای این شماره ستون در مواقع بارداری
275
00:10:22,000 –> 00:10:23,440
می بینیم که
276
00:10:23,440 –> 00:10:25,760
همه مقادیر عددی ما درست است اما در اینجا یک عدد را درست
277
00:10:25,760 –> 00:10:27,600
278
00:10:27,600 –> 00:10:30,079
می بینیم و برای گلوکز مقدار گم شده را می بینید
279
00:10:30,079 –> 00:10:33,040
که برای بیمار درست نیست.
280
00:10:33,040 –> 00:10:35,120
281
00:10:35,120 –> 00:10:36,720
282
00:10:36,720 –> 00:10:39,120
شماره بالا
283
00:10:39,120 –> 00:10:42,720
دوباره نمی تواند درست باشد bmi پوچ است و
284
00:10:42,720 –> 00:10:45,519
درآمد ما به آن نیازی نداریم،
285
00:10:45,519 –> 00:10:48,000
بنابراین کاری که باید انجام دهید این است که باید
286
00:10:48,000 –> 00:10:50,480
راه هایی را پیدا کنید که با استفاده از آن
287
00:10:50,480 –> 00:10:53,120
می توانید این مقدار صفر را با مقداری جایگزین کنید،
288
00:10:53,120 –> 00:10:54,560
289
00:10:54,560 –> 00:10:57,760
اکنون نمی توانید تحقیق خود را انجام دهید. یا
290
00:10:57,760 –> 00:10:59,760
تا زمانی که ارزش گلوکز را نداشته باشید نمیتوانید کار تحقیقاتی خود را شروع کنید،
291
00:10:59,760 –> 00:11:02,720
292
00:11:02,720 –> 00:11:04,640
بنابراین اکنون باید روشهایی را پیدا کنید
293
00:11:04,640 –> 00:11:06,880
که با استفاده از آن
294
00:11:06,880 –> 00:11:07,680
295
00:11:07,680 –> 00:11:09,600
مقدار را جایگزین میکنید یا مقداری از
296
00:11:09,600 –> 00:11:11,920
مقدار گلوکز را در اینجا قرار میدهید، بنابراین
297
00:11:11,920 –> 00:11:14,240
راههای مختلفی وجود دارد. مثل زمانی که بعضی ها
298
00:11:14,240 –> 00:11:15,519
من را
299
00:11:15,519 –> 00:11:17,279
درست از همه مقادیر می گیرند و سپس
300
00:11:17,279 –> 00:11:19,519
آن را اینجا می گذارند، یک نفر
301
00:11:19,519 –> 00:11:21,680
میانه تمام مقادیر را می گیرد و
302
00:11:21,680 –> 00:11:22,880
آن را اینجا می گذارد
303
00:11:22,880 –> 00:11:24,000
حالا
304
00:11:24,000 –> 00:11:26,320
این وظیفه شما به عنوان یک دانشمند داده است که
305
00:11:26,320 –> 00:11:29,680
بررسی کنید آیا منظور شما با میانگین است یا خیر.
306
00:11:29,680 –> 00:11:31,839
شما در حال دریافت نتیجه مناسب هستید یا اگر
307
00:11:31,839 –> 00:11:34,320
آن را با میانه اوکی می گیرید، بیایید
308
00:11:34,320 –> 00:11:35,839
بگوییم که اکنون می گویم دو راه وجود دارد که
309
00:11:35,839 –> 00:11:37,440
می دانید می
310
00:11:37,440 –> 00:11:40,160
توانیم میانگین را بگیریم یا می توانیم اکنون میانه را
311
00:11:40,160 –> 00:11:43,200
بگیریم، فرض کنید برای سن، سن مناسب وجود ندارد.
312
00:11:43,200 –> 00:11:45,839
این ستون سن i آیا
313
00:11:45,839 –> 00:11:47,279
من یک مقدار تهی
314
00:11:47,279 –> 00:11:49,680
ندارم، بنابراین اکنون فرض کنید این پیوند جدید وجود دارد،
315
00:11:49,680 –> 00:11:52,079
به همین دلیل است که
316
00:11:52,079 –> 00:11:54,560
اگر میانگین را در نظر بگیرید یا اگر
317
00:11:54,560 –> 00:11:57,120
میانه تمام مقادیر را بگیرید و فرض کنید
318
00:11:57,120 –> 00:11:59,680
که سن برای آن 40 باشد، سن صفر بود.
319
00:11:59,680 –> 00:12:01,680
آیا فکر میکنید میتوانید
320
00:12:01,680 –> 00:12:03,600
نوع درستی از تحقیق یا
321
00:12:03,600 –> 00:12:05,680
تجزیه و تحلیل را انجام دهید، نه اصلاً،
322
00:12:05,680 –> 00:12:06,480
بنابراین
323
00:12:06,480 –> 00:12:08,839
نقش شما بهعنوان یک دانشمند داده این
324
00:12:08,839 –> 00:12:11,680
است که میدانید فرمولها وجود دارد که
325
00:12:11,680 –> 00:12:13,839
علم داده در مورد
326
00:12:13,839 –> 00:12:15,920
مهندسی کاربردی است یا همه چیز در مورد
327
00:12:15,920 –> 00:12:19,120
ریاضیات کاربردی است، هر آنچه را که ما در
328
00:12:19,120 –> 00:12:21,120
ریاضیات خود شروع کرده بودیم یا در زمینه مهندسی خود در
329
00:12:21,120 –> 00:12:23,600
رابطه با ریاضیات، این همان
330
00:12:23,600 –> 00:12:25,440
زمینه ای است که در آن همه
331
00:12:25,440 –> 00:12:27,120
چیزهایی را که ما ادغام تمایز را شروع کردیم به کار
332
00:12:27,120 –> 00:12:29,040
خواهید برد، فکر نمی کنم، بنابراین
333
00:12:29,040 –> 00:12:31,440
ما از آن در حین نوشتن برنامه
334
00:12:31,440 –> 00:12:33,120
اما اکنون وقتی نوبت به علم داده میرسد،
335
00:12:33,120 –> 00:12:34,959
باید درک خوبی
336
00:12:34,959 –> 00:12:37,519
از آمار داشته باشید، میدانید
337
00:12:37,519 –> 00:12:38,880
که همه فرمولهای
338
00:12:38,880 –> 00:12:40,720
یکپارچهسازی تمایز را به کار میبرید و همه
339
00:12:40,720 –> 00:12:42,800
این کارها اکنون انجام میشوند.
340
00:12:42,800 –> 00:12:45,360
در اینجا یک
341
00:12:45,360 –> 00:12:47,519
چیز دیگر وجود دارد، بیایید بگوییم که خیلی
342
00:12:47,519 –> 00:12:50,959
خوب، لازمه این است که اکنون میانگین
343
00:12:50,959 –> 00:12:52,959
حقوق همه توسعه دهندگان
344
00:12:52,959 –> 00:12:54,399
سازمان
345
00:12:54,399 –> 00:12:57,200
را برای محاسبه میانگین
346
00:12:57,200 –> 00:12:59,760
حقوق همه کارکنان پیدا کنید، آیا فکر می کنید
347
00:12:59,760 –> 00:13:01,920
باید حقوق مدیر عامل
348
00:13:01,920 –> 00:13:02,959
را نیز
349
00:13:02,959 –> 00:13:05,440
در نظر بگیرید، زیرا در در این صورت
350
00:13:05,440 –> 00:13:07,920
میانگین شما بسیار بالا خواهد رفت،
351
00:13:07,920 –> 00:13:09,680
بنابراین چه چیزی جز یک
352
00:13:09,680 –> 00:13:11,839
حق پرت نیست، بنابراین شما در حال انجام تحقیق خواهید بود
353
00:13:11,839 –> 00:13:13,519
که در آن ما می گوییم بسیار خوب
354
00:13:13,519 –> 00:13:14,720
این چیزی است که ما نباید در
355
00:13:14,720 –> 00:13:15,920
نظر بگیریم،
356
00:13:15,920 –> 00:13:16,880
سپس
357
00:13:16,880 –> 00:13:19,440
بیایید بگوییم که شما مقداری رشته دارید.
358
00:13:19,440 –> 00:13:20,480
مقادیر
359
00:13:20,480 –> 00:13:22,480
خوب است یا مثل این است که در اینجا عددی را درست می بینید
360
00:13:22,480 –> 00:13:24,079
یک چیز این است که
361
00:13:24,079 –> 00:13:26,000
ماشین همه چیز را بر
362
00:13:26,000 –> 00:13:28,720
حسب صفر و یک می فهمد، بنابراین باید
363
00:13:28,720 –> 00:13:30,560
روی روش هایی کار کنید که با استفاده از آنها
364
00:13:30,560 –> 00:13:32,560
همه این مقادیر را به صورت
365
00:13:32,560 –> 00:13:34,000
صفر و 1 تبدیل می کنید.
366
00:13:34,000 –> 00:13:36,399
پس حالا اگر درست است آماده سازی فشار داده ها،
367
00:13:36,399 –> 00:13:37,600
می بینید
368
00:13:37,600 –> 00:13:40,240
که ما مقادیر
369
00:13:40,240 –> 00:13:43,279
r را برای تجزیه و تحلیل آماری پر کرده ایم،
370
00:13:43,279 –> 00:13:45,360
همانطور که در مورد آماده
371
00:13:45,360 –> 00:13:47,839
سازی داده ها و پاکسازی داده ها درست صحبت می کنم، بنابراین r دارای
372
00:13:47,839 –> 00:13:49,600
توابع داخلی w است. شما فقط
373
00:13:49,600 –> 00:13:51,920
تماس میگیرید و کار شما را آسان میکند، اما
374
00:13:51,920 –> 00:13:54,800
اینطور نیست که بدون دانستن
375
00:13:54,800 –> 00:13:57,360
مفاهیم ریاضی، میتوانید
376
00:13:57,360 –> 00:14:00,079
اکنون به عنوان یک دانشمند