در این مطلب، ویدئو تجزیه و تحلیل داده ها مطالعه موردی در مورد داده های اتومبیل | 30 مشکل تمرین پایتون برای مبتدیان با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:17:11
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:02,790
سلام و
2
00:00:02,790 –> 00:00:05,970
اگر ویدیوهای قبلی من را دیده اید به پروژه جدید تجزیه و تحلیل داده پایتون خوش آمدید،
3
00:00:05,970 –> 00:00:08,550
من
4
00:00:08,550 –> 00:00:11,429
پروژه های زیادی را در رابطه با
5
00:00:11,429 –> 00:00:12,929
تابلوی پایتون
6
00:00:12,929 –> 00:00:15,859
حتی در clixsense برای کاوش تجسم داده ها
7
00:00:15,859 –> 00:00:18,210
و تجزیه و تحلیل پیش بینی ارسال کرده ام،
8
00:00:18,210 –> 00:00:20,699
اگر ندیده اید، پیشنهاد می کنم
9
00:00:20,699 –> 00:00:23,820
بروید. و آن ویدیوها را در این
10
00:00:23,820 –> 00:00:27,539
پروژه تجزیه و تحلیل داده ها به خوبی بررسی کنید، این بیشتر یک
11
00:00:27,539 –> 00:00:31,289
تمرین برای شما است تا بتوانید
12
00:00:31,289 –> 00:00:34,590
از کاوش داده تا پیش بینی
13
00:00:34,590 –> 00:00:36,960
با کمک داده های کارتی
14
00:00:36,960 –> 00:00:40,200
که من در اینجا به شما نشان می دهم یاد بگیرید، بنابراین در اینجا یک
15
00:00:40,200 –> 00:00:43,410
سری از سوالاتی که مشاهده خواهید کرد
16
00:00:43,410 –> 00:00:47,070
که گام به گام معمولا یک
17
00:00:47,070 –> 00:00:50,280
دانشمند داده از روی سوال می پرسد و
18
00:00:50,280 –> 00:00:54,629
سپس در نهایت با کمک الگوریتم مناسب اولین مدل را ایجاد
19
00:00:54,629 –> 00:00:58,079
می کند پس
20
00:00:58,079 –> 00:01:00,210
بیایید جلو برویم و این را ببینیم و قبل از اینکه
21
00:01:00,210 –> 00:01:02,460
جلو بروم اجازه دهید داده ها را به شما نشان دهم به طوری
22
00:01:02,460 –> 00:01:04,019
که قرار بود تمام سوالات
23
00:01:04,019 –> 00:01:07,260
برای شما منطقی باشد، بنابراین در اینجا
24
00:01:07,260 –> 00:01:11,250
داده هایی است که شما نیاز دارید یا می توانید
25
00:01:11,250 –> 00:01:14,310
در لینک توضیحات پیدا کنید که می توانید آزادانه
26
00:01:14,310 –> 00:01:17,820
دانلود کنید و ادامه دهید با این
27
00:01:17,820 –> 00:01:20,220
اوصاف اگر فرض کنیم وقتی سوالات من را دنبال
28
00:01:20,220 –> 00:01:21,900
می کنید که من به شما نشان خواهم
29
00:01:21,900 –> 00:01:24,420
داد و نمی توانید
30
00:01:24,420 –> 00:01:26,520
با تحقیق و مطالعه خود راه حلی برای اکثر سؤالات پیدا کنید،
31
00:01:26,520 –> 00:01:29,460
32
00:01:29,460 –> 00:01:31,920
فایل پیوند راه حل را نیز در توضیحات دارید.
33
00:01:31,920 –> 00:01:35,840
پس بیایید به اینجا برویم و ببینیم که
34
00:01:35,840 –> 00:01:39,060
mpg چیزی جز مایل در هر گالن
35
00:01:39,060 –> 00:01:41,400
نیست، بنابراین اگر مشاهده کنید، این مجموعه دادههای ماشین است،
36
00:01:41,400 –> 00:01:45,270
بنابراین نام ماشین اینجا شارلوت است و
37
00:01:45,270 –> 00:01:49,560
سپس شما AMC دارید، فورد دارید،
38
00:01:49,560 –> 00:01:53,009
تویوتا دارید، آن CERN بسیار زیاد است.
39
00:01:53,009 –> 00:01:55,409
اطلاعات خودروها به
40
00:01:55,409 –> 00:01:58,890
نام خودرو منشا آنها داده می شود مانند ایالات متحده آمریکا
41
00:01:58,890 –> 00:02:03,810
ژاپن یورو اطلاعاتی مانند این پس
42
00:02:03,810 –> 00:02:06,810
مایل در هر گالن
43
00:02:06,810 –> 00:02:08,610
اساساً میانگین تعداد
44
00:02:08,610 –> 00:02:10,258
سیلندرهایی است که ماشین دارای
45
00:02:10,258 –> 00:02:11,700
جابه جایی در
46
00:02:11,700 –> 00:02:14,280
اسب بخار ماشین است. دارای
47
00:02:14,280 –> 00:02:18,269
وزن خودرو، مقدار شتاب و
48
00:02:18,269 –> 00:02:22,730
مدل در اینجا درست است، بنابراین با تمام این
49
00:02:22,730 –> 00:02:25,410
مجموعه داده ها، کل مجموعه داده ای که ما
50
00:02:25,410 –> 00:02:28,470
داریم و نسبتاً کوچک است، بنابراین شما
51
00:02:28,470 –> 00:02:31,890
به طور کلی این 399 است، به این معنی که
52
00:02:31,890 –> 00:02:35,160
398 قانون وجود دارد که آن را همانطور که
53
00:02:35,160 –> 00:02:38,819
می بینید 398 را خواهید داشت زیرا ردیف اول کاملاً
54
00:02:38,819 –> 00:02:41,790
برچسب است، بنابراین ردیف اول
55
00:02:41,790 –> 00:02:44,970
برچسب است و شما 398 ردیف دارید، بنابراین آنچه که
56
00:02:44,970 –> 00:02:47,099
اساساً می توانید انجام دهید این است که با کمک
57
00:02:47,099 –> 00:02:49,290
مجموعه داده های کوچک می توانید انجام دهید.
58
00:02:49,290 –> 00:02:53,220
میدانید که با
59
00:02:53,220 –> 00:02:55,079
کاوش دادهها یا در یک مطالعه موارد علمی
60
00:02:55,079 –> 00:02:57,930
مانند این شروع کنید و
61
00:02:57,930 –> 00:03:00,720
زمانی که این مهارت را کامل کردید، آن را به مهارتهای خود ارتقا دهید،
62
00:03:00,720 –> 00:03:03,480
مطمئن هستم که اگر بتوانید با
63
00:03:03,480 –> 00:03:06,750
موفقیت به 30 سؤالی که
64
00:03:06,750 –> 00:03:10,380
من نشان میدهم پاسخ دهید. در اینجا
65
00:03:10,380 –> 00:03:12,900
شما هر زمان که
66
00:03:12,900 –> 00:03:15,569
به تجزیه و تحلیل داده ها یا ایجاد یک
67
00:03:15,569 –> 00:03:18,660
مدل می رسد اعتماد زیادی به خود احساس خواهید کرد زیرا من در اینجا
68
00:03:18,660 –> 00:03:22,260
تمام کارهایی را که در ابتدا
69
00:03:22,260 –> 00:03:25,440
برای شروع سفر علم داده خود انجام می دهید حتی
70
00:03:25,440 –> 00:03:27,269
در مصاحبه گروه کر مصاحبه به شما نشان داده ام.
71
00:03:27,269 –> 00:03:29,519
بیشتر سؤالات
72
00:03:29,519 –> 00:03:32,880
به این صورت است تا پس
73
00:03:32,880 –> 00:03:35,430
از اتمام این مطالعه موردی،
74
00:03:35,430 –> 00:03:36,900
در پاسخ به آن سؤالات راحت تر باشید،
75
00:03:36,900 –> 00:03:39,209
بنابراین بیایید به
76
00:03:39,209 –> 00:03:41,970
مطالعه موردی برویم و سؤالات را در مورد مطالعه ببینیم
77
00:03:41,970 –> 00:03:43,889
و بیایید سوالات را ببینیم،
78
00:03:43,889 –> 00:03:49,190
بنابراین اولین سوال این است
79
00:03:49,190 –> 00:03:52,290
که خودروساز را از ستون نام استخراج
80
00:03:52,290 –> 00:03:55,349
کنید که اولین نام در
81
00:03:55,349 –> 00:03:58,920
نام ترکیبی است، به عنوان مثال در همان
82
00:03:58,920 –> 00:04:01,560
ردیف اول نامی مانند
83
00:04:01,560 –> 00:04:04,769
این شورلت شورلت مالیبو پیدا خواهید کرد، بنابراین آنچه
84
00:04:04,769 –> 00:04:06,480
را که باید استخراج کنید اساساً
85
00:04:06,480 –> 00:04:09,359
شورلت، بنابراین این بیشتر یک کار
86
00:04:09,359 –> 00:04:11,549
مهندسی داده یا استخراج داده است
87
00:04:11,549 –> 00:04:13,739
که از ستون موجود،
88
00:04:13,739 –> 00:04:16,168
ستون جدیدی را با
89
00:04:16,168 –> 00:04:20,279
استخراج نام سازنده درست میسازیم،
90
00:04:20,279 –> 00:04:23,880
سؤال دوم ایجاد ستون کم متوسط
91
00:04:23,880 –> 00:04:25,260
ا یا
92
00:04:25,260 –> 00:04:28,560
تون mpg است. بنابراین mpg اولین ستون
93
00:04:28,560 –> 00:04:31,080
در مجموعه داده است و محدوده ای که
94
00:04:31,080 –> 00:04:33,990
باید مشخص کنید این است که اگر از هر مقدار حداقل
95
00:04:33,990 –> 00:04:39,030
تا 17 باید کم باشد از 17 تا 29
96
00:04:39,030 –> 00:04:42,060
باید متوسط باشد و هر جایی مقدار از
97
00:04:42,060 –> 00:04:45,840
9 تا حداکثر باشد پس زیاد است بنابراین ما
98
00:04:45,840 –> 00:04:48,270
از این دسته ستون عددی ایجاد میشوند
99
00:04:48,270 –> 00:04:50,850
که نشان میدهد آیا
100
00:04:50,850 –> 00:04:54,540
ماشین MPG کم است یا ماشین MPG متوسط،
101
00:04:54,540 –> 00:04:56,220
بنابراین دوباره در حال ایجاد یک
102
00:04:56,220 –> 00:04:59,880
ستون جدید یا یک ویژگی جدید از این بررسی در
103
00:04:59,880 –> 00:05:02,130
صورت وجود چیزی هستیم. مقدار در هر یک
104
00:05:02,130 –> 00:05:04,080
از ستونها، بنابراین باید دستوری را اجرا کنید
105
00:05:04,080 –> 00:05:07,170
که میتوانید با استفاده از آن میتوانید
106
00:05:07,170 –> 00:05:10,530
هر مقدار گمشده را شناسایی کنید و اگر بله،
107
00:05:10,530 –> 00:05:14,670
آن را حذف کنید، نوع داده ستون مجموعه دادهها را شناسایی کنید،
108
00:05:14,670 –> 00:05:17,370
بنابراین در
109
00:05:17,370 –> 00:05:19,800
سناریوهایی مانند هر ستون عددی مفید است.
110
00:05:19,800 –> 00:05:23,310
است مانند یک شی است یا اگر هر چیزی
111
00:05:23,310 –> 00:05:26,700
که می دانید کاراکتر به اشتباه
112
00:05:26,700 –> 00:05:29,160
به چیز دیگری تعبیر می شود یا ستون تاریخ
113
00:05:29,160 –> 00:05:30,750
به اشتباه دیگری تعبیر می شود، بنابراین
114
00:05:30,750 –> 00:05:33,180
می توان آن را ارزیابی کرد، بنابراین باید
115
00:05:33,180 –> 00:05:35,460
بدانید که چگونه می توانید
116
00:05:35,460 –> 00:05:37,860
انواع داده های دید داده ستون های مجموعه داده را شناسایی کنید.
117
00:05:37,860 –> 00:05:40,020
سوال بعدی این است که کل مجموعه داده را توصیف
118
00:05:40,020 –> 00:05:42,120
کنید و مشاهدات خود را از این طریق شناسایی کنید
119
00:05:42,120 –> 00:05:44,130
تا مواردی مانند حداقل
120
00:05:44,130 –> 00:05:47,910
حداکثر 25٪ اول مقدار اول 50٪
121
00:05:47,910 –> 00:05:52,020
مقدار میانگین مقدار شما
122
00:05:52,020 –> 00:05:54,150
تعداد مقادیر را داشته باشید، بنابراین مشاهدات زیادی را به شما نشان می دهد
123
00:05:54,150 –> 00:05:56,340
که چقدر
124
00:05:56,340 –> 00:05:59,450
تفاوت بین میانگین و حالت وجود دارد و
125
00:05:59,450 –> 00:06:02,010
اگر تفاوت قابل توجهی است،
126
00:06:02,010 –> 00:06:03,690
باید واقعاً به این موضوع نگاه کنید
127
00:06:03,690 –> 00:06:06,180
و ببینید که میانگین آنها یک متریک خوب است
128
00:06:06,180 –> 00:06:09,360
یا یک میانگین متریک خوبی هم
129
00:06:09,360 –> 00:06:11,490
دارید که
130
00:06:11,490 –> 00:06:14,370
شمارش همه ستونها را نشان میدهد که با استفاده از آن میتوانید
131
00:06:14,370 –> 00:06:17,070
مشاهده کنید که آیا مقداری از دست رفته است یا
132
00:06:17,070 –> 00:06:19,530
نه، بنابراین اگر دیدید
133
00:06:19,530 –> 00:06:21,300
از شما خواستهام به مقدار گمشده نگاه کنید
134
00:06:21,300 –> 00:06:24,600
اکنون این راه دوم است. که شما
135
00:06:24,600 –> 00:06:26,850
می توانید مقدار گمشده را شناسایی کنید اکنون
136
00:06:26,850 –> 00:06:28,500
این سوال می تواند در
137
00:06:28,500 –> 00:06:30,540
مصاحبه شما مطرح شود که تمام روش
138
00:06:30,540 –> 00:06:32,970
هایی که می دانید چیست و با آن می توانید
139
00:06:32,970 –> 00:06:35,880
مقادیر گمشده را به خوبی شناسایی کنید در این صورت می
140
00:06:35,880 –> 00:06:37,950
توانید حداقل با این دو
141
00:06:37,950 –> 00:06:38,729
روش
142
00:06:38,729 –> 00:06:40,439
با درک درستی از آن پاسخ دهید. این
143
00:06:40,439 –> 00:06:42,779
به یک مصاحبه کننده این ایده را می دهد که شما
144
00:06:42,779 –> 00:06:44,490
در مورد این
145
00:06:44,490 –> 00:06:48,449
موضوع خاص کاملاً آگاه هستید، بنابراین
146
00:06:48,449 –> 00:06:51,150
رابطه بین اسب بخار و
147
00:06:51,150 –> 00:06:53,069
تلفن mpg که مایل در هر گالن است چیست، بنابراین شما
148
00:06:53,069 –> 00:06:55,529
باید یک نمودار رابطه ایجاد کنید اکنون
149
00:06:55,529 –> 00:06:56,939
باید بدانید که دانشمند داده
150
00:06:56,939 –> 00:06:59,129
، نمودار رابطه واقعاً نشاندهنده چه چیزی است
151
00:06:59,129 –> 00:07:00,990
و شما باید اکنون یک فرزند در آنجا ایجاد کنید
152
00:07:00,990 –> 00:07:02,969
که رابطه
153
00:07:02,969 –> 00:07:06,599
بین منابع مختلف چگونه است، بنابراین در خود این نمودار
154
00:07:06,599 –> 00:07:10,319
شما باید d برای تقسیم نمودار بر
155
00:07:10,319 –> 00:07:14,300
مبدأ که ایالات متحده آمریکا ژاپن و اروپا هستند
156
00:07:14,300 –> 00:07:18,059
پس از آن رابطه چگونه است هنگامی
157
00:07:18,059 –> 00:07:22,889
که سطح زیر خط mpg اعمال می شود بنابراین mpg
158
00:07:22,889 –> 00:07:24,330
در سطح مدرسه چیزی نیست جز این
159
00:07:24,330 –> 00:07:28,319
چیزی است که وقتی شما mpg را
160
00:07:28,319 –> 00:07:30,029
در سطح مدرسه در مبداهای مختلف اعمال
161
00:07:30,029 –> 00:07:32,819
می کنید. شما در حال حفاری عمیق تر
162
00:07:32,819 –> 00:07:35,399
در داده ها با اعمال این ستون های متعدد
163
00:07:35,399 –> 00:07:38,129
در نمودار رابطه هستید، اکنون
164
00:07:38,129 –> 00:07:40,409
یک خط رگرسیون برای هر سه رابطه رسم کنید،
165
00:07:40,409 –> 00:07:42,059
به این معنی که این سه
166
00:07:42,059 –> 00:07:44,129
رابطه برای مبدأ اینجاست که
167
00:07:44,129 –> 00:07:47,520
ایالات متحده اروپا در ژاپن است، بنابراین باید
168
00:07:47,520 –> 00:07:49,020
یک خط رگرسیون ترسیم کنید. برای هر سه
169
00:07:49,020 –> 00:07:51,599
رابطه بعد از آن،
170
00:07:51,599 –> 00:07:55,949
هیستوگرام کلی ستون mpg چیست، بنابراین
171
00:07:55,949 –> 00:07:57,839
باید مشخص کنید که بیشتر
172
00:07:57,839 –> 00:08:00,839
مقادیر کجا هستند و آیا نزدیک به
173
00:08:00,839 –> 00:08:02,789
منحنی نرمال است که میدانید کمی جدا
174
00:08:02,789 –> 00:08:04,860
از حالت عادی، مانند کج سمت راست،
175
00:08:04,860 –> 00:08:06,270
همه کج میشوند. بنابراین
176
00:08:06,270 –> 00:08:09,779
تفسیر شما در اینجا چیست، سپس
177
00:08:09,779 –> 00:08:11,999
هیستوگرام اسب بخار را رسم کنید و
178
00:08:11,999 –> 00:08:13,830
تفاوت آن با قبلی که
179
00:08:13,830 –> 00:08:18,509
نمودار توزیع mpg است، و سپس
180
00:08:18,509 –> 00:08:20,520
relati را رسم کنید. نمودار روی کشتی برای mpg و
181
00:08:20,520 –> 00:08:22,919
جابجایی و دوشاخه شده توسط دوباره
182
00:08:22,919 –> 00:08:25,889
مبدا و سیلندر و تفاوت ها را درک کنید،
183
00:08:25,889 –> 00:08:28,169
بنابراین قبلاً
184
00:08:28,169 –> 00:08:30,120
نمودار را فقط بر اساس مبدا دوشاخه کرده بودیم اما این بار
185
00:08:30,120 –> 00:08:32,159
در حال گسترش هستیم و می گوییم
186
00:08:32,159 –> 00:08:34,740
که از سیلندرها نیز تأثیر بگیرید
187
00:08:34,740 –> 00:08:40,500
و تفاوت ها را ببینید. بعدی ایجاد یک
188
00:08:40,500 –> 00:08:44,639
نمودار خطی برای سال مدل و mpg است که
189
00:08:44,639 –> 00:08:46,800
باید تغییرات را در هر سال
190
00:08:46,800 –> 00:08:49,019
به صورت یک خط عمودی نشان دهد، بنابراین شما یک
191
00:08:49,019 –> 00:08:51,779
نمودار خطی مانند این یا آن پایین به این
192
00:08:51,779 –> 00:08:52,530
شکل داشته باشید،
193
00:08:52,530 –> 00:08:55,470
اما در هر نقطه داده باید یک
194
0