در این مطلب، ویدئو مطالعه موردی تمرین یادگیری ماشین پایتون برای پیشبینی بیماری قلبی با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:26:55
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,080 –> 00:00:04,319
سلام و به مطالعه موردی جدید
2
00:00:04,319 –> 00:00:08,639
برای پیشبینی بیماری قلبی خوش آمدید، بنابراین
3
00:00:08,639 –> 00:00:10,480
اگر ستونی را که در اینجا مشاهده کردید،
4
00:00:10,480 –> 00:00:12,960
بیماری قلبی است، بنابراین مجموعه دادههای این
5
00:00:12,960 –> 00:00:15,599
مجموعه داده تمرینی از
6
00:00:15,599 –> 00:00:17,920
کتابخانه یادگیری ماشینی uci است که
7
00:00:17,920 –> 00:00:20,320
احتمالاً بیشتر شما درباره آن میدانید. این یا
8
00:00:20,320 –> 00:00:21,840
اگر نمی دانید، می توانید آن را
9
00:00:21,840 –> 00:00:23,600
در گوگل در مورد کتابخانه یادگیری ماشینی uci بنویسید
10
00:00:23,600 –> 00:00:26,240
و
11
00:00:26,240 –> 00:00:27,359
12
00:00:27,359 –> 00:00:30,000
مجموعه داده های تمرین خوب زیادی پیدا خواهید کرد، بنابراین این مجموعه
13
00:00:30,000 –> 00:00:32,320
داده نیز از آنجاست
14
00:00:32,320 –> 00:00:34,719
و اساساً بر اساس
15
00:00:34,719 –> 00:00:37,360
دو مطالعه موردی آخر است. مطالعات موردی حل شده ای
16
00:00:37,360 –> 00:00:39,840
را که من گردآوری کرده ام و
17
00:00:39,840 –> 00:00:43,680
در یوتیوب پست کرده ام به این معنی است که
18
00:00:43,680 –> 00:00:45,440
اگر این مطالعه موردی را انجام می دهید و
19
00:00:45,440 –> 00:00:47,120
بر اساس
20
00:00:47,120 –> 00:00:49,200
سؤالاتی که خواهم پرسید
21
00:00:49,200 –> 00:00:51,360
برایتان مشکل است، آنها را یکی یکی در اینجا در این ستون n به شما نشان خواهم داد.
22
00:00:51,360 –> 00:00:53,760
سپس میتوانید
23
00:00:53,760 –> 00:00:56,239
از آن مطالعات موردی مرجعی بگیرید
24
00:00:56,239 –> 00:00:59,199
که چگونه آنها را به درستی حل کنید،
25
00:00:59,199 –> 00:01:01,920
اگر قبلاً آنها را دیدهاید و
26
00:01:01,920 –> 00:01:04,559
میخواهید تمرین کنید، سپس میتوانید بر
27
00:01:04,559 –> 00:01:06,159
اساس سؤالاتی که در اینجا به شما میدهم تمرین
28
00:01:06,159 –> 00:01:09,360
کنید و این مجموعه دادهها همه است. بنابراین
29
00:01:09,360 –> 00:01:11,040
30
00:01:11,040 –> 00:01:14,240
در این درایو گوگل که من آن را نگه میدارم،
31
00:01:14,240 –> 00:01:17,040
آن را تحت مطالعه موردی زیر
32
00:01:17,040 –> 00:01:18,640
پوشه مجموعه دادهها قرار میدهم، شما پوشه مطالعه موردی
33
00:01:18,640 –> 00:01:22,000
را دارید و این فایل csv نقطه سخت
34
00:01:22,000 –> 00:01:25,040
را دارید که میتوانید آن را بهعنوان
35
00:01:25,040 –> 00:01:26,720
چیزی غیر از این یکی
36
00:01:26,720 –> 00:01:28,799
درست بگیرید. چیزی که من به شما نشان می دهم
37
00:01:28,799 –> 00:01:32,079
فایل csv نیست بلکه یک فایل اکسل است زیرا من
38
00:01:32,079 –> 00:01:34,479
فقط باید چند تا را اضافه کنم اگر
39
00:01:34,479 –> 00:01:36,000
می توانید
40
00:01:36,000 –> 00:01:38,240
نظرات بیشتری در مورد هر یک از
41
00:01:38,240 –> 00:01:39,920
این متغیرها مشاهده کنید تا حداقل
42
00:01:39,920 –> 00:01:42,280
بتوانم به شما درست توضیح دهم. آنها بسیار
43
00:01:42,280 –> 00:01:45,280
خود توضیحی هستند مانند جنس سن،
44
00:01:45,280 –> 00:01:47,840
چه یک فرد مرد باشد یا یک فرد زن، و
45
00:01:47,840 –> 00:01:49,439
اینکه آیا فرد مبتلا به
46
00:01:49,439 –> 00:01:52,000
بیماری قلبی است یا نه صفر نشان دهنده
47
00:01:52,000 –> 00:01:54,159
بیماری قلبی نیست، یکی نشان می دهد که فرد
48
00:01:54,159 –> 00:01:56,719
مبتلا به بیماری قلبی است، بنابراین فکر می کنم اینطور
49
00:01:56,719 –> 00:01:58,399
باشد. یک مجموعه داده خوب که
50
00:01:58,399 –> 00:02:00,479
از طریق آن میتوانید
51
00:02:00,479 –> 00:02:02,640
مهارتهای خود را در مورد الگوریتم طبقهبندی تمرین کنید،
52
00:02:02,640 –> 00:02:04,399
بنابراین این یک
53
00:02:04,399 –> 00:02:06,159
مشکل طبقهبندی باینری است، همانطور که میبینید
54
00:02:06,159 –> 00:02:07,040
55
00:02:07,040 –> 00:02:09,598
ما میخواهیم به ما کمک کنیم اساساً
56
00:02:09,598 –> 00:02:11,200
الگوریتمی ایجاد کنیم
57
00:02:11,200 –> 00:02:13,360
که اساساً بتواند ورودی
58
00:02:13,360 –> 00:02:16,239
این موارد را بگیرد. متغیرها و پیش بینی اینکه آیا یک
59
00:02:16,239 –> 00:02:18,000
فرد به
60
00:02:18,000 –> 00:02:20,319
بیماری قلبی مبتلا خواهد شد یا خیر، به
61
00:02:20,319 –> 00:02:22,720
این فکر کنید که شما یک
62
00:02:22,720 –> 00:02:25,040
دانشمند داده مشتاق هستید و
63
00:02:25,040 –> 00:02:26,480
قطعاً به همین دلیل است که احتمالاً به آن
64
00:02:26,480 –> 00:02:28,560
نگاه می کنید یا شاید در حال کاوش هستید
65
00:02:28,560 –> 00:02:30,640
و می خواهید کاوش کنید. برخی از یا
66
00:02:30,640 –> 00:02:32,319
بررسی برخی از سناریوهای مرتبط با پزشکی
67
00:02:32,319 –> 00:02:35,200
درست در مورد اینکه چگونه میتوانید
68
00:02:35,200 –> 00:02:37,760
بیماری را قبل از وقوع آن پیشبینی کنید،
69
00:02:37,760 –> 00:02:40,239
بنابراین این میتواند بهعنوان یک منبع بسیار
70
00:02:40,239 –> 00:02:42,879
ابتدایی و شروع کننده باشد که شما اطلاعاتی
71
00:02:42,879 –> 00:02:45,120
در مورد چگونگی واقعاً
72
00:02:45,120 –> 00:02:46,560
با کمک یادگیری ماشینی میدانید.
73
00:02:46,560 –> 00:02:49,599
الگوریتمی که میتوانید پیشبینی کنید یا
74
00:02:49,599 –> 00:02:51,760
حتی میتوانید
75
00:02:51,760 –> 00:02:54,319
برنامهای کوچک ایجاد کنید که کاربرد عمومی دارد و
76
00:02:54,319 –> 00:02:56,959
اساساً میتواند به فرد بگوید
77
00:02:56,959 –> 00:02:58,480
آیا فرد مبتلا به بیماری قلبی است
78
00:02:58,480 –> 00:03:00,720
یا نه، بدیهی است که
79
00:03:00,720 –> 00:03:03,040
شما اطلاعاتی در مورد اینکه آیا آنها
80
00:03:03,040 –> 00:03:05,040
باید اساساً همه موارد را بگویند یا خیر میدانید. این
81
00:03:05,040 –> 00:03:06,879
اطلاعات ممکن است از طریق آزمایش یا
82
00:03:06,879 –> 00:03:10,400
چیز دیگری باشد، یا ممکن است فرض
83
00:03:10,400 –> 00:03:12,879
کنید که می دانید در
84
00:03:12,879 –> 00:03:16,319
حال پیوستن به یک آزمایشگاه آسیب شناسی هستید یا قصد دارید به یک آزمایشگاه پاتولوژی بپیوندید
85
00:03:16,319 –> 00:03:17,680
. حداقل چیزی که ما
86
00:03:17,680 –> 00:03:18,879
در هند به
87
00:03:18,879 –> 00:03:21,680
آن می گوییم، آنها اساساً همه آزمایشات را انجام می دهند مانند
88
00:03:21,680 –> 00:03:24,239
معاینه عمومی سلامت و
89
00:03:24,239 –> 00:03:26,239
همه این اطلاعات را جمع آوری می کنند، مانند
90
00:03:26,239 –> 00:03:29,840
سطح قند خون ناشتا کلسترول
91
00:03:29,840 –> 00:03:31,040
ECG
92
00:03:31,040 –> 00:03:34,400
استراحت bsvp و همه آن چیزها و
93
00:03:34,400 –> 00:03:37,040
اساساً شما می دانید که می
94
00:03:37,040 –> 00:03:38,560
دهند یا پزشکان اساساً
95
00:03:38,560 –> 00:03:40,000
اطلاعات می دهند که آیا شما در حال حاضر طبیعی هستید یا
96
00:03:40,000 –> 00:03:43,120
نه در این مورد خاص این
97
00:03:43,120 –> 00:03:45,200
مربوط به بیماری قلبی است درست است و
98
00:03:45,200 –> 00:03:48,239
شما می خواهید بگوییم دکتر تا
99
00:03:48,239 –> 00:03:51,120
نتیجه گیری کند که چیزی درست نیست
100
00:03:51,120 –> 00:03:52,400
و ممکن است فرد به
101
00:03:52,400 –> 00:03:54,080
بیماری قلبی مبتلا باشد. تاریخچه
102
00:03:54,080 –> 00:03:56,319
داده ها، بنابراین آنچه که من در اینجا به شما نشان می دهم
103
00:03:56,319 –> 00:03:58,080
یا مجموعه داده ای که به ما داده شده است
104
00:03:58,080 –> 00:04:01,120
اساساً سابقه
105
00:04:01,120 –> 00:04:05,040
بیماران در سنین مختلف را
106
00:04:05,040 –> 00:04:07,519
107
00:04:07,519 –> 00:04:09,120
108
00:04:09,120 –> 00:04:10,640
دارد. داده شده و
109
00:04:10,640 –> 00:04:12,239
بر این اساس نتیجه گرفته شده است یا
110
00:04:12,239 –> 00:04:14,000
مشخص شده است که آیا آنها به
111
00:04:14,000 –> 00:04:16,320
بیماری قلبی مبتلا هستند یا نه،
112
00:04:16,320 –> 00:04:18,639
همانطور که من می گفتم متغیرهایی که
113
00:04:18,639 –> 00:04:20,320
باید برای سن ارائه کنیم و جنسیت
114
00:04:20,320 –> 00:04:22,560
اساساً دو متغیر است که به وضوح
115
00:04:22,560 –> 00:04:23,919
درک می شود،
116
00:04:23,919 –> 00:04:26,960
پس شما این نوع درد قفسه سینه
117
00:04:26,960 –> 00:04:28,800
را دارید و اگر می بینید uh
118
00:04:28,800 –> 00:04:29,600
119
00:04:29,600 –> 00:04:32,240
the مانند مخفف آتا و
120
00:04:32,240 –> 00:04:35,199
ap است و همه آنها مانند uh
121
00:04:35,199 –> 00:04:38,080
ta معمولی هستند و نیک و شام
122
00:04:38,080 –> 00:04:41,120
آتا i من در این زمینه خیلی متخصص نیستم، بنابراین
123
00:04:41,120 –> 00:04:44,240
80 یک معمای معمولی است و چرت زدن
124
00:04:44,240 –> 00:04:46,720
درد غیرمهندسی است و
125
00:04:46,720 –> 00:04:50,080
بدون علامت است، درست است و سپس
126
00:04:50,080 –> 00:04:51,600
127
00:04:51,600 –> 00:04:54,080
فشار خون در حالت استراحت مانند فشار خون در حالت استراحت را
128
00:04:54,080 –> 00:04:56,000
129
00:04:56,000 –> 00:04:58,800
130
00:04:58,800 –> 00:05:01,759
با میلیمتر جیوه اندازهگیری میکنید و سپس کلسترول را بر حسب میلیلیتر اندازهگیری میکنید. امروز یک چیز بسیار
131
00:05:01,759 –> 00:05:03,199
رایج است که
132
00:05:03,199 –> 00:05:06,479
داشتن کلسترول بالا حتی من هم دارم، بنابراین
133
00:05:06,479 –> 00:05:09,520
bs ناشتا، قند
134
00:05:09,520 –> 00:05:11,919
135
00:05:11,919 –> 00:05:13,520
136
00:05:13,520 –> 00:05:15,440
137
00:05:15,440 –> 00:05:18,960
138
00:05:18,960 –> 00:05:22,840
139
00:05:22,840 –> 00:05:26,400
خون ناشتا است. نشان دادن احتمال
140
00:05:26,400 –> 00:05:29,800
یا قطعی کلمه سمت چپ هیپرتروپی هسته ای
141
00:05:29,800 –> 00:05:31,440
142
00:05:31,440 –> 00:05:32,400
توسط
143
00:05:32,400 –> 00:05:34,720
این معیارها، من واقعاً نمی دانم
144
00:05:34,720 –> 00:05:36,400
145
00:05:36,400 –> 00:05:39,039
معنی واقعاً چیست اوه این
146
00:05:39,039 –> 00:05:41,120
حداکثر ضربان قلب است که بین 6 به دست آمده است.
147
00:05:41,120 –> 00:05:42,960
0 و 202
148
00:05:42,960 –> 00:05:44,960
uh و سپس شما تمرین را
149
00:05:44,960 –> 00:05:46,560
دارید و می دانید
150
00:05:46,560 –> 00:05:49,360
و اوج قدیمی و
151
00:05:49,360 –> 00:05:52,320
پایین خط پایین شیب شیب
152
00:05:52,320 –> 00:05:54,880
اوج ورزش قطعه قطعه به بالا است
153
00:05:54,880 –> 00:05:57,120
شیبدار صاف صاف به پایین شیب پایین است
154
00:05:57,120 –> 00:05:59,759
فکر می کنم اگر اشتباه نکنم این است
155
00:05:59,759 –> 00:06:01,919
این مربوط به آن تردمیل
156
00:06:01,919 –> 00:06:04,240
هایی است که گاهی اوقات وقتی
157
00:06:04,240 –> 00:06:06,080
برای معاینه بهداشتی می رفتم روی آنها
158
00:06:06,080 –> 00:06:07,360
از من می
159
00:06:07,360 –> 00:06:08,080
160
00:06:08,080 –> 00:06:10,400
خواستند که اساساً روی شیب تخت یا تردمیل صاف راه بروم و بدوم
161
00:06:10,400 –> 00:06:12,880
162
00:06:12,880 –> 00:06:14,639
و سپس
163
00:06:14,639 –> 00:06:17,280
آن را مانند تپه پیاده روی یا دویدن روی تپه متمایل می کردند.
164
00:06:17,280 –> 00:06:19,520
یک چیز بود و آنها
165
00:06:19,520 –> 00:06:20,960
اساساً در حال حاضر بررسی می کردند،
166
00:06:20,960 –> 00:06:22,960
امیدوارم فکر کنم این همان چیزی است که وجود دارد
167
00:06:22,960 –> 00:06:24,880
و در نهایت آنچه شما دارید
168
00:06:24,880 –> 00:06:26,800
بیماری قلبی است
169
00:06:26,800 –> 00:06:28,319
که آیا فردی به
170
00:06:28,319 –> 00:06:30,960
بیماری قلبی مبتلا است یا خیر،
171
00:06:30,960 –> 00:06:33,520
بنابراین با کمک این
172
00:06:33,520 –> 00:06:35,759
چند مورد از سؤالاتی که ما سعی داریم
173
00:06:35,759 –> 00:06:37,120
به آنها پاسخ دهیم
174
00:06:37,120 –> 00:06:39,600
مانند سؤالی است که
175
00:06:39,600 –> 00:06:42,800
در اینجا وجود دارد، اگر من آن را به یک پلاک تبدیل
176
00:06:42,800 –> 00:06:45,039
کنم فقط می خواهم در مورد سؤال بعدی کاملاً تعلیق را حفظ کنم،
177
00:06:45,039 –> 00:06:46,479
178
00:06:46,479 –> 00:06:48,400
بنابراین اولین چیز این است که شما باید
179
00:06:48,400 –> 00:06:50,240
مجموعه داده را
180
00:06:50,240 –> 00:06:52,400
بدون توجه به ابزار وارد کنید.
181
00:06:52,400 –> 00:06:53,280
اوه
182
00:06:53,280 –> 00:06:54,560
که تو در حال استفاده هستید، فرض کنید
183
00:06:54,560 –> 00:06:56,479
از پایتون استفاده میکنید،
184
00:06:56,479 –> 00:06:57,840
از r
185
00:06:57,840 –> 00:07:01,199
julia یا هر نرمافزار دیگری استفاده میکنید
186
00:07:01,199 –> 00:07:03,440
که اساساً برای
187
00:07:03,440 –> 00:07:04,800
انجام یادگیری ماشینی یا
188
00:07:04,800 –> 00:07:07,199
تجزیه و تحلیل دادهها حتی تابلو یا power bi تا
189
00:07:07,199 –> 00:07:08,800
حد معینی مانند آن نوع
190
00:07:08,800 –> 00:07:11,520
ابزارها میتواند در همکاری با
191
00:07:11,520 –> 00:07:13,599
همه آشکارا مانند
192
00:07:13,599 –> 00:07:15,039
پایتون یا هنری استفاده شود که از طریق آنها می توانید الگوریتم را اجرا کنید
193
00:07:15,039 –> 00:07:16,720
، بنابراین اگر در
194
00:07:16,720 –> 00:07:18,800
آنجا متخصص هستید می توانید از آن استفاده کنید، اما کل
195
00:07:18,800 –> 00:07:21,759
ایده به این مشکل مربوط می شود
196
00:07:21,759 –> 00:07:24,880
که چگونه می توانیم آن را تا این حد خود شهودی کنیم یا
197
00:07:24,880 –> 00:07:26,560
حداقل ماشینی که توسط یک الگوریتم یادگیری ماشین هدایت می شود،
198
00:07:26,560 –> 00:07:28,000
199
00:07:28,000 –> 00:07:29,680
به طوری که ما می توانیم به سرعت پیش بینی
200
00:07:29,680 –> 00:07:30,960
کنیم که آیا یک فرد به
201
00:07:30,960 –> 00:07:33,120
بیماری قلبی مبتلا است یا نه، مانند یک برنامه کوچک، بنابراین
202
00:07:33,120 –> 00:07:35,280
ابتدا باید
203
00:07:35,280 –> 00:07:36,400
مجموعه داده را به
204
00:07:36,400 –> 00:07:38,560
درستی مجموعه داده csv وارد کنید
205
00:07:38,560 –> 00:07:40,000
و بعد از آن
206
00:07:40,000 –> 00:07:43,199
آه. باید بررسی کنید که چند ردیف
207
00:07:43,199 –> 00:07:44,879
در مجموعه داده دارید
208
00:07:44,879 –> 00:07:46,319
در واقع چند ردیف و ستون
209
00:07:46,319 –> 00:07:48,639
در مجموعه داده دارید
210
00:07:48,639 –> 00:07:50,960
تا بتوانید احساسی از مجموعه دادهها در مورد
211
00:07:50,960 –> 00:07:54,160
چه با چه نوع یا
212
00:07:54,160 –> 00:07:56,240
مجموعه دادههای بزرگ یا کوچک داشته باشید. که شما هستید در مواجهه با
213
00:07:56,240 –> 00:07:57,919
شما میتوانید به وضوح تعداد
214
00:07:57,919 –> 00:08:00,319
ستونها را در اینجا ببینید، اما نمیدانید
215
00:08:00,319 –> 00:08:03,360
چند ردیف وجود دارد، بنابراین این میتواند
216
00:08:03,360 –> 00:08:05,360
در سناریوهایی مانند مواردی مفید باشد، مثلاً
217
00:08:05,360 –> 00:08:07,440
اگر سؤال مصاحبه است که چرا
218
00:08:07,440 –> 00:08:09,440
بررسی شکل مهم است. از مجموعه داده ها
219
00:08:09,440 –> 00:08:10,240
،
220
00:08:10,240 –> 00:08:12,400
بنابراین ممکن است ویدیو را مکث کنید و
221
00:08:12,400 –> 00:08:15,599
برای یک دقیقه فکر کنید که چرا این سوال پرسیده شده است به
222
00:08:15,599 –> 00:08:18,160
نظر من که دلیل پرسیدن این
223
00:08:18,160 –> 00:08:20,879
سوال یا می دانید آنچه احتمالاً
224
00:08:20,879 –> 00:08:22,639
مصاحبه کننده می خواهد از شما بفهمد
225
00:08:22,639 –> 00:08:23,440
226
00:08:23,440 –> 00:08:24,960
این است که
227
00:08:24,960 –> 00:08:26,639
آیا واقعاً
228
00:08:26,639 –> 00:08:29,199
در مورد آن می دانید؟ مجموعه دادههای بزرگ چقدر است یا واقعاً ابتدا تشخیص میدهید که با
229
00:08:29,199 –> 00:08:31,360
چه حجمی از یک مجموعه داده
230
00:08:31,360 –> 00:08:32,320
سروکار دارید و
231
00:08:32,320 –> 00:08:35,120
بر این اساس دستورات خود را شلیک میکنید یا اجرا
232
00:08:35,120 –> 00:08:37,039
میکنید زیرا برخی از دستورات
233
00:08:37,039 –> 00:08:39,039
بسیار ساده هستند مانند مشاهده پنج ردیف اول
234
00:08:39,039 –> 00:08:41,440
یا نشان دادن پنج ردیف آخر و
235
00:08:41,440 –> 00:08:43,919
مواردی مانند آن، اما برخی از دستورات مانند
236
00:08:43,919 –> 00:08:45,760
برای مثال اگر چیزی را ترسیم می
237
00:08:45,760 –> 00:08:47,600
کنید یا اگر می خواهید همبستگی
238
00:08:47,600 –> 00:08:49,279
انجام دهید یا اگر می خواهید
239
00:08:49,279 –> 00:08:51,279
کل مجموعه داده را خلاصه کنید
240
00:08:51,279 –> 00:08:54,240
یا ترسیم کنید، آنها مقدار زیادی از آنها را می گیرند. منابع
241
00:08:54,240 –> 00:08:56,000
درست است و اگر با یک مجموعه داده بزرگ سروکار دارید، به
242
00:08:56,000 –> 00:08:57,680
این معنی است که آنها خواهند رفت،
243
00:08:57,680 –> 00:09:00,160
شما تعداد زیادی از شما
244
00:09:00,160 –> 00:09:02,240
را به محاسبات زیادی نیاز خواهید داشت و
245
00:09:02,240 –> 00:09:04,560
شاید سوال بعدی بعد از آن
246
00:09:04,560 –> 00:09:06,480
در سطح کمی متوسط تا پیشرفته با
247
00:09:06,480 –> 00:09:08,640
248
00:09:08,640 –> 00:09:10,320
د. اگر فرض کنید با یک مجموعه داده سروکار دارید که
249
00:09:10,320 –> 00:09:12,160
250
00:09:12,160 –> 00:09:14,959
در اینجا یک میلیارد ردیف دارد، چگونه آن را به درستی بهبود میدهید، بنابراین نوشتن
251
00:09:14,959 –> 00:09:17,360
یک دستور ساده حتی برای خلاصه کردن
252
00:09:17,360 –> 00:09:19,839
مجموعه دادهها ممکن است
253
00:09:19,839 –> 00:09:21,519
از تعداد زیادی ثانیه تا حتی یک
254
00:09:21,519 –> 00:09:23,440
دقیقه طول بکشد. درست است زیرا این یک مجموعه داده عظیم است
255
00:09:23,440 –> 00:09:25,279
، بنابراین چگونه می توانید آن را بهبود ببخشید که
256
00:09:25,279 –> 00:09:27,279
می تواند سوال بعدی باشد، بنابراین این
257
00:09:27,279 –> 00:09:29,279
نوع سوالی است که باید در ذهن داشته باشیم
258
00:09:29,279 –> 00:09:31,680
یا حداقل من در ذهن خود نگه داشته ام که بر
259
00:09:31,680 –> 00:09:33,920
اساس آن چرا این را می نویسم هر
260
00:09:33,920 –> 00:09:36,160
سوالی که در اینجا به شما نشان میدهم به
261
00:09:36,160 –> 00:09:39,360
نوعی باید به آن
262
00:09:39,360 –> 00:09:42,000
ربط دهید که اوه، بیایید یک سؤال مصاحبه بگوییم
263
00:09:42,000 –> 00:09:43,600
و همانطور که سؤال را به شما نشان میدهم
264
00:09:43,600 –> 00:09:45,120
در مورد آن فکر کنید ویدیو را در آن زمان مکث کنید
265
00:09:45,120 –> 00:09:46,720
و به سناریو فکر کنید یا به ab فکر کنید.
266
00:09:46,720 –> 00:09:49,360
آن را مشخص کنید که چه زمانی پرسیده می شود
267
00:09:49,360 –> 00:09:51,279
یا چرا درست در مصاحبه پرسیده می شود،
268
00:09:51,279 –> 00:09:53,200
269
00:09:53,200 –> 00:09:55,120
بنابراین با بازگشت به سوال بررسی
270
00:09:55,120 –> 00:09:57,440
کنید که در حال حاضر چند ردیف و ستون در مجموعه داده دارید
271
00:09:57,440 –> 00:09:59,360
272
00:09:59,360 –> 00:10:01,120
، سوال بعدی
273
00:10:01,120 –> 00:10:02,240
274
00:10:02,240 –> 00:10:07,120
بررسی نوع داده است. هر ستون، بنابراین دوباره
275
00:10:07,120 –> 00:10:09,519
در مورد آن در مورد سناریو فکر کنید، اگر نمی دانید در نظرات به من اطلاع دهید، من
276
00:10:09,519 –> 00:10:11,519
277
00:10:11,519 –> 00:10:13,440
به شما کمک خواهم کرد تا آن را درک کنید، اما
278
00:10:13,440 –> 00:10:14,800
این چیزی است که
279
00:10:14,800 –> 00:10:16,480
قبلا در مطالعات موردی قبلی خود در مورد آن بحث کرده ام،
280
00:10:16,480 –> 00:10:18,240
راه حل موجود در لینک
281
00:10:18,240 –> 00:10:20,240
زیر که می توانید
282
00:10:20,240 –> 00:10:22,160
سوال بعدی را دنبال کنید این است که
283
00:10:22,160 –> 00:10:24,560
پنج ردیف اول و پنج ردیف آخر را مرور کنید
284
00:10:24,560 –> 00:10:27,360
و مقادیر
285
00:10:27,440 –> 00:10:30,000
286
00:10:30,000 –> 00:10:32,800
287
00:10:32,800 –> 00:10:34,000
را بررسی
288
00:10:34,000 –> 00:10:36,399
کنید. و سپس برای
289
00:10:36,399 –> 00:10:39,200
هر ستون که آیا هر یک از ستون
290
00:10:39,200 –> 00:10:41,200
ها مجموعه داده را دارد یا
291
00:10:41,200 –> 00:10:42,720
292
00:10:42,720 –> 00:10:45,680
نه، سوال بعدی آماری را اجرا می کند
293
00:10:45,680 –> 00:10:49,680
مانند میانگین میانه حداکثر آن
294
00:10:49,680 –> 00:10:51,760
صدک ها و همه چیزهایی که می خواهیم به
295
00:10:51,760 –> 00:10:53,760
اینجا بیایم، بنابراین دستوری که انجام می دهیم چیست؟
296
00:10:53,760 –> 00:10:55,760
در حال اجرا و تفسیر شما
297
00:10:55,760 –> 00:10:57,279
298
00:10:57,279 –> 00:10:59,760
از طریق میانگین و حداکثر چه خواهد بود
299
00:10:59,760 –> 00:11:01,360
فقط با کمک این سه
300
00:11:01,360 –> 00:11:03,279
متغیر و بدیهی است که حداقل و
301
00:11:03,279 –> 00:11:05,279
حداکثر شما در واقع می توانید در مورد
302
00:11:05,279 –> 00:11:06,800
303
00:11:06,800 –> 00:11:08,240
هر یک از ستون هایی که با آنها سر و کار دارید
304
00:11:08,240 –> 00:11:10,640
مشابه سوال اطلاعات زیادی کسب کنید. شماره دو
305
00:11:10,640 –> 00:11:12,240
بررسی تعداد سطرها و ستونهایی که
306
00:11:12,240 –> 00:11:13,600
در مجموعه دادهها دارید، به شما در مورد
307
00:11:13,600 –> 00:11:15,839
کل مجموعه دادهها میگوید که این آمارها را
308
00:11:15,839 –> 00:11:17,440
در هر ستون اجرا میکنند و یافتن
309
00:11:17,440 –> 00:11:19,839
میانگین حداقل صدکهای میانگین میانه،
310
00:11:19,839 –> 00:11:21,680
چیزهای زیادی در مورد مجموعه دادهها و مشکلی
311
00:11:21,680 –> 00:11:23,519
که با آن روبرو هستید به شما میگوید. اگر در
312
00:11:23,519 –> 00:11:25,279
حال انجام تفسیری از آن هستید، به این
313
00:11:25,279 –> 00:11:26,160
معنی است که
314
00:11:26,160 –> 00:11:28,560
شما واقعاً مجموعه دادههای خود را در اختیار میگیرید
315
00:11:28,560 –> 00:11:29,360
و
316
00:11:29,360 –> 00:11:32,079
میتوانید بینش خوبی از
317
00:11:32,079 –> 00:11:33,120
آن
318
00:11:33,120 –> 00:11:34,880
به دست آورید، سؤال بعدی این است
319
00:11:34,880 –> 00:11:38,160
که بفهمید چند نفر به
320
00:11:38,160 –> 00:11:40,000
بیماری قلبی مبتلا هستند و درصد آنها چقدر است و
321
00:11:40,000 –> 00:11:42,800
حتی من میگویم آن را تجسم کنید من نشان
322
00:11:42,800 –> 00:11:44,880
دادهام که در راهحلهای من،
323
00:11:44,880 –> 00:11:47,360
سؤال بعدی کاملاً
324
00:11:47,360 –> 00:11:49,040
مبتنی است، بنابراین سؤال هفتم است که شما
325
00:11:49,040 –> 00:11:52,160
در سطح بالایی شناسایی میکنید که بر اساس
326
00:11:52,160 –> 00:11:55,440
جنسیت دوشاخه شده و بررسی کنید مرد یا
327
00:11:55,440 –> 00:11:58,160
زن او الگوی متفاوتی را به شما نشان میدهد و
328
00:11:58,160 –> 00:12:00,560
واضح است که تصویری از آن ایجاد میکند
329
00:12:00,560 –> 00:12:02,800
و همانطور که انتظار دارید این
330
00:12:02,800 –> 00:12:04,079
چیزی
331
00:12:04,079 –> 00:12:07,600
است که مشخص میکند آیا به طور متوسط یک مرد یا
332
00:12:07,600 –> 00:12:10,639
ن از الگوی متفاوتی از
333
00:12:10,639 –> 00:12:13,279
ظر بیماری قلبی پیروی میکند، اگر اکنون مجبور با
334
00:12:13,279 –> 00:12:14,079
335
00:12:14,079 –> 00:12:16,639
م. با
336
00:12:16,639 –> 00:12:19,440
بیشتر به عمق این سوال بپردازم، سپس کاری
337
00:12:19,440 –> 00:12:21,440
که انجام میدهم این است که احتمالاً به
338
00:12:21,440 –> 00:12:24,000
اینجا میآیم و به سنی نگاه
339
00:12:24,000 –> 00:12:27,680
میکنم که احتمالاً در هر سنی به درستی دوشاخه خواهم شد.
340
00:12:27,680 –> 00:12:29,760
341
00:12:29,760 –> 00:12:35,040
45 55 65 یا شاید
342
00:12:35,040 –> 00:12:37,360
شما می دانید 25 تا 45 هر دسته ای که به
343
00:12:37,360 –> 00:12:38,720
نظر خوب می رسد زیرا این نیز
344
00:12:38,720 –> 00:12:41,360
یک نوع مشکل تحقیقاتی است که اگر
345
00:12:41,360 –> 00:12:44,160
شما مردان و زنان در
346
00:12:44,160 –> 00:12:46,720
گروه های سنی مختلف خود رفتار
347
00:12:46,720 –> 00:12:49,760
متفاوتی از خود نشان می دهند یا این یک
348
00:12:49,760 –> 00:12:52,480
الگوی است.
349
00:12:52,480 –> 00:12:54,480
هنگامی که دوباره این دوشاخه را انجام می دهید، ظاهر می شود،
350
00:12:54,480 –> 00:12:57,120
این همان چیزی است که در
351
00:12:57,120 –> 00:12:59,839
سرفصل های اخبار یا مجلات سلامتی خود می دیدید
352
00:12:59,839 –> 00:13:01,920
، این همان تحقیقی است که آنها
353
00:13:01,920 –> 00:13:03,600
با برش دادن و
354
00:13:03,600 –> 00:13:05,839
تقسیم بندی گروه بندی بیشتر انجام می دهند که باعث ایجاد افکار می شود. گروه تام و
355
00:13:05,839 –> 00:13:08,800
پیدا کردن چه گروههایی نشان میدهد که چه نوع
356
00:13:08,800 –> 00:13:11,360
خواصی را نشان میدهد و بر این اساس آنها
357
00:13:11,360 –> 00:13:14,000
اساساً به شما پیشنهاد میکنند سبک
358
00:13:14,000 –> 00:13:16,079
زندگی غذاها و چیزه