فیلم آموزشی: تجزیه و تحلیل داده های اکتشافی EDA با استفاده از پایتون | آموزش پایتون | ادورکا | DL Rewind - 3 با زیرنویس فارسی - فیلمهای python | ویدئو های آموزش پایتون

در این مطلب، ویدئو تجزیه و تحلیل داده های اکتشافی EDA با استفاده از پایتون | آموزش پایتون | ادورکا | DL Rewind – 3 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:31:15

تصاویر این ویدئو:

قسمتی از زیرنویس این فیلم:

1
00:00:10,240 –> 00:00:11,759
سلام به همه این وسیم از

2
00:00:11,759 –> 00:00:13,679
edureka است و من به همه شما خوش آمد می گویم به این

3
00:00:13,679 –> 00:00:15,280
جلسه که در آن من قصد دارم در

4
00:00:15,280 –> 00:00:17,600
مورد تجزیه و تحلیل داده های اکتشافی در

5
00:00:17,600 –> 00:00:19,520
پایتون صحبت کنم، بنابراین بیایید ابتدا به

6
00:00:19,520 –> 00:00:21,760
دستور کار این جلسه نگاهی بیندازیم، من

7
00:00:21,760 –> 00:00:23,439
می خواهم توضیح دهم که دقیقاً چه چیزی

8
00:00:23,439 –> 00:00:26,320
اکتشافی است. تجزیه و تحلیل داده ها است و سپس ما

9
00:00:26,320 –> 00:00:28,480
به سمت کل هدف

10
00:00:28,480 –> 00:00:30,960
انجام eda بر روی هر مجموعه داده

11
00:00:30,960 –> 00:00:32,719
پیش می رویم، تمام

12
00:00:32,719 –> 00:00:34,320
مراحلی را که در کل

13
00:00:34,320 –> 00:00:37,280
فرآیند تجزیه و تحلیل داده های اکتشافی دخیل هستند را مورد بحث قرار

14
00:00:37,280 –> 00:00:39,520
می دهیم و در نهایت eda را بر روی یک

15
00:00:39,520 –> 00:00:40,960
مجموعه داده از

16
00:00:40,960 –> 00:00:42,160
من امیدوارم که اکنون بدون هیچ مقدمه ای

17
00:00:42,160 –> 00:00:43,280
دستور کار را روشن کرده

18
00:00:43,280 –> 00:00:45,440
باشید، بیایید

19
00:00:45,440 –> 00:00:46,559
جلسه خود را شروع کنیم،

20
00:00:46,559 –> 00:00:48,879
بنابراین آنچه دقیقاً

21
00:00:48,879 –> 00:00:50,079
تجزیه و تحلیل

22
00:00:50,079 –> 00:00:52,160
داده های اکتشافی است تجزیه و تحلیل داده های اکتشافی یا به زبان ساده

23
00:00:52,160 –> 00:00:54,640
می توانیم آن را به عنوان eda نیز نام ببریم، چیزی نیست

24
00:00:54,640 –> 00:00:56,719
جز یک تکنیک اکتشاف داده برای

25
00:00:56,719 –> 00:00:59,600
درک جنبه های مختلف

26
00:00:59,600 –> 00:01:01,359
داده شامل چندین تکنیک در یک

27
00:01:01,359 –> 00:01:04,159
توالی است که ما باید آنها را دنبال کنیم و خوب است

28
00:01:04,159 –> 00:01:05,760
که بعداً در جلسه با آن تکنیک ها آشنا خواهیم

29
00:01:05,760 –> 00:01:08,159
شد اما کل

30
00:01:08,159 –> 00:01:09,920
هدف یا کل هدف

31
00:01:09,920 –> 00:01:12,400
درک داده‌ها است و

32
00:01:12,400 –> 00:01:14,240
درک داده‌ها می‌تواند چیزهای زیادی باشد، زمانی که ما

33
00:01:14,240 –> 00:01:16,560
در حال کاوش در داده‌ها هستیم، بنابراین چیزهای کمی

34
00:01:16,560 –> 00:01:18,000
باید در حین کاوش داده‌ها در نظر داشته باشیم،

35
00:01:18,000 –> 00:01:20,080
مانند اینکه باید مطمئن شویم که

36
00:01:20,080 –> 00:01:22,320
داده‌ها درست هستند. تمیز است و هیچ

37
00:01:22,320 –> 00:01:24,400
افزونگی یا مقادیر مفقود یا حتی

38
00:01:24,400 –> 00:01:26,720
مقادیر تهی در مجموعه داده ندارد و

39
00:01:26,720 –> 00:01:28,400
باید مطمئن شویم که

40
00:01:28,400 –> 00:01:30,880
متغیرهای مهم در مجموعه داده را شناسایی کرده و

41
00:01:30,880 –> 00:01:32,799
تمام نویزهای غیر ضروری در

42
00:01:32,799 –> 00:01:34,960
داده ها را که ممکن است در واقع مانع از

43
00:01:34,960 –> 00:01:37,119
صحت نتیجه‌گیری‌های خود را هنگامی که

44
00:01:37,119 –> 00:01:38,479
بر روی ساخت مدل کار

45
00:01:38,479 –> 00:01:40,640
می‌کنیم و باید رابطه

46
00:01:40,640 –> 00:01:43,280
بین متغیرها را از طریق eda درک کنیم و در

47
00:01:43,280 –> 00:01:44,960
آخر

48
00:01:44,960 –> 00:01:47,119
باید بتوانیم نتیجه‌گیری کنیم و

49
00:01:47,119 –> 00:01:49,360
بینش‌هایی درباره داده‌ها برای

50
00:01:49,360 –> 00:01:51,439
تفسیر قطعی جمع‌آوری کنیم تا به

51
00:01:51,439 –> 00:01:53,520
فرآیندهای پیچیده‌تر برویم. در

52
00:01:53,520 –> 00:01:55,119
چرخه حیات پردازش داده،

53
00:01:55,119 –> 00:01:56,640
اکنون اجازه دهید

54
00:01:56,640 –> 00:01:59,759
هدف eda در اکتشاف داده را درک

55
00:01:59,759 –> 00:02:02,399
کنیم، ایده اصلی این است که اطمینان حاصل کنیم

56
00:02:02,399 –> 00:02:04,880
که داده های پس از eda تمیز

57
00:02:04,880 –> 00:02:07,119
و تمیز است منظورم این است که داده ها باید

58
00:02:07,119 –> 00:02:08,878
عاری از همه وابستگی ها از جمله

59
00:02:08,878 –> 00:02:10,878
مقادیر null و همه آن چیزها

60
00:02:10,878 –> 00:02:12,720
باشند، بنابراین می توانیم آن را به دو

61
00:02:12,720 –> 00:02:15,040
هدف اصلی برای اجرای eda محدود کنیم،

62
00:02:15,040 –> 00:02:17,680
بنابراین هدف اول این است که eda به ما در شناسایی نقاط معیوب کمک می کند.

63
00:02:17,680 –> 00:02:19,760
در داده ها

64
00:02:19,760 –> 00:02:21,440
و اگر نقاط معیوب را شناسایی

65
00:02:21,440 –> 00:02:23,440
کرده اید، می توانید به راحتی آنها را حذف کرده

66
00:02:23,440 –> 00:02:25,280
و داده های خود را پاک کنید

67
00:02:25,280 –> 00:02:28,160
و هدف بعدی این است که eda به

68
00:02:28,160 –> 00:02:29,840
ما کمک کند تا رابطه بین متغیرها را درک کنیم

69
00:02:29,840 –> 00:02:32,239
که به ما

70
00:02:32,239 –> 00:02:34,879
دید وسیع تری از داده ها می دهد و

71
00:02:34,879 –> 00:02:36,640
در واقع به ما کمک می کند. با

72
00:02:36,640 –> 00:02:38,480
استفاده از رابطه بین متغیرها بر روی آن بسازید،

73
00:02:38,480 –> 00:02:39,760

74
00:02:39,760 –> 00:02:41,519
بنابراین اینها اهداف اصلی

75
00:02:41,519 –> 00:02:44,239
اجرای eda بر روی هر داده ای هستند،

76
00:02:44,239 –> 00:02:45,840
اکنون اجازه دهید

77
00:02:45,840 –> 00:02:48,160
به مراحل پیش برویم و نگاهی به مراحل مربوط به eda بیندازیم،

78
00:02:48,160 –> 00:02:50,000
بنابراین اینها مراحل اساسی هستند که

79
00:02:50,000 –> 00:02:52,319
درگیر هستند، بنابراین من فقط

80
00:02:52,319 –> 00:02:54,959
چند نکته اصلی را برجسته کنید، اگرچه مانند هر مرحله

81
00:02:54,959 –> 00:02:58,000
چندین ویژگی دیگر نیز وجود دارد، بنابراین

82
00:02:58,000 –> 00:02:59,519
ما

83
00:02:59,519 –> 00:03:01,680
در ابتدای کار روی راه‌های نمایشی

84
00:03:01,680 –> 00:03:03,840
و اولیه آن‌ها را بررسی خواهیم کرد. مرحله این است

85
00:03:03,840 –> 00:03:06,239
که متغیرهای موجود در مجموعه داده را درک کنید،

86
00:03:06,239 –> 00:03:08,000
بنابراین باید کاملاً مطمئن باشید که

87
00:03:08,000 –> 00:03:09,760
چه نوع داده‌هایی

88
00:03:09,760 –> 00:03:11,760
روی متغیرهایی مانند تعداد ستون‌ها و

89
00:03:11,760 –> 00:03:14,159
ردیف‌ها کار می‌کنید و واقعاً چگونه به نظر می‌رسد، بنابراین

90
00:03:14,159 –> 00:03:15,920
این اولین قدم شما پس از آن است.

91
00:03:15,920 –> 00:03:17,760
بارگذاری داده ها در برنامه خود،

92
00:03:17,760 –> 00:03:19,840
سپس مرحله بعدی پاک کردن داده ها

93
00:03:19,840 –> 00:03:22,159
از افزونگی ها است، حالا افزونگی ها

94
00:03:22,159 –> 00:03:24,640
می توانند بی نظمی در داده ها باشند، می

95
00:03:24,640 –> 00:03:26,720
توانند برخی از متغیرها یا ستون هایی

96
00:03:26,720 –> 00:03:28,799
باشند که برای

97
00:03:28,799 –> 00:03:30,879
نتیجه گیری یا تفسیر ما ضروری نیستند، بنابراین ما می

98
00:03:30,879 –> 00:03:33,120
توانیم آنها را حذف کنیم. یا نقاط پرت وجود دارد

99
00:03:33,120 –> 00:03:36,319
که می‌تواند باعث ایجاد نویز در داده‌ها شود یا

100
00:03:36,319 –> 00:03:38,480
می‌دانید که ممکن است

101
00:03:38,480 –> 00:03:40,080
زمانی که ما روی ساختمان مدل کار می‌کنیم بیش از حد یا کمتر با مدل مطابقت

102
00:03:40,080 –> 00:03:42,239
داشته باشد، بنابراین این دومین

103
00:03:42,239 –> 00:03:43,920
قدمی است که بچه‌ها باید داده‌ها را تمیز کنیم

104
00:03:43,920 –> 00:03:46,159
تا به جلو برویم. و در آخر

105
00:03:46,159 –> 00:03:47,920
ما باید رابطه بین متغیرها را تجزیه و تحلیل کنیم

106
00:03:47,920 –> 00:03:50,239
،

107
00:03:50,239 –> 00:03:52,319
بنابراین اجازه دهید به قسمت سرگرم کننده آن برویم،

108
00:03:52,319 –> 00:03:54,799
بنابراین کاری که اکنون انجام خواهم داد،

109
00:03:54,799 –> 00:03:56,480
به سمت نوت بوک مشتری می روم و روی

110
00:03:56,480 –> 00:03:58,720
یک نسخه نمایشی کار می کنیم. من قصد دارم یک مجموعه داده

111
00:03:58,720 –> 00:04:01,280
از kaggle بگیرم و eda را روی آن اجرا کنم، پس

112
00:04:01,280 –> 00:04:02,640
بیایید آن را به نوت بوک jupiter ببریم،

113
00:04:02,640 –> 00:04:03,680
بچه

114
00:04:03,680 –> 00:04:05,360
ها من قبلاً این نوت بوک را باز کرده ام

115
00:04:05,360 –> 00:04:07,680
و اگر قبلاً نمی دانید چگونه

116
00:04:07,680 –> 00:04:09,280
در نوت بوک jupiter کار کنید، ما یک دفترچه یادداشت

117
00:04:09,280 –> 00:04:11,280
کامل داریم. آموزش نحوه کار با

118
00:04:11,280 –> 00:04:12,879
نوت بوک jupyter می توانید آن را در صفحه یوتیوب ما پیدا کنید

119
00:04:12,879 –> 00:04:15,599
بچه ها و اگر هنوز

120
00:04:15,599 –> 00:04:17,600
به دنبال میانبر هستید مانند اگر می خواهید

121
00:04:17,600 –> 00:04:20,079
بفهمید واقعاً چگونه کار

122
00:04:20,079 –> 00:04:21,759
می کند ما یک برگه تقلب نیز داریم که می

123
00:04:21,759 –> 00:04:23,759
توانید به آن مراجعه کنید. کار در

124
00:04:23,759 –> 00:04:25,120
نوت بوک ژوپیتر و اگر به

125
00:04:25,120 –> 00:04:26,400
نصب و هر چیزی که ما داریم

126
00:04:26,400 –> 00:04:28,800
آموزش آناکوندا را نیز نگاه می کنید، بنابراین

127
00:04:28,800 –> 00:04:30,160
اولین کاری که باید انجام دهید این است

128
00:04:30,160 –> 00:04:31,600
که کتابخانه های خاصی را وارد کنید که به آنها

129
00:04:31,600 –> 00:04:34,560
نیاز دارید، بنابراین من پانداها را

130
00:04:34,560 –> 00:04:37,199
با نام مستعار pd من قصد دارم چند

131
00:04:37,199 –> 00:04:40,560
کتابخانه دیگر را وارد کنم که ممکن است به آنها نیاز داشته باشید،

132
00:04:40,560 –> 00:04:42,960
من می خواهم پیوند c را برای نمایش تصویری وارد کنم،

133
00:04:42,960 –> 00:04:44,560
زیرا ما

134
00:04:44,560 –> 00:04:46,000
رابطه

135
00:04:46,000 –> 00:04:47,440
بین متغیرها را تجسم خواهیم کرد، بنابراین برای آن

136
00:04:47,440 –> 00:04:49,040
استفاده خواهم کرد. c باند

137
00:04:49,040 –> 00:04:50,880
بنابراین من این PR را اجرا خواهم کرد ogram

138
00:04:50,880 –> 00:04:53,520
و این سلول در حال حاضر با موفقیت اجرا

139
00:04:53,520 –> 00:04:55,360
می شود، بچه ها مدتی طول می کشد، در

140
00:04:55,360 –> 00:04:56,720

141
00:04:56,720 –> 00:04:58,000
ضمن من فقط می خواهم به شما بگویم که

142
00:04:58,000 –> 00:05:00,000
چگونه می خواهیم به این موضوع نزدیک

143
00:05:00,000 –> 00:05:02,080
شویم.

144
00:05:02,080 –> 00:05:03,759
برای گرفتن این داده متغیر

145
00:05:03,759 –> 00:05:04,639

146
00:05:04,639 –> 00:05:07,280
و من از کتابخانه pandas استفاده می کنم، بنابراین

147
00:05:07,280 –> 00:05:11,720
اول از همه اولین قدم این است که

148
00:05:11,919 –> 00:05:15,360
من باید

149
00:05:15,919 –> 00:05:19,039
مجموعه داده های خود را وارد کنم بچه ها، بنابراین این مکان

150
00:05:19,039 –> 00:05:22,160
مجموعه داده های من است

151
00:05:23,199 –> 00:05:27,120
و نام مجموعه داده Students.csv است.

152
00:05:28,720 –> 00:05:31,720

153
00:05:32,080 –> 00:05:33,919
بسیار خوب، ما یک فایل خطا داریم که به درستی

154
00:05:33,919 –> 00:05:36,160
یافت نشد،

155
00:05:37,600 –> 00:05:39,280
بنابراین

156
00:05:39,280 –> 00:05:42,400
مجموعه داده های خود را با موفقیت وارد برنامه کردیم،

157
00:05:42,400 –> 00:05:44,160
بنابراین اولین قدم بعد از

158
00:05:44,160 –> 00:05:46,880
بارگیری داده ها در برنامه خود این است که باید

159
00:05:46,880 –> 00:05:49,280
با

160
00:05:49,280 –> 00:05:51,360
درک متغیرهای داخل داده، داده ها را درک کنید. من

161
00:05:51,360 –> 00:05:53,199
فقط آن را به عنوان اولین نام می

162
00:05:53,199 –> 00:05:56,560

163
00:05:58,479 –> 00:06:01,600

164
00:06:03,440 –> 00:06:04,639

165
00:06:04,639 –> 00:06:07,039
گذارم، بنابراین اولین قدم درک داده ها است و من می خواهم

166
00:06:07,039 –> 00:06:09,280
پنج ردیف اول داده های خود را بررسی کنم، بنابراین

167
00:06:09,280 –> 00:06:11,520
این داده های من

168
00:06:11,520 –> 00:06:14,240

169
00:06:14,240 –> 00:06:17,120
است. آمادگی آزمون ناهار آموزش و پرورش

170
00:06:17,120 –> 00:06:19,759
n نمره خواندن نمره ریاضی درس

171
00:06:19,759 –> 00:06:22,560
و آخرین نمره رایتینگ داریم،

172
00:06:22,560 –> 00:06:24,000
بنابراین این نمراتی هستند که با نگاه

173
00:06:24,000 –> 00:06:25,759
کردن به آن در مجموعه داده های ما مهم خواهند بود،

174
00:06:25,759 –> 00:06:27,440
می توانم به شما بگویم که

175
00:06:27,440 –> 00:06:29,600
این مقادیر هستند که

176
00:06:29,600 –> 00:06:31,440
هنگام کار بر روی هر یک از آنها بسیار مهم هستند. مدل

177
00:06:31,440 –> 00:06:33,840
یا فرضیات یا

178
00:06:33,840 –> 00:06:35,919
نتیجه گیری مانند جنسیت باید وجود داشته باشد

179
00:06:35,919 –> 00:06:37,919
زیرا تعیین کننده است که باید

180
00:06:37,919 –> 00:06:40,080
مرد یا زن باشد، بنابراین یک

181
00:06:40,080 –> 00:06:41,680
مقدار طبقه بندی است که

182
00:06:41,680 –> 00:06:43,600
ما در مجموعه داده های خود به آن نیاز خواهیم داشت، نژاد و

183
00:06:43,600 –> 00:06:45,759
قومیت ممکن است حذف شود.

184
00:06:45,759 –> 00:06:47,759
لزوماً متغیر بسیار مهمی در

185
00:06:47,759 –> 00:06:49,680
مجموعه داده‌های ما و سطح تحصیلات والدین نیست،

186
00:06:49,680 –> 00:06:52,080
اگر

187
00:06:52,080 –> 00:06:53,919
مقادیر منحصربه‌فرد را بررسی کنیم و تصمیم بگیریم که این همان کاری است که

188
00:06:53,919 –> 00:06:55,520
می‌خواهیم انجام دهیم.

189
00:06:55,520 –> 00:06:57,919

190
00:06:57,919 –> 00:07:00,400
پنج ردیف آخر را نیز

191
00:07:00,400 –> 00:07:01,759
داریم، بنابراین ما همه این مقادیر را داریم که

192
00:07:01,759 –> 00:07:03,280
قبلاً به آنها نگاه کرده ایم، بنابراین یک چیز می

193
00:07:03,280 –> 00:07:05,199
توانید مطمئن شوید این است که از صفر شروع می شود

194
00:07:05,199 –> 00:07:07,520
و تا 999 ادامه می یابد.

195
00:07:07,520 –> 00:07:09,360
بنابراین فقط می توانیم بگوییم که ما

196
00:07:09,360 –> 00:07:11,840
هزار ورودی در این مجموعه داده داریم.

197
00:07:11,840 –> 00:07:14,160
بنابراین یک مجموعه داده خیلی بزرگ نیست، اما یک

198
00:07:14,160 –> 00:07:16,240
مجموعه داده نسبتاً کوچک

199
00:07:16,240 –> 00:07:17,120

200
00:07:17,120 –> 00:07:19,520
نیست، همچنین برای ما عالی است زیرا در حین

201
00:07:19,520 –> 00:07:21,199
انجام نمایش

202
00:07:21,199 –> 00:07:23,599
برای ما بسیار آسان خواهد بود،

203
00:07:23,599 –> 00:07:25,520
اکنون اجازه دهید شکل

204
00:07:25,520 –> 00:07:27,120
داده ها را نیز بررسی کنیم، بنابراین همه اینها هستند. مراحلی را

205
00:07:27,120 –> 00:07:30,160
که باید در حین کار درست دنبال کنید،

206
00:07:30,160 –> 00:07:31,599

207
00:07:31,599 –> 00:07:33,919

208
00:07:35,039 –> 00:07:37,120
بنابراین ما شکل را بررسی کرده ایم، بنابراین ما

209
00:07:37,120 –> 00:07:40,400
1000 ردیف و هشت ستون داریم،

210
00:07:40,400 –> 00:07:42,880
بگذارید فقط به چند نکته کلیدی دیگر نگاهی بیندازیم

211
00:07:42,880 –> 00:07:45,520

212
00:07:45,520 –> 00:07:48,080
وقتی از توصیف استفاده می کنید

213
00:07:48,080 –> 00:07:49,599
که فقط نمره ریاضی نمره خواندن را نشان می دهد.

214
00:07:49,599 –> 00:07:51,360
و نمره نوشتن

215
00:07:51,360 –> 00:07:53,360
چون همه متغیرهای دیگری که

216
00:07:53,360 –> 00:07:55,919
داریم اشیای رشته ای هستند فقط

217
00:07:55,919 –> 00:07:58,319
اشیاء عدد صحیح در اینجا نشان داده می شوند، بنابراین

218
00:07:58,319 –> 00:08:01,120
ما در اینجا یک تعداد مانند هزار

219
00:08:01,120 –> 00:08:02,800
داریم و یک مقدار متوسط داریم، ح

220
00:08:02,800 –> 00:08:04,800
اقل مقدار انحراف استاندارد و پن

221
00:08:04,800 –> 00:08:06,560
درصد پنجاه است. درصد هفتاد و پنج

222
00:08:06,560 –> 00:08:08,800
درصد و حداکثر مقدار و همچنین

223
00:08:08,800 –> 00:08:11,599
همانطور که می بینید برای همه این مقادیر 100

224
00:08:11,599 –> 00:08:14,560
نمره حداکثر است و حداقل

225
00:08:14,560 –> 00:08:17,520
نمره ریاضی که داریم 0 نمره خواندن 17 است و نمره

226
00:08:17,520 –> 00:08:19,680
نوشتن 17 re برابر 10 است. بنابراین

227
00:08:19,680 –> 00:08:21,599
می توانید تمام این مقادیر را فقط با روش توصیف دریافت کنید و

228
00:08:21,599 –> 00:08:24,560
سپس می توانید

229
00:08:24,560 –> 00:08:27,440
ستون ها و ردیف ها را به طور جداگانه بررسی کنید، بنابراین

230
00:08:27,440 –> 00:08:29,360
برای این کار فقط باید مانند

231
00:08:29,360 –> 00:08:30,319

232
00:08:30,319 –> 00:08:32,080

233
00:08:32,080 –> 00:08:33,360
ستون

234
00:08:33,360 –> 00:08:36,479
های نقطه داده بنویسید کاملاً قابل فراخوانی نیست

235
00:08:36,479 –> 00:08:38,880
بنابراین ما نژاد جنسیتی داریم. قومیت والدین

236
00:08:38,880 –> 00:08:41,120
سطح تحصیلات آزمون ناهار

237
00:08:41,120 –> 00:08:43,360
دوره آمادگی نمره ریاضی نمره خواندن

238
00:08:43,360 –> 00:08:45,200
و نمره نوشتن،

239
00:08:45,200 –> 00:08:47,360
بنابراین ما هیچکدام را کامل

240
00:08:47,360 –> 00:08:49,440
نکردیم بنابراین فقط n

241
00:08:49,440 –> 00:08:51,360
مقدار منحصر به فرد را بررسی می کنیم که چیزی جز

242
00:08:51,360 –> 00:08:53,519
تابعی نیست که یک سری با

243
00:08:53,519 –> 00:08:55,680
تعدادی مشاهدات متمایز را برمی گرداند.

244
00:08:55,680 –> 00:08:57,200
محور درخواستی،

245
00:08:57,200 –> 00:08:58,959
بنابراین اگر مقدار محور را

246
00:08:58,959 –> 00:09:00,480
صفر قرار دهیم، تعداد کل

247
00:09:00,480 –> 00:09:03,120
مشاهدات منحصربه‌فرد را روی محور شاخص پیدا می‌کند،

248
00:09:03,120 –> 00:09:05,360
بنابراین بیایید فقط مقادیر یکتا را بررسی

249
00:09:05,360 –> 00:09:06,560
کنیم

250
00:09:06,560 –> 00:09:08,160
، بچه‌ها حالا چه خواهیم کرد،

251
00:09:08,160 –> 00:09:10,480
مقادیر یکتا را بررسی می‌کنیم. در داده‌های ما،

252
00:09:10,480 –> 00:09:12,240
بچه‌ها، من فقط از n منحصربه‌فرد استفاده می‌کنم و

253
00:09:12,240 –> 00:09:14,160
قبلاً به شما گفته‌ام که چه کاری انجام می‌دهد،

254
00:09:14,160 –> 00:09:15,920
بنابراین برای همه این ستون‌ها

255
00:09:15,920 –> 00:09:17,760
مقادیر منحصربه‌فرد را به ما نشان می‌دهد، بنابراین برای جنسیت ما

256
00:09:17,760 –> 00:09:19,200
دو مقدار منحصر به فرد داریم که اساساً

257
00:09:19,200 –> 00:09:21,279
مرد است و زن برای نژاد و قومیت

258
00:09:21,279 –> 00:09:23,120
ما پنج ارزش داریم سطح

259
00:09:23,120 –> 00:09:25,279
تحصیلات والدین ما شش مقدار برای ناهار

260
00:09:25,279 –> 00:09:27,279
داریم دو مقدار برای دوره آمادگی آزمون

261
00:09:27,279 –> 00:09:29,200
داریم دو مقدار

262
00:09:29,200 –> 00:09:31,120
برای نمره ریاضی نمره خواندن و نمره نوشتن

263
00:09:31,120 –> 00:09:34,240
داریم ما چندین مقدار منحصر به فرد

264
00:09:34,240 –> 00:09:36,560
از صفر داریم تا 100، ما دارای

265
00:09:36,560 –> 00:09:39,200
77 مقدار منحصر به فرد برای نوشتن نمره

266
00:09:39,200 –> 00:09:40,800
برای خواندن هستیم که در آن همه موارد

267
00:09:40,800 –> 00:09:42,320
را داریم و اگر می خواهید به

268
00:09:42,320 –> 00:09:44,320
طور جداگانه برای هر ستونی بررسی کنید، فقط می توانید

269
00:09:44,320 –> 00:09:45,600
بنویسید فرض کنید

270
00:09:45,600 –> 00:09:46,640
جنسیت

271
00:09:46,640 –> 00:09:49,680
و ما فقط می توانیم منحصر به فرد بنویسیم و منحصر به فرد

272
00:09:49,680 –> 00:09:51,440
را به ما نشان می دهد. مقادیر

273
00:09:51,440 –> 00:09:53,279
داخل آن ستون بچه ها، بنابراین

274
00:09:53,279 –> 00:09:54,640

275
00:09:54,640 –> 00:09:56,320
اگر می خواهید بررسی کنید که مرد و زن است به طور مشابه اگر می خواهید بررسی کنید، فرض کنید

276
00:09:56,320 –> 00:10:00,000
برای نژاد و قومیت،

277
00:10:01,200 –> 00:10:03,120
می توانیم بررسی کنیم تا گروه b گروه c

278
00:10:03,120 –> 00:10:05,519
گروه a گروه d و گروه a

279
00:10:05,519 –> 00:10:07,760
برای سطح تحصیلات والدین داشته باشیم، همچنین می توانیم

280
00:10:07,760 –> 00:10:10,240

281
00:10:16,480 –> 00:10:18,000
همه را بررسی کنیم درست است، بنابراین ما مدرک کارشناسی داریم،

282
00:10:18,000 –> 00:10:19,680
برخی از کالج‌ها، ما دارای مدرک کارشناسی ارشد، مقطع

283
00:10:19,680 –> 00:10:21,839
دبیرستان و تعدادی

284
00:10:21,839 –> 00:10:23,760
دبیرستان، بنابراین اینها همه ارزش‌هایی هستند

285
00:10:23,760 –> 00:10:25,760
که می‌توانید فقط با نگاه کردن به

286
00:10:25,760 –> 00:10:27,920
داده‌ها متوجه شوید. o با نگاه کردن به این

287
00:10:27,920 –> 00:10:29,360
مقادیر منحصر به فرد، می توانم به شما بگویم که ما

288
00:10:29,360 –> 00:10:31,279
مقادیر طبقه بندی داریم، مانند

289
00:10:31,279 –> 00:10:33,920
ناهار و دستور کار دوره آماده سازی آزمون

290
00:10:33,920 –> 00:10:35,519
که می تواند به مقادیر ساختگی

291
00:10:35,519 –> 00:10:36,480

292
00:10:36,480 –> 00:10:38,000
از همه این مقادیر تبدیل شود، من

293
00:10:38,000 –> 00:10:39,920
فقط این سه را انتخاب می کنم که مطابقت دارند

294
00:10:39,920 –> 00:10:41,920
نمره خواندن و نمره نوشتن

295
00:10:41,920 –> 00:10:44,880
و آمادگی آزمون ناهار و جنسیت

296
00:10:44,880 –> 00:10:46,959
و موارد دیگر مانند قومیت و

297
00:10:46,959 –> 00:10:48,720
سطح تحصیلات نقاش را می توان

298
00:10:48,720 –> 00:10:50,399
حذف کرد زیرا اینها لزوماً

299
00:10:50,399 –> 00:10:52,640
متغیرهای بسیار مهمی در مجموعه داده ما نیستند و

300
00:10:52,640 –> 00:10:53,360

301
00:10:53,360 –> 00:10:55,120
اکنون به قسمت بعدی می رویم.

302
00:10:55,120 –> 00:10:57,760
eda که اساسا چیزی جز

303
00:10:57,760 –> 00:11:01,640
پاک کردن داده ها نیست،

304
00:11:02,000 –> 00:11:03,519
بنابراین اولین چیزی که

305
00:11:03,519 –> 00:11:05,680
به ذهن شما می رسد این است که مقادیر تهی

306
00:11:05,680 –> 00:11:08,000
داخل هر یک از اینها

307
00:11:08,000 –> 00:11:09,600
را بررسی کنید، زیرا ما فقط می توانیم

308
00:11:09,600 –> 00:11:11,120

309
00:11:11,120 –> 00:11:13,120
مقادیر تهی را بررسی

310
00:11:13,120 –> 00:11:16,240
کنیم و یک مجموع نیز در داخل این داده ها بدست آوریم.

311
00:11:16,240 –> 00:11:18,720
مجموعه ما مقادیر تهی صفر

312
00:11:18,720 –> 00:11:20,480
داریم، بنابراین لازم نیست نگران حذف

313
00:11:20,480 –> 00:11:22,399
هر ستونی صرفاً به دلیل وجود هیچ

314
00:11:22,399 –> 00:11:24,240
مقدار یا جایگزینی آن با مقادیر دیگر

315
00:11:24,240 –> 00:11:27,040
نباشیم، اما در برخی موارد در برخی از

316
00:11:27,040 –> 00:11:29,279
مجموعه های داده که نسبتاً بسیار بزرگ است،

317
00:11:29,279 –> 00:11:32,000
مثلاً اگر 7 000 یا 8 000 مقادیر

318
00:11:32,000 –> 00:11:34,240
دارید و اگر حتی دو درصد مقادیر تهی دارید

319
00:11:34,240 –> 00:11:36,079
یا مقدار از دست رفته در این

320
00:11:36,079 –> 00:11:38,079
مجموعه داده ها دارید، باید مطمئن

321
00:11:38,079 –> 00:11:40,640
باشید که اگر می خواهید آن

322
00:11:40,640 –> 00:11:42,959
مقادیر را دست نخورده بگذارید یا اگر می خواهید فقط

323
00:11:42,959 –> 00:11:45,120
آنها را رها کنیم یا مقادیری را از

324
00:11:45,120 –> 00:11:47,040
آنها جایگزین کنیم، بنابراین از آنجایی که ما هیچ مقدار تهی

325
00:11:47,040 –> 00:11:48,480
در داخل آن نداریم، به قسمت بعدی می رویم

326
00:11:48,480 –> 00:11:50,320

327
00:11:50,320 –> 00:11:52,800
که داده های اضافی را حذف می کند که

328
00:11:52,800 –> 00:11:55,200
لزوماً بر عملکرد ما در جدول تأثیر نمی گذارد.

329
00:11:55,200 –> 00:11:56,560

330
00:11:56,560 –> 00:11:58,399
بنابراین اکنون کاری که ما انجام خواهیم داد این است که

331
00:11:58,399 –> 00:12:00,160
چند ستون را که در واقع به آنها نیازی

332
00:12:00,160 –> 00:12:02,320
نداریم در مجموعه داده های خود حذف می کنیم، بنابراین نژاد، قومیت و سطح تحصیلات والدین را حذف می کنیم،

333
00:12:02,320 –> 00:12:04,160

334
00:12:04,160 –> 00:12:05,360

335
00:12:05,360 –> 00:12:06,880
بنابراین این دو مقدار هستند که من به آنها نیازی ندارم.

336
00:12:06,880 –> 00:12:08,720
در مجموعه روز من چون فکر می‌کنم اینها

337
00:12:08,720 –> 00:12:10,160
مقادیر مهمی برای هر

338
00:12:10,160 –> 00:12:12,560
ارزیابی نیستند، بنابراین فقط اینها را حذف کنید،

339
00:12:12,560 –> 00:12:14,160
بنابراین یک متغیر را انتخاب می‌کنم، مثلاً دانش‌آموز

340
00:12:14,160 –> 00:12:16,639
برابر با

341
00:12:16,639 –> 00:12:20,240
افت نقطه داده است و من

342
00:12:20,240 –> 00:12:22,800

343
00:12:23,200 –> 00:12:27,040
قومیت را افزایش می‌دهم، نام ستون را

344
00:12:27,040 –> 00:12:28,800
درست ارائه

345
00:12:28,800 –> 00:12:32,480
می‌کنم و ما سطح والدین را نمی خواهم

346
00:12:32,480 –> 00:12:35,839
آموزش

347
00:12:36,480 –> 00:12:37,519
و

348
00:12:37,519 –> 00:12:39,040

349
00:12:39,040 –> 00:12:41,279
دسترسی به آن برابر با 1 است

350
00:12:41,279 –> 00:12:43,920
در غیر این صورت یک خطا برای ما

351
00:12:43,920 –> 00:12:46,320
درست می کند، بنابراین وقتی

352
00:12:46,320 –> 00:12:48,720
به

353
00:12:50,839 –> 00:12:53,600
دانش آموز نگاه می کنم همه این مقادیر را

354
00:12:53,600 –> 00:12:55,519
داریم، جنسیت امتحان ناهار آماده سازی

355
00:12:55,519 –> 00:12:57,279
نمره مسابقه نمره خواندن و

356
00:12:57,279 –> 00:12:58,639
نمره نوشتن

357
00:12:58,639 –> 00:13:00,880
مرحله بعدی مانند بررسی

358
00:13:00,880 –> 00:13:02,720
اعداد پرت که لزوماً

359
00:13:02,720 –> 00:13:04,639
برای ما مشکلی ایجاد نمی‌کند، زیرا

360
00:13:04,639 –> 00:13:07,040
مجموعه داده‌های کاملاً تمیزی داریم، بنابراین

361
00:13:07,040 –> 00:13:08,639
اگر می‌خواهید بیشتر در مورد اعداد پرت بدانید، می‌توانید به دنبال اعداد پرت نیز باشید،

362
00:13:08,639 –> 00:13:10,720
من به شما خواهم گفت که

363
00:13:10,720 –> 00:13:12,560
اعداد پرت واقعاً چه هستند،

364
00:13:12,560 –> 00:13:14,639
بنابراین مقادیر پرت چیزی نیستند. اما در

365
00:13:14,639 –> 00:13:17,120
آمار، نقطه پرت یک نقطه داده ای است

366
00:13:17,120 –> 00:13:19,200
که به طور قابل توجهی با مشاهدات دیگر متفاوت است

367
00:13:19,200 –> 00:13:20,480

368
00:13:20,480 –> 00:13:22,079
، فرض کنید اگر یک نمره ریاضی دارید

369
00:13:22,079 –> 00:13:25,279
که 72 است، می دانید 69 و ناگهان

370
00:13:25,279 –> 00:13:27,760
فردی صفر و یک دارد، بنابراین ممکن

371
00:13:27,760 –> 00:13:31,200
است یک نقطه پرت و پرت باشد.

372
00:13:31,200 –> 00:13:33,360
به تغییرپذیری در اندازه‌گیری یا

373
00:13:33,360 –> 00:13:35,360
ممکن است نشان‌دهنده خطای آزمایشی باشد،

374
00:13:35,360 –> 00:13:37,519
بنابراین موارد دوم گاهی

375
00:13:37,519 –> 00:13:39,600
از مجموعه داده‌ها حذف می‌شوند،

376
00:13:39,600 –> 00:13:42,160
زیرا یک نقطه پرت در واقع می‌تواند

377
00:13:42,160 –> 00:13:44,399
مشکلات جدی در s ایجاد کند. تجزیه و تحلیل آماری،

378
00:13:44,399 –> 00:13:45,519
به همین دلیل است که ما باید به دنبال

379
00:13:45,519 –> 00:13:48,079
نقاط پرت باشیم و در این مجموعه داده ها

380
00:13:48,079 –> 00:13:49,680
لزوماً ما هیچ نقطه پرت

381
00:13:49,680 –> 00:13:51,680
نداریم، بنابراین ما آن را رها می کنیم و به

382
00:13:51,680 –> 00:13:53,199
مرحله سومی می رویم که داریم که

383
00:13:53,199 –> 00:13:55,600
اساسا چیزی نیست جز تجزیه و

384
00:13:55,600 –> 00:13:56,320

385
00:13:56,320 –> 00:13:58,160
تحلیل ما می توانیم آن را به عنوان

386
00:13:58,160 –> 00:13:59,519
تجزیه و تحلیل رابطه بنامیم،

387
00:13:59,519 –> 00:14:02,399
بنابراین من فقط آن را به عنوان سه علامت گذاری می کنم بسیار خوب، من

388
00:14:02,399 –> 00:14:04,360
فقط به عنوان

389
00:14:04,360 –> 00:14:07,519
تجزیه و تحلیل رابطه می نویسم

390
00:14:07,519 –> 00:14:09,279
اکنون کاری که ما انجام خواهیم داد این است که

391
00:14:09,279 –> 00:14:11,680
به چند معیار دیگر نگاهی بیندازیم، بنابراین اول از همه

392
00:14:11,680 –> 00:14:14,079
ما همبستگی داریم ماتریس

393
00:14:14,079 –> 00:14:16,480
و قبل از اینکه به

394
00:14:16,480 –> 00:14:18,880
تجزیه و تحلیل رابطه بپردازیم، امیدوارم همه چیز برای شما روشن باشد،

395
00:14:18,880 –> 00:14:21,279
مثل اینکه ما از

396
00:14:21,279 –> 00:14:22,320
بارگیری داده ها

397
00:14:22,320 –> 00:14:24,

پاسخ دهید لغو پاسخ

اکانت vip

دوره آموزش پایتون

مطالب تصادفی

فیلم آموزشی: نحوه استفاده از applicationmap() در Pandas (Python) با زیرنویس فارسی

فیلم آموزشی: 39. قالب بندی اعداد ممیز شناور به عنوان مقادیر ارز – Python را یاد بگیرید با زیرنویس فارسی

فیلم آموزشی: چگونه یک دکمه به پروژه Raspberry Pi Python خود اضافه کنید با زیرنویس فارسی

فیلم آموزشی: داشبورد تعاملی پایتون با Plotly Dash TigerGraph با زیرنویس فارسی

فیلم آموزشی: برنامه پایتون برای بررسی قدرت 2 | عملگر Bitwise Shift | چالش برنامه نویسی 3 با زیرنویس فارسی

فیلم آموزشی: چگونه محاسبه می کنید؟ (آموزش پایتون شماره 13) با زیرنویس فارسی

فیلم آموزشی: Python Async Web Scraping – روز 27 – 30 روز پایتون با زیرنویس فارسی

فیلم آموزشی: ایجاد یک Rest API با استفاده از Flask و Jsonify در پایتون

فیلم آموزشی: تشخیص گوشه پایتون OpenCV با CornerHarris با زیرنویس فارسی

فیلم آموزشی: چگونه پایتون را بدون نصب چیزی یاد بگیریم! با زیرنویس فارسی

فیلم آموزشی: آموزش YouTube Data API با پایتون – دریافت آمار ویدیو – قسمت 3 با زیرنویس فارسی

فیلم آموزشی: 30 Days of Python – روز 20 – Using Google Maps Geocoding and Places API – Python TUTORIAL با زیرنویس فارسی

فیلم آموزشی: اسلایدر و فرم جستجو را به برنامه نقشه اضافه کنید – Python Tkinter GUI Tutorial 218 با زیرنویس فارسی

فیلم آموزشی: پایتون Robot Snake را با LEGO MINDSTORMS Robot Inventor برنامه ریزی کرد

فیلم آموزشی: الگوی طراحی دکوراتور را در پایتون پیاده کنید

فیلم آموزشی: پاک کردن داده های متنی با استفاده از کتابخانه Clean-Text Python

پشتیبانی سایت

نماد اعتماد اینماد و زیبال

فیلم آموزشی: تجزیه و تحلیل داده های اکتشافی EDA با استفاده از پایتون | آموزش پایتون | ادورکا | DL Rewind – 3 با زیرنویس فارسی

برای دانلود این فیلم ، عضو vip سایت شوید.

دانلود 17000 فیلم پایتون با پرداخت 15 هزار تومان (عضویت یک ماهه)

مطالب مرتبط: