فیلم آموزشی: انجام تجزیه و تحلیل داده های اکتشافی با استفاده از پایتون | آموزش علوم داده | ادورکا | ML Rewind - 3 با زیرنویس فارسی - فیلمهای python | ویدئو های آموزش پایتون

در این مطلب، ویدئو انجام تجزیه و تحلیل داده های اکتشافی با استفاده از پایتون | آموزش علوم داده | ادورکا | ML Rewind – 3 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:29:58

تصاویر این ویدئو:

قسمتی از زیرنویس این فیلم:

1
00:00:12,160 –> 00:00:13,679
سلام به همه این وسیم از

2
00:00:13,679 –> 00:00:15,599
edureka است و من به همه شما خوش آمد می گویم به این

3
00:00:15,599 –> 00:00:17,199
جلسه که در آن من قصد دارم در

4
00:00:17,199 –> 00:00:19,600
مورد تجزیه و تحلیل داده های اکتشافی در

5
00:00:19,600 –> 00:00:21,439
پایتون صحبت کنم، بنابراین بیایید ابتدا به

6
00:00:21,439 –> 00:00:23,680
دستور کار این جلسه نگاهی بیندازیم، من

7
00:00:23,680 –> 00:00:25,359
می خواهم توضیح دهم که دقیقاً چه چیزی

8
00:00:25,359 –> 00:00:28,240
اکتشافی است. تجزیه و تحلیل داده ها است و سپس ما

9
00:00:28,240 –> 00:00:30,400
به سمت کل هدف

10
00:00:30,400 –> 00:00:32,880
انجام eda بر روی هر مجموعه داده

11
00:00:32,880 –> 00:00:34,640
پیش می رویم، تمام

12
00:00:34,640 –> 00:00:36,320
مراحلی را که در کل

13
00:00:36,320 –> 00:00:39,280
فرآیند تجزیه و تحلیل داده های اکتشافی دخیل هستند را مورد بحث قرار

14
00:00:39,280 –> 00:00:41,440
می دهیم و در نهایت eda را بر روی یک

15
00:00:41,440 –> 00:00:42,960
مجموعه داده از

16
00:00:42,960 –> 00:00:44,160
من امیدوارم که اکنون بدون هیچ مقدمه ای

17
00:00:44,160 –> 00:00:45,200
دستور کار را روشن کرده

18
00:00:45,200 –> 00:00:47,360
باشید، اجازه دهید

19
00:00:47,360 –> 00:00:48,559
جلسه خود را شروع کنیم،

20
00:00:48,559 –> 00:00:50,800
بنابراین تجزیه و تحلیل داده های اکتشافی دقیقاً

21
00:00:50,800 –> 00:00:52,000
تجزیه و

22
00:00:52,000 –> 00:00:54,079
تحلیل داده های اکتشافی چیست یا به زبان ساده

23
00:00:54,079 –> 00:00:56,559
می توانیم آن را به عنوان eda نیز نام ببریم، چیزی

24
00:00:56,559 –> 00:00:58,719
جز یک تکنیک اکتشاف داده برای

25
00:00:58,719 –> 00:01:01,600
درک نیست. جنبه های مختلف

26
00:01:01,600 –> 00:01:03,280
داده شامل چندین تکنیک در یک

27
00:01:03,280 –> 00:01:06,080
توالی است که باید آنها را دنبال کنیم و خوب است

28
00:01:06,080 –> 00:01:07,680
که بعداً در مورد آن تکنیک ها

29
00:01:07,680 –> 00:01:10,080
در جلسه یاد خواهیم گرفت اما

30
00:01:10,080 –> 00:01:11,920
هدف یا کل هدف

31
00:01:11,920 –> 00:01:14,320
درک داده ها است و

32
00:01:14,320 –> 00:01:16,240
درک داده ها می تواند چیزهای زیادی باشد وقتی که

33
00:01:16,240 –> 00:01:18,479
در حال کاوش در داده ها هستیم، بنابراین موارد کمی

34
00:01:18,479 –> 00:01:19,920
را باید در حین کاوش داده ها در نظر داشته باشیم،

35
00:01:19,920 –> 00:01:22,000
مانند اینکه باید مطمئن شویم که

36
00:01:22,000 –> 00:01:24,240
داده ها هستند. تمیز است و هیچ

37
00:01:24,240 –> 00:01:26,320
افزونگی یا مقادیر مفقود یا حتی

38
00:01:26,320 –> 00:01:28,720
مقادیر تهی در مجموعه داده ندارد و

39
00:01:28,720 –> 00:01:30,320
باید مطمئن شویم که

40
00:01:30,320 –> 00:01:32,799
متغیرهای مهم در مجموعه داده را شناسایی کرده و

41
00:01:32,799 –> 00:01:34,720
تمام نویزهای غیر ضروری در

42
00:01:34,720 –> 00:01:36,880
داده ها را که ممکن است در واقع مانع از

43
00:01:36,880 –> 00:01:39,040
صحت نتیجه‌گیری‌های خود را هنگامی که

44
00:01:39,040 –> 00:01:40,400
بر روی ساخت مدل کار

45
00:01:40,400 –> 00:01:42,560
می‌کنیم و باید رابطه

46
00:01:42,560 –> 00:01:45,280
بین متغیرها را از طریق eda درک کنیم و در

47
00:01:45,280 –> 00:01:47,040
آخر باید

48
00:01:47,040 –> 00:01:49,520
بتوانیم نتیجه‌گیری کنیم یا بینش‌هایی

49
00:01:49,520 –> 00:01:51,360
در مورد داده‌ها برای

50
00:01:51,360 –> 00:01:53,360
تفسیر قطعی جمع‌آوری کنیم تا

51
00:01:53,360 –> 00:01:55,439
به فرآیندهای پیچیده‌تر برویم.

52
00:01:55,439 –> 00:01:57,040
چرخه حیات پردازش داده‌ها

53
00:01:57,040 –> 00:01:58,560
اکنون اجازه دهید

54
00:01:58,560 –> 00:02:01,680
هدف eda در کاوش داده را درک

55
00:02:01,680 –> 00:02:04,320
کنیم، ایده اصلی این است که مطمئن

56
00:02:04,320 –> 00:02:06,880
شویم داده‌های بعد از eda هستند.

57
00:02:06,880 –> 00:02:09,119
منظورم این است که داده‌ها باید

58
00:02:09,119 –> 00:02:10,800
عاری از همه وابستگی‌ها از جمله

59
00:02:10,800 –> 00:02:12,800
مقادیر null و همه آن چیزها

60
00:02:12,800 –> 00:02:14,640
باشند، بنابراین می‌توانیم آن را به دو هدف اصلی و

61
00:02:14,640 –> 00:02:16,959
اساسی برای اجرای eda محدود کنیم،

62
00:02:16,959 –> 00:02:19,599
بنابراین هدف اول این است که eda به ما در

63
00:02:19,599 –> 00:02:21,680
شناسایی نقاط معیوب کمک می‌کند. در داده ها

64
00:02:21,680 –> 00:02:23,360
و اگر نقاط معیوب را شناسایی

65
00:02:23,360 –> 00:02:25,360
کرده اید، می توانید به راحتی آنها را حذف کرده

66
00:02:25,360 –> 00:02:27,200
و داده های خود را پاک کنید

67
00:02:27,200 –> 00:02:30,080
و هدف بعدی این است که eda به

68
00:02:30,080 –> 00:02:31,840
ما کمک کند تا رابطه بین متغیرها را درک کنیم

69
00:02:31,840 –> 00:02:34,239
که به ما

70
00:02:34,239 –> 00:02:36,480
دید وسیع تری از داده ها می دهد

71
00:02:36,480 –> 00:02:38,640
و در واقع به ما کمک می کند. با

72
00:02:38,640 –> 00:02:40,400
استفاده از رابطه بین متغیرها بر روی آن بسازید،

73
00:02:40,400 –> 00:02:41,680

74
00:02:41,680 –> 00:02:43,519
بنابراین اینها اهداف اصلی

75
00:02:43,519 –> 00:02:46,160
اجرای eda بر روی هر داده ای هستند،

76
00:02:46,160 –> 00:02:47,840
اکنون اجازه دهید

77
00:02:47,840 –> 00:02:50,640
به مراحل پیش برویم و نگاهی به مراحل مربوط به eda بیندازیم، بنابراین اینها

78
00:02:50,640 –> 00:02:52,959
مراحل اساسی هستند که درگیر هستند، بنابراین

79
00:02:52,959 –> 00:02:55,519
من فقط چند نکته اصلی را برجسته کنید،

80
00:02:55,519 –> 00:02:57,840
اگرچه مانند هر مرحله، چندین

81
00:02:57,840 –> 00:03:00,319
ویژگی دیگر نیز وجود دارد، بنابراین

82
00:03:00,319 –> 00:03:01,920
در حالی که در حال کار بر

83
00:03:01,920 –> 00:03:03,599
روی راه های نمایشی

84
00:03:03,599 –> 00:03:05,760
در ابتدا و پایه اولیه هستیم، به آنها نگاهی خواهیم انداخت. p برای

85
00:03:05,760 –> 00:03:08,159
درک متغیرهای مجموعه داده است،

86
00:03:08,159 –> 00:03:10,000
بنابراین باید کاملاً مطمئن

87
00:03:10,000 –> 00:03:11,760
باشید که چه نوع داده‌هایی را

88
00:03:11,760 –> 00:03:13,760
روی متغیرهایی مانند تعداد ستون‌ها و

89
00:03:13,760 –> 00:03:16,080
ردیف‌ها کار می‌کنید و واقعاً چگونه به نظر می‌رسد، بنابراین

90
00:03:16,080 –> 00:03:17,840
این اولین قدم شما پس از آن است.

91
00:03:17,840 –> 00:03:19,760
بارگذاری داده ها در برنامه خود،

92
00:03:19,760 –> 00:03:21,760
سپس مرحله بعدی پاک کردن داده ها

93
00:03:21,760 –> 00:03:24,159
از افزونگی ها است، حالا افزونگی ها

94
00:03:24,159 –> 00:03:26,560
می توانند بی نظمی در داده ها باشند، می

95
00:03:26,560 –> 00:03:28,720
توانند برخی از متغیرها یا ستون هایی

96
00:03:28,720 –> 00:03:30,799
باشند که برای

97
00:03:30,799 –> 00:03:32,879
نتیجه گیری یا تفسیر ما ضروری نیستند، بنابراین ما می

98
00:03:32,879 –> 00:03:35,040
توانیم آنها را حذف کنیم. یا نقاط دورافتاده وجود دارد

99
00:03:35,040 –> 00:03:38,319
که می‌تواند باعث ایجاد نویز در داده‌ها شود

100
00:03:38,319 –> 00:03:40,480
یا می‌دانید که ممکن

101
00:03:40,480 –> 00:03:42,000
است زمانی که ما بر روی ساختمان مدل کار می‌کنیم بیش از حد یا کمتر از آن به مدل برسد،

102
00:03:42,000 –> 00:03:44,159
بنابراین این دومین

103
00:03:44,159 –> 00:03:45,920
قدم است که بچه‌ها باید داده‌ها را پاک کنیم

104
00:03:45,920 –> 00:03:48,080
تا به جلو برویم و آخرین اما مهم نیست

105
00:03:48,080 –> 00:03:49,840
که ما باید رابطه بین متغیرها را تجزیه و تحلیل کنیم

106
00:03:49,840 –> 00:03:52,159
،

107
00:03:52,159 –> 00:03:54,319
بنابراین اجازه دهید به قسمت سرگرم کننده آن برویم،

108
00:03:54,319 –> 00:03:56,720
بنابراین کاری که اکنون انجام خواهم داد،

109
00:03:56,720 –> 00:03:58,480
به سمت دفترچه یادداشت jupiter

110
00:03:58,480 –> 00:04:00,879
می روم و روی یک نسخه آزمایشی کار می کنم. می‌توان مجموعه‌ای از داده‌ها را از

111
00:04:00,879 –> 00:04:03,439
kaggle گرفته و eda را روی آن اجرا کرد، بنابراین

112
00:04:03,439 –> 00:04:05,680
بیایید آن را به نوت‌بوک jupiter ببریم،

113
00:04:05,680 –> 00:04:07,280
بنابراین من قبلاً این نوت‌بوک

114
00:04:07,280 –> 00:04:09,599
را باز کرده‌ام و اگر از قبل نمی‌دانید چگونه

115
00:04:09,599 –> 00:04:11,280
در نوت‌بوک jupyter کار کنید، یک

116
00:04:11,280 –> 00:04:13,200
آموزش کامل در مورد آن داریم. نحوه کار با

117
00:04:13,200 –> 00:04:14,879
نوت بوک ژوپیتر، می توانید آن را در صفحه یوتیوب ما پیدا کنید،

118
00:04:14,879 –> 00:04:17,519
بچه ها، و اگر هنوز

119
00:04:17,519 –> 00:04:19,519
به دنبال میانبرهایی هستید، مانند اگر می خواهید

120
00:04:19,519 –> 00:04:22,079
بفهمید واقعا چگونه کار می کند،

121
00:04:22,079 –> 00:04:23,680
ما یک برگه تقلب نیز داریم که می

122
00:04:23,680 –> 00:04:25,680
توانید برای کار به آن مراجعه کنید.

123
00:04:25,680 –> 00:04:27,040
نوت بوک jupiter و اگر به

124
00:04:27,040 –> 00:04:28,400
نصب و همه چیزهایی که ما داریم

125
00:04:28,400 –> 00:04:30,720
آموزش آناکوندا را می بینید، بنابراین

126
00:04:30,720 –> 00:04:32,080
اولین کاری که باید انجام دهید این است

127
00:04:32,080 –> 00:04:33,600
که کتابخانه های خاصی را وارد کنید که به آنها

128
00:04:33,600 –> 00:04:36,479
نیاز خواهید داشت، بنابراین من پانداها را با

129
00:04:36,479 –> 00:04:39,120
نام مستعار pd وارد می کنم. من قصد دارم چند

130
00:04:39,120 –> 00:04:42,479
کتابخانه دیگر را وارد کنم که ممکن است به آنها نیاز داشته باشید،

131
00:04:42,479 –> 00:04:44,880
من قصد دارم c bond را برای

132
00:04:44,880 –> 00:04:46,479
نمایش بصری بچه ها وارد کنم، زیرا ما

133
00:04:46,479 –> 00:04:47,919
قرار است رابطه

134
00:04:47,919 –> 00:04:49,360
بین متغیرها را تجسم کنیم، بنابراین برای آن

135
00:04:49,360 –> 00:04:50,960
من از c bond استفاده می کنم

136
00:04:50,960 –> 00:04:52,880
بنابراین من این برنامه را اجرا می کنم m

137
00:04:52,880 –> 00:04:55,440
و این سلول در حال حاضر با موفقیت اجرا

138
00:04:55,440 –> 00:04:57,280
می شود، بچه ها مدتی طول می کشد، در

139
00:04:57,280 –> 00:04:58,639

140
00:04:58,639 –> 00:04:59,919
ضمن من فقط می خواهم به شما بگویم که

141
00:04:59,919 –> 00:05:01,919
چگونه می خواهیم به این موضوع نزدیک

142
00:05:01,919 –> 00:05:04,000
شویم.

143
00:05:04,000 –> 00:05:05,680
برای گرفتن این

144
00:05:05,680 –> 00:05:09,039
داده متغیر و من از کتابخانه pandas استفاده می کنم،

145
00:05:09,039 –> 00:05:12,880
بنابراین اول از همه اولین قدم این است که

146
00:05:13,840 –> 00:05:17,280
من باید

147
00:05:17,919 –> 00:05:20,960
مجموعه داده های خود را وارد کنم بچه ها، بنابراین این مکان

148
00:05:20,960 –> 00:05:24,759
مجموعه داده های من است

149
00:05:25,199 –> 00:05:29,039
و نام مجموعه داده Students.csv است.

150
00:05:30,639 –> 00:05:33,639

151
00:05:34,000 –> 00:05:35,840
بسیار خوب، ما فایل خطای خود را

152
00:05:35,840 –> 00:05:38,840

153
00:05:39,600 –> 00:05:41,280
پیدا نکردیم، بنابراین

154
00:05:41,280 –> 00:05:44,320
مجموعه داده های خود را با موفقیت وارد برنامه کردیم،

155
00:05:44,320 –> 00:05:46,160
بنابراین اولین قدم پس از

156
00:05:46,160 –> 00:05:48,800
بارگیری داده ها در برنامه خود این است که باید

157
00:05:48,800 –> 00:05:51,199
با

158
00:05:51,199 –> 00:05:53,360
درک متغیرهای داخل داده، داده ها را درک کنید. من

159
00:05:53,360 –> 00:05:55,199
فقط آن را به عنوان اولین نام می

160
00:05:55,199 –> 00:05:58,479

161
00:06:00,400 –> 00:06:03,600

162
00:06:05,440 –> 00:06:06,560

163
00:06:06,560 –> 00:06:09,039
گذارم، بنابراین اولین قدم درک داده ها است و من می خواهم

164
00:06:09,039 –> 00:06:11,199
پنج ردیف اول داده های خود را بررسی کنم، بنابراین

165
00:06:11,199 –> 00:06:13,440
این داده های من

166
00:06:13,440 –> 00:06:16,160

167
00:06:16,160 –> 00:06:19,039
است. شرکت آمادگی آزمون ناهار آموزش و پرورش

168
00:06:19,039 –> 00:06:21,759
نمره

169
00:06:21,759 –> 00:06:24,560
خواندن نمره ریاضی urse و آخرین نمره رایتینگ داریم،

170
00:06:24,560 –> 00:06:25,919
بنابراین اینها نمراتی هستند

171
00:06:25,919 –> 00:06:27,680
که در مجموعه داده های ما با

172
00:06:27,680 –> 00:06:29,360
نگاه کردن به آن مهم هستند، می توانم به شما بگویم که

173
00:06:29,360 –> 00:06:31,520
این مقادیر هستند که

174
00:06:31,520 –> 00:06:33,360
هنگام کار بر روی هر مدلی بسیار مهم خواهند بود.

175
00:06:33,360 –> 00:06:35,759
یا فرضیات یا

176
00:06:35,759 –> 00:06:37,840
نتیجه گیری مانند جنسیت باید وجود داشته باشد

177
00:06:37,840 –> 00:06:39,919
زیرا تعیین کننده است که باید

178
00:06:39,919 –> 00:06:42,000
مرد یا زن باشد، بنابراین این یک

179
00:06:42,000 –> 00:06:43,600
ارزش طبقه بندی است که

180
00:06:43,600 –> 00:06:45,520
ما در مجموعه داده های خود به آن نیاز خواهیم داشت، نژاد و

181
00:06:45,520 –> 00:06:47,680
قومیت ممکن است حذف شود.

182
00:06:47,680 –> 00:06:49,680
لزوماً یک متغیر بسیار مهم در

183
00:06:49,680 –> 00:06:51,599
مجموعه داده‌های ما و سطح تحصیلات والدین است،

184
00:06:51,599 –> 00:06:54,000
اگر

185
00:06:54,000 –> 00:06:55,840
مقادیر منحصربه‌فرد را بررسی کنیم و تصمیم بگیریم که این همان کاری است که

186
00:06:55,840 –> 00:06:57,440
می‌خواهیم انجام دهیم.

187
00:06:57,440 –> 00:06:59,840

188
00:06:59,840 –> 00:07:02,319
همچنین پنج ردیف،

189
00:07:02,319 –> 00:07:03,680
بنابراین ما همه این مقادیر را داریم که

190
00:07:03,680 –> 00:07:05,199
قبلاً به آنها نگاه کرده ایم، بنابراین یک چیز می

191
00:07:05,199 –> 00:07:07,199
توانید مطمئن شوید که از صفر شروع می شود

192
00:07:07,199 –> 00:07:09,440
و تا 999

193
00:07:09,440 –> 00:07:11,280
ادامه می یابد، بنابراین می توانیم فقط بگوییم که ما

194
00:07:11,280 –> 00:07:13,759
هزار ورودی در این مجموعه داده داریم، بنابراین

195
00:07:13,759 –> 00:07:16,160
من t یک مجموعه داده خیلی بزرگ نیست، اما یک

196
00:07:16,160 –> 00:07:18,240
مجموعه داده نسبتاً کوچک

197
00:07:18,240 –> 00:07:21,280
نیست، همچنین برای ما عالی است، زیرا در حین

198
00:07:21,280 –> 00:07:22,880
انجام نمایش

199
00:07:22,880 –> 00:07:25,599
برای ما بسیار آسان خواهد بود،

200
00:07:25,599 –> 00:07:27,440
اکنون اجازه دهید شکل

201
00:07:27,440 –> 00:07:29,039
داده ها را نیز بررسی کنیم، بنابراین همه اینها هستند. مراحلی را

202
00:07:29,039 –> 00:07:31,840
که باید

203
00:07:32,080 –> 00:07:33,520
در حین کار

204
00:07:33,520 –> 00:07:35,919
کردن به درستی دنبال کنید،

205
00:07:36,960 –> 00:07:39,199
بنابراین ما شکل را بررسی کرده ایم، بنابراین ما

206
00:07:39,199 –> 00:07:42,319
هزار ردیف و هشت ستون داریم بچه ها،

207
00:07:42,319 –> 00:07:44,800
اجازه دهید فقط به چند نکته کلیدی دیگر نگاهی بیندازیم

208
00:07:44,800 –> 00:07:47,199

209
00:07:47,440 –> 00:07:50,000
وقتی از توصیف استفاده می کنید

210
00:07:50,000 –> 00:07:51,599
که فقط نمره ریاضی را نشان می دهد و نمره خواندن را نشان می دهد

211
00:07:51,599 –> 00:07:53,280
و نمره نوشتن

212
00:07:53,280 –> 00:07:55,360
چون همه متغیرهای دیگری که

213
00:07:55,360 –> 00:07:57,919
داریم اشیاء رشته ای هستند فقط

214
00:07:57,919 –> 00:08:00,080
اشیاء عدد صحیح در اینجا نشان داده می شوند،

215
00:08:00,080 –> 00:08:02,960
بنابراین ما یک تعداد در اینجا مانند هزار

216
00:08:02,960 –> 00:08:04,720
داریم و یک مقدار متوسط داریم، ح

217
00:08:04,720 –> 00:08:06,960
اقل مقدار انحراف استاندارد را داریم 25 در

218
00:08:06,960 –> 00:08:09,039
د 50 در

219
00:08:09,039 –> 00:08:11,199
د 75 و حداکثر مقدار و همچنین همانطور که

220
00:08:11,199 –> 00:08:13,840
می بینید برای همه آن مقادیر 100

221
00:08:13,840 –> 00:08:16,879
نمره حداکثر است و حداقل

222
00:08:16,879 –> 00:08:19,680
نمره ریاضی ما 0 نمره خواندن 17 و

223
00:08:19,680 –> 00:08:22,000
نمره نوشتن 10 است. بنابراین همه این مقادیر

224
00:08:22,000 –> 00:08:24,319
شما فقط می توانید با روش توصیف دریافت کنید و

225
00:08:24,319 –> 00:08:26,560
سپس می توانید

226
00:08:26,560 –> 00:08:29,360
ستون ها و ردیف ها را به طور جداگانه بررسی کنید، بنابراین

227
00:08:29,360 –> 00:08:31,280
برای این کار فقط باید مانند

228
00:08:31,280 –> 00:08:32,320

229
00:08:32,320 –> 00:08:34,000

230
00:08:34,000 –> 00:08:35,360
ستون

231
00:08:35,360 –> 00:08:38,399
های نقطه داده بنویسید، بسیار خوب، قابل فراخوانی نیست،

232
00:08:38,399 –> 00:08:40,880
بنابراین ما جنسیت نژاد قومیت والدین

233
00:08:40,880 –> 00:08:43,039
سطح تحصیلات آزمون ناهار داریم.

234
00:08:43,039 –> 00:08:45,360
نمره درس آمادگی ریاضی نمره خواندن

235
00:08:45,360 –> 00:08:47,120
و نمره نوشتن،

236
00:08:47,120 –> 00:08:49,920
بنابراین ما هیچکدام را کامل نکردیم، بنابراین

237
00:08:49,920 –> 00:08:52,480
فقط n مقدار منحصر به فرد را بررسی می کنیم

238
00:08:52,480 –> 00:08:54,800
که چیزی نیست جز تابعی که

239
00:08:54,800 –> 00:08:56,399
یک سری را با تعدادی

240
00:08:56,399 –> 00:08:59,120
مشاهدات متمایز بر روی محور درخواستی برمی گرداند،

241
00:08:59,120 –> 00:09:01,200
بنابراین اگر مقدار را تنظیم کنیم مقدار xs 0

242
00:09:01,200 –> 00:09:02,800
باشد سپس تعداد کل

243
00:09:02,800 –> 00:09:05,040
مشاهدات منحصربه‌فرد را بر روی محور شاخص پیدا می‌کند،

244
00:09:05,040 –> 00:09:07,360
پس بیایید فقط مقادیر یکتا را بررسی

245
00:09:07,360 –> 00:09:08,480
کنیم،

246
00:09:08,480 –> 00:09:10,160
پس بچه‌ها، اکنون چه خواهیم کرد،

247
00:09:10,160 –> 00:09:12,399
مقادیر منحصربه‌فرد در داده‌هایمان را بررسی می‌کنیم،

248
00:09:12,399 –> 00:09:14,240
بنابراین من. من فقط از n منحصربفرد استفاده می کنم و

249
00:09:14,240 –> 00:09:16,160
قبلاً به شما گفته ام که چه کاری انجام می دهد

250
00:09:16,160 –> 00:09:17,839
بنابراین برای همه این ستون ها

251
00:09:17,839 –> 00:09:19,680
مقادیر منحصر به فرد را به ما نشان می دهد بنابراین برای جنسیت ما

252
00:09:19,680 –> 00:09:21,200
دو مقدار منحصر به فرد داریم که اساساً

253
00:09:21,200 –> 00:09:23,200
مرد و زن برای نژاد و قومیت

254
00:09:23,200 –> 00:09:25,040
w است. e دارای پنج مقدار سطح تحصیلات والدین،

255
00:09:25,040 –> 00:09:27,200
ما شش مقدار برای ناهار

256
00:09:27,200 –> 00:09:29,200
داریم، دو مقدار برای دوره آمادگی آزمون

257
00:09:29,200 –> 00:09:31,200
، دو مقدار

258
00:09:31,200 –> 00:09:33,040
برای نمره ریاضی نمره خواندن و نمره نوشتن

259
00:09:33,040 –> 00:09:36,160
داریم،

260
00:09:36,160 –> 00:09:38,640
از 0 تا 100 مقدار بسیار کمی داریم. از

261
00:09:38,640 –> 00:09:41,360
77 مقدار منحصر به فرد برای نوشتن نمره برای

262
00:09:41,360 –> 00:09:43,440
نمره خواندن، ما همه آن چیزها را داریم

263
00:09:43,440 –> 00:09:45,200
و اگر می خواهید به طور جداگانه برای

264
00:09:45,200 –> 00:09:47,519
هر ستونی بررسی کنید، فقط می توانید بنویسید فرض کنید

265
00:09:47,519 –> 00:09:48,560
جنسیت

266
00:09:48,560 –> 00:09:51,600
و ما فقط می توانیم منحصر به فرد بنویسیم

267
00:09:51,600 –> 00:09:53,360
و مقدار منحصر به فرد داخل آن ستون را به ما نشان می دهد.

268
00:09:53,360 –> 00:09:55,279
بنابراین

269
00:09:55,279 –> 00:09:56,560

270
00:09:56,560 –> 00:09:58,240
اگر می خواهید بررسی کنید که مثلاً از

271
00:09:58,240 –> 00:10:01,920
نظر نژاد و قومیت کدام زن و مرد است به طور مشابه

272
00:10:03,200 –> 00:10:05,120
می توانیم بررسی کنیم تا گروه b گروه c

273
00:10:05,120 –> 00:10:07,519
گروه a گروه d و گروه a

274
00:10:07,519 –> 00:10:09,760
برای سطح تحصیلات والدین داشته باشیم همچنین می توانیم

275
00:10:09,760 –> 00:10:12,920

276
00:10:18,399 –> 00:10:19,920
همه چیز را بررسی کنیم تا لیسانس داشته باشیم مدرک تحصیلی

277
00:10:19,920 –> 00:10:21,600
برخی از دانشگاه‌ها ما دارای مدرک کارشناسی ارشد

278
00:10:21,600 –> 00:10:23,839
مقطع دبیرستان و تعدادی

279
00:10:23,839 –> 00:10:25,680
دبیرستان هستیم، بنابراین اینها همه ارزش‌هایی هستند

280
00:10:25,680 –> 00:10:27,680
که می‌توانید فقط با نگاه کردن به

281
00:10:27,680 –> 00:10:29,839
داده‌ها متوجه شوید، بنابراین با نگاه کردن به این

282
00:10:29,839 –> 00:10:31,279
مقادیر منحصر به فرد، من می توانم به شما بگویم که ما

283
00:10:31,279 –> 00:10:33,200
مقادیر طبقه بندی داریم مانند

284
00:10:33,200 –> 00:10:35,839
ناهار و دستور کار دوره آماده سازی آزمون

285
00:10:35,839 –> 00:10:37,440
که می تواند به مقادیر ساختگی

286
00:10:37,440 –> 00:10:39,760
از همه این مقادیر تبدیل شود، من فقط

287
00:10:39,760 –> 00:10:41,519
این سه را می گیرم که

288
00:10:41,519 –> 00:10:43,040
نمره خواندن و نمره نوشتن

289
00:10:43,040 –> 00:10:45,920
و ناهار است. آماده سازی آزمون و

290
00:10:45,920 –> 00:10:48,720
جنسیت و موارد دیگر مانند قومیت

291
00:10:48,720 –> 00:10:50,640
و سطح تحصیلات والدین را می توان

292
00:10:50,640 –> 00:10:52,320
حذف کرد زیرا اینها لزوماً

293
00:10:52,320 –> 00:10:54,560
متغیرهای بسیار مهمی

294
00:10:54,560 –> 00:10:56,800
در مجموعه داده ما

295
00:10:56,800 –> 00:10:59,360

296
00:10:59,360 –> 00:11:02,800
نیستند. دوستان داده،

297
00:11:03,920 –> 00:11:05,519
بنابراین اولین چیزی که

298
00:11:05,519 –> 00:11:07,600
به ذهن شما می رسد این است که مقادیر تهی

299
00:11:07,600 –> 00:11:09,920
را در هر یک از اینها بررسی کنید،

300
00:11:09,920 –> 00:11:11,519
برای اینکه ما فقط می توانیم

301
00:11:11,519 –> 00:11:13,040

302
00:11:13,040 –> 00:11:15,040
مقادیر تهی را بررسی

303
00:11:15,040 –> 00:11:18,240
کنیم و یک مجموع نیز بدست آوریم، بنابراین در داخل این

304
00:11:18,240 –> 00:11:20,640
مجموعه داده، مقادیر صفر

305
00:11:20,640 –> 00:11:22,399
داریم، بنابراین ما می توانیم مقادیر تهی را بررسی کنیم. لازم نیست نگران حذف

306
00:11:22,399 –> 00:11:24,320
هر ستونی باشید فقط به دلیل اینکه مقداری وجود ندارد

307
00:11:24,320 –> 00:11:26,240
یا آن را با مقادیر دیگری جایگزین کنید،

308
00:11:26,240 –> 00:11:28,959
اما در برخی موارد در برخی از

309
00:11:28,959 –> 00:11:31,279
مجموعه های داده که نسبتاً بسیار بزرگ هستند،

310
00:11:31,279 –> 00:11:33,200
مانند h هفت هزار یا هشت

311
00:11:33,200 –> 00:11:35,279
هزار مقدار داشته باشید و اگر حتی دو

312
00:11:35,279 –> 00:11:37,440
درصد مقادیر تهی دارید یا مقداری از دست رفته

313
00:11:37,440 –> 00:11:39,519
در آن مجموعه داده‌ها دارید، باید

314
00:11:39,519 –> 00:11:41,600
مطمئن باشید که

315
00:11:41,600 –> 00:11:44,399
می‌خواهید آن مقادیر را دست نخورده

316
00:11:44,399 –> 00:11:46,480
رها کنید یا می‌خواهید آنها را حذف کنید یا هر کدام را جایگزین کنید.

317
00:11:46,480 –> 00:11:48,560
مقادیر از آن‌ها، بنابراین از آنجایی که ما

318
00:11:48,560 –> 00:11:50,160
هیچ مقدار تهی در داخل آن نداریم،

319
00:11:50,160 –> 00:11:52,079
به قسمت بعدی می‌رویم

320
00:11:52,079 –> 00:11:53,839
که داده‌های اضافی را حذف می‌کند که

321
00:11:53,839 –> 00:11:56,160
لزوماً روی

322
00:11:56,160 –> 00:11:58,480
عملکرد ما از جدول ما تأثیر نمی‌گذارد،

323
00:11:58,480 –> 00:12:00,320
بنابراین اکنون چه خواهیم کرد آیا ما

324
00:12:00,320 –> 00:12:02,079
چند ستون را که در واقع به آنها نیاز

325
00:12:02,079 –> 00:12:04,240
نداریم در مجموعه داده های خود حذف می کنیم، بنابراین نژاد، قومیت و سطح تحصیلات والدین را حذف می کنیم،

326
00:12:04,240 –> 00:12:06,160

327
00:12:06,160 –> 00:12:07,279

328
00:12:07,279 –> 00:12:08,880
بنابراین این دو مقدار هستند که

329
00:12:08,880 –> 00:12:10,399
من در مجموعه داده های خود به آنها نیازی ندارم زیرا فکر می کنم

330
00:12:10,399 –> 00:12:12,079
اینها مقادیر مهمی برای هیچ

331
00:12:12,079 –> 00:12:14,560
ارزشیابی نیستند، بنابراین فقط اینها را حذف کنید، بنابراین

332
00:12:14,560 –> 00:12:16,160
من یک متغیر را انتخاب می کنم، فرض کنید دانش آموز

333
00:12:16,160 –> 00:12:18,560
برابر است با

334
00:12:18,639 –> 00:12:20,720
افت نقطه داده

335
00:12:20,720 –> 00:12:22,160
و من

336
00:12:22,160 –> 00:12:25,200

337
00:12:25,200 –> 00:12:28,959
قومیت نژاد را به درستی نام ستون ارائه می کنم

338
00:12:28,959 –> 00:12:30,720

339
00:12:30,720 –> 00:12:34,399
و ما سطح والدین را نمی خواهیم

340
00:12:34,399 –> 00:12:37,800
آموزش

341
00:12:38,480 –> 00:12:39,440
و پرورش و

342
00:12:39,440 –> 00:12:40,959
آن h به عنوان

343
00:12:40,959 –> 00:12:43,200
محور برابر با 1 است

344
00:12:43,200 –> 00:12:45,839
در غیر این صورت یک خطا برای ما

345
00:12:45,839 –> 00:12:48,240
درست می کند، بنابراین وقتی

346
00:12:48,240 –> 00:12:50,639
به دانش آموز نگاه می کنم،

347
00:12:50,880 –> 00:12:53,839

348
00:12:53,920 –> 00:12:55,680
بنابراین همه این مقادیر را داریم،

349
00:12:55,680 –> 00:12:57,920
جنسیت آزمون ناهار را داریم

350
00:12:57,920 –> 00:12:59,600
نمره مطابقت درس نمره خواندن و نمره نوشتن

351
00:12:59,600 –> 00:13:00,560

352
00:13:00,560 –> 00:13:02,800
مرحله بعدی مانند بررسی موارد

353
00:13:02,800 –> 00:13:04,720
پرت است. که لزوماً

354
00:13:04,720 –> 00:13:06,560
برای ما مشکلی ایجاد نمی کند زیرا ما

355
00:13:06,560 –> 00:13:08,320
مجموعه داده های کاملاً تمیزی داریم،

356
00:13:08,320 –> 00:13:10,160
بنابراین اگر

357
00:13:10,160 –> 00:13:12,000
می خواهید در مورد انبردست های ما بیشتر بدانید، می توانید به دنبال مقادیر پرت نیز بروید، من

358
00:13:12,000 –> 00:13:14,480
به شما خواهم گفت که انقباضات پرت واقعاً چه هستند،

359
00:13:14,480 –> 00:13:16,480
بنابراین پرت ها چیزی نیستند جز

360
00:13:16,480 –> 00:13:19,040
در آمار یک نقطه پرت یک نقطه داده است

361
00:13:19,040 –> 00:13:21,120
که به طور قابل توجهی با مشاهدات دیگر متفاوت است

362
00:13:21,120 –> 00:13:22,480

363
00:13:22,480 –> 00:13:23,839
، فرض کنید اگر یک امتیاز مسابقه دارید

364
00:13:23,839 –> 00:13:26,720
که 72 است، شما 69 را می دانید و ناگهان

365
00:13:26,720 –> 00:13:29,519
فردی صفر و یک دارد، بنابراین

366
00:13:29,519 –> 00:13:32,320

367
00:13:32,320 –> 00:13:34,399
ممکن است به دلیل تغییرپذیری در

368
00:13:34,399 –> 00:13:36,160
اندازه‌گیری یا ممکن است نشان‌دهنده

369
00:13:36,160 –> 00:13:38,720
خطای آزمایشی نیز باشد، بنابراین موارد

370
00:13:38,720 –> 00:13:41,519
دوم گاهی از مجموعه داده‌ها حذف می‌شوند،

371
00:13:41,519 –> 00:13:44,079
زیرا یک نقطه دور در واقع می‌تواند

372
00:13:44,079 –> 00:13:46,320
مشکلات جدی در تجزیه و تحلیل آماری ایجاد کند.

373
00:13:46,320 –> 00:13:47,440
بنابراین، به همین دلیل است که ما باید به دنبال

374
00:13:47,440 –> 00:13:50,000
نقاط پرت باشیم و در این مجموعه داده

375
00:13:50,000 –> 00:13:51,680
لزوماً ما هیچ نقطه پرت

376
00:13:51,680 –> 00:13:53,600
نداریم، بنابراین آن را رها می کنیم و به

377
00:13:53,600 –> 00:13:55,199
مرحله سومی می رویم که داریم که

378
00:13:55,199 –> 00:13:57,519
اساساً چیزی نیست جز تجزیه و تحلیل

379
00:13:57,519 –> 00:13:58,320

380
00:13:58,320 –> 00:14:00,079
یا ما. می توان آن را به عنوان

381
00:14:00,079 –> 00:14:01,519
تجزیه و تحلیل رابطه نامید،

382
00:14:01,519 –> 00:14:03,920
بنابراین من فقط آن را به عنوان سه علامت گذاری می

383
00:14:03,920 –> 00:14:07,040
کنم بسیار خوب، من فقط به عنوان

384
00:14:07,040 –> 00:14:09,519
تجزیه و تحلیل کشتی رابطه می نویسم

385
00:14:09,519 –> 00:14:11,199
اکنون کاری که ما انجام خواهیم داد این است که

386
00:14:11,199 –> 00:14:13,600
به چند معیار دیگر نگاهی بیندازیم، بنابراین اول از همه

387
00:14:13,600 –> 00:14:17,040
ما همبستگی داریم ماتریس و قبل از

388
00:14:17,040 –> 00:14:19,839
اینکه به تجزیه و تحلیل رابطه بپردازیم، امیدوارم

389
00:14:19,839 –> 00:14:22,000
همه چیز برای شما روشن باشد، مثل اینکه

390
00:14:22,000 –> 00:14:24,240
ما از بارگذاری داده ها

391
00:14:24,240 –> 00:14:26,639
شروع کردیم و سپس در مورد اینکه چگونه می توانیم

392
00:14:26,639 –> 00:14:28,000
داده ها را

393
00:14:28,000 –> 0

پاسخ دهید لغو پاسخ

اکانت vip

دوره آموزش پایتون

مطالب تصادفی

فیلم آموزشی: سخنرانی 15 و 16: برنامه نویسی پایتون برای مهندسان عمران: کاربرد پیشرفته در پایتون با زیرنویس فارسی

فیلم آموزشی: درخت تصمیم | درخت تصمیم در پایتون | الگوریتم های یادگیری ماشین | ادورکا | ML Rewind – 6 با زیرنویس فارسی

فیلم آموزشی: یک پخش کننده رسانه YouTube با پایتون ایجاد کنید

فیلم آموزشی: قالب بندی رشته در پایتون – 21 | نحوه قالب بندی رشته در پایتون | آموزش پایتون | Simplile Learn با زیرنویس فارسی

فیلم آموزشی: آموزش هنر ASCII متحرک پایتون با زیرنویس فارسی

فیلم آموزشی: پایتون- تاپل ها

فیلم آموزشی: تشک درب طراح [HackerRank] | پایتون | رشته

فیلم آموزشی: سوالات، نکات و توصیه های مصاحبه پایتون | ساختارهای داده و الگوریتم ها در پایتون (6/6)

فیلم آموزشی: PyGame State Machine – Python Game Dev Tutorial با زیرنویس فارسی

فیلم آموزشی: چگونه با پایتون یک فرودگر مریخ بسازیم با زیرنویس فارسی

فیلم آموزشی: استفاده از ابزارهای بومی پایتون برای بهینه سازی عملکرد پایتون با زیرنویس فارسی

فیلم آموزشی: LeetCode در پایتون 38. بشمار و بگو – میشل

فیلم آموزشی: نحوه ورود به وب سایت ها با پایتون 3 (mechanicalsoup) با زیرنویس فارسی

فیلم آموزشی: آموزش برنامه نویسی پایتون 3 – لیست چند بعدی با زیرنویس فارسی

فیلم آموزشی: Blender: نحوه تنظیم خروجی کنسول پایتون در macOS با زیرنویس فارسی

فیلم آموزشی: زنگ آزادی – ادای احترام مونتی پایتون

پشتیبانی سایت

نماد اعتماد اینماد و زیبال

فیلم آموزشی: انجام تجزیه و تحلیل داده های اکتشافی با استفاده از پایتون | آموزش علوم داده | ادورکا | ML Rewind – 3 با زیرنویس فارسی

برای دانلود این فیلم ، عضو vip سایت شوید.

دانلود 17000 فیلم پایتون با پرداخت 15 هزار تومان (عضویت یک ماهه)

مطالب مرتبط: