در این مطلب، ویدئو آمار در پایتون: یک توزیع غیر عادی را به یک توزیع گاوسی تبدیل کنید. با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:16:40
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:02,240 –> 00:00:03,520
در این ویدیوی جایزه،
2
00:00:03,520 –> 00:00:06,560
کاری که میخواهیم انجام دهیم این است
3
00:00:06,560 –> 00:00:09,760
که توزیعی از اعداد را تولید کنیم
4
00:00:09,760 –> 00:00:12,719
که به طور غیرعادی توزیع شدهاند، به طوری
5
00:00:12,719 –> 00:00:14,559
که توزیع غیرگوسی دارند
6
00:00:14,559 –> 00:00:17,279
و سپس آن توزیع
7
00:00:17,279 –> 00:00:17,760
را به
8
00:00:17,760 –> 00:00:20,560
یک توزیع گاوسی تبدیل میکنیم که از
9
00:00:20,560 –> 00:00:21,279
الگوریتمی استفاده میکند
10
00:00:21,279 –> 00:00:23,680
که در اینجا سه مرحله دارد که مراحل دو
11
00:00:23,680 –> 00:00:24,960
سه است. چه
12
00:00:24,960 –> 00:00:27,119
مرحله اول در واقع بخشی از
13
00:00:27,119 –> 00:00:28,880
الگوریتم تبدیل نیست،
14
00:00:28,880 –> 00:00:30,000
این اولین مرحله ای است که
15
00:00:30,000 –> 00:00:32,960
می خواهید در این ویدیو انجام دهید و آن
16
00:00:32,960 –> 00:00:34,880
ایجاد نوع خاصی از
17
00:00:34,880 –> 00:00:38,480
مقادیر نویز به نام نویز قهوه ای است،
18
00:00:38,480 –> 00:00:41,440
اکنون می خواهید چیزهای بیشتری
19
00:00:41,440 –> 00:00:42,079
درباره
20
00:00:42,079 –> 00:00:45,280
قهوه ای بیاموزید. نویز در بخش بعدی
21
00:00:45,280 –> 00:00:47,280
این دوره، فکر میکنم در
22
00:00:47,280 –> 00:00:48,879
حال حاضر در دو بخش است، چیزی
23
00:00:48,879 –> 00:00:51,840
شبیه به رنگهای طیفی نویز، چیزی
24
00:00:51,840 –> 00:00:54,559
با طیف و نویز و رنگها
25
00:00:54,559 –> 00:00:56,559
نامیده میشود، اما روشی که شما
26
00:00:56,559 –> 00:00:58,640
نویز قهوهای ایجاد میکنید این است که با نویز سفید شروع میکنید
27
00:00:58,640 –> 00:01:01,840
. فقط اعداد
28
00:01:01,840 –> 00:01:03,520
کاملاً تصادفی از یک
29
00:01:03,520 –> 00:01:05,760
توزیع نرمال یا توزیع استاندارد توزیع گاوسی گرفته می
30
00:01:05,760 –> 00:01:08,960
شوند و سپس
31
00:01:08,960 –> 00:01:12,400
مجموع تجمعی o را محاسبه می کنید. در مقابل
32
00:01:12,400 –> 00:01:15,360
تمام آن عناصر نویز سفید، بنابراین
33
00:01:15,360 –> 00:01:17,040
مجموع تجمعی
34
00:01:17,040 –> 00:01:20,240
این است، به این معنی است که نقطه زمانی t
35
00:01:20,240 –> 00:01:21,439
به
36
00:01:21,439 –> 00:01:24,320
عنوان مجموع تمام نقاط داده از
37
00:01:24,320 –> 00:01:25,520
نقطه زمانی اول
38
00:01:25,520 –> 00:01:27,600
تا نقطه زمانی فعلی تعریف می شود، اکنون توجه
39
00:01:27,600 –> 00:01:29,600
کنید اینجا این نماد ریاضی است. ما از یک شروع می کنیم
40
00:01:29,600 –> 00:01:30,400
41
00:01:30,400 –> 00:01:32,640
اما در پایتون شما از صفر شروع می کنید
42
00:01:32,640 –> 00:01:33,840
اکنون تابعی
43
00:01:33,840 –> 00:01:37,439
در جعبه ابزار numpy وجود دارد به نام من به شما نمی
44
00:01:37,439 –> 00:01:38,479
گویم نام آن چیست
45
00:01:38,479 –> 00:01:40,799
اما تابعی در numpy وجود دارد که
46
00:01:40,799 –> 00:01:42,479
مجموع تجمعی را
47
00:01:42,479 –> 00:01:44,960
برای شما محاسبه می کند بنابراین شما واقعاً این کار را انجام نمی دهید. لازم
48
00:01:44,960 –> 00:01:46,000
نیست این را
49
00:01:46,000 –> 00:01:47,920
به عنوان عملکرد خود پیاده سازی کنید، اگرچه اگر
50
00:01:47,920 –> 00:01:50,000
کنجکاو هستید می دانید که می توانید تلاش کنید، انجام این کار
51
00:01:50,000 –> 00:01:51,360
چندان سخت نیست،
52
00:01:51,360 –> 00:01:52,799
خوب، مهم است که وقتی
53
00:01:52,799 –> 00:01:54,479
نویز قهوه ای ایجاد می کنید، میانگین
54
00:01:54,479 –> 00:01:57,200
آن صفر است، خیلی مهم نیست.
55
00:01:57,200 –> 00:01:58,399
واریانس چیست،
56
00:01:58,399 –> 00:02:01,920
میتوانید آن را به عنوان یک پیشفرض
57
00:02:01,920 –> 00:02:05,680
رها کنید، بنابراین کمی نویز قهوهای ایجاد کنید
58
00:02:05,680 –> 00:02:06,240
59
00:02:06,240 –> 00:02:08,318
و سپس میخواهید تبدیل رتبهبندی کنید و
60
00:02:08,318 –> 00:02:09,840
تابع تبدیل رتبه
61
00:02:09,840 –> 00:02:12,879
در ماژول آمار است که ما
62
00:02:12,879 –> 00:02:13,680
63
00:02:13,680 –> 00:02:16,160
در ابتدا برای چند ویدیو از آن استفاده میکردیم. از
64
00:02:16,160 –> 00:02:17,280
این فرقه
65
00:02:17,280 –> 00:02:19,680
اکنون دادههای تبدیل رتبهای
66
00:02:19,680 –> 00:02:20,959
67
00:02:20,959 –> 00:02:23,840
از صفر تا تعداد
68
00:02:23,840 –> 00:02:25,040
نقاط داده تغییر میکند
69
00:02:25,040 –> 00:02:27,920
، چیزی که میخواهید انجام دهید
70
00:02:27,920 –> 00:02:28,319
71
00:02:28,319 –> 00:02:32,160
این است که دادههای تبدیل رتبه را
72
00:02:32,160 –> 00:02:34,959
به محدوده منهای یک به مثبت یک تغییر دهید.
73
00:02:34,959 –> 00:02:36,239
بنابراین کوچکترین
74
00:02:36,239 –> 00:02:40,400
عدد منهای یک است، بزرگترین مقدار یک است
75
00:02:40,400 –> 00:02:43,280
و در اینجا یک اشاره کوچک وجود دارد که آسانتر است، بنابراین
76
00:02:43,280 –> 00:02:44,720
برای رسیدن به مرحله
77
00:02:44,720 –> 00:02:47,840
سه در واقع ساده تر است ابتدا
78
00:02:47,840 –> 00:02:51,040
تبدیل اعداد به رتبه تبدیل
79
00:02:51,040 –> 00:02:53,680
به تبدیل آنها به 0 به مثبت
80
00:02:53,680 –> 00:02:54,239
1
81
00:02:54,239 –> 00:02:57,040
و سپس مقیاس مجدد دوباره از 1-
82
00:02:57,040 –> 00:02:58,319
به مثبت 1 بروید. بسیار
83
00:02:58,319 –> 00:03:00,000
خوب و پس از انجام مرحله 3
84
00:03:00,000 –> 00:03:02,159
کاری که می خواهید انجام دهید این است
85
00:03:02,159 –> 00:03:05,120
که دوباره مماس هذلولی معکوس را اعمال کنید، این
86
00:03:05,120 –> 00:03:05,920
چیزی است که
87
00:03:05,920 –> 00:03:08,480
در جعبه ابزار numpy وجود دارد، به شما اجازه می دهم
88
00:03:08,480 –> 00:03:10,319
بفهمید که چیست؟ نام آن
89
00:03:10,319 –> 00:03:11,040
تابع،
90
00:03:11,040 –> 00:03:12,959
اما به طور کلی این چیزی است
91
00:03:12,959 –> 00:03:14,879
که نام ریاضی این تابع است،
92
00:03:14,879 –> 00:03:17,040
شما می توانید بفهمید که کلمه رمز
93
00:03:17,040 –> 00:03:18,159
این تابع چیست
94
00:03:18,159 –> 00:03:21,120
، نام تابع خوب است، بنابراین وقتی
95
00:03:21,120 –> 00:03:22,640
این کار را انجام دادید، می خواهیم تجسم کنیم
96
00:03:22,640 –> 00:03:23,280
که این چه چیزی است.
97
00:03:23,280 –> 00:03:25,840
الگوریتم i در واقع در اینجا انجام میدهیم، بنابراین
98
00:03:25,840 –> 00:03:27,599
در اینجا دادههای اصلی را داریم، این
99
00:03:27,599 –> 00:03:28,640
100
00:03:28,640 –> 00:03:32,239
سری زمانی نویز قهوهای است، اینجا هیستوگرام آن است،
101
00:03:32,239 –> 00:03:33,920
بنابراین میبینید که توزیع
102
00:03:33,920 –> 00:03:35,840
قطعاً گوسی نیست
103
00:03:35,840 –> 00:03:38,159
و در اینجا ما دادههای تبدیل را داریم و
104
00:03:38,159 –> 00:03:39,760
در اینجا میتوانید هیستوگرام آن
105
00:03:39,760 –> 00:03:40,239
دادهها را ببینید
106
00:03:40,239 –> 00:03:42,159
قطعاً گاوسی این واقعاً
107
00:03:42,159 –> 00:03:43,280
شبیه کلسیم است،
108
00:03:43,280 –> 00:03:45,760
بنابراین بسیار تمیز است، ما داده ها را کمی تغییر می دهیم،
109
00:03:45,760 –> 00:03:47,440
می توانید ببینید که واضح است
110
00:03:47,440 –> 00:03:48,400
که یکسان
111
00:03:48,400 –> 00:03:50,000
نیست، اما می دانید خطوط در مقیاس بزرگ
112
00:03:50,000 –> 00:03:52,080
حفظ
113
00:03:52,080 –> 00:03:54,159
شده اند و ما به طور کامل
114
00:03:54,159 –> 00:03:56,000
توزیع را از
115
00:03:56,000 –> 00:03:58,799
غیر گاوسی به گاوسی تغییر دادیم. اکنون به دلیل
116
00:03:58,799 –> 00:04:00,000
اعداد تصادفی،
117
00:04:00,000 –> 00:04:02,400
انتظار نداشته باشید که نتایج شما دقیقاً مانند
118
00:04:02,400 –> 00:04:03,200
119
00:04:03,200 –> 00:04:04,959
این هیستوگرام باشد، باید
120
00:04:04,959 –> 00:04:06,799
هیستوگرام شبیه این داشته باشید، اما
121
00:04:06,799 –> 00:04:08,239
سری زمانی شما
122
00:04:08,239 –> 00:04:09,920
متفاوت به نظر می رسد، هیستوگرام در اینجا متفاوت به نظر می رسد
123
00:04:09,920 –> 00:04:10,640
124
00:04:10,640 –> 00:04:12,560
زیرا نویز قهوه ای واقعاً بی نظم است
125
00:04:12,560 –> 00:04:14,400
و هر کدام متفاوت است. زمانی که
126
00:04:14,400 –> 00:04:18,160
سری های زمانی نویز را تولید می کنید
127
00:04:18,160 –> 00:04:20,000
، آخرین کاری که می خواهیم در اینجا انجام دهیم این
128
00:04:20,000 –> 00:04:22,079
است که به رابطه بین
129
00:04:22,079 –> 00:04:23,360
داده های اصلی نگاه
130
00:04:23,360 –> 00:04:26,400
کنیم. و داده های تبدیل شده
131
00:04:26,400 –> 00:04:29,280
توزیع گاوسی داده ها را تبدیل کرده است و
132
00:04:29,280 –> 00:04:29,919
ما می توانیم
133
00:04:29,919 –> 00:04:31,840
با نموداری که شبیه به این است انجام دهیم، بنابراین
134
00:04:31,840 –> 00:04:33,120
داده های اصلی را
135
00:04:33,120 –> 00:04:35,880
در اینجا در محور x داریم، داده های
136
00:04:35,880 –> 00:04:38,560
تبدیل تبدیل شده است.
137
00:04:38,560 –> 00:04:40,639
شما
138
00:04:40,639 –> 00:04:42,080
باید برچسب محور y خود را
139
00:04:42,080 –> 00:04:44,320
درست بنویسید و می بینید که
140
00:04:44,320 –> 00:04:45,360
این یک
141
00:04:45,360 –> 00:04:47,440
تابع یکنواخت است، بنابراین ما
142
00:04:47,440 –> 00:04:48,720
هیچ یک از
143
00:04:48,720 –> 00:04:52,080
روابط یا نوع روابط مقیاس شده
144
00:04:52,080 –> 00:04:53,759
بین اعداد مختلف را تغییر
145
00:04:53,759 –> 00:04:55,919
نمی دهیم، اما این یک رابطه غیر خطی است،
146
00:04:55,919 –> 00:04:58,000
بنابراین ما دوباره
147
00:04:58,000 –> 00:04:59,520
در انتهای پایین کشیده میشویم، ما سطح
148
00:04:59,520 –> 00:05:02,000
بالا را گسترش میدهیم و اساساً به این ترتیب است که
149
00:05:02,000 –> 00:05:03,759
از این توزیع به این
150
00:05:03,759 –> 00:05:05,759
توزیع
151
00:05:05,759 –> 00:05:09,199
میرسیم، بنابراین به پایتون بروید، موفق
152
00:05:09,199 –> 00:05:10,080
باشید با
153
00:05:10,080 –> 00:05:11,600
اجرای الگوریتم در
154
00:05:11,600 –> 00:05:13,280
اسلاید قبلی و ایجاد این
155
00:05:13,280 –> 00:05:13,919
نمودارها.
156
00:05:13,919 –> 00:05:16,639
و من شما را در یک لحظه در
157
00:05:16,639 –> 00:05:19,680
نسخه پایتون
158
00:05:19,680 –> 00:05:21,919
خود می بینم، بنابراین به شما نگفتم که دقیقاً از چند
159
00:05:21,919 –> 00:05:23,120
نقطه داده استفاده کنید،
160
00:05:23,120 –> 00:05:25,520
اما نمودارهایی که نشان
161
00:05:25,520 –> 00:05:28,320
دادم حدوداً 500 بود، پس بیایید برویم برای
162
00:05:28,320 –> 00:05:31,840
500 نقطه داده، بنابراین ما
163
00:05:31,840 –> 00:05:32,960
164
00:05:32,960 –> 00:05:36,720
یک رند تصادفی n ایجاد می کنیم، بنابراین این
165
00:05:36,720 –> 00:05:39,600
توزیع گاوسی تعداد
166
00:05:39,600 –> 00:05:41,199
اعداد تصادفی را به
167
00:05:41,199 –> 00:05:43,440
ما می دهد و سپس مجموع انباشته را محاسبه می کنیم،
168
00:05:43,440 –> 00:05:46,320
بنابراین اگر
169
00:05:46,320 –> 00:05:49,280
تابع خود را برای
170
00:05:49,280 –> 00:05:50,880
مجموع تجمعی ایجاد کرده باشید، واقعاً این است.
171
00:05:50,880 –> 00:05:52,320
عالی برای شما خوب است
172
00:05:52,320 –> 00:05:55,600
و اگر میخواهید کمی خود را نشان دهید میتوانید راهحل خود را برای q a پست کنید،
173
00:05:55,600 –> 00:05:56,240
174
00:05:56,240 –> 00:05:58,400
175
00:05:58,400 –> 00:06:00,000
در غیر این صورت واقعاً
176
00:06:00,000 –> 00:06:01,360
مهم نیست که میتوانید این کار را از طریق
177
00:06:01,360 –> 00:06:02,160
تابع
178
00:06:02,160 –> 00:06:05,680
cum sum انجام دهید و بیایید قبلاً این را رسم کنیم
179
00:06:05,680 –> 00:06:06,080
اجازه دهید
180
00:06:06,080 –> 00:06:09,120
plt کنیم. طرح نقطه فقط برای اینکه ببینید این چیز
181
00:06:09,120 –> 00:06:11,919
در واقع چه شکلی است، بنابراین در اینجا می بینید که به
182
00:06:11,919 –> 00:06:13,600
نظر می رسد پایین و بالا و پایین
183
00:06:13,600 –> 00:06:14,639
و بالا می رود،
184
00:06:14,639 –> 00:06:17,360
اما هر بار که این را بازسازی می کنیم قابل اعتماد نیست،
185
00:06:17,360 –> 00:06:19,120
186
00:06:19,120 –> 00:06:21,759
گاهی اوقات به این شکل کاملاً متفاوت به نظر
187
00:06:21,759 –> 00:06:23,680
می رسد. – روند نزولی
188
00:06:23,680 –> 00:06:24,240
گاهی اوقات
189
00:06:24,240 –> 00:06:27,039
به عنوان یک روند بلندمدت افزایش می یابد و
190
00:06:27,039 –> 00:06:28,400
اوه بله، نویز قهوه
191
00:06:28,400 –> 00:06:31,840
ای بسیار غیرقابل پیش بینی است، بسیار خوب است،
192
00:06:31,840 –> 00:06:35,199
بنابراین این باعث می شود که
193
00:06:35,199 –> 00:06:37,919
اکنون شروع کنیم، آنچه می خواهیم انجام دهیم این است
194
00:06:37,919 –> 00:06:40,479
که داده ها را تبدیل به رتبه بندی کنیم. hat در
195
00:06:40,479 –> 00:06:42,800
ماژول آماری است که قبلاً در دوره از آن استفاده می کردیم
196
00:06:42,800 –> 00:06:44,400
و تابعی
197
00:06:44,400 –> 00:06:48,160
که به آن داده های رتبه ای می گویند، بیایید
198
00:06:48,160 –> 00:06:49,520
این را چاپ کنیم و ببینیم چه شکلی است،
199
00:06:49,520 –> 00:06:50,880
200
00:06:50,880 –> 00:06:53,759
بنابراین y است که می توانید ببینید همه اعداد صحیح هستند
201
00:06:53,759 –> 00:06:55,199
و این در اصل فقط به ما می گوید
202
00:06:55,199 –> 00:06:56,400
تبدیل رتبه
203
00:06:56,400 –> 00:06:58,960
داده ها، بنابراین این به ما می گوید که
204
00:06:58,960 –> 00:06:59,680
اولین
205
00:06:59,680 –> 00:07:04,160
نقطه داده در x 350 یا
206
00:07:04,160 –> 00:07:07,360
عنصر 350 است وقتی مرتب شود، به این
207
00:07:07,360 –> 00:07:08,160
معنی که
208
00:07:08,160 –> 00:07:10,240
شما می دانید که در اینجا صفر است در
209
00:07:10,240 –> 00:07:12,479
اینجا یک است،
210
00:07:12,479 –> 00:07:13,919
من صفر را نمی بینم اما آن را نمی بینید.
211
00:07:13,919 –> 00:07:16,000
مهم نیست، بنابراین این داده
212
00:07:16,000 –> 00:07:18,560
در اینجا به هر مقدار داده ای اشاره می کند که در
213
00:07:18,560 –> 00:07:19,120
بردار
214
00:07:19,120 –> 00:07:22,000
x در نویز قهوه ای x است، این
215
00:07:22,000 –> 00:07:22,479
دومین
216
00:07:22,479 –> 00:07:26,080
تا کوچکترین مقدار داده ای است که
217
00:07:26,080 –> 00:07:29,039
در کل جریان داده خود داریم، در واقع شاید
218
00:07:29,039 –> 00:07:31,039
این اولین باشد، شاید
219
00:07:31,039 –> 00:07:33,840
داده های رتبه در واقع شروع به شمارش در
220
00:07:33,840 –> 00:07:34,919
یک می کنند.
221
00:07:34,919 –> 00:07:37,919
numpy.min را ببینید
222
00:07:37,919 –> 00:07:39,759
خیلی جالب است، بنابراین
223
00:07:39,759 –> 00:07:41,520
به طور معمول پایتون ادعا می کند که
224
00:07:41,520 –> 00:07:43,599
شمارش در صفر بهترین راه است،
225
00:07:43,599 –> 00:07:45,680
اما من حدس می زنم برای داده های رتبه در واقع
226
00:07:45,680 –> 00:07:47,280
از 1 شروع به شمارش
227
00:07:47,280 –> 00:07:50,479
می کند
228
00:07:50,479 –> 00:07:52,720
. متر گرم ابتدا باید
229
00:07:52,720 –> 00:07:53,919
آن را با
230
00:07:53,919 –> 00:07:57,199
تقسیم بر n به اضافه 1 نرمال کنیم
231
00:07:57,199 –> 00:07:58,960
و این به ما یک حداقل می
232
00:07:58,960 –> 00:08:00,560
دهد، بیایید ببینیم بیایید
233
00:08:00,560 –> 00:08:02,960
حداقل و حداکثر را چاپ کنیم تا این
234
00:08:02,960 –> 00:08:04,319
حداقل باشد
235
00:08:04,319 –> 00:08:07,520
و در اینجا ما حداکثر مقدار را داریم اکنون
236
00:08:07,520 –> 00:08:08,080
گفتم
237
00:08:08,080 –> 00:08:10,720
که ابتدا باید این را عادی کنید تا
238
00:08:10,720 –> 00:08:12,000
محدوده ای از صفر تا
239
00:08