در این مطلب، ویدئو IV و 2SLS در پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:14:40
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,160 –> 00:00:02,879
تجزیه و تحلیل رگرسیون باورنکردنی است
2
00:00:02,879 –> 00:00:03,919
زیرا آنقدر قابل
3
00:00:03,919 –> 00:00:05,680
تفسیر است که می توانید
4
00:00:05,680 –> 00:00:08,400
ضرایب ویژگی های مختلف خود را بدست آورید
5
00:00:08,400 –> 00:00:10,880
و آنها را به روشی معنی دار تفسیر کنید،
6
00:00:10,880 –> 00:00:13,040
بنابراین اگر بیمه درمانی
7
00:00:13,040 –> 00:00:16,079
دارید 85.2 درصد
8
00:00:16,079 –> 00:00:18,960
هزینه های پزشکی کمتری خواهید داشت، شاید
9
00:00:18,960 –> 00:00:20,400
رایج ترین رگرسیون
10
00:00:20,400 –> 00:00:24,000
، رگرسیون ols معمولی باشد.
11
00:00:24,000 –> 00:00:26,400
تجزیه و تحلیل رگرسیون مربع می تواند این
12
00:00:26,400 –> 00:00:28,000
تفسیرپذیری خوب را داشته باشد
13
00:00:28,000 –> 00:00:30,640
زمانی که متغیر x ما یا لیست
14
00:00:30,640 –> 00:00:31,519
ویژگی های
15
00:00:31,519 –> 00:00:33,680
ما با نتیجه ما همبستگی داشته باشد و
16
00:00:33,680 –> 00:00:34,880
سپس باقیمانده
17
00:00:34,880 –> 00:00:37,440
u یا عبارت خطا نیز
18
00:00:37,440 –> 00:00:38,239
با نتیجه مرتبط باشد
19
00:00:38,239 –> 00:00:41,280
اما نه با x در این مورد
20
00:00:41,280 –> 00:00:44,079
x را برون زا می نامیم. و این
21
00:00:44,079 –> 00:00:45,920
خبر خوبی برای رگرسیون ols است
22
00:00:45,920 –> 00:00:48,160
زیرا برای تفسیر نتایج بسیار خوب عمل می کند
23
00:00:48,160 –> 00:00:49,440
،
24
00:00:49,440 –> 00:00:52,480
متاسفانه اغلب اوقات u
25
00:00:52,480 –> 00:00:55,199
یا عبارت خطا در واقع
26
00:00:55,199 –> 00:00:56,000
با ویژگی های x مرتبط
27
00:00:56,000 –> 00:00:58,320
است، در این مورد x درون زا نامیده می شود
28
00:00:58,320 –> 00:00:59,359
29
00:00:59,359 –> 00:01:01,600
وقتی این اتفاق می افتد مشکل ساز است
30
00:01:01,600 –> 00:01:03,359
زیرا نتایج هیچ هستند.
31
00:01:03,359 –> 00:01:05,360
در تفسیر آنها دقیق تر است و
32
00:01:05,360 –> 00:01:08,479
این خبر بدی برای رگرسیون اول
33
00:01:08,479 –> 00:01:10,720
است یک اصلاح است و به آن
34
00:01:10,720 –> 00:01:12,640
با استفاده از رویکرد متغیر ابزاری
35
00:01:12,640 –> 00:01:14,560
یا رویکرد
36
00:01:14,560 –> 00:01:16,000
حداقل مربعات دو مرحله ای می
37
00:01:16,000 –> 00:01:18,880
گویند.
38
00:01:18,880 –> 00:01:19,360
39
00:01:19,360 –> 00:01:21,840
40
00:01:21,840 –> 00:01:22,400
41
00:01:22,400 –> 00:01:24,799
42
00:01:24,799 –> 00:01:26,080
43
00:01:26,080 –> 00:01:29,040
سپس فرآیند ساده است،
44
00:01:29,040 –> 00:01:29,360
شما
45
00:01:29,360 –> 00:01:32,240
x را با استفاده از z تخمین می زنید و سپس از
46
00:01:32,240 –> 00:01:32,560
آن
47
00:01:32,560 –> 00:01:35,439
تخمین برای x استفاده می کنید تا رگرسیون دیگری انجام دهید
48
00:01:35,439 –> 00:01:37,360
، به همین دلیل است که گاهی اوقات به آن
49
00:01:37,360 –> 00:01:39,040
حداقل مربعات دو مرحله ای می گویند، زیرا شما
50
00:01:39,040 –> 00:01:40,960
اساساً حداقل مربعات را
51
00:01:40,960 –> 00:01:43,680
دو برابر انجام می دهید، این یک راه حل عالی است زیرا این
52
00:01:43,680 –> 00:01:45,600
اجازه می دهد تا داده ها همچنان نتایج قابل تفسیر داشته باشند،
53
00:01:45,600 –> 00:01:48,880
حتی اگر x ما
54
00:01:48,880 –> 00:01:52,000
درون زا بود، راه های بسیار خوبی
55
00:01:52,000 –> 00:01:54,079
برای استخراج اطلاعات مورد
56
00:01:54,079 –> 00:01:57,119
نظر از داده ها وجود دارد، ما
57
00:01:57,119 –> 00:02:00,640
راه هایی برای گفتگو داریم
58
00:02:01,280 –> 00:02:03,600
که اغلب اوقات این نوع تحلیل رگرسیون
59
00:02:03,600 –> 00:02:04,479
60
00:02:04,479 –> 00:02:07,280
در زمینه انجام می شود. اقتصاد سنجی یا
61
00:02:07,280 –> 00:02:08,479
آمار
62
00:02:08,479 –> 00:02:10,959
و خواهید دید که بیشتر با استفاده از
63
00:02:10,959 –> 00:02:12,800
نرم افزارهایی مانند
64
00:02:12,800 –> 00:02:14,959
نرم افزار تجاری stata که برای این نوع
65
00:02:14,959 –> 00:02:16,640
تحلیل رگرسیون استفاده می شود
66
00:02:16,640 –> 00:02:19,200
اما متاسفانه stata c انجام می شود.
67
00:02:19,200 –> 00:02:21,200
به عنوان یک فرد ممکن است به آن دسترسی نداشته باشید
68
00:02:21,200 –> 00:02:21,599
،
69
00:02:21,599 –> 00:02:22,720
بنابراین
70
00:02:22,720 –> 00:02:25,040
71
00:02:25,120 –> 00:02:26,879
اگر این کار در stata انجام نشود، امروز از آن استفاده نمی کنیم، من
72
00:02:26,879 –> 00:02:28,720
آن را در متلب دیده ام که
73
00:02:28,720 –> 00:02:29,440
مکانی دیگری است
74
00:02:29,440 –> 00:02:31,920
که حوزه اقتصاد سنجی از آن استفاده می کند. اما
75
00:02:31,920 –> 00:02:33,519
این هزینه نیز دارد
76
00:02:33,519 –> 00:02:35,920
و همانطور که می توانید تصور کنید در این کانال
77
00:02:35,920 –> 00:02:36,720
ما یاد می گیریم
78
00:02:36,720 –> 00:02:38,800
که چگونه دو مرحله حداقل
79
00:02:38,800 –> 00:02:40,640
مربع یا متغیر ابزاری را
80
00:02:40,640 –> 00:02:43,519
در پایتون انجام دهیم زیرا رایگان است و عالی است
81
00:02:43,519 –> 00:02:44,160
و
82
00:02:44,160 –> 00:02:45,920
فقط توانایی مقابله با بسیاری از
83
00:02:45,920 –> 00:02:47,680
مشکلات مختلف را از طریق ماشین دارد. یادگیری
84
00:02:47,680 –> 00:02:49,519
برنامه نویسی اولیه تا این نوع
85
00:02:49,519 –> 00:02:51,120
تجزیه و تحلیل آماری
86
00:02:51,120 –> 00:02:52,879
به ویژه این چیزی است که ما
87
00:02:52,879 –> 00:02:54,239
در این ویدیو انجام خواهیم داد
88
00:02:54,239 –> 00:02:56,000
ابتدا به شما نشان می دهم که چگونه
89
00:02:56,000 –> 00:02:58,000
متغیرهای ابزاری یا حداقل مربعات دو مرحله ای را
90
00:02:58,000 –> 00:02:59,519
از ابتدا
91
00:02:59,519 –> 00:03:02,480
با استفاده از پایتون انجام دهید سپس نشان خواهم داد. شما چگونه می توانید
92
00:03:02,480 –> 00:03:03,040
93
00:03:03,040 –> 00:03:04,879
متغیرهای ابزاری یا حداقل مربعات دو مرحله ای را
94
00:03:04,879 –> 00:03:07,280
با استفاده از روش های داخلی
95
00:03:07,280 –> 00:03:08,239
پایتون انجام دهید
96
00:03:08,239 –> 00:03:10,400
و در طول کل فرآیند، من
97
00:03:10,400 –> 00:03:12,000
مقایسه ای را
98
00:03:12,000 –> 00:03:14,239
با یک مثال در stata یا آن جنگ نرم افزاری پولی به شما نشان خواهم داد.
99
00:03:14,239 –> 00:03:15,920
e برای اینکه مطمئن شویم
100
00:03:15,920 –> 00:03:16,879
نتایج یکسانی را دریافت
101
00:03:16,879 –> 00:03:18,640
می کنیم زیرا از همان
102
00:03:18,640 –> 00:03:20,080
داده های دقیق استفاده می کنیم،
103
00:03:20,080 –> 00:03:23,599
خوب، اجازه دهید وارد آن
104
00:03:24,030 –> 00:03:28,249
[موسیقی]
105
00:03:28,319 –> 00:03:30,640
شویم، بنابراین ابتدا باید داده ها را جمع آوری کنیم و
106
00:03:30,640 –> 00:03:32,640
متمایز کنیم که کدام متغیرها ابزار ما
107
00:03:32,640 –> 00:03:33,040
خواهند بود.
108
00:03:33,040 –> 00:03:35,120
متغیرها
109
00:03:35,120 –> 00:03:37,040
درون زا هستند و کدام متغیرها
110
00:03:37,040 –> 00:03:39,440
برون زا هستند، همه این
111
00:03:39,440 –> 00:03:41,040
اطلاعات از ویدیویی که در توضیحات پیوند داده ام به دست
112
00:03:41,040 –> 00:03:41,840
آمده است
113
00:03:41,840 –> 00:03:44,000
که این فرآیند را در
114
00:03:44,000 –> 00:03:45,599
stata طی می کند، همان فرآیندی که ما با آن
115
00:03:45,599 –> 00:03:46,640
مقایسه می
116
00:03:46,640 –> 00:03:47,840
کنیم، فرض می کنیم همه چیزهایی
117
00:03:47,840 –> 00:03:49,680
که آنها می گویند در مورد داده ها
118
00:03:49,680 –> 00:03:52,000
درست است و در واقع آنها این
119
00:03:52,000 –> 00:03:54,239
داده ها را برای دانلود رایگان در اختیار ما قرار می دهند اگر وب سایتی را دنبال کنید که
120
00:03:54,239 –> 00:03:55,599
من همچنین در
121
00:03:55,599 –> 00:03:56,319
توضیح
122
00:03:56,319 –> 00:03:59,680
آن را پیوند داده ام ivhealth.csv نام دارد اگر می خواهید
123
00:03:59,680 –> 00:04:00,000
124
00:04:00,000 –> 00:04:02,879
آنچه را که انجام می دهیم دنبال کنید، پس چرا
125
00:04:02,879 –> 00:04:04,400
نتیجه ما این است
126
00:04:04,400 –> 00:04:07,519
n ما فقط طول نتیجه
127
00:04:07,519 –> 00:04:08,239
y ما
128
00:04:08,239 –> 00:04:10,959
129
00:04:10,959 –> 00:04:11,599
130
00:04:11,599 –> 00:04:14,319
131
00:04:14,319 –> 00:04:16,238
132
00:04:16,238 –> 00:04:18,478
نامیده می شود.
133
00:04:18,478 –> 00:04:20,478
البته enous دوباره متغیر مشکل ساز است
134
00:04:20,478 –> 00:04:22,000
که ما باید
135
00:04:22,000 –> 00:04:23,199
مرحله اول را روی آن اجرا
136
00:04:23,199 –> 00:04:25,040
کنیم و ابزار ما در این مورد نسبت
137
00:04:25,040 –> 00:04:26,560
ssi نام دارد
138
00:04:26,560 –> 00:04:29,600
و من نیز لیستی در اینجا فقط
139
00:04:29,600 –> 00:04:31,120
با نام هر یک از این
140
00:04:31,120 –> 00:04:31,759
متغیرها
141
00:04:31,759 –> 00:04:34,000
برای خروجی بهتر دارم. وقتی نتایج واقعی را دریافت کردیم،
142
00:04:34,000 –> 00:04:35,440
بنابراین ما یک
143
00:04:35,440 –> 00:04:36,080
144
00:04:36,080 –> 00:04:38,400
درآمد ثبت شده در سن بیماری و
145
00:04:38,400 –> 00:04:39,120
بیمه درمانی ثابت خواهیم داشت،
146
00:04:39,120 –> 00:04:42,320
بنابراین بیایید وارد مرحله یک شویم
147
00:04:42,320 –> 00:04:44,080
تا مرحله یک را انجام دهیم، من
148
00:04:44,080 –> 00:04:46,560
numpy را به عنوان np
149
00:04:46,560 –> 00:04:50,080
وارد می کنم و می روم ایجاد z ما در
150
00:04:50,080 –> 00:04:51,680
این مورد z ابزار واقعی
151
00:04:51,680 –> 00:04:52,880
نیست، بلکه ترکیبی
152
00:04:52,880 –> 00:04:55,440
از متغیرهایی است که از آنها برای اصلاح
153
00:04:55,440 –> 00:04:56,000
154
00:04:56,000 –> 00:04:57,840
متغیرهای درون زا استفاده می کنیم، بنابراین من فقط
155
00:04:57,840 –> 00:04:59,680
عبارت ثابت خود را با هم ترکیب می کنم
156
00:04:59,680 –> 00:05:01,759
متغیرهای از قبل برون زا که
157
00:05:01,759 –> 00:05:03,440
این کار را انجام نمی دهند. نیاز به اصلاح انجام شده برای آنها
158
00:05:03,440 –> 00:05:06,919
و ابزار بعدی از
159
00:05:06,919 –> 00:05:08,000
statsmodels.regression.linearmodel دارم من قصد دارم ol ها
160
00:05:08,000 –> 00:05:09,440
را وارد
161
00:05:09,440 –> 00:05:11,440
کنم، می خواهم بگویم مدل خطی ما
162
00:05:11,440 –> 00:05:12,639
با ol
163
00:05:12,639 –> 00:05:16,160
های درون زا به عنوان نتیجه ما برابر است و z
164
00:05:16,160 –> 00:05:18,800
همان طور که تعریف کردیم رگرسیور ما است. z بالا
165
00:05:18,800 –> 00:05:20,479
تابع ها را فراخوانی کنید on.fit
166
00:05:20,479 –> 00:05:23,520
و سپس lm.summary را انجام می دهم تا
167
00:05:23,520 –> 00:05:24,000
168
00:05:24,000 –> 00:05:26,479
خروجی این رگرسیون مرحله اول را ببینم در واقع
169
00:05:26,479 –> 00:05:28,080
اجازه دهید به این خروجی نگاه کنیم و سپس
170
00:05:28,080 –> 00:05:29,440
می توانیم آن را با خروجی رگرسیون مرحله اول
171
00:05:29,440 –> 00:05:30,720
172
00:05:30,720 –> 00:05:32,880
از مثال stata مقایسه کنیم تا بتوانید ضریب ما را ببینید.
173
00:05:32,880 –> 00:05:36,479
برای ثابت ما 0.959 است
174
00:05:36,479 –> 00:05:38,160
و ضرایب دیگر برای
175
00:05:38,160 –> 00:05:40,080
متغیرهای ما وجود دارد، خطاهای استاندارد
176
00:05:40,080 –> 00:05:43,039
آماره t و مقادیر p مجذور r ما
177
00:05:43,039 –> 00:05:45,520
0.068 است همانطور که در
178
00:05:45,520 –> 00:05:46,880
گوشه بالا سمت راست می بینید
179
00:05:46,880 –> 00:05:50,000
و آمار f ما 185.1 است، بیایید ببینیم
180
00:05:50,000 –> 00:05:51,680
که چگونه با آن مقایسه می شود. کاری که آنها
181
00:05:51,680 –> 00:05:56,400
در stata انجام دادند بنابراین در مرحله اول
182
00:05:56,400 –> 00:05:59,280
ما متغیر وابسته را داریم بیمه سلامت
183
00:05:59,280 –> 00:06:00,720
184
00:06:00,720 –> 00:06:03,840
است و روی همه متغیرهای برون زا
185
00:06:03,840 –> 00:06:06,240
رگرسیون می شود به علاوه که ابزار ما
186
00:06:06,240 –> 00:06:07,280
در اینجا بود
187
00:06:07,280 –> 00:06:10,720
بنابراین ما همه x یک ها را داریم
188
00:06:10,720 –> 00:06:13,759
و این x ما به ابزار است خبر خوب
189
00:06:13,759 –> 00:06:14,240
190
00:06:14,240 –> 00:06:16,800
به نظر می رسد خوب است اکنون ما
191
00:06:16,800 –> 00:06:18,160
برای مرحله دو
192
00:06:18,160 –> 00:06:20,479
از مرحله یک آماده هستیم، ما یک تخمین برای
193
00:06:20,479 –> 00:06:22,400
متغیر درون زا داریم،
194
00:06:22,400 –> 00:06:24,639
بنابراین x کلاه را به
195
00:06:24,639 –> 00:06:26,800
روشی مشابه تعریف می کنیم که z بالاتر
196
00:06:26,800 –> 00:06:29,840
از np.ones را برای مدت ثابت خود انجام دادیم.
197
00:06:29,840 –> 00:06:32,840
خروج ما متغیرهای nous و اکنون
198
00:06:32,840 –> 00:06:34,800
مقادیر lm.fitted
199
00:06:34,800 –> 00:06:36,960
این معادل ضرب
200
00:06:36,960 –> 00:06:38,639
پارامتر ما از مرحله 1
201
00:06:38,639 –> 00:06:42,160
با z است و آن x hat است،
202
00:06:42,160 –> 00:06:45,199
اکنون تنها کاری که باید انجام دهیم این است که بگوییم مرحله 2
203
00:06:45,199 –> 00:06:45,840
برابر است با
204
00:06:45,840 –> 00:06:49,280
ols با y به عنوان نتیجه ما و x
205
00:06:49,280 –> 00:06:52,240
hat ما است. برازش نقطهای رگرسیون
206
00:06:52,240 –> 00:06:53,440
207
00:06:53,440 –> 00:06:55,759
208
00:06:55,759 –> 00:06:58,000
209
00:06:58,000 –> 00:07:00,080
210
00:07:00,080 –> 00:07:01,120
211
00:07:01,120 –> 00:07:04,160
212
00:07:04,160 –> 00:07:05,840
213
00:07:05,840 –> 00:07:08,160
محاسبات، بنابراین ابتدا بیایید پارامتر ما چه
214
00:07:08,160 –> 00:07:10,720
بود، بنابراین بتا برابر با
215
00:07:10,720 –> 00:07:13,840
پارامترهای مرحله دو نقطه است و x واقعی ما
216
00:07:13,840 –> 00:07:16,000
اکنون همان چیزی است که x کلاه ما است، اما
217
00:07:16,000 –> 00:07:16,880
با
218
00:07:16,880 –> 00:07:18,800
وصل شدن متغیر درون زا اصلی، بنابراین
219
00:07:18,800 –> 00:07:20,160
ما دوباره mp.one های
22