در این مطلب، ویدئو رگرسیون خطی در پایتون: یافتن ضریب بتای سهام با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:17:21
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,000 –> 00:00:01,469
سلام، من می خواهم چند
2
00:00:01,469 –> 00:00:04,470
ویدیو در مورد برازش منحنی انجام دهم و
3
00:00:04,470 –> 00:00:06,240
از ابتدا یک چیز بسیار
4
00:00:06,240 –> 00:00:08,069
ساده و فقط رگرسیون خطی را شروع می کنم و از آنجایی
5
00:00:08,069 –> 00:00:10,429
که به نظر می رسد مردم ویدیوهای مالی را دوست دارند،
6
00:00:10,429 –> 00:00:12,599
ما با یافتن ارزش بتا
7
00:00:12,599 –> 00:00:15,690
یک سهام شروع می کنیم. اپل در این مورد
8
00:00:15,690 –> 00:00:17,070
کاملاً ساده است من تقریباً
9
00:00:17,070 –> 00:00:18,900
نمی خواستم این ویدیوی خاص را بسازم
10
00:00:18,900 –> 00:00:22,050
زیرا واقعاً آسان است اما فکر
11
00:00:22,050 –> 00:00:24,210
12
00:00:24,210 –> 00:00:25,800
می کنم زمینه را برای
13
00:00:25,800 –> 00:00:27,990
چیزهای پیچیده تر در آینده فراهم می کند ، بنابراین
14
00:00:27,990 –> 00:00:30,269
بیایید ادامه دهیم در ابتدا، ما
15
00:00:30,269 –> 00:00:32,640
برنامه نویسی را در پایتون انجام می دهیم، اما قبل از
16
00:00:32,640 –> 00:00:34,200
شروع با آن، اجازه دهید ابتدا کمی
17
00:00:34,200 –> 00:00:36,390
مطالب پس زمینه انجام
18
00:00:36,390 –> 00:00:38,309
دهیم، مشکلی که می خواهیم به آن بپردازیم این است که
19
00:00:38,309 –> 00:00:39,899
مجموعه ای از داده ها را داریم و می
20
00:00:39,899 –> 00:00:42,329
خواهیم آن را با یک خط یا در نشان دهیم. حداقل
21
00:00:42,329 –> 00:00:43,890
فکر میکنیم که دادهها نوعی
22
00:00:43,890 –> 00:00:45,329
رابطه خطی دارند و میخواهیم
23
00:00:45,329 –> 00:00:47,309
آن را با یک خط مستقیم مدلسازی کنیم،
24
00:00:47,309 –> 00:00:48,989
اکنون نمودار سمت چپ
25
00:00:48,989 –> 00:00:51,360
در نگاه اول بهخصوص خطی به نظر نمیرسد،
26
00:00:51,360 –> 00:00:52,649
اما من این را دارم. کامپیوتر
27
00:00:52,649 –> 00:00:54,360
یک خط تولید می کند و مقداری
28
00:00:54,360 –> 00:00:56,129
نویز تصادفی به آن اضافه می کند،
29
00:00:56,129 –> 00:00:58,170
بنابراین این به نوعی نشان دهنده
30
00:00:58,170 –> 00:01:00,059
داده های دنیای واقعی است که مدل های
31
00:01:00,059 –> 00:01:01,109
شما کامل نمی شوند، شما می خواهید مقادیر
32
00:01:01,109 –> 00:01:03,480
پرت آماری داشته باشید و شاید در یکی
33
00:01:03,480 –> 00:01:04,769
از ویدیوهای همراهی که من در مورد آن صحبت کردم
34
00:01:04,769 –> 00:01:06,689
متفاوت باشد. روشهایی مانند
35
00:01:06,689 –> 00:01:10,110
رگرسیون خطی که به نوعی
36
00:01:10,110 –> 00:01:12,350
به احتمال وجود نقاط پرت میپردازد، بنابراین
37
00:01:12,350 –> 00:01:14,850
کار ما یافتن
38
00:01:14,850 –> 00:01:16,500
معادله این خط برای یافتن شیب
39
00:01:16,500 –> 00:01:18,540
و قطع این خط است که به
40
00:01:18,540 –> 00:01:21,060
نوعی نشاندهنده بهترین تناسب با
41
00:01:21,060 –> 00:01:23,070
خط است. اکنون دادهها کمی دلخواه است که
42
00:01:23,070 –> 00:01:24,930
شما بهترین تناسب را تعریف میکنید و شما باید آن را
43
00:01:24,930 –> 00:01:27,509
بسنجیم و تعیین کنیم که دقیقاً با چه
44
00:01:27,509 –> 00:01:29,460
معیارهایی مطابقت دارید یا
45
00:01:29,460 –> 00:01:32,369
چه چیزی بهترین تناسب را با آنچه در
46
00:01:32,369 –> 00:01:34,500
اینجا استفاده میکنیم،
47
00:01:34,500 –> 00:01:37,020
روش حداقل مربعات معمولی است. به این معنی است که
48
00:01:37,020 –> 00:01:39,090
ما به خطای بین هر
49
00:01:39,090 –> 00:01:40,920
نقطه داده و نمایش خط مستقیمی
50
00:01:40,920 –> 00:01:43,229
که در اینجا به عنوان این اپسیلون نشان داده شده است نگاه می کنیم، به
51
00:01:43,229 –> 00:01:46,229
عنوان مثال این سوم
52
00:01:46,229 –> 00:01:48,479
که مکان نما من است در اینجا ما به این سمت می رویم.
53
00:01:48,479 –> 00:01:51,540
نقطه سوم دقیقاً در اینجا با عنوان اپسیلون 3 برچسب گذاری شده است،
54
00:01:51,540 –> 00:01:53,220
این خط خاکستری نشان دهنده فاصله
55
00:01:53,220 –> 00:01:56,579
بین نقطه داده واقعی اندازه گیری شده من
56
00:01:56,579 –> 00:02:00,119
و مدل ما است، بنابراین این نشان دهنده
57
00:02:00,119 –> 00:02:03,030
خطا است و کاری که ما می خواهیم انجام دهیم مربع
58
00:02:03,030 –> 00:02:05,790
این خطا است و مجذور خطای مربع
59
00:02:05,790 –> 00:02:07,590
خطا برای همه این نقاط داده را جمع می کنیم. و سپس
60
00:02:07,590 –> 00:02:09,568
ما میخواهیم فاصله شیب را انتخاب
61
00:02:09,568 –> 00:02:11,849
کنیم که خطای مربع را به حداقل میرساند، از این
62
00:02:11,849 –> 00:02:12,870
رو اصطلاح روش
63
00:02:12,870 –> 00:02:16,110
حداقل مربعات حداقل مربعات را انتخاب میکنیم، بنابراین برای
64
00:02:16,110 –> 00:02:18,330
اینکه این روش کمی رسمی تر شود، اجازه دهید
65
00:02:18,330 –> 00:02:19,709
به دبیرستان برگردیم و به یاد بیاوریم
66
00:02:19,709 –> 00:02:21,750
که معادله خط مستقیم
67
00:02:21,750 –> 00:02:24,569
این است. y برابر است با MX بعلاوه B که در اینجا
68
00:02:24,569 –> 00:02:26,700
m شیب این خط است و B
69
00:02:26,700 –> 00:02:28,440
نقطه قطع در نقطه ای خواهد بود
70
00:02:28,440 –> 00:02:31,890
که از محور y عبور می کند،
71
00:02:31,890 –> 00:02:33,510
بنابراین برای محاسبه
72
00:02:33,510 –> 00:02:35,849
خطا از بین هر نقطه داده در
73
00:02:35,849 –> 00:02:38,400
این خط، فقط مقدار را در نظر می گیریم. نقطه این
74
00:02:38,400 –> 00:02:40,410
نقطه Y این خط است که در
75
00:02:40,410 –> 00:02:43,260
این مورد سومین نقطه سفید Y sub 3
76
00:02:43,260 –> 00:02:45,420
یا به طور کلی نقطه یخ پس Y sub I است
77
00:02:45,420 –> 00:02:48,930
و سپس خط را در این نقطه
78
00:02:48,930 –> 00:02:51,030
مانند X sub I یا X sub 3 در t ارزیابی کنید.
79
00:02:51,030 –> 00:02:53,340
نقطه خاص او در اینجا و این همان
80
00:02:53,340 –> 00:02:55,049
عبارت است: y زیر I
81
00:02:55,049 –> 00:02:58,019
منهای کمیت و X sub I به اضافه B بنابراین
82
00:02:58,019 –> 00:02:59,790
این خطا بین هر نقطه داده داده شده
83
00:02:59,790 –> 00:03:02,640
و مدل
84
00:03:02,640 –> 00:03:05,610
است.
85
00:03:05,610 –> 00:03:08,790
و منتظر بمانید تا این چیز ناپدید شود،
86
00:03:08,790 –> 00:03:11,220
ما می رویم تمام آن خطاهای مربعی را جمع می
87
00:03:11,220 –> 00:03:12,690
کنیم و سپس سعی می
88
00:03:12,690 –> 00:03:15,090
کنیم حداقل M و B را پیدا کنیم، به طوری
89
00:03:15,090 –> 00:03:18,450
که این حداقل باشد، معلوم
90
00:03:18,450 –> 00:03:20,040
شود که این نوع مشکل در اینجا
91
00:03:20,040 –> 00:03:21,750
حداقل این مسئله خطی ساده خطی را
92
00:03:21,750 –> 00:03:24,000
می توان با مداد و کاغذ حل کرد و
93
00:03:24,000 –> 00:03:26,130
شاید در یک ویدیوی همراه متقاعد شده من
94
00:03:26,130 –> 00:03:28,620
آن مشتق را انجام دهم، اما ما فقط
95
00:03:28,620 –> 00:03:30,380
می خواهیم کامپیوتر آن را انجام دهد و
96
00:03:30,380 –> 00:03:32,609
دوباره برای مسائل خطی،
97
00:03:32,609 –> 00:03:35,160
همه برنامه نویسی بسیار ساده است.
98
00:03:35,160 –> 00:03:36,510
زبانهایی که میدانم
99
00:03:36,510 –> 00:03:38,940
الگوریتمهای رگرسیون خطی ساختهام و چیزهایی
100
00:03:38,940 –> 00:03:41,280
مانند اکسل و صفحات گسترده Google دارای
101
00:03:41,280 –> 00:03:43,769
الگوریتمهای خطی رگرسیون خطی
102
00:03:43,769 –> 00:03:45,239
هستند و آنها فقط
103
00:03:45,239 –> 00:03:47,609
میتوانند پاسخ را برای شما بیابند، بنابراین ما به دنبال آن هستیم.
104
00:03:47,609 –> 00:03:50,970
در پایتون خوب است و از آن
105
00:03:50,970 –> 00:03:53,280
بخواهید پاسخی برای ما ارائه دهد و احتمالاً باید
106
00:03:53,280 –> 00:03:55,019
بگویم دلیلی که من در مورد این
107
00:03:55,019 –> 00:03:57,859
کمی از مسائل ریاضی در اینجا صحبت می کنم،
108
00:03:57,859 –> 00:03:59,880
هنگامی که برخی از آنها در رایانه
109
00:03:59,880 –> 00:04:01,819
فقط پاسخی به
110
00:04:01,819 –> 00:04:04,829
آنها می دهد این است که در در دنیای واقعی بسیاری از
111
00:04:04,829 –> 00:04:07,500
مشکلات خطی نیستند و
112
00:04:07,500 –> 00:04:09,000
کامپیوتر نمی تواند
113
00:04:09,000 –> 00:04:12,389
یک مدل داخلی برای شما داشته باشد تا به راحتی
114
00:04:12,389 –> 00:04:14,370
بدانید که چیزهای خود را وصل کرده و پاسخ دریافت کنید،
115
00:04:14,370 –> 00:04:15,569
بنابراین مجبور خواهید بود آن را کدنویسی
116
00:04:15,569 –> 00:04:18,269
کنید. به صورت دستی، بعداً میخواهم به
117
00:04:18,269 –> 00:04:20,639
آن مدلها بپردازم و موقعیتهایی
118
00:04:20,639 –> 00:04:22,048
را که با این
119
00:04:22,048 –> 00:04:23,760
روتینهای آماده بهراحتی در دسترس نداریم، بررسی کنم و
120
00:04:23,760 –> 00:04:24,949
باید
121
00:04:24,949 –> 00:04:27,680
خودمان کد ساخت را از ابتدا بسازیم، همانطور
122
00:04:27,680 –> 00:04:29,479
که به زبانهای زیادی اشاره کردم. و
123
00:04:29,479 –> 00:04:31,069
بسته های نرم افزاری من قبلاً یک
124
00:04:31,069 –> 00:04:33,020
تابع رگرسیون خطی
125
00:04:33,020 –> 00:04:37,310
در آن تعبیه شده است و پایتون در پایتون ماژول آمار SyFy
126
00:04:37,310 –> 00:04:40,279
تابعی به نام lin regrets
127
00:04:40,279 –> 00:04:42,740
برای رگرسیون خطی عجیب و غریب دارد
128
00:04:42,740 –> 00:04:45,259
و بنابراین این چیزی است که ما از آن استفاده خواهیم
129
00:04:45,259 –> 00:04:46,879
کرد و همه چیز به پایان می رسد.
130
00:04:46,879 –> 00:04:49,310
اساساً یک خط کد و
131
00:04:49,310 –> 00:04:51,529
سپس بقیه کد فقط چیزهایی هستند
132
00:04:51,529 –> 00:04:54,229
که دادههای خام را وارد کرده و آنها را
133
00:04:54,229 –> 00:04:56,990
در فرمی قرار میدهیم که بتوانیم از آن استفاده کنیم، بنابراین
134
00:04:56,990 –> 00:04:58,610
مشکلی که میخواهیم به آن بپردازیم این است که
135
00:04:58,610 –> 00:05:01,370
ضریب بتا را پیدا کنیم.
136
00:05:01,370 –> 00:05:04,129
سهام اپل در نمودار سمت چپ
137
00:05:04,129 –> 00:05:06,800
در اینجا من دادههای قیمتی برای اپل در
138
00:05:06,800 –> 00:05:08,750
پنج سال گذشته دارم و نمودار سمت راست
139
00:05:08,750 –> 00:05:11,740
شاخص S&P 500 SPX است،
140
00:05:11,740 –> 00:05:14,900
بنابراین کاری که ما انجام میدهیم محاسبه
141
00:05:14,900 –> 00:05:17,000
درصد تغییر روزانه اپل است. و
142
00:05:17,000 –> 00:05:18,589
آن را به عنوان تابعی از
143
00:05:18,589 –> 00:05:22,539
تغییر روز به روز در شاخص S&P 500 ترسیم کنید و
144
00:05:22,539 –> 00:05:24,439
در نهایت یک
145
00:05:24,439 –> 00:05:25,969
خط مستقیم را به آن منطبق میکنیم و شیب آن خط
146
00:05:25,969 –> 00:05:28,759
ضریب بتا است.
147
00:05:28,759 –> 00:05:30,620
تفسیر بتا اساساً
148
00:05:30,620 –> 00:05:33,409
معیاری است برای فقدان یک کلمه بهتر
149
00:05:33,409 –> 00:05:36,139
خطر نوسان با فرض اینکه سهام
150
00:05:36,139 –> 00:05:37,279
و شاخص در یک جهت حرکت می کنند
151
00:05:37,279 –> 00:05:39,169
که قرار است بیشتر حرکت کند و با چه
152
00:05:39,169 –> 00:05:42,379
عاملی ممکن است فکر کنید که یک
153
00:05:42,379 –> 00:05:44,300
متن پرتغالی نوسانات بیشتری نسبت به
154
00:05:44,300 –> 00:05:46,339
شاخص خواهد داشت و اگر شاخص بود تا 1%
155
00:05:46,339 –> 00:05:49,099
شاید سهام تا و یک d برعکس، بنابراین
156
00:05:49,099 –> 00:05:50,779
بتا اساساً اندازهگیری
157
00:05:50,779 –> 00:05:53,810
آن نوع نوسان است، بنابراین در اینجا نموداری
158
00:05:53,810 –> 00:05:56,149
از آن درصد تغییر درصد تغییر روز به روز
159
00:05:56,149 –> 00:05:58,009
درصد اپل در مقابل درصد
160
00:05:58,009 –> 00:06:01,129
تغییر شاخص S&P 500 را نشان میدهیم و میتوانید
161
00:06:01,129 –> 00:06:02,509
ببینید که این یک نوع آشفتگی است که به
162
00:06:02,509 –> 00:06:04,699
دنبال آن است. یک روند خطی است، اما به
163
00:06:04,699 –> 00:06:06,500
نوعی شبیه یک حباب بزرگ از داده
164
00:06:06,500 –> 00:06:08,509
است که کم و بیش از
165
00:06:08,509 –> 00:06:11,779
نوعی رابطه خطی پیروی می کند، بنابراین آنچه ما
166
00:06:11,779 –> 00:06:14,060
سعی خواهیم کرد انجام دهیم این است که در واقع
167
00:06:14,060 –> 00:06:16,909
شیب آن رابطه خطی را محاسبه
168
00:06:16,909 –> 00:06:19,460
کنیم و در اینجا نشان داده شده است. با
169
00:06:19,460 –> 00:06:21,889
خط جامد، پس بیایید به کدنویسی
170
00:06:21,889 –> 00:06:24,919
در اینجا بپردازیم، ما به کتابخانههای numpy خود نیاز داریم،
171
00:06:24,919 –> 00:06:32,719
بنابراین numpy را به عنوان MP
172
00:06:32,719 –> 00:06:37,399
وارد کنیم، کتابخانه آمار SyFy
173
00:06:37,399 –> 00:06:41,839
را وارد کنیم و کتابخانهای
174
00:06:41,839 –> 00:06:45,610
به نام pandas را وارد کنیم. برای مدیریت
175
00:06:45,610 –> 00:06:48,229
وارد کردن فایلهای csv که حاوی تمام
176
00:06:48,229 –> 00:06:50,419
دادههای ما هستند و ما از
177
00:06:50,419 –> 00:06:52,190
آن برای محاسبه درصد
178
00:06:52,190 –> 00:06:53,240
تغییر استفاده میکنیم تا مجبور نباشیم
179
00:06:53,240 –> 00:06:55,099
برای نوشتن کد روی
180
00:06:55,099 –> 00:06:56,899
آن بنویسیم وگرنه میتوانیم فقط با یکی حساب کن
181
00:06:56,899 –> 00:06:59,750
دستور را از طریق پانداها انجام می دهم و من می خواهم کتابخانه های وب را در نقشه قرار دهم،
182
00:06:59,750 –> 00:07:03,019
183
00:07:03,019 –> 00:07:04,729
فقط در صورتی که بخواهیم
184
00:07:04,729 –> 00:07:06,860
هر چیزی را رسم کنیم، اکنون
185
00:07:06,8