در این مطلب، ویدئو کد پایتون را برای رگرسیون درخت تصمیم کامل کنید با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:14:47
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:01,890
بنابراین در ویدیوی آخر من
2
00:00:01,890 –> 00:00:03,270
شهود پشت تکنیک رگرسیون درخت تصمیم را توضیح دادم
3
00:00:03,270 –> 00:00:05,250
اکنون ممکن است
4
00:00:05,250 –> 00:00:08,639
تعجب کنید که چگونه می توان دقیقاً
5
00:00:08,639 –> 00:00:10,650
در مدل رگرسیون درخت تصمیم ساخت و آموزش داد
6
00:00:10,650 –> 00:00:13,219
و همچنین ما این
7
00:00:13,219 –> 00:00:16,139
مدل غیر خطی و غیر پیوسته را به
8
00:00:16,139 –> 00:00:19,140
شکل ساختار درختی در این ویدیو تجسم می کنیم. من
9
00:00:19,140 –> 00:00:21,390
قصد دارم مراحل ساخت و
10
00:00:21,390 –> 00:00:23,130
آموزش درخت تصمیم یک
11
00:00:23,130 –> 00:00:25,619
مدل رگرسیون را به صورت گام به گام از
12
00:00:25,619 –> 00:00:28,019
ابتدا به شما نشان دهم، همچنین خواهید دید که چگونه می توانیم
13
00:00:28,019 –> 00:00:30,840
این مدل را به شکل ساختار درختی گرافیکی تجسم کنیم،
14
00:00:30,840 –> 00:00:33,630
لطفا توجه داشته باشید که من
15
00:00:33,630 –> 00:00:36,270
از همان مجموعه دادهای استفاده میکند که در ویدیوهای قبلی
16
00:00:36,270 –> 00:00:38,309
برای آموزش مدل رگرسیون چند جملهای استفاده کردم،
17
00:00:38,309 –> 00:00:41,960
بنابراین با
18
00:00:41,960 –> 00:00:52,809
[Music] همراه باشید
19
00:00:52,809 –> 00:00:55,579
تا بیانیه مشکل
20
00:00:55,579 –> 00:00:59,809
مانند حالت رگرسیون چند جملهای باقی بماند، بنابراین
21
00:00:59,809 –> 00:01:01,640
مجموعه دادههای قد و سن را داریم
22
00:01:01,640 –> 00:01:04,220
که شامل دو عدد است. ستون های شماره یک
23
00:01:04,220 –> 00:01:07,340
سن و شماره دو قد است در اینجا ما
24
00:01:07,340 –> 00:01:08,899
می خواهیم قد یک فرد را
25
00:01:08,899 –> 00:01:12,080
با توجه به سن او پیش بینی کنیم اکنون نکته مهمی که
26
00:01:12,080 –> 00:01:14,240
در اینجا باید به آن توجه شود این است که ما نمی خواهیم
27
00:01:14,240 –> 00:01:17,060
قد را پیش بینی کنیم. فردی که
28
00:01:17,060 –> 00:01:19,850
سن او کمتر از ده سال است زیرا اگر
29
00:01:19,850 –> 00:01:22,549
توجه داشته باشید که مجموعه داده ها حاوی داده های سن و
30
00:01:22,549 –> 00:01:25,909
قد بالاتر از ده سال است،
31
00:01:25,909 –> 00:01:28,159
بنابراین هیچ مشاهده
32
00:01:28,159 –> 00:01:32,000
ای در سن زیر ده سال وجود ندارد و
33
00:01:32,000 –> 00:01:34,130
این داده ها فقط برای اهداف تصویری هستند.
34
00:01:34,130 –> 00:01:36,979
و شما می توانید از
35
00:01:36,979 –> 00:01:39,709
داده های واقعی تر خود بر اساس یک مورد استفاده خاص
36
00:01:39,709 –> 00:01:42,860
که دارید استفاده کنید زیرا می دانید داده ها می توانند
37
00:01:42,860 –> 00:01:45,740
در موارد استفاده متفاوت باشند، بنابراین
38
00:01:45,740 –> 00:01:47,659
بدون تاخیر بیشتر اجازه دهید وارد
39
00:01:47,659 –> 00:01:49,429
کد مربوط به بیماری و درمان
40
00:01:49,429 –> 00:01:52,069
رگرسیون در اولین سلول من شویم.
41
00:01:52,069 –> 00:01:54,920
وارد کردن این کتابخانههای ضروری مانند
42
00:01:54,920 –> 00:01:57,829
پانداها برای دادن ساختار به دادههای ما
43
00:01:57,829 –> 00:02:00,200
numpy برای انجام عملیات ریاضی و سایر
44
00:02:00,200 –> 00:02:02,810
عملیات مرتبط و matplotlib
45
00:02:02,810 –> 00:02:05,960
برای ایجاد نمودارهای خاص در همان
46
00:02:05,960 –> 00:02:08,810
سلول زیر، در واقع در حال وارد کردن
47
00:02:08,810 –> 00:02:12,519
مجموعه دادههای قد و سن با استفاده از روش خواندن
48
00:02:12,519 –> 00:02:16,220
زیر خط CSV پانداها هستم و سپس
49
00:02:16,220 –> 00:02:18,560
من چند ردیف اول این
50
00:02:18,560 –> 00:02:21,410
قاب داده را با استفاده از روش head چاپ میکنم، بنابراین میتوانید
51
00:02:21,410 –> 00:02:25,220
ببینید که ما نتیجه را به این شکل خوب دریافت کردیم،
52
00:02:25,220 –> 00:02:27,709
بنابراین پنج ردیف اول آن را چاپ کرد.
53
00:02:27,709 –> 00:02:30,760
سلول بعدی من یک متغیر خارجی
54
00:02:30,760 –> 00:02:34,190
مستقل و وابسته هستم که در اینجا متغیر است،
55
00:02:34,190 –> 00:02:36,170
بنابراین یک متغیر مستقل
56
00:02:36,170 –> 00:02:39,709
به نام سن و متغیر وابسته به عنوان
57
00:02:39,709 –> 00:02:42,859
ارتفاع داریم و در اینجا مقادیر سن در
58
00:02:42,859 –> 00:02:46,760
متغیر X و مقادیر ارتفاع در متغیر Y ذخیره می شوند،
59
00:02:46,760 –> 00:02:49,579
لطفا توجه داشته باشید که برای
60
00:02:49,579 –> 00:02:52,069
متغیر Y مقدار index در
61
00:02:52,069 –> 00:02:55,790
اینجا به عنوان یک ذکر شده است که نشان دهنده
62
00:02:55,790 –> 00:02:59,150
مقدار شاخص برای ارتفاع ستون است زیرا ایندکس در
63
00:02:59,150 –> 00:03:02,510
پایتون همیشه از 0 برای متغیر X شروع می شود
64
00:03:02,510 –> 00:03:04,670
، شاخص به
65
00:03:04,670 –> 00:03:10,790
عنوان 0: 1 ذکر می شود تا این ستون
66
00:03:10,790 –> 00:03:13,430
به عنوان ماتریس در نظر گرفته شود در غیر این صورت اگر مقدار شاخص را 0 نگه داریم.
67
00:03:13,430 –> 00:03:17,000
فقط در اینجا که
68
00:03:17,000 –> 00:03:20,450
سن ستون را نشان می دهد، به عنوان بردار تلقی می شود،
69
00:03:20,450 –> 00:03:22,280
فقط اکنون سؤال این است که چرا
70
00:03:22,280 –> 00:03:23,989
ماتریس دسترسی را حفظ می کنیم زیرا
71
00:03:23,989 –> 00:03:27,860
همیشه پیشنهاد می شود ویژگی ها را به عنوان
72
00:03:27,860 –> 00:03:30,980
ماتریس ویژگی نگه دارید یا همیشه پیشنهاد می
73
00:03:30,980 –> 00:03:32,840
شود ویژگی ها را به عنوان این ماتریس ویژگی ذخیره کنید
74
00:03:32,840 –> 00:03:35,720
تا بردار و این
75
00:03:35,720 –> 00:03:39,050
دلیل کلی این است که ما در اینجا ایندکس را 0: 1 ذکر کردیم
76
00:03:39,050 –> 00:03:42,350
و با مقدار 1 سال اشتباه نگیرید
77
00:03:42,350 –> 00:03:44,269
زیرا کران بالایی همیشه
78
00:03:44,269 –> 00:03:48,500
در تابع محدوده حذف می شود. Python
79
00:03:48,500 –> 00:03:51,739
خوب است، بنابراین در سلول بعدی من سعی می کنم
80
00:03:51,739 –> 00:03:54,709
داده ها را به مجموعه داده های آموزشی و آزمایشی تقسیم کنم
81
00:03:54,709 –> 00:03:56,810
با نگه داشتن اندازه
82
00:03:56,810 –> 00:04:01,600
برای مجموعه تست یا مجموعه داده های آزمایشی 30٪
83
00:04:01,600 –> 00:04:03,860
با استفاده از این پارامتر به نام
84
00:04:03,860 –> 00:04:06,709
اندازه زیر خط تست، اکنون
85
00:04:06,709 –> 00:04:10,430
آرگومان حالت تصادفی محدود شده است. به عنوان 0 در اینجا به طوری که شما
86
00:04:10,430 –> 00:04:12,859
نیز می توانید همان نتیجه را دریافت کنید اگر
87
00:04:12,859 –> 00:04:14,870
ذکر کردید که حالت تصادفی برابر با 0
88
00:04:14,870 –> 00:04:18,890
در کد شما نیز هست و اینجا X دوباره
89
00:04:18,890 –> 00:04:21,380
آن متغیر مستقل Y متغیر وابسته
90
00:04:21,380 –> 00:04:24,280
است، بنابراین به سلول بعدی بروید
91
00:04:24,280 –> 00:04:27,020
که در آن ما در حال توسعه خود هستیم. تصمیم به
92
00:04:27,020 –> 00:04:28,940
استفاده از مدل رگرسیون، بنابراین در اینجا ما
93
00:04:28,940 –> 00:04:31,030
ابتدا کلاس regressor درخت تصمیم را
94
00:04:31,030 –> 00:04:34,930
از بسته SK Learn dot 3 وارد
95
00:04:34,930 –> 00:04:38,300
می کنیم، در خط بعدی
96
00:04:38,300 –> 00:04:42,590
یک شی درخت تصمیم ایجاد می کنیم و به آن به
97
00:04:42,590 –> 00:04:47,479
عنوان نام tt reg می دهیم، لطفا توجه داشته باشید که در اینجا نیز
98
00:04:47,479 –> 00:04:50,750
آرگومان حالت زیرخط تصادفی به
99
00:04:50,750 –> 00:04:53,479
عنوان 0 نگه داشته می شود تا بتوانید
100
00:04:53,479 –> 00:04:56,690
در خط بعدی نیز همان نتیجه را دریافت کنید. ما
101
00:04:56,690 –> 00:04:59,150
این رگرسیون درخت تصمیم را با
102
00:04:59,150 –> 00:05:02,690
داده های آموزشی که توسط X train و Why train نشان داده شده است تطبیق می
103
00:05:02,690 –> 00:05:05,510
دهیم و از روشی
104
00:05:05,510 –> 00:05:08,300
به نام fit w استفاده می کنیم. hich با
105
00:05:08,300 –> 00:05:11,210
رگرسیون درخت تصمیم ما مرتبط است یا DT reg نامیده می شود،
106
00:05:11,210 –> 00:05:14,330
وقتی سلول را اجرا
107
00:05:14,330 –> 00:05:17,479
کردم، مدل رگرسیون درخت تصمیم ما ایجاد شد و
108
00:05:17,479 –> 00:05:17,930
می
109
00:05:17,930 –> 00:05:21,080
بینید که در خروجی
110
00:05:21,080 –> 00:05:24,440
مقادیر پیش فرض آرگومان هایی مانند
111
00:05:24,440 –> 00:05:27,620
معیار حداکثر عمق
112
00:05:27,620 –> 00:05:31,070
زیر خط حداکثر ویژگی های زیرخط و غیره را گرفته است. برای
113
00:05:31,070 –> 00:05:33,289
ساختن این مدل و اگر میخواهید
114
00:05:33,289 –> 00:05:35,360
جزئیات بیشتری در مورد این استدلالها به دست آورید و
115
00:05:35,360 –> 00:05:37,820
بازی کنید و
116
00:05:37,820 –> 00:05:40,039
همچنین درخت تصمیم را مطابق با نیاز خود سفارشی کنید،
117
00:05:40,039 –> 00:05:42,770
میتوانید به این صفحه مستندات اینجا بروید،
118
00:05:42,770 –> 00:05:44,440
بنابراین این یک صفحه مستندات یادگیری روانی است، بسیار
119
00:05:44,440 –> 00:05:47,570
خوب و
120
00:05:47,570 –> 00:05:50,270
من پیوند این صفحه خاص را
121
00:05:50,270 –> 00:05:53,000
در بخش توضیحات ارائه خواهم کرد و
122
00:05:53,000 –> 00:05:55,150
در سلول بعدی ادامه می دهم، سعی می کنم
123
00:05:55,150 –> 00:05:58,340
مدل رگرسیون درخت تصمیم را با استفاده
124
00:05:58,340 –> 00:06:00,800
از روش مربع خود در اینجا ارزیابی کنم، بنابراین اگر می
125
00:06:00,800 –> 00:06:02,750
خواهید جزئیاتی در
126
00:06:02,750 –> 00:06:04,970
مورد تکنیک های ارزیابی مبتنی بر رگرسیون مختلف مانند R
127
00:06:04,970 –> 00:06:07,400
مربع بدست آورید. تنظیم R مربع میانگین
128
00:06:07,400 –> 00:06:10,099
خطا مطلق میانگین خطا مربع و غیره سپس شما می
129
00:06:10,099 –> 00:06:13,430
توانید این ویدیوها را تماشا کنید لینک این
130
00:06:13,430 –> 00:06:16,099
ویدیو در دکمه I ab داده شده است بنابراین، ابتدا
131
00:06:16,099 –> 00:06:19,669
سعی میکنم ارتفاع پیشبینیشده را از
132
00:06:19,669 –> 00:06:21,949
مجموعه دادههای آزمون با گذراندن
133
00:06:21,949 –> 00:06:24,710
آزمون زیرخط Xed به عنوان یک آرگومان در آن
134
00:06:24,710 –> 00:06:28,849
روش پیشبینی نقطه قرمز DT به دست بیاورم، سپس
135
00:06:28,849 –> 00:06:33,440
کلاس ماتریس را از SK Learn وارد کردم
136
00:06:33,440 –> 00:06:36,979
که حاوی R برای زیرخط یک
137
00:06:36,979 –> 00:06:39,949
روش امتیاز برای ارزیابی است. مدل با استفاده از مربع R،
138
00:06:39,949 –> 00:06:44,449
139
00:06:44,449 –> 00:06:50,060
مقادیر واقعی و پیشبینی شده ارتفاع را در R به
140
00:06:50,060 –> 00:06:53,330
روش امتیاز زیر خط میدهیم و سپس با استفاده از این خط کد خاص
141
00:06:53,330 –> 00:06:55,699
، نتیجه را در خط بعدی چاپ
142
00:06:55,699 –> 00:06:58,639
143
00:06:58,639 –> 00:07:00,590
کردم وقتی سلول را اجرا کردم، مقدار مربع R را
144
00:07:00,590 –> 00:07:06,470
به عنوان 0.99 که نزدیک به 1 است و این
145
00:07:06,470 –> 00:07:08,150
در واقع نشان می دهد که تصمیم ما برای
146
00:07:08,150 –> 00:07:11,210
استفاده از رگرسیون در سلول بعدی بسیار دقیق است،
147
00:07:11,210 –> 00:07:14,180
ما در حال تلاش برای تجسم
148
00:07:14,180 –> 00:07:17,090
درخت تصمیم هستیم، اما قبل از اینکه
149
00:07:17,090 –> 00:07:19,310
این نمودار را ایجاد کنیم، اجازه دهید شما را از یک چیز آگاه کنم،
150
00:07:19,310 –> 00:07:21,289
بنابراین اگر به خاطر دارید از
151
00:07:21,289 –> 00:07:24,680
ویدیوی شهودی درخت تصمیم،
152
00:07:24,680 –> 00:07:27,139
چندین مستطیل را بر اساس
153
00:07:27,139 –> 00:07