در این مطلب، ویدئو رگرسیون لجستیک | رگرسیون لجستیک در پایتون | Intellipaat با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:40:41
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,000 –> 00:00:02,449
[موسیقی]
2
00:00:02,449 –> 00:00:05,279
سلام بچه ها با تله پاد به جلسه خوش
3
00:00:05,279 –> 00:00:07,350
آمدید و در جلسه امروز
4
00:00:07,350 –> 00:00:08,849
می خواهیم در مورد یکی از متداول ترین
5
00:00:08,849 –> 00:00:10,530
6
00:00:10,530 –> 00:00:13,380
الگوریتم های یادگیری ماشینی یا رگرسیون الاستیک بحث
7
00:00:13,380 –> 00:00:15,000
کنیم، بنابراین اجازه دهید نگاهی گذرا به دستور کار با نگاهی گذرا شروع کنم.
8
00:00:15,000 –> 00:00:17,100
9
00:00:17,100 –> 00:00:19,260
به الگوریتم رگرسیون خطی برگردیم و سپس
10
00:00:19,260 –> 00:00:21,090
11
00:00:21,090 –> 00:00:23,580
مفهوم رگرسیون لجستیک را با
12
00:00:23,580 –> 00:00:26,670
مثال طبقهبندی کننده ایمیل هرزنامه به طور جامع درک
13
00:00:26,670 –> 00:00:27,810
خواهیم کرد و سپس متوجه خواهیم شد که ماتریس سردرگمی چیست
14
00:00:27,810 –> 00:00:30,119
و در نهایت یک
15
00:00:30,119 –> 00:00:31,710
نسخه آزمایشی با الگوریتم رگرسیون لجستیک پیادهسازی میکنیم.
16
00:00:31,710 –> 00:00:33,989
فقط یک خلاصه سریع از مفهوم رگرسیون خطی به شما ارائه می
17
00:00:33,989 –> 00:00:36,090
18
00:00:36,090 –> 00:00:37,980
دهیم زیرا در قانون در مقررات چوب به آنها نیاز خواهیم داشت،
19
00:00:37,980 –> 00:00:40,860
بنابراین بیایید
20
00:00:40,860 –> 00:00:42,719
خلاصه رگرسیون خطی را با این
21
00:00:42,719 –> 00:00:45,750
مثال شروع کنیم، بنابراین این لورن است که او به دنبال
22
00:00:45,750 –> 00:00:47,489
ملکی برای خرید است اما او
23
00:00:47,489 –> 00:00:50,910
گیج شده است که چگونه شروع کند تا نزد یکی
24
00:00:50,910 –> 00:00:54,180
از دوستش جاش می رود و از او می پرسد که آیا
25
00:00:54,180 –> 00:00:56,250
می تواند به او کمک کند تا ملکی با
26
00:00:56,250 –> 00:00:59,640
باغ بزرگتر برای ایکس باکس پیدا کند، جاش
27
00:00:59,640 –> 00:01:02,129
در سمت راست موافق است. برای کمک به او برای پیدا کردن
28
00:01:02,129 –> 00:01:04,260
یک ملک اما خودش نمی داند
29
00:01:04,260 –> 00:01:05,680
چگونه
30
00:01:05,680 –> 00:01:07,780
پس چه کاری انجام داده است، به یکی دیگر از دوستانش می رود
31
00:01:07,780 –> 00:01:09,640
که تمام وضعیت را برای آنها توضیح می دهد
32
00:01:09,640 –> 00:01:12,370
و از او می پرسد که آیا می تواند
33
00:01:12,370 –> 00:01:14,710
در این مورد کاری انجام دهد، بلافاصله می گوید
34
00:01:14,710 –> 00:01:16,990
بله و شروع به انجام می دهد. مقداری محاسبات و
35
00:01:16,990 –> 00:01:19,750
سپس به جاش میگوید با خرج کردن X
36
00:01:19,750 –> 00:01:22,390
دلار میتواند به او یک خاصیت مساحت بدهد،
37
00:01:22,390 –> 00:01:25,930
در حالی که حالا جاش گیج شده است و از او پرسیده است
38
00:01:25,930 –> 00:01:28,480
که چگونه متوجه شده است که یکی از دوستانش مانند
39
00:01:28,480 –> 00:01:31,750
رگرسیون خطی ساده عمل میکند، حالا بیایید ببینیم
40
00:01:31,750 –> 00:01:33,940
دقیقاً چگونه از رگرسیون خطی ساده
41
00:01:33,940 –> 00:01:37,530
برای حل استفاده کرده است. این مسئله،
42
00:01:38,840 –> 00:01:41,570
بنابراین در اینجا یک متغیر وابسته و
43
00:01:41,570 –> 00:01:43,970
اندازه دارایی متغیر مستقل است که
44
00:01:43,970 –> 00:01:45,770
متغیر وابسته است و پول
45
00:01:45,770 –> 00:01:47,990
متغیر مستقل است، کاری که این شخص
46
00:01:47,990 –> 00:01:49,700
انجام نمی دهد او می خواهد
47
00:01:49,700 –> 00:01:51,860
رابطه بین اندازه دارایی و
48
00:01:51,860 –> 00:01:54,079
پول را پیدا کند، بنابراین اگر می خواهید مانند آن است. یک
49
00:01:54,079 –> 00:01:56,420
خانه با مساحت بزرگتر یا اندازه ملک بزرگتر،
50
00:01:56,420 –> 00:01:58,280
پس باید پول بیشتری خرج کنید، بنابراین
51
00:01:58,280 –> 00:01:59,539
هر دوی آنها به طور مستقیم متناسب هستند،
52
00:01:59,539 –> 00:02:01,909
بنابراین در این مورد یک
53
00:02:01,909 –> 00:02:04,100
خط رگرسیون خطی مثبت دریافت می کنیم
54
00:02:04,100 –> 00:02:06,890
که آن را به عنوان سرعت بنویسید. با پول بیشتر،
55
00:02:06,890 –> 00:02:10,280
ملک بزرگتری برای او میگیریم، در غیر این صورت،
56
00:02:10,280 –> 00:02:14,209
اما دوباره ضمیمه میکنیم – یک مساحت این است که او یک
57
00:02:14,209 –> 00:02:17,150
باغ بزرگتر میخواهد، بنابراین تصور کنید که
58
00:02:17,150 –> 00:02:18,799
سناریویی که مساحت ملک را ثابت نگه میدارد، مساحت
59
00:02:18,799 –> 00:02:21,410
خانه با
60
00:02:21,410 –> 00:02:23,269
مساحت باغ نسبت عکس دارد.
61
00:02:23,269 –> 00:02:25,700
اگر می خواهید مساحت باغ را افزایش دهید،
62
00:02:25,700 –> 00:02:28,400
بنابراین باید مساحت خانه را کاهش دهید،
63
00:02:28,400 –> 00:02:31,190
بنابراین آن را به این صورت بگیرید، فرض کنید
64
00:02:31,190 –> 00:02:33,049
قبلاً ملک
65
00:02:33,049 –> 00:02:34,880
را تعمیر کرده اید و می خواهید خانه ای با باغ
66
00:02:34,880 –> 00:02:37,549
در آن بسازید اما اکنون از ما می خواهید که می خواهید
67
00:02:37,549 –> 00:02:39,860
داشته باشید. یک منطقه باغ بزرگتر، بنابراین اگر
68
00:02:39,860 –> 00:02:41,750
اندازه ملک ثابت باشد و اگر
69
00:02:41,750 –> 00:02:43,609
اندازه باغ را افزایش دهید،
70
00:02:43,609 –> 00:02:45,799
بدیهی است که باید اندازه
71
00:02:45,799 –> 00:02:48,380
خانه خود را به درستی کاهش دهید، بنابراین در این مورد اگر
72
00:02:48,380 –> 00:02:50,269
سعی کنید یک خط رگرسیون ترسیم کنید، یک خط رگرسیون به
73
00:02:50,269 –> 00:02:53,359
دست خواهید آورد. خط رگرسیون منفی در سمت راست
74
00:02:53,359 –> 00:02:56,440
منطقه باغ به معنای خانه کوچکتر است،
75
00:02:56,440 –> 00:02:59,209
بیایید مثالی بزنیم تا ببینیم
76
00:02:59,209 –> 00:03:01,459
او دقیقاً چگونه ارزش خانه را پیش بینی کرده است،
77
00:03:01,459 –> 00:03:03,950
بنابراین برای یافتن خط رگرسیون
78
00:03:03,950 –> 00:03:06,590
آنچه انجام
79
00:03:06,590 –> 00:03:09,019
داده است، داده های تاریخی روابط عمومی را گرم می کند. منطقه عملیاتی فروخته شده در
80
00:03:09,019 –> 00:03:11,600
قیمت خاص خوب است و او آن را
81
00:03:11,600 –> 00:03:13,800
روی نمودار رسم کرد،
82
00:03:13,800 –> 00:03:16,140
بنابراین این نقطه نمودار
83
00:03:16,140 –> 00:03:18,750
مناطق ملکی فروخته شده بود و برای یک قیمت خاص تصویب شد،
84
00:03:18,750 –> 00:03:21,780
خوب حالا او چه کرد او
85
00:03:21,780 –> 00:03:24,000
اکنون یک خط رگرسیون ترسیم کرد تا دریابد که او
86
00:03:24,000 –> 00:03:26,310
چه مساحت ملکی را می تواند انجام دهد. با X دلار خرید کنید،
87
00:03:26,310 –> 00:03:29,430
او X را در
88
00:03:29,430 –> 00:03:31,350
مقیاس متغیر مستقل ترسیم کرد و به خط رگرسیون پیش بینی کرد
89
00:03:31,350 –> 00:03:34,080
و سپس در برابر آن
90
00:03:34,080 –> 00:03:36,870
نقطه، مساحت Y را دارد،
91
00:03:36,870 –> 00:03:40,350
این مساحت Y است، بنابراین او پیش بینی کرد که
92
00:03:40,350 –> 00:03:43,740
لورن می تواند منطقه Y را در X
93
00:03:43,740 –> 00:03:44,280
Box خریداری کند.
94
00:03:44,280 –> 00:03:47,190
خوب حالا بیایید ببینیم از این چه چیزی می تواند و
95
00:03:47,190 –> 00:03:49,950
چه چیزی نمی تواند بگوید، بنابراین می تواند
96
00:03:49,950 –> 00:03:52,530
بگوید که اگر فلورانس X مقدار
97
00:03:52,530 –> 00:03:55,280
پول خرج کند، می تواند یک منطقه ملکی به اندازه Y بخرد،
98
00:03:55,280 –> 00:03:58,680
اما چیزی که او نمی تواند بگوید این است که
99
00:03:58,680 –> 00:04:00,300
ملک دارای همسایگی خوبی خواهد بود
100
00:04:00,300 –> 00:04:03,720
یا نه یا این مکان یک حومه شهر بدون سر و صدا
101
00:04:03,720 –> 00:04:06,450
یا یک شهر شلوغ خواهد بود، بنابراین اینها
102
00:04:06,450 –> 00:04:08,430
سؤالاتی هستند که حتی او نمی
103
00:04:08,430 –> 00:04:12,000
تواند با استفاده از این نمودار به آنها پاسخ دهد، بنابراین سؤالاتی
104
00:04:12,000 –> 00:04:14,040
مانند این که آیا ملک
105
00:04:14,040 –> 00:04:16,680
محله خوبی خواهد داشت یا فردا آموزش می بیند
106
00:04:16,680 –> 00:04:20,310
یا خیر. آیا این نامه یک هرزنامه است یا همه
107
00:04:20,310 –> 00:04:22,260
این نوع مشکلات در
108
00:04:22,260 –> 00:04:23,790
دسته خاصی قرار می گیرند که به عنوان
109
00:04:23,790 –> 00:04:25,710
مشکلات طبقه بندی
110
00:04:25,710 –> 00:04:26,100
111
00:04:26,100 –> 00:04:28,560
در یادگیری ماشین شناخته
112
00:04:28,560 –> 00:04:30,840
113
00:04:30,840 –> 00:04:32,730
می شود.
114
00:04:32,730 –> 00:04:34,590
این
115
00:04:34,590 –> 00:04:36,510
الگوریتم رگرسیون لجستیک که ما
116
00:04:36,510 –> 00:04:38,310
در مورد آن صحبت کردیم در
117
00:04:38,310 –> 00:04:41,580
درخت الگوریتم یادگیری ماشین نهفته است، بنابراین در
118
00:04:41,580 –> 00:04:43,650
یادگیری ماشینی ما از دو تکنیک یادگیری سنتی
119
00:04:43,650 –> 00:04:45,830
برای ساختن یک مدل پیشبین
120
00:04:45,830 –> 00:04:48,360
یادگیری نظارت شده استفاده میکنیم و یادگیری بدون نظارت
121
00:04:48,360 –> 00:04:50,970
مجدداً به یادگیری نظارت شده نگاه کنید،
122
00:04:50,970 –> 00:04:52,820
دو دسته
123
00:04:52,820 –> 00:04:55,860
رگرسیون و طبقهبندی درست هستند. در
124
00:04:55,860 –> 00:04:58,590
Dragon ما رگرسیون خطی داریم و در
125
00:04:58,590 –> 00:05:00,390
طبقه بندی
126
00:05:00,390 –> 00:05:03,150
رگرسیون لجستیک و svm داریم، بنابراین موضوع بحث امروز ما
127
00:05:03,150 –> 00:05:05,340
رگرسیون لجستیک است
128
00:05:05,340 –> 00:05:07,010
که در دسته
129
00:05:07,010 –> 00:05:09,810
بندی طبقه بندی قرار می گیرد، خوب است، بنابراین اکنون
130
00:05:09,810 –> 00:05:11,460
که کمی در مورد
131
00:05:11,460 –> 00:05:13,320
رگرسیون لجستیک به دست آورده ایم، اجازه دهید کمی پیش برویم. عمیق تر
132
00:05:13,320 –> 00:05:15,540
و در مورد اینکه دقیقاً چیست بحث کنید
133
00:05:15,540 –> 00:05:19,820
رگرسیون ogistic و چرا از آن استفاده می کنیم
134
00:05:19,820 –> 00:05:22,850
پس رگرسیون لجستیک چیست خوب
135
00:05:22,850 –> 00:05:25,160
یاد بگیرید رگرسیون چوبی یک
136
00:05:25,160 –> 00:05:27,080
مدل طبقه بندی آماری است که
137
00:05:27,080 –> 00:05:29,870
مجدداً با متغیر وابسته طبقه بندی سروکار دارد شما
138
00:05:29,870 –> 00:05:31,280
باید متعجب باشید که این
139
00:05:31,280 –> 00:05:33,230
متغیرهای وابسته طبقه بندی چیست
140
00:05:33,230 –> 00:05:35,030
خوب اینها برخی از
141
00:05:35,030 –> 00:05:36,530
متغیرهای گسسته هستند که دارای دو هستند. یا
142
00:05:36,530 –> 00:05:38,750
دسته های بیشتری بدون داشتن هیچ نوع
143
00:05:38,750 –> 00:05:40,840
نظم طبیعی برای مثال
144
00:05:40,840 –> 00:05:44,330
منطقه دما یا به طور کلی خوب است، بنابراین می توانید بگویید که
145
00:05:44,330 –> 00:05:46,430
رگرسیون لجستیک معمولاً در جایی استفاده می شود
146
00:05:46,430 –> 00:05:48,470
که متغیر وابسته باینری است
147
00:05:48,470 –> 00:05:50,960
یا جایی که متغیر وابسته
148
00:05:50,960 –> 00:05:53,360
باینری است که فقط دو نتیجه
149
00:05:53,360 –> 00:05:56,360
ممکن است یا بله / بدون درست/نادرست 1 0
150
00:05:56,360 –> 00:05:59,720
و غیره درست است و همچنین یک واقعیت را به خاطر بسپارید که
151
00:05:59,720 –> 00:06:02,120
می توانید از داده های ورودی پیوسته و گسسته
152
00:06:02,120 –> 00:06:04,760
با تجمیع از دست رفته استفاده کنید، بنابراین
153
00:06:04,760 –> 00:06:06,710
قبل از حرکت به سمت جلو بیایید به
154
00:06:06,710 –> 00:06:09,080
نمودار نگاه کنیم ببینید دو متغیر وجود دارد یکی
155
00:06:09,080 –> 00:06:11,960
مستقل و دیگری
156
00:06:11,960 –> 00:06:13,520
مستقل است. ببینید کدام یک وابسته
157
00:06:13,520 –> 00:06:16,400
و کدام مستقل است، بنابراین قبل از
158
00:06:16,400 –> 00:06:18,410
حرکت به جلو بیایید نگاهی بیندازیم
159
00:06:18,410 –> 00:06:21,740
بنابراین قبل از حرکت به جلو، اجازه دهید به این نمودار نگاهی بیندازیم
160
00:06:21,740 –> 00:06:24,560
، بنابراین در اینجا ما دو
161
00:06:24,560 –> 00:06:26,960
متغیر مختلف در حال مطالعه و
162
00:06:26,960 –> 00:06:29,660
احتمال قبولی در امتحان داریم، آیا می توانید
163
00:06:29,660 –> 00:06:31,250
بفهمید که کدام یک
164
00:06:31,250 –> 00:06:32,900
وابسته و کدام یک
165
00:06:32,900 –> 00:06:35,570
مستقل است، بنابراین اگر مهمان دارید که
166
00:06:35,570 –> 00:06:37,640
در حال مطالعه بودن متغیر مستقل شماست
167
00:06:37,640 –> 00:06:40,400
و احتمال قبولی در
168
00:06:40,400 –> 00:06:42,830
آزمون متغیر وابسته است و من می
169
00:06:42,830 –> 00:06:45,440
گویم شما 100% درست می گویید پس حالا که
170
00:06:45,440 –> 00:06:47,780
می دانید رگرسیون لجستیک دقیقا چیست
171
00:06:47,780 –> 00:06:50,780
بیایید جلو برویم و
172
00:06:50,780 –> 00:06:52,940
ببینیم چرا از رگرسیون لجستیک به خوبی از
173
00:06:52,940 –> 00:06:55,220
رگرسیون خوش شانسی استفاده می کنیم. می تواند به عنوان ابزاری
174
00:06:55,220 –> 00:06:57,620
برای آمارهای کاربردی و تجزیه و تحلیل داده های گسسته استفاده
175
00:06:57,620 –> 00:07:00,530
شود که چرا علت
176
00:07:00,530 –> 00:07:02,240
خروجی آن در قالب احتمالات
177
00:07:02,240 –> 00:07:04,760
به ما کمک می کند تا داده های داده شده را به راحتی طبقه بندی کنیم
178
00:07:04,760 –> 00:07:07,550
، بنابراین به همین دلیل است که ما
179
00:07:07,550 –> 00:07:11,030
از رگرسیون لجستیک استفاده می کنیم تا اکنون که
180
00:07:11,030 –> 00:07:12,680
با موفقیت انجام شده است.
181
00:07:12,680 –> 00:07:14,300
اساس رگرسیون لجستیک را با درک
182
00:07:14,300 –> 00:07:16,790
اینکه چه چیزی و چرا آن را ایجاد کرد، بیایید جلو برویم و
183
00:07:16,790 –> 00:07:18,740
ببینیم چگونه می توان رگرسیون لجستیک را
184
00:07:18,740 –> 00:07:20,780
برای طبقه بندی داده ها اعمال کرد. با
185
00:07:20,780 –> 00:07:23,070
کمک یک مثال،
186
00:07:23,070 –> 00:07:25,620
بنابراین در اینجا ما از یک مثال از
187
00:07:25,620 –> 00:07:27,780
طبقهبندی کننده ایمیل هرزنامه استفاده میکنیم، باید یک
188
00:07:27,780 –> 00:07:29,640
مدل پیشبینیکننده بسازیم که طبقهبندی میکند
189
00:07:29,640 –> 00:07:32,970
آیا یک نامه هرزنامه است یا نه.
190
00:07:32,970 –> 00:07:34,560
191
00:07:34,560 –> 00:07:37,410
ابتدا
192
00:07:37,410 –> 00:07:39,030
سعی می کنیم متغیر duck را درک کنیم که
193
00:07:39,030 –> 00:07:41,010
بر اساس آن نامه ها
194
00:07:41,010 –> 00:07:42,030
را طبقه بندی
195
00:07:42,030 –> 00:07:45,090
می کنیم، سپس داده های برچسب را ترسیم می کنیم، پس از
196
00:07:45,090 –> 00:07:46,320
اینکه با شناسایی داده های برچسب تمام شد
197
00:07:46,320 –> 00:07:47,970
، منحنی رگرسیون را ترسیم خواهیم کرد و
198
00:07:47,970 –> 00:07:49,980
در نهایت سعی خواهیم کرد پیدا کنیم. بهترین
199
00:07:49,980 –> 00:07:51,500
منحنی برازش را با استفاده از برآوردگر حداکثر درستنمایی
200
00:07:51,500 –> 00:07:56,100
درست است، بنابراین بیایید شروع کنیم،
201
00:07:56,100 –> 00:07:59,760
بنابراین مرحله اول تعریف متغیر است، بنابراین
202
00:07:59,760 –> 00:08:01,740
بیایید با درک
203
00:08:01,740 –> 00:08:03,960
متغیر مستقل waters در مورد ما شروع کنیم، بنابراین در
204
00:08:03,960 –> 00:08:05,850
مورد ما متغیر مستقل
205
00:08:05,850 –> 00:08:08,550
تعداد کلمات هرزنامه است و در اینجا برخی از آنها وجود دارد.
206
00:08:08,550 –> 00:08:11,370
مثالی از کلمات هرزنامه پرکاربرد کلمه ای
207
00:08:11,370 –> 00:08:14,130
مانند خداحافظی پرداخت می شود ون تضمینی یا
208
00:08:14,130 –> 00:08:17,220
نامحدود و غیره بسیار خوب، بنابراین این ها از
209
00:08:17,220 –> 00:08:19,740
نوع خلأهایی هستند که وقتی در
210
00:08:19,740 –> 00:08:21,780
ایمیل یافت می شوند، اگر نامه بی حس باشد به عنوان هرزنامه تلقی می شود.
211
00:08:21,780 –> 00:08:23,670
این نوع کلمات بیشتر
212
00:08:23,670 –> 00:08:25,170
در یک ایمیل هستند پس آن نامه
213
00:08:25,170 –> 00:08:28,050
قطعاً یک ایمیل هرزنامه خواهد بود، فقط
214
00:08:28,050 –> 00:08:29,760
برای نمایش بهتر، اجازه دهید آنها را
215
00:08:29,760 –> 00:08:32,900
در کیسه ای از کلمات هرزنامه قرار دهم.
216
00:08:32,900 –> 00:08:36,390
217
00:08:36,390 –> 00:08:39,090
کلمات موجود در آنها یکی یکی
218
00:08:39,090 –> 00:08:43,130
با پرداخت ضمانت وننو و نامحدود
219
00:08:43,130 –> 00:08:45,540
حالا چه در مورد متغیر وابسته ما
220
00:08:45,540 –> 00:08:48,750
خوب متغیر وابسته ما
221
00:08:48,750 –> 00:08:50,850
احتمال اسپم بودن نامه
222
00:08:50,850 –> 00:08:53,670
خواهد بود اگر احتمال آن 1 باشد یعنی
223
00:08:53,670 –> 00:08:56,520
ایمیل اگر صفر باشد به معنای هرزنامه است
224
00:08:56,520 –> 00:08:59,010
به طور کلی، ایمیل
225
00:08:59,010 –> 00:09:01,170
با تعداد کلمات کمتر از
226
00:09:01,170 –> 00:09:03,900
لیست رباتهای هرزنامه به عنوان یک
227
00:09:03,900 –> 00:09:06,180
ایمیل هرزنامه با پنج کلمه هرزنامه یا بیشتر در یک
228
00:09:06,180 –> 00:09:08,610
ایمیل به عنوان ایمیل هرزنامه تلقی میشود،
229
00:09:08,610 –> 00:09:10,410
اما ممکن است مواردی وجود داشته باشد که ممکن است
230
00:09:10,410 –> 00:09:13,380
ایمیلهایی با هرزنامه کمتری پیدا کنید که هرزنامه هستند و
231
00:09:13,380 –> 00:09:15,870
همچنین ممکن است مواردی را بیابید که مردان با
232
00:09:15,870 –> 00:09:18,540
تعداد کلمات هرزنامه بیشتر، یک ایمیل هرزنامه نیستند،
233
00:09:18,540 –> 00:09:20,940
بنابراین در اینجا هدف ما ساختن یک
234
00:09:20,940 –> 00:09:23,040
مدل پیشبینیکننده برای طبقهبندی نامهها
235
00:09:23,040 –> 00:09:26,790
با حداقل جمعکننده است، خوب اجازه دهید ببینیم
236
00:09:26,790 –> 00:09:28,710
چیست؟ ما مرحله بعدی بنابراین مرحله بعدی ما
237
00:09:28,710 –> 00:09:31,020
ترسیم داده های برچسب است، فرض کنید این
238
00:09:31,020 –> 00:09:33,330
مجموعه ای از داده ها است که برای ساخت مدل از آنها استفاده خواهیم
239
00:09:33,330 –> 00:09:34,980
کرد، مجموعه داده های بسیار کوچکی وجود دارد،
240
00:09:34,980 –> 00:09:37,320
اما فقط به یاد داشته باشید که
241
00:09:37,320 –> 00:09:39,720
وقتی از رگرسیون لجستیک استفاده می
242
00:09:39,720 –> 00:09:41,550
کنید، مطمئن شوید که استفاده از مقدار
243
00:09:41,550 –> 00:09:43,680
زیادی داده رگرسیون گنوستیک
244
00:09:43,680 –> 00:09:45,480
با حجم زیادی از داده ها خیلی
245
00:09:45,480 –> 00:09:47,400
خوب کار می کند، اما با داده های کم کار نمی
246
00:09:47,400 –> 00:09:49,680
کند، در اینجا فقط به
247
00:09:49,680 –> 00:09:51,510
منظور درک ما از مجموعه داده های کوچک استفاده می کنیم،
248
00:09:51,510 –> 00:09:53,640
بنابراین ما دو متغیر
249
00:09:53,640 –> 00:09:56,460
تعداد داریم. هرزنامه ها و احتمال
250
00:09:56,460 –> 00:09:58,710
هرزنامه بودن مرد در مقابل هر مرد
251
00:09:58,710 –> 00:10:03,030
خوب است در مرحله بعد به خوبی مسیر را ترسیم کنید
252
00:10:03,030 –> 00:10:06,000
– در خط، بنابراین بعد کاری که انجام می
253
00:10:06,000 –> 00:10:07,410
دهیم مجموعه داده های خود را
254
00:10:07,410 –> 00:10:10,830
روی محور x و محور y با
255
00:10:10,830 –> 00:10:13,050
متغیر مستقل روی x رسم می کنیم. -محور و
256
00:10:13,050 –> 00:10:16,080
متغیر وابسته در محور y بنابراین تعداد پرندگان هرزنامه
257
00:10:16,080 –> 00:10:18,090
در نر یک
258
00:10:18,090 –> 00:10:20,520
متغیر مستقل است و احتمال
259
00:10:20,520 –> 00:10:22,800
اسپم بودن یا نبودن آن مرد خاص
260
00:10:22,800 –> 00:10:25,290
یک متغیر وابسته است و
261
00:10:25,290 –> 00:10:27,660
بستگی به تعداد پرندگان هرزنامه دارد.
262
00:10:27,660 –> 00:10:30,270
m ما خوب است پس بیایید این فضاهای خالی
263
00:10:30,270 –> 00:10:33,270
سرگرم کننده را با یک رسم کنیم، بنابراین ابتدا یک کلمه داریم
264
00:10:33,270 –> 00:10:35,220
و احتمال اینکه این نامه به
265
00:10:35,220 –> 00:10:37,950
صورت توماس صفر باشد،
266
00:10:37,950 –> 00:10:40,500
در اینجا رسم می شود، پس در مرحله بعدی ما پنج کلمه هرزنامه
267
00:10:40,500 –> 00:10:42,360
در یک ایمیل داریم و احتمال آن
268
00:10:42,360 –> 00:10:45,030
هرزنامه بودن نامه 1 است، بنابراین
269
00:10:45,030 –> 00:10:46,980
در جایی اینجا آموزش داده می شود. بعد از آن سه
270
00:10:46,980 –> 00:10:49,740
کلمه هرزنامه یک ایمیل ستاره است، بنابراین
271
00:10:49,740 –> 00:10:52,290
دوباره در اینجا رسم می شود دو کلمه
272
00:10:52,290 –> 00:10:54,480
ایمیل هرزنامه نیست، بنابراین من اینجا
273
00:10:54,480 –> 00:10:57,720
هفت کلمه دوباره هرزنامه را ترسیم خواهم کرد. ایمیل در اینجا
274
00:10:57,720 –> 00:10:59,130
چهار کلمه
275
00:10:59,130 –> 00:11:03,480
نه یک ایمیل هرزنامه در اینجا نه کلمه، یک
276
00:11:03,480 –> 00:11:07,140
هرزنامه است، دوباره پرندگان هرزنامه را ارسال کنید، این یک هرزنامه
277
00:11:07,140 –> 00:11:08,880
نیست، پس وقتی رسم را تمام کردیم، به
278
00:11:08,880 –> 00:11:10,980
این صورت است که یک داده ترسیم شده به نظر می
279
00:11:10,980 –> 00:11:13,950
رسد حالا بیایید بگوییم که یک نامه جدید داریم
280
00:11:13,950 –> 00:11:15,600
و اکنون میخواهیم بفهمیم که
281
00:11:15,600 –> 00:11:18,180
آیا این یک هرزنامه است یا نه، بنابراین قبل از
282
00:11:18,180 –> 00:11:20,010
حرکت به جلو، اجازه دهید من فقط به شما بگویم در
283
00:11:20,010 –> 00:11:21,960
سناریوی واقعی برای انجام دکوراسیون چوب از دست دادن
284
00:11:21,960 –> 00:11:23,970
به مقدار
285
00:11:23,970 –> 00:11:26,550
زیادی مجموعه داده نیاز دارید و همچنین ممکن است موارد زیادی را پیدا کنید
286
00:11:26,550 –> 00:11:28,740
که یک ایمیل هرزنامه ممکن است
287
00:11:28,740 –> 00:11:31,440
فقط دو کلمه داشته باشد در حالی که نامه هرزنامه ممکن است
288
00:11:31,440 –> 00:11:34,440
c فقط به کلمات هرزنامه بپردازید یا همچنین
289
00:11:34,440 –> 00:11:36,180
ممکن است ایمیلی
290
00:11:36,180 –> 00:11:38,430
دریافت کنید که در آن بیش از پنج کلمه هرزنامه دارید
291
00:11:38,430 –> 00:11:40,680
و حتی در این صورت ایمیل
292
00:11:40,680 –> 00:11:43,140
شما اسپم نیست، بنابراین در اینجا ما در حال ساخت
293
00:11:43,140 –> 00:11:45,270
یک مدل پیش بینی با هدف اصلی
294
00:11:45,270 –> 00:11:48,240
کاهش هستیم. خطا خوب است حالا فرض
295
00:11:48,240 –> 00:11:50,460
کنید یک ایمیل جدید در اینجا داریم، اکنون باید بفهمیم
296
00:11:50,460 –> 00:11:50,910
297
00:11:50,910 –> 00:11:54,720
که آیا این نامه هرزنامه است یا خیر، اما چگونه
298
00:11:54,720 –> 00:11:55,680
این کار را به خوبی انجام دهیم،
299
00:11:55,680 –> 00:11:57,840
اول از همه باید
300
00:11:57,840 –> 00:11:59,430
منحنی رگرسیون را ترسیم کنیم
301
00:11:59,430 –> 00:12:01,230
که بهترین منحنی را داشته باشد. منحنی رگرسیون لجستیک ما خواهد بود،
302
00:12:01,230 –> 00:12:03,660
اما اکنون این
303
00:12:03,660 –> 00:12:05,760
سوال پیش می آید که چگونه می توان فهمید
304
00:12:05,760 –> 00:12:08,910
که بهترین منحنی رگرسیون کدام است، خوب
305
00:12:08,910 –> 00:12:11,490
این شامل سه مرحله خواهد بود و اولین
306
00:12:11,490 –> 00:12:13,950
مرحله تبدیل محور y از
307
00:12:13,950 –> 00:12:16,110
مقیاس احتمال محدود شده بین 0
308
00:12:16,110 –> 00:12:18,930
و 1 به یک است. سپس
309
00:12:18,930 –> 00:12:21,510
با ترسیم یک خط رگرسیون تصادفی
310
00:12:21,510 –> 00:12:24,780
از دادههایی که از قبل در اختیار داریم،
311
00:12:24,780 –> 00:12:27,030
با کمک تابع
312
00:12:27,030 –> 00:12:29,130
سیگموید، شانس ورود به سیستم را به احتمال
313
00:12:29,130 –> 00:12:32,010
اسپم بودن مرد تبدیل میکنیم و هر مرد را
314
00:12:32,010 –> 00:12:33,840
بر اساس دادههای جدید ترسیم میکنیم. پ
315
00:12:33,840 –> 00:12:36,480
مقادیر robability و این منحنی رگرسیون ما را تشکیل می دهد
316
00:12:36,480 –> 00:12:38,760
سپس در نهایت از این نمودار
317
00:12:38,760 –> 00:12:40,650
مقادیر لاگ احتمال
318
00:12:40,650 –> 00:12:44,130
هر مرد را می یابیم اکنون از این نمودار
319
00:12:44,130 –> 00:12:46,020
مقادیر لاگ احتمال هر
320
00:12:46,020 –> 00:12:48,350
321
00:12:49,570 –> 00:12:52,330
مرد را پیدا می کنیم و در نهایت احتمال فردی آن را
322
00:12:52,330 –> 00:12:54,700
پیدا می کند. گزارش احتمال که
323
00:12:54,700 –> 00:12:56,950
احتمال ورود ما به منحنی رگرسیون
324
00:12:56,950 –> 00:12:59,350
خواهد بود، اکنون این سوال پیش میآید که
325
00:12:59,350 –> 00:13:01,690
این عبارات مانند شانس ورود به سیستم یا احتمال ورود به سیستم
326
00:13:01,690 –> 00:13:04,060
به چه معنا هستند، بنابراین قبل از حرکت به جلو،
327
00:13:04,060 –> 00:13:06,680
اجازه دهید در مورد اینکه
328
00:13:06,680 –> 00:13:09,649
ورود شانس به چه معناست، اجازه دهید
329
00:13:09,649 –> 00:13:11,660
این را با کمک بررسی کنیم. یک مثال،
330
00:13:11,660 –> 00:13:13,910
بنابراین قبل از اینکه ادامه دهیم، اجازه دهید
331
00:13:13,910 –> 00:13:15,709
فقط یک چیز را برای شما روشن کنم که این
332
00:13:15,709 –> 00:13:17,930
احتمال وجود دارد و عجیب است که اینها یکسان نیستند،
333
00:13:17,930 –> 00:13:19,790
بگذارید این را با یک مثال برای شما توضیح دهم
334
00:13:19,790 –> 00:13:22,490
، فرض کنید این مرد
335
00:13:22,490 –> 00:13:25,069
پنج بار در هفته به ماهیگیری می رود، بنابراین از پنج
336
00:13:25,069 –> 00:13:28,459
بار. او دو بار ماهی می گیرد و
337
00:13:28,459 –> 00:13:32,089
سه بار هم موفق به صید نشد، خب حالا
338
00:13:32,089 –> 00:13:34,309
در این مورد چه
339
00:13:34,309 –> 00:13:36,769
شانسی برای گرفتن ماهی برای شام وجود دارد، بنابراین
340
00:13:36,769 –> 00:13:39,079
اجازه دهید ابتدا احتمال را
341
00:13:39,079 –> 00:13:41,480
محاسبه کنیم. شانس برابر است با چهار تقسیم بر
342
00:13:41,480 –> 00:13:43,939
شانس کل، بنابراین شانس برای صید
343
00:13:43,939 –> 00:13:45,709
ماهی، پس احتمال
344
00:13:45,709 –> 00:13:47,869
صید ماهی چقدر است، یعنی چند بار
345
00:13:47,869 –> 00:13:50,749
ماهی را صید کرده است که دو تقسیم بر
346
00:13:50,749 –> 00:13:53,779
شانس کل است که باید ماهی را صید می کند تا
347
00:13:53,779 –> 00:13:57,230
پنج شود. درست است، بنابراین در اینجا
348
00:13:57,230 –> 00:13:59,389
احتمال گرفتن ماهی برای شام دو
349
00:13:59,389 –> 00:14:00,589
به پنج خوب است،
350
00:14:00,589 –> 00:14:03,499
بعد شانس های فرد تقسیم
351
00:14:03,499 –> 00:14:06,499
بر شانس در برابر این است که نسبت
352
00:14:06,499 –> 00:14:08,300
چند بار صید ماهی
353
00:14:08,300 –> 00:14:10,249
تقسیم بر تعداد دفعاتی است که نتوانسته
354
00:14:10,249 –> 00:14:13,100
ماهی بگیرد. خوب پس او
355
00:14:13,100 –> 00:14:15,499
ماهی را دو بار گرفت و سه بار در
356
00:14:15,499 –> 00:14:18,170
صید ماهی شکست خورد، بنابراین
357
00:14:18,170 –> 00:14:20,509
شانس گرفتن ماهی برای شام دو
358
00:14:20,509 –> 00:14:23,720
به سه خوب است، بنابراین حالا که شانس ها را می دانیم
359
00:14:23,720 –> 00:14:26,720
حالا بیایید ببینیم چه آماری از شانس و
360
00:14:26,720 –> 00:14:29,569
نسبت تصادفی است. بیایید دریابیم
361
00:14:29,569 –> 00:14:32,149
برای اطلاعات شما شانس ثبت اطلاعات نیز
362
00:14:32,149 –> 00:14:35,209
به عنوان تابع logit نامیده می شود خوب است، بنابراین در
363
00:14:35,209 –> 00:14:37,220
مثال قبلی ما که ماهی و انسان
364
00:14:37,220 –> 00:14:39,199
در حال صید ماهی بودند، بیایید یک
365
00:14:39,199 –> 00:14:41,420
عامل دیگر به ماهیگیری او اضافه کنیم، اجازه دهید یک عامل
366
00:14:41,420 –> 00:14:43,819
به عنوان Vado اضافه کنیم تا بتوانیم دوباره ایجاد کنیم. تی در
367
00:14:43,819 –> 00:14:46,220
کل سناریوی او این بود که او دو
368
00:14:46,220 –> 00:14:48,499
بار در یک روز بارانی موفق بود، اما در یک روز آفتابی
369
00:14:48,499 –> 00:14:51,139
او برای سه بار موفق
370
00:14:51,139 –> 00:14:53,779
بود، شانس صید ماهی در یک روز آفتابی
371
00:14:53,779 –> 00:14:57,230
چقدر است که دو به سه است
372
00:14:57,230 –> 00:15:00,110
و شانس گرفتن در یک روز بارانی چقدر است. روز 3
373
00:15:00,110 –> 00:15:02,749
در 2 است درست همانطور که قبلاً ذکر شد
374
00:15:02,749 –> 00:15:04,519
که او در یک روز آفتابی سه بار گیر می آورد
375
00:15:04,519 –> 00:15:06,470
بنابراین برای سه
376
00:15:06,470 –> 00:15:08,629
بار موفق است و او برای دو بار شکست خورده است، بنابراین
377
00:15:08,629 –> 00:15:10,639
بیایید ببینیم که او سه بار
378
00:15:10,639 –> 00:15:13,429
در یک روز بارانی و دو بار در یک روز آفتابی موفق بوده است.
379
00:15:13,429 –> 00:15:15,620
روزی که شانس صید ماهی در یک
380
00:15:15,620 –> 00:15:18,470
روز آفتابی 2 در 3 است، یعنی
381
00:15:18,470 –> 00:15:19,740
او دو بار در
382
00:15:19,740 –> 00:15:21,630
روز آفتابی موفق بوده و سه بار در هفته شکست خورده است.
383
00:15:21,630 –> 00:15:24,060
384
00:15:24,060 –> 00:15:25,830
385
00:15:25,830 –> 00:15:28,110
386
00:15:28,110 –> 00:15:31,500
روز بارانی 3 در 2 است و اکنون گزارش
387
00:15:31,500 –> 00:15:33,690
شانس صید ماهی در یک روز آفتابی
388
00:15:33,690 –> 00:15:36,750
فقط ارزش ورود به سیستم 2 در 3 است و به طور مشابه
389
00:15:36,750 –> 00:15:40,080
گزارش شانس روز بارانی log 3 به
390
00:15:40,080 –> 00:15:43,740
2 است. اکنون نسبت شانس ثبت ماهی چیزی جز
391
00:15:43,740 –> 00:15:46,380
این نیست. گزارش شانس در یک روز بارانی تقسیم
392
00:15:46,380 –> 00:15:49,950
بر شانس در یک روز آفتابی است
393
00:15:49,950 –> 00:15:52,650
. نسبت شانس بنابراین گزارش نسبت شانس
394
00:15:52,650 –> 00:15:54,930
چیزی نیست جز نسبت گزارش شانس
395
00:15:54,930 –> 00:15:57,420
در یک روز آفتابی گزارش شانس در یک
396
00:15:57,420 –> 00:15:58,170
روز بارانی
397
00:15:58,170 –> 00:16:01,620
نه به اندازه ورود به سیستم 2 در 3 در 3 در 2 که
398
00:16:01,620 –> 00:16:04,140
چیزی نیست جز ثبت نقطه صفر 4 4 بنابراین
399
00:16:04,140 –> 00:16:06,540
در اینجا می توانیم بگوییم که شانس یک نسبت فرد
400
00:16:06,540 –> 00:16:09,890
هر دو متفاوت است
401
00:16:10,140 –> 00:16:12,480
حالا اجازه دهید به این مرحله برگردیم، بنابراین اکنون
402
00:16:12,480 –> 00:16:14,400
که درک درستی از log-بخت
403
00:16:14,400 –> 00:16:16,950
داریم، بنابراین آماده انجام مرحله خوب هستیم،
404
00:16:16,950 –> 00:16:20,070
بنابراین بیایید ببینیم که چگونه محور 0 1 را تبدیل کرده ایم.
405
00:16:20,070 –> 00:16:22,890
به منهای بینهایت به محور بینهایت،
406
00:16:22,890 –> 00:16:26,340
بنابراین در اینجا ما
407
00:16:26,340 –> 00:16:28,550
مقیاس احتمال را به مقیاس log-
408
00:16:28,550 –> 00:16:31,710
odds تبدیل میکنیم، بنابراین برای شانس ورود
409
00:16:31,710 –> 00:16:34,620
فرمولی داریم به عنوان گزارش احتمال هرزنامه
410
00:16:34,620 –> 00:16:37,470
تقسیم بر 1 منهای احتمال هرزنامه،
411
00:16:37,470 –> 00:16:39,540
بنابراین در اینجا احتمال وجود دارد. هرزنامه بودن یک ایمیل
412
00:16:39,540 –> 00:16:42,240
1 خوب است، بنابراین ما مقدار
413
00:16:42,240 –> 00:16:44,820
شانس گزارش را به صورت گزارش 1 تقسیم بر 1 منهای
414
00:16:44,820 –> 00:16:48,300
1
415
00:16:48,300 –> 00:16:50,670
دریافت می کنیم که log 1 بر
416
00:16:50,670 –> 00:16:54,210
0 است. از 1 منهای log از 0
417
00:16:54,210 –> 00:16:57,540
و log از 0 در اینجا منهای بینهایت است،
418
00:16:57,540 –> 00:17:00,750
بنابراین منهای منهای بینهایت چه چیزی به اضافه
419
00:17:00,750 –> 00:17:03,720
بینهایت چگونه است g از 0 در اینجا منهای
420
00:17:03,720 –> 00:17:06,540
بی نهایت است، بگذارید ببینیم بنابراین در لگاریتم کلی،
421
00:17:06,540 –> 00:17:09,510
بنابراین ما log 0 با پایه B
422
00:17:09,510 –> 00:17:11,670
برابر است با C، بنابراین اگر آن را به
423
00:17:11,670 –> 00:17:14,310
شکل نمایی تبدیل کنید، 0 برابر B به
424
00:17:14,310 –> 00:17:16,890
توان C می گیریم، بنابراین اگر مقدار B
425
00:17:16,890 –> 00:17:19,500
کمتر باشد. از 1، بنابراین مقدار C باید
426
00:17:19,500 –> 00:17:22,020
بسیار کوچک یا نزدیکتر به منهای
427
00:17:22,020 –> 00:17:24,359
بی نهایت باشد تا این معادله درست باشد،
428
00:17:24,359 –> 00:17:26,609
خوب است و
429
00:17:26,609 –> 00:17:29,310
در صورتی که B بزرگتر از 1 باشد یا
430
00:17:29,310 –> 00:17:31,950
پایه ما بزرگتر از 1 باشد، یک بی نهایت مثبت دریافت خواهیم کرد.
431
00:17:31,950 –> 00:17:34,500
به اینجا برگردیم، بنابراین اینجا log 1 در
432
00:17:34,500 –> 00:17:37,530
0 چیزی نیست جز لاگ 1 منهای لگ 0
433
00:17:37,530 –> 00:17:39,630
و نتیجه را به عنوان
434
00:17:39,630 –> 00:17:43,560
بی نهایت مثبت به عنوان Log 0 در اینجا منهای
435
00:17:43,560 –> 00:17:46,050
بی نهایت و منهای منهای بی نهایت است
436
00:17:46,050 –> 00:17:48,150
به علاوه بی نهایت چگونه می کنیم.
437
00:17:48,150 –> 00:17:51,540
مقدار بعلاوه بی نهایت را گرفتیم، بگذارید ببینیم log 0 با
438
00:17:51,540 –> 00:17:54,030
پایه B برابر است با C اگر این را به
439
00:17:54,030 –> 00:17:55,800
شکل نمایی تبدیل کنیم، چیزی شبیه به
440
00:17:55,800 –> 00:17:59,310
این 0 برابر B به توان C درست است، بنابراین
441
00:17:59,310 –> 00:18:01,770
برای اینکه معادله 1 درست باشد اگر
442
00:18:01,770 –> 00:18:04,500
مقدار B یا پایه کمتر از 1 است،
443
00:18:04,500 –> 00:18:07,080
در آن صورت مقدار C
444
00:18:07,080 –> 00:18:08,850
بی نهایت مثبت خواهد
445
00:18:08,850 –> 00:18:11,190
بود به عنوان مثال، نقطه صفر
446
00:18:11,190 –> 00:18:13,380
به توان هزار کوچکتر از نقطه صفر است،
447
00:18:13,380 –> 00:18:16,110
نقطه 1 به توان صد سمت راست، بنابراین
448
00:18:16,110 –> 00:18:18,630
مقدار C بیشتر در اینجا
449
00:18:18,630 –> 00:18:21,210
نزدیکتر، عدد به سمت راست صفر می شود و در
450
00:18:21,210 –> 00:18:23,020
حالت بعدی مقدار
451
00:18:23,020 –> 00:18:24,940
B بزرگتر از برای این
452
00:18:24,940 –> 00:18:27,820
کار باید مقدار C را به منهای
453
00:18:27,820 –> 00:18:30,340
بینهایت نزدیکتر کنیم، مثلاً 10
454
00:18:30,340 –> 00:18:33,400
به توان منهای 1 خوب یا 10 به
455
00:18:33,400 –> 00:18:35,830
توان منهای 10 داشته باشیم که کوچکتر است 10
456
00:18:35,830 –> 00:18:38,230
به توان منهای 10 درست است، بنابراین
457
00:18:38,230 –> 00:18:40,720
بسیار زیاد است. کوچکتر یا نزدیکتر به 0 10 به
458
00:18:40,720 –> 00:18:43,390
توان منهای 10 درست است، به همین دلیل است که ما
459
00:18:43,390 –> 00:18:46,240
باید مقدار C را تا جایی
460
00:18:46,240 –> 00:18:48,610
که می توانیم کمتر نگه داریم، بنابراین اگر مقدار B
461
00:18:48,610 –> 00:18:51,340
بزرگتر از 1 باشد، مقدار C
462
00:18:51,340 –> 00:18:54,070
باید نزدیک به منفی باشد. بی نهایت و همه برای
463
00:18:54,070 –> 00:18:56,140
اینکه معادله درست شود، بنابراین در این حالت
464
00:18:56,140 –> 00:18:59,500
لاگ 1 در 0 به طور پیش فرض پایه های
465
00:18:59,500 –> 00:19:02,290
10 ok را داریم، به همین دلیل است که اگر
466
00:19:02,290 –> 00:19:05,200
مقدار C را منهای بی نهایت در نظر بگیریم، منهای و
467
00:19:05,200 –> 00:19:08,200
منهای بینهایت به علاوه بی نهایت است پس
468
00:19:08,200 –> 00:19:10,000
به همین دلیل است که بعلاوه بی نهایت را
469
00:19:10,000 –> 00:19:12,540
در اینجا ضبط کنید امیدوارم این موضوع برای شما روشن باشد که
470
00:19:12,540 –> 00:19:15,370
چگونه به آن رسیدیم e مقدار شانس گزارش
471
00:19:15,370 –> 00:19:18,580
بهعلاوه بینهایت، بنابراین من این را بهعنوان
472
00:19:18,580 –> 00:19:20,930
شانس ثبت بینهایت رسم میکنم
473
00:19:20,930 –> 00:19:23,480
حالا بعد بیایید شانس گزارش
474
00:19:23,480 –> 00:19:25,850
نامههای غیر هرزنامه را پیدا کنیم، بنابراین در اینجا
475
00:19:25,850 –> 00:19:28,550
فرمول را به عنوان گزارش احتمال اینکه amnael
476
00:19:28,550 –> 00:19:30,650
اسپم نباشد تقسیم بر 1 منهای
477
00:19:30,650 –> 00:19:32,750
اولویت ایمیل که هرزنامه
478
00:19:32,750 –> 00:19:36,260
نیست، بنابراین گزارش 0 تقسیم بر 1 منهای 0 بنابراین
479
00:19:36,260 –> 00:19:39,500
ما log 0 بر 1 داریم که log 0 منهای
480
00:19:39,500 –> 00:19:43,490
log 1 است که به منهای بی نهایت تمایل دارد. بسیار خوب
481
00:19:43,490 –> 00:19:46,670
مفهوم مشابه اکنون ما داده های خود را
482
00:19:46,670 –> 00:19:47,120
در اینجا داریم
483
00:19:47,120 –> 00:19:49,730
بنابراین اول ما 1 خط رگرسیون را فرض می کنیم،
484
00:19:49,730 –> 00:19:51,650
بنابراین اکنون داده های خود را در اینجا
485
00:19:51,650 –> 00:19:53,780
داریم، بنابراین ابتدا 1 خط رگرسیون را فرض می کنیم،
486
00:19:53,780 –> 00:19:56,030
سپس داده های خود را روی
487
00:19:56,030 –> 00:19:58,220
خط رگرسیون قرار می دهیم خوب
488
00:19:58,220 –> 00:20:00,890
حالا اجازه دهید فقط به مرحله ای برگردیم که
489
00:20:00,890 –> 00:20:02,930
با کمک سیگموید تابع
490
00:20:02,930 –> 00:20:05,390
احتمال احتمال هرزنامه بودن نامه را
491
00:20:05,390 –> 00:20:08,720
تبدیل می کند، اما این
492
00:20:08,720 –> 00:20:11,300
تابع بخش به چه م