در این مطلب، ویدئو آموزش یادگیری ماشین Python – 14: Naive Bayes Classifier Algorithm Part 1 با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:13:37
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,060 –> 00:00:02,100
در این آموزش دو قسمتی قصد داریم در
2
00:00:02,100 –> 00:00:04,350
مورد بیز ساده و بی تکلف بیاموزیم، در بخش اول
3
00:00:04,350 –> 00:00:06,600
برخی از تئوری ها را پوشش خواهیم داد و سپس
4
00:00:06,600 –> 00:00:08,639
میزان بقای تایتانیک را با استفاده از بیز ساده پیش بینی می کنیم
5
00:00:08,639 –> 00:00:11,099
و در قسمت دوم
6
00:00:11,099 –> 00:00:14,250
ردیاب اسپم ایمیل را می سازیم و در
7
00:00:14,250 –> 00:00:16,350
اینجا لیستی از موضوعات به همراه خط زمانی،
8
00:00:16,350 –> 00:00:17,670
بنابراین اگر میخواهید به
9
00:00:17,670 –> 00:00:20,010
موضوع خاصی بروید، میتوانید این کار را انجام دهید،
10
00:00:20,010 –> 00:00:23,310
بیایید با یک نظریه احتمال اولیه شروع کنیم،
11
00:00:23,310 –> 00:00:25,740
همه شما میدانید که وقتی یک سکه را میچرخانید
12
00:00:25,740 –> 00:00:28,050
، احتمال به دست آوردن سر یا
13
00:00:28,050 –> 00:00:30,300
دم ۱ به ۲ است، زیرا دو نتیجه ممکن وجود
14
00:00:30,300 –> 00:00:32,880
دارد و شانس به دست آوردن سر
15
00:00:32,880 –> 00:00:36,450
یا دم 50٪ است به طور مشابه وقتی یک
16
00:00:36,450 –> 00:00:39,390
کارت تصادفی انتخاب می کنید، احتمال
17
00:00:39,390 –> 00:00:41,730
ملکه بودن این است که چقدر به
18
00:00:41,730 –> 00:00:44,100
آن فکر کنید، بسیار ساده است، در
19
00:00:44,100 –> 00:00:48,329
مجموع 4 ملکه 52 کارت وجود دارد، بنابراین
20
00:00:48,329 –> 00:00:50,820
احتمال دریافت ملکه 4 است. 52
21
00:00:50,820 –> 00:00:54,870
که 1 در 13 می شود اگر بدانید
22
00:00:54,870 –> 00:00:57,510
کارتی که انتخاب کرده اید یک الماس است،
23
00:00:57,510 –> 00:00:59,640
پس احتمال اینکه یک
24
00:00:59,640 –> 00:01:01,530
ملکه چاه به دست آورید چقدر است به این احتمال شرطی می
25
00:01:01,530 –> 00:01:04,619
گویند که در آن می دانید حتی
26
00:01:04,619 –> 00:01:07,170
a رخ داده است و حالا شما سعی
27
00:01:07,170 –> 00:01:11,130
می کنید احتمال B را پیش بینی کنید، بنابراین مجموع
28
00:01:11,130 –> 00:01:13,619
الماس ها 13 است ملکه 1 است.
29
00:01:13,619 –> 00:01:17,790
30
00:01:17,790 –> 00:01:19,890
31
00:01:19,890 –> 00:01:22,799
32
00:01:22,799 –> 00:01:25,799
33
00:01:25,799 –> 00:01:28,110
جایی که می دانید الماس رویداد
34
00:01:28,110 –> 00:01:29,880
قبلاً رخ داده است و احتمال به
35
00:01:29,880 –> 00:01:31,530
دست آوردن ملکه چیزی است که شما در حال
36
00:01:31,530 –> 00:01:33,750
محاسبه آن هستید، بنابراین اولویت شرطی نامیده می شود
37
00:01:33,750 –> 00:01:36,240
و روشی که
38
00:01:36,240 –> 00:01:39,960
نشان داده می شود P از یک اسلش B است که در آن
39
00:01:39,960 –> 00:01:42,659
رویداد B قبلاً رخ داده است
40
00:01:42,659 –> 00:01:44,670
که شما هستید. بدانید که کارت الماس است
41
00:01:44,670 –> 00:01:47,040
و شما در حال تلاش برای یافتن
42
00:01:47,040 –> 00:01:49,740
احتمال رویداد a هستید که این است که
43
00:01:49,740 –> 00:01:53,790
آیا ماشین ملکه است یا نه توماس بیز
44
00:01:53,790 –> 00:01:57,450
این معادله معروف پیدا کردن یک
45
00:01:57,450 –> 00:01:59,850
احتمال شرطی را ارائه کرد که در آن شما می
46
00:01:59,850 –> 00:02:03,600
توانید احتمال رویداد B
47
00:02:03,600 –> 00:02:06,090
را پیدا کنید. با دانستن برخی از پارامترها
48
00:02:06,090 –> 00:02:07,979
که احتمالات فردی
49
00:02:07,979 –> 00:02:11,370
a و B است و دانستن احتمال B
50
00:02:11,370 –> 00:02:13,190
با توجه به اینکه a دارای curr است رخ داده است،
51
00:02:13,190 –> 00:02:15,920
بنابراین اجازه دهید آن را در زمینه ملکه خود نگاه
52
00:02:15,920 –> 00:02:19,100
کنیم. مشکل الماس d بنابراین در
53
00:02:19,100 –> 00:02:21,620
اینجا این همان معادله ای است که من
54
00:02:21,620 –> 00:02:24,170
برای مورد خاص خود ارائه کرده ام
55
00:02:24,170 –> 00:02:26,600
و شما این
56
00:02:26,600 –> 00:02:28,580
احتمالات را می دانید و اگر آنها را در
57
00:02:28,580 –> 00:02:31,580
معادله ما قرار دهید می توانید به راحتی این
58
00:02:31,580 –> 00:02:33,680
احتمال شرطی را پیدا کنید اکنون این یک
59
00:02:33,680 –> 00:02:37,160
قضیه بسیار قدرتمند است که در آن
60
00:02:37,160 –> 00:02:39,230
احتمال را می دانید از وقایع خاص اما شما
61
00:02:39,230 –> 00:02:41,180
احتمال برخی از رویدادهای دیگر را نمی دانید
62
00:02:41,180 –> 00:02:43,310
و با استفاده از آن رویدادهای خاص
63
00:02:43,310 –> 00:02:47,990
می توانید احتمالات دیگری را که همه
64
00:02:47,990 –> 00:02:50,060
در مورد مزخرفات تایتانیک می دانید پیدا کنید،
65
00:02:50,060 –> 00:02:52,790
فیلمی ساخته شد و فوق العاده
66
00:02:52,790 –> 00:02:56,060
موفق بود اما آن رویداد در واقع رخ داد و
67
00:02:56,060 –> 00:02:59,600
گفته شد که تعداد زیادی از مردم کشته شده
68
00:02:59,600 –> 00:03:02,480
اند ما مجموعه داده های این سقوط تایتانیک را
69
00:03:02,480 –> 00:03:04,610
داریم، نام افراد به همراه
70
00:03:04,610 –> 00:03:07,310
ویژگی های خاصی وجود دارد که
71
00:03:07,310 –> 00:03:10,940
بر اساس آن کابینه بلیط کرایه شما وجود دارد که بر اساس آن ما
72
00:03:10,940 –> 00:03:13,010
در تلاش هستیم تا میزان بقا را
73
00:03:13,010 –> 00:03:16,220
دریابیم و در اینجا ما میتوان از قضیه بیز استفاده کرد که در آن
74
00:03:16,220 –> 00:03:18,620
سعی میکنیم احتمال
75
00:03:18,620 –> 00:03:22,010
بقا را بر اساس ویژگیهایی پیدا کنیم، مثلاً
76
00:03:22,010 –> 00:03:25,459
اگر فرد مرد بود،
77
00:03:25,459 –> 00:03:28,010
کرایه کابین سن کلاس و غیره دلیل را
78
00:03:28,010 –> 00:03:31,130
بیز ساده لوح می نامند زیرا ما یک
79
00:03:31,130 –> 00:03:34,790
فرض ساده لوحانه می کنیم که ویژگی های
80
00:03:34,790 –> 00:03:38,290
کابین های کلاس مردانه و غیره
81
00:03:38,290 –> 00:03:41,030
مستقل از یکدیگر هستند در واقع
82
00:03:41,030 –> 00:03:42,560
برخی از این ویژگی ها ممکن است
83
00:03:42,560 –> 00:03:45,950
وابسته باشند مانند نمایشگاه منصفانه و
84
00:03:45,950 –> 00:03:49,640
کابین به نوعی مرتبط هستند. اما برای سادگی فرض می کنیم
85
00:03:49,640 –> 00:03:52,040
که اینها به
86
00:03:52,040 –> 00:03:54,680
هم مرتبط نیستند، بنابراین به آن بیز ساده می
87
00:03:54,680 –> 00:03:56,900
گویند و این یک فرض ساده است
88
00:03:56,900 –> 00:04:00,350
که محاسبه ما را کاهش می دهد
89
00:04:00,350 –> 00:04:03,800
و الگوریتم را ساده و در عین حال موثر می کند اگر
90
00:04:03,800 –> 00:04:06,350
می خواهید کمی به ریاضی بروید، می
91
00:04:06,350 –> 00:04:09,530
توانید این ویدیو را تماشا کنید. ویدیو توسط
92
00:04:09,530 –> 00:04:11,959
luis serrano است و او واقعاً
93
00:04:11,959 –> 00:04:15,230
آن را به خوبی توضیح داده است. من یک لینک از این ویدیو را
94
00:04:15,230 –> 00:04:18,048
در توضیحات ویدیوی زیر دارم، بنابراین به تماشای
95
00:04:18,048 –> 00:04:20,390
آن بروید، اگر می خواهید
96
00:04:20,390 –> 00:04:21,589
جزئیات را بدانید
97
00:04:21,589 –> 00:04:24,289
اکنون پایه شما در تشخیص هرزنامه ایمیل استفاده می شود بسیار مفید خواهد بود.
98
00:04:24,289 –> 00:04:25,760
99
00:04:25,760 –> 00:04:28,710
تشخیص شخصیت پیش بینی آب و هوا
100
00:04:28,710 –> 00:04:32,970
تشخیص چهره و
101
00:04:32,970 –> 00:04:36,150
طبقه بندی مقاله های خبری حالا بیایید
102
00:04:36,150 –> 00:04:39,090
مستقیماً به کدنویسی از
103
00:04:39,090 –> 00:04:41,520
وب سایت Cagle برویم. من مجموعه داده های تایتانیک را دانلود کرده ام
104
00:04:41,520 –> 00:04:44,310
در اینجا به صورت CSV به صورت محلی در دسترس است،
105
00:04:44,310 –> 00:04:46,920
می توانید نام همه
106
00:04:46,920 –> 00:04:48,720
مسافران را ببینید و ویژگی های آنها را ببینید و
107
00:04:48,720 –> 00:04:50,850
اینکه آیا آنها زنده مانده اند یا نه.
108
00:04:50,850 –> 00:04:54,420
109
00:04:54,420 –> 00:04:57,060
110
00:04:57,060 –> 00:04:59,430
111
00:04:59,430 –> 00:05:00,900
ابتدا میخواهیم دادهها را کاوش
112
00:05:00,900 –> 00:05:03,600
کنیم، میتوانیم ببینیم که برخی از
113
00:05:03,600 –> 00:05:05,490
ویژگیها احتمالاً مرتبط نیستند، بنابراین
114
00:05:05,490 –> 00:05:07,530
من فقط فرض میکنم که
115
00:05:07,530 –> 00:05:09,900
آنها تأثیری بر متغیر هدف من ندارند، برای
116
00:05:09,900 –> 00:05:11,640
مثال نام نوشتن مانند نام
117
00:05:11,640 –> 00:05:13,290
مهم نیست. اسمش چی بود
118
00:05:13,290 –> 00:05:16,260
تاثیری روی میزان بقا
119
00:05:16,260 –> 00:05:18,720
نداره و بنابراین من این متغیرها رو کنار میذارم و
120
00:05:18,720 –> 00:05:22,110
فریم داده هام رو کمی ساده تر می کنم
121
00:05:22,110 –> 00:05:24,600
پس همه این متغیرها رو حذف کردم و
122
00:05:24,600 –> 00:05:27,210
حالا این قاب داده رو دارم حالا یک چیزی که
123
00:05:27,210 –> 00:05:29,970
متوجه شدم این بود این متغیر هدف وجود دارد
124
00:05:29,970 –> 00:05:31,830
که میخواهم آن را
125
00:05:31,830 –> 00:05:35,120
به سریهای متفاوتی جدا کنم، بنابراین میگویم
126
00:05:35,120 –> 00:05:41,510
هدف برابر است با DF dot Surved و
127
00:05:41,510 –> 00:05:45,750
ورودیهایی که متغیرهای وابسته من
128
00:05:45,750 –> 00:05:49,860
برای آن متغیر هستند،
129
00:05:49,860 –> 00:05:53,460
ستون باقیمانده را رها میکنم و فقط بقیه آن را قرار میدهم. بنابراین به این
130
00:05:53,460 –> 00:05:56,280
ترتیب من متغیرهای مستقل و
131
00:05:56,280 –> 00:05:58,140
متغیرهای وابسته خود را در دو نهاد جداگانه قرار
132
00:05:58,140 –> 00:06:01,710
می دهم و می توانیم ببینیم که ستون جنسیت
133
00:06:01,710 –> 00:06:05,400
متن ما است و می خواهیم آن را
134
00:06:05,400 –> 00:06:08,280
به ستون های ساختگی تبدیل کنیم زیرا همه ما می دانیم
135
00:06:08,280 –> 00:06:10,380
که مدل های یادگیری ماشینی نمی
136
00:06:10,380 –> 00:06:12,419
توانند متن را مدیریت کنند. ما باید آنها را به اعداد تبدیل کنیم
137
00:06:12,419 –> 00:06:15,840
و من یک کدگذاری داغ
138
00:06:15,840 –> 00:06:18,600
یا آموزش ساختگی دارم و در آنجا
139
00:06:18,600 –> 00:06:21,180
توضیح داده ام که چرا به آن نیاز است، اما در اینجا
140
00:06:21,180 –> 00:06:23,700
این کاری است که می خواهم انجام دهم تا
141
00:06:23,700 –> 00:06:27,479
آدمک ها اساساً
142
00:06:27,479 –> 00:06:31,830
ستون جنسیت را به دو ستون مختلف تبدیل کنند و
143
00: