در این مطلب، ویدئو L24/2 توجه در پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:10:57
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:02,070
بنابراین ما این لایههای توجه را پیادهسازی
2
00:00:02,070 –> 00:00:04,470
میکنیم که گاهی اوقات
3
00:00:04,470 –> 00:00:07,020
مکانیسم توجه نامیده میشود، اما شما میتوانید هر هفته خالص را انتخاب کنید،
4
00:00:07,020 –> 00:00:09,000
اما
5
00:00:09,000 –> 00:00:12,000
اگر توجه را به مدلی جلب کنیم، باید لایه توجه
6
00:00:12,000 –> 00:00:16,830
7
00:00:16,830 –> 00:00:19,590
را
8
00:00:19,590 –> 00:00:23,789
معادل سازی کنیم. ماکس پس ما در آخرین
9
00:00:23,789 –> 00:00:25,949
سخنرانی که در مورد آن صحبت کردیم باختیم نه از قفل ماسک
10
00:00:25,949 –> 00:00:28,199
علیبی طول ایده اینجا این است که
11
00:00:28,199 –> 00:00:34,160
خوب اگر من را
12
00:00:34,160 –> 00:00:38,460
سرگرم کنم ایده اینجاست اگر
13
00:00:38,460 –> 00:00:43,530
مانند کلیدها را از میل به پایان نبوسیده باشم و گاهی
14
00:00:43,530 –> 00:00:46,350
اوقات نمی کنم. میخواهم حتی همه کلیدهای
15
00:00:46,350 –> 00:00:48,300
اینجا را دوست داشته باشم، گاهی اوقات فکر میکنم خوب، این کلیدها است،
16
00:00:48,300 –> 00:00:51,860
شاید از طرف من وارد شدهام،
17
00:00:51,860 –> 00:00:54,809
فقط نمیخواهم از آنها استفاده کنم، شما میتوانید این کار را انجام دهید من
18
00:00:54,809 –> 00:00:57,059
فقط میخواهم در دهه اول استفاده کنم،
19
00:00:57,059 –> 00:01:00,570
شاید کلیدهایی که انتخاب میکنیم
20
00:01:00,570 –> 00:01:04,080
لانه دره را به عنوان K انتخاب کنید و سپس فقط از
21
00:01:04,080 –> 00:01:07,140
Ok استفاده کنید اما ما نمی دانیم مثل اینکه ما هنوز
22
00:01:07,140 –> 00:01:09,600
به شما کلید می دهیم اینجا چه کار می کنید
23
00:01:09,600 –> 00:01:13,290
ابتدا همه اینها را مانند آلفا 1 محاسبه کنید تا
24
00:01:13,290 –> 00:01:16,650
از 1 تا n داشته باشید اما می خواهید برای اینکه
25
00:01:16,650 –> 00:01:20,100
همه چیزها را به صفر برسانیم زیرا می
26
00:01:20,100 –> 00:01:22,619
خواهیم قرار دهیم سافت مکسی که واقعا می خواهید انجام دهید
27
00:01:22,619 –> 00:01:26,009
مانند این است که می خواهید softmax را قرار دهید
28
00:01:26,009 –> 00:01:29,220
به v-0 بروید زیرا نمی
29
00:01:29,220 –> 00:01:32,850
خواهید مقادیر را در خروجی قرار دهید تا
30
00:01:32,850 –> 00:01:35,159
سافت مکس 0 شود، کاری که در اینجا انجام می دهند.
31
00:01:35,159 –> 00:01:38,850
32
00:01:38,850 –> 00:01:40,950
بینهایت منفی چون در سافتمکس exp داریم،
33
00:01:40,950 –> 00:01:44,460
بنابراین ایده اینجا که مهم نیست
34
00:01:44,460 –> 00:01:47,030
مثل بردار سه بعدی است، اما میتوانیم به
35
00:01:47,030 –> 00:01:50,520
تغییر شکل ایده در اینجا توجه کنیم، شما میخواهید
36
00:01:50,520 –> 00:01:52,920
یک چوب داشته باشید، من یک ماسک دارم که میخواهید
37
00:01:52,920 –> 00:01:56,460
مقادیر منفی قرمز داشته باشید، بنابراین واقعاً اینطور است.
38
00:01:56,460 –> 00:01:58,680
متفاوت از قبل بود که فقط باید به 0 می
39
00:01:58,680 –> 00:02:01,890
رسیدیم، اما اکنون به اعداد بی نهایت می گوییم و سپس
40
00:02:01,890 –> 00:02:03,750
می توانید سافت مکس را فقط روی توکا محاسبه کنید،
41
00:02:03,750 –> 00:02:05,790
بنابراین این در مورد این
42
00:02:05,790 –> 00:02:08,729
تابع با ورودی های بسیار مشابه است، با
43
00:02:08,729 –> 00:02:11,430
توجه به یک سری لیست از کلیدها، یک معامله ارائه می دهد.
44
00:02:11,430 –> 00:02:13,470
و ما
45
00:02:13,470 –> 00:02:18,180
میتوانیم چیزی را که شما میخواهید علامتگذاری کنیم خوب است،
46
00:02:18,180 –> 00:02:21,300
بنابراین فکر میکنم میتوانم عملکرد احتمالاً متوجه را ترک کنم،
47
00:02:21,300 –> 00:02:24,420
بنابراین اولین جوهره
48
00:02:24,420 –> 00:02:27,540
توجه به محصول نقطه تماس اجازه دهید ببینم
49
00:02:27,540 –> 00:02:32,270
چند عدد میتواند
50
00:02:35,300 –> 00:02:38,540
شاید فقط باید اینجا نشان دهیم تا
51
00:02:38,540 –> 00:02:40,760
تنش معمولاً بتوانیم اعمال کنیم رها کردن
52
00:02:40,760 –> 00:02:42,470
در پایان توجه روی قوطیها شبیه
53
00:02:42,470 –> 00:02:44,870
به مد شما هستند، لایه دهمی که همیشه میتوانید
54
00:02:44,870 –> 00:02:47,900
اضافه کنید و آن را کنار بگذارید، و بنابراین
55
00:02:47,900 –> 00:02:49,300
چهارمین
56
00:02:49,300 –> 00:02:52,900
تابع پرس و جو، اندازه دستهای و
57
00:02:52,900 –> 00:02:55,670
تعداد کوئریهایی است که دارید و
58
00:02:55,670 –> 00:02:57,410
بعد پرس و جو که یک D است،
59
00:02:57,410 –> 00:02:59,540
زیرا بالای آن وجود دارد. محصولاتی که شما
60
00:02:59,540 –> 00:03:01,460
نیاز دارید تضمین می کنند که کلیدها پرس و جوها
61
00:03:01,460 –> 00:03:03,830
و کلیدها دارای ابعاد یکسانی هستند.
62
00:03:03,830 –> 00:03:06,800
63
00:03:06,800 –> 00:03:09,860
64
00:03:09,860 –> 00:03:11,960
65
00:03:11,960 –> 00:03:12,740
66
00:03:12,740 –> 00:03:14,990
بعد دیگری
67
00:03:14,990 –> 00:03:16,550
مانند جهان در لانه که نیازی
68
00:03:16,550 –> 00:03:18,800
نیست در حال حاضر در نظر بگیریم، ما به آن
69
00:03:18,800 –> 00:03:21,050
برای ترانسفورماتور نیاز داریم، اما
70
00:03:21,050 –> 00:03:22,240
در حال حاضر
71
00:03:22,240 –> 00:03:27,080
به آن نیاز نداریم، بنابراین کاری که ما اینجا انجام می دهیم این است که ما فقط
72
00:03:27,080 –> 00:03:29,990
از یک دسته فکر از ایده اینجا استفاده می کنیم. این است
73
00:03:29,990 –> 00:03:34,100
که شما باید بسازید یک دسته برای
74
00:03:34,100 –> 00:03:35,810
هر دسته است که ما یک ضرب نابالغ بزرگ انجام می دهیم،
75
00:03:35,810 –> 00:03:40,040
بنابراین چند بار K
76
00:03:40,040 –> 00:03:44,210
جابجا می شود، پس از آن پرس و جو را داده ایم
77
00:03:44,210 –> 00:03:46,700
که کلید داده ایم و می گوییم که P برابر
78
00:03:46,700 –> 00:03:50,540
با qu جابجا شود، فقط کلید K را جابجا می کنیم، خوب است
79
00:03:50,540 –> 00:03:53,530
و سپس تقسیم بر مربع ریشه مجدد T،
80
00:03:53,530 –> 00:03:57,830
بنابراین یک امتیاز داده است، بنابراین با توجه به
81
00:03:57,830 –> 00:04:01,580
امتیاز، ما یک حداکثر نرم افزاری را محاسبه می کنیم، بنابراین تنها
82
00:04:01,580 –> 00:04:03,980
چیزی که در اینجا فقط حداکثر نرم افزار اصلی است،
83
00:04:03,980 –> 00:04:07,300
زیرا شما می توانید یک واریانس بدهید که
84
00:04:07,300 –> 00:04:10,220
برای هر کلید برای unki برای هر
85
00:04:10,220 –> 00:04:13,670
مثالی که من می توانم انتخاب کنم. فقط چند
86
00:04:13,670 –> 00:04:15,530
جفت ارزش کلیدی معتبر هستند، بنابراین
87
00:04:15,530 –> 00:04:18,350
این چیز اضافی است که در حداکثر فرعی قرار داده
88
00:04:18,350 –> 00:04:20,750
می شود که چیزی را نشان می دهد، سپس ما از یک بازگردانی استفاده می
89
00:04:20,750 –> 00:04:21,200
کنیم،
90
00:04:21,200 –> 00:04:22,880
آیا دوست دارید یک عبارت منظم سازی اینجا
91
00:04:22,880 –> 00:04:26,270
در پایان، دسته دیگری است که برای
92
00:04:26,270 –> 00:04:27,920
هر مثال برای بهترین مقدار آموزش داده می شود. ما فقط
93
00:04:27,920 –> 00:04:30,800
داریم مثل این است که راهی است به مجموع برای
94
00:04:30,800 –> 00:04:33,380
راهی که داریم، بنابراین این یک
95
00:04:33,380 –> 00:04:35,680
پیادهسازی از هوای کششی است
96
00:04:35,680 –> 00:04:38,420
که درک آن اساساً آسان است، مثل این است که
97
00:04:38,420 –> 00:04:41,600
دوره رایانه نرمافزار را محاسبه میکند
98
00:04:41,600 –> 00:04:45,590
مانند تنشها منتظر میمانند و
99
00:04:45,590 –> 00:04:47,279
سپس وزنها را به
100
00:04:47,279 –> 00:04:50,759
مقادیر سه اعمال میکنند. شب های یک کد خوب است هر
101
00:04:50,759 –> 00:04:57,329
سوالی تا اینجای کار من می توانم مثالی بزنم
102
00:04:57,329 –> 00:05:01,489
در اینجا ما یک کار انجام می دهیم که چگونه برابر با نصف باشیم
103
00:05:01,489 –> 00:05:04,549
با توجه به اینکه کلیدها برابر با
104
00:05:04,549 –> 00:05:09,509
210 کلید هستند.
105
00:05:09,509 –> 00:05:17,819
106