فیلم آموزشی: آموزش ساخت مدل در پایتون برای تجزیه و تحلیل احساسات از داده های توییتر با زیرنویس فارسی

در این مطلب، ویدئو آموزش ساخت مدل در پایتون برای تجزیه و تحلیل احساسات از داده های توییتر با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.

تصاویر این ویدئو:

قسمتی از زیرنویس این فیلم:

1
00:00:00,960 –> 00:00:04,670
[موسیقی]

2
00:00:04,670 –> 00:00:06,870
سلام به همه از شما برای پیوستن به

3
00:00:06,870 –> 00:00:09,480
تجزیه و تحلیل احساسات وبینار امروز برای

4
00:00:09,480 –> 00:00:11,639
تجارت الگوریتمی از طرف

5
00:00:11,639 –> 00:00:13,320
تریاک مورد نیاز سپاسگزاریم، مایلیم از دیتا کمپ برای

6
00:00:13,320 –> 00:00:15,360
میزبانی این وبینار با ما تشکر کنیم و اگر

7
00:00:15,360 –> 00:00:17,220
آموخته اید که به دنبال یادگیری بسیاری از

8
00:00:17,220 –> 00:00:18,660
مهارت های علم داده هستید تحت پوشش قرار گرفتن در

9
00:00:18,660 –> 00:00:20,460
این کمپ داده وبینار یک

10
00:00:20,460 –> 00:00:22,109
پلت فرم یادگیری عالی برای این مهارت ها است و

11
00:00:22,109 –> 00:00:23,609
ما شما را تشویق می کنیم که آنها را در کمپ داده بررسی کنید. آنها

12
00:00:23,609 –> 00:00:25,710

13
00:00:25,710 –> 00:00:29,070
دوره های آنلاین تعاملی در پایتون SQL ما دارند

14
00:00:29,070 –> 00:00:31,529
و موارد دیگر.

15
00:00:31,529 –> 00:00:34,020
و

16
00:00:34,020 –> 00:00:36,540

17
00:00:36,540 –> 00:00:37,770
پیشینه علم داده مکس باربرا و نه مکس پیشینه ماکس در آمار ریاضیات کاربردی

18
00:00:37,770 –> 00:00:40,590
و امور مالی کمی است. او

19
00:00:40,590 –> 00:00:42,540
مجموعه سخنرانی های آنلاین را در canto

20
00:00:42,540 –> 00:00:44,309
peon اجرا می کند و مسئول برنامه های درسی کارگاه ها

21
00:00:44,309 –> 00:00:46,800
و محتوای آموزشی است و

22
00:00:46,800 –> 00:00:48,329
علاوه بر تجربه

23
00:00:48,329 –> 00:00:50,070
تجارت الگوریتمی ارزهای

24
00:00:50,070 –> 00:00:52,620
دیجیتال در تخمین سوگیری کوواریانس، مسئول برنامه های درسی کارگاه ها و محتوای آموزشی است.

25
00:00:52,620 –> 00:00:54,719
matrices max کارهایی در

26
00:00:54,719 –> 00:00:56,850
زمینه ریاضیات نظری منتشر کرده است که با دانشگاه های برتر کار می کند

27
00:00:56,850 –> 00:00:58,710

28
00:00:58,710 –> 00:01:00,989
از جمله دانشگاه کلمبیا شیکاگو و کرنل و

29
00:01:00,989 –> 00:01:03,300
دارای مدرک کارشناسی ارشد در رشته مالی ریاضی

30
00:01:03,300 –> 00:01:06,600
از دانشگاه بوستون است. از همه تشکر می کنم

31
00:01:06,600 –> 00:01:09,330
برای صفحه مقدماتی، همانطور که پیج

32
00:01:09,330 –> 00:01:12,000
گفت من حداکثر مورگان هستم و من کوانتو

33
00:01:12,000 –> 00:01:15,030
کیان را می پزم او همیشه سرگرم کننده است، بنابراین این صحبت من است برای

34
00:01:15,030 –> 00:01:16,740
خرید شادی

35
00:01:16,740 –> 00:01:18,240
چون شما همیشه باید

36
00:01:18,240 –> 00:01:19,920
هر زمان که سخنرانی می کنید یک عنوان تحریک

37
00:01:19,920 –> 00:01:20,850

38
00:01:20,850 –> 00:01:22,950
کننده داشته باشید زیرا این نیمی از ارزش سرگرمی است و زیرنویس

39
00:01:22,950 –> 00:01:25,170
از lc-ms استفاده می کند تا احساسات را به معامله تبدیل کند

40
00:01:25,170 –> 00:01:29,189
همانطور که همه می توانید بخوانید بنابراین من

41
00:01:29,189 –> 00:01:30,479
اساساً در

42
00:01:30,479 –> 00:01:33,390
این سخنرانی چه خواهم کرد. دو مرحله جداگانه است،

43
00:01:33,390 –> 00:01:35,880
مرحله اول این است که چگونه پردازش زبان طبیعی اولیه را انجام دهیم

44
00:01:35,880 –> 00:01:37,860

45
00:01:37,860 –> 00:01:39,840
تا چگونه مدل احساسات را بسازید

46
00:01:39,840 –> 00:01:41,520
و سپس من در مورد اینکه چگونه

47
00:01:41,520 –> 00:01:44,579
می توانیم واقعاً از این مدل برای

48
00:01:44,579 –> 00:01:50,100
تجارت الگوریتمی استفاده کنیم، صحبت خواهم کرد، بنابراین اجازه دهید ابتدا یک

49
00:01:50,100 –> 00:01:51,000
سلب مسئولیت

50
00:01:51,000 –> 00:01:53,579
هیچ کدام از اینها توصیه سرمایه گذاری نیست،

51
00:01:53,579 –> 00:01:58,409
این فقط سرگرم کننده است، بله،

52
00:01:58,409 –> 00:02:00,810
و همانطور که عوضی گفت من بسیاری از

53
00:02:00,810 –> 00:02:02,969
مطالب آموزشی را در اینجا مدیریت می کنم و این

54
00:02:02,969 –> 00:02:05,340
چیزی است که تحت عنوان من قرار می گیرد.

55
00:02:05,340 –> 00:02:07,860
روی الگوریتم‌های معبد زیادی کار کرده‌ایم. مثال‌های زیادی از

56
00:02:07,860 –> 00:02:09,570
چیزهای جالب، بخشی از کارهایی

57
00:02:09,570 –> 00:02:11,490
که مجموعه سخنرانی‌های کانتو P انجام می‌دهد این است که

58
00:02:11,490 –> 00:02:14,460
به افراد پیش‌زمینه‌ای در ریاضیات

59
00:02:14,460 –> 00:02:17,310
و آمار و امور مالی لازم برای

60
00:02:17,310 –> 00:02:18,720
ایجاد الگوریتم‌های معاملاتی می‌دهد، زیرا این

61
00:02:18,720 –> 00:02:21,180
نوع به نتیجه ما کمک می‌کند.

62
00:02:21,180 –> 00:02:23,550
علاقه ویژه ای به جذب هرچه

63
00:02:23,550 –> 00:02:25,260
بیشتر افراد به خصوص کسانی

64
00:02:25,260 –> 00:02:27,150
که بخشی از جامعه ما هستند به

65
00:02:27,150 –> 00:02:28,950
امور مالی کمی علاقه مند هستند و

66
00:02:28,950 –> 00:02:31,470
تا جایی که ممکن است الگوریتم های زیادی را توسعه دهیم

67
00:02:31,470 –> 00:02:33,480
زیرا افرادی در جامعه ما

68
00:02:33,480 –> 00:02:35,190
که بهترین الگوریتم ها را ایجاد می کنند،

69
00:02:35,190 –> 00:02:38,060
می توانند به آنها اختصاص داده شوند و

70
00:02:38,060 –> 00:02:41,600
در کل مجموعه ما نویسنده شوید، بنابراین ما این

71
00:02:41,600 –> 00:02:43,800
انگیزه مستقیم را داریم که مطمئن شویم

72
00:02:43,800 –> 00:02:45,030
مردم تا حد ممکن در

73
00:02:45,030 –> 00:02:48,720
امور مالی کمی می دانند، بنابراین

74
00:02:48,720 –> 00:02:51,390
پردازش زبان طبیعی علاوه بر کلمات سرگرم کننده

75
00:02:51,390 –> 00:02:52,020

76
00:02:52,020 –> 00:02:54,180
، مجموعه ای از علوم کامپیوتر

77
00:02:54,180 –> 00:02:56,010
و ابزارهای زبان شناسی است که برای

78
00:02:56,010 –> 00:02:58,260
تفسیر زبان انسان استفاده می شود. و متن و

79
00:02:58,260 –> 00:03:00,480
parlin در درجه اول در این مورد ما

80
00:03:00,480 –> 00:03:03,000
از پردازش زبان طبیعی استفاده می کنیم برای

81
00:03:03,000 –> 00:03:05,640
تعیین کمیت متن بدون ساختار و

82
00:03:05,640 –> 00:03:07,410
دلیل اهمیت این موضوع به خصوص

83
00:03:07,410 –> 00:03:09,630
در زمینه مالی کمی

84
00:03:09,630 –> 00:03:12,450
این است که داده های زیادی وجود دارد

85
00:03:12,450 –> 00:03:15,090
و در امور مالی کمی در

86
00:03:15,090 –> 00:03:16,620
معاملات الگوریتمی در معاملات به

87
00:03:16,620 –> 00:03:18,840
طور کلی بسیاری از آنچه به شما برتری می دهد

88
00:03:18,840 –> 00:03:21,780
داشتن بهتر است. مدل نسبت به شخص

89
00:03:21,780 –> 00:03:23,280
دیگری که دارای مدلی است که می تواند

90
00:03:23,280 –> 00:03:26,850
اطلاعات بیشتری نسبت به مدل

91
00:03:26,850 –> 00:03:29,270
ایستگاه بعدی به شما بدهد و اگر ما همه این

92
00:03:29,270 –> 00:03:32,880
داده های بدون ساختار را داریم، اگر می توانید

93
00:03:32,880 –> 00:03:34,680
اطلاعاتی را از آن جمع آوری کنید، اگر می توانید ساختاری اضافه کنید،

94
00:03:34,680 –> 00:03:38,280
تمام این نویز

95
00:03:38,280 –> 00:03:40,380
را به چیزی مفید تقطیر کنید. سیگنال مفید است،

96
00:03:40,380 –> 00:03:42,570
پس شما

97
00:03:42,570 –> 00:03:46,680
نسبت به فرد بعدی مزیت اطلاعاتی دارید و متن یکی

98
00:03:46,680 –> 00:03:48,630
از طولانی‌ترین داده‌های بدون ساختار است

99
00:03:48,630 –> 00:03:49,709
که صدها سال است در حال نوشتن

100
00:03:49,709 –> 00:03:52,250
چیزهایی بوده‌ایم، بنابراین این

101
00:03:52,250 –> 00:03:55,200
اولین مکان واضح است که نگاه کنید.

102
00:03:55,200 –> 00:03:56,480
حس می‌کنیم که

103
00:03:56,480 –> 00:03:59,489
اطلاعاتی در متن پنهان

104
00:03:59,489 –> 00:04:02,280
می‌شود که برای ویژگی‌های اقتصادی

105
00:04:02,280 –> 00:04:04,860
یا ویژگی‌های هر سهام فردی مهم است،

106
00:04:04,860 –> 00:04:07,860
ما اطلاعات زیادی داریم.

107
00:04:07,860 –> 00:04:10,019
اسناد گزارش دهی متفاوت برای هر

108
00:04:10,019 –> 00:04:12,360
شرکت سهامی عام، ما مقالات خبری

109
00:04:12,360 –> 00:04:13,950
در مورد شرکت های سهامی عام مختلف

110
00:04:13,950 –> 00:04:15,360
داریم،

111
00:04:15,360 –> 00:04:18,180
مقالات خبری در مورد رویدادهای کلان اقتصادی

112
00:04:18,180 –> 00:04:20,010
داریم و انواع منابع رسانه های اجتماعی داریم

113
00:04:20,010 –> 00:04:21,170
که در آن افراد

114
00:04:21,170 –> 00:04:23,690
در مورد شرکت های سهامی عام در

115
00:04:23,690 –> 00:04:25,460
رویدادهای اقتصادی مختلف صحبت می کنند که می توانیم از آنها استفاده کنیم.

116
00:04:25,460 –> 00:04:27,490
همه اینها با هم برای دستیابی به

117
00:04:27,490 –> 00:04:32,630
اطلاعات به طوری که با همه منابع

118
00:04:32,630 –> 00:04:35,510
داده‌ها، پردازش زبان طبیعی و

119
00:04:35,510 –> 00:04:37,640
داده‌های متنی تفاوتی با هم ندارند، ما باید

120
00:04:37,640 –> 00:04:40,100
زمانی را صرف پردازش داده‌های خود و

121
00:04:40,100 –> 00:04:42,800
پاکسازی آن‌ها کنیم، هر زمان که

122
00:04:42,800 –> 00:04:44,870
پروژه علم داده را شروع می‌کنید، کسانی که

123
00:04:44,870 –> 00:04:46,880
بیشتر آشنا هستند. با علم داده و

124
00:04:46,880 –> 00:04:49,370
پروژه های کمی به طور کلی بیشتر

125
00:04:49,370 –> 00:04:51,650
با این موضوع آشنا خواهید شد که 80٪ از هر پروژه داده شده

126
00:04:51,650 –> 00:04:54,080
و این یک آمار ساختگی است،

127
00:04:54,080 –> 00:04:55,970
اما به طور کلی درصد بسیار بالایی از

128
00:04:55,970 –> 00:04:58,370
هر پروژه محصول داده شده،

129
00:04:58,370 –> 00:05:00,500
مدیریت داده ها و تمیز کردن آنها و وارد کردن آنها به آن است.

130
00:05:00,500 –> 00:05:02,090
حالتی که در آن واقعاً قابل استفاده است،

131
00:05:02,090 –> 00:05:05,270
بنابراین هنگام برخورد با متن، چند

132
00:05:05,270 –> 00:05:07,670
چیز اصلی در این نوع y وجود دارد.

133
00:05:07,670 –> 00:05:10,250
ابتدا از فیلتر

134
00:05:10,250 –> 00:05:13,520
کردن کلمات توقف استفاده کنید و اینها کلماتی هستند که

135
00:05:13,520 –> 00:05:16,730
با فراوانی در متن به وجود می آیند، بنابراین کلماتی

136
00:05:16,730 –> 00:05:20,810
مانند a و آن که بسیار تکرار

137
00:05:20,810 –> 00:05:23,330
می شوند اما حاوی اطلاعات زیادی نیستند،

138
00:05:23,330 –> 00:05:27,200
می توانند مجموعه داده های ما را منحرف کنند

139
00:05:27,200 –> 00:05:29,060
و آسان تر است. فقط برای اینکه آنها را فیلتر

140
00:05:29,060 –> 00:05:30,440
کنیم مثل اینکه حاوی اطلاعات اضافی نیستند،

141
00:05:30,440 –> 00:05:32,060
بنابراین هیچ فایده ای ندارد

142
00:05:32,060 –> 00:05:34,640
که آنها را در آنجا قرار

143
00:05:34,640 –> 00:05:38,000

144
00:05:38,000 –> 00:05:40,400

145
00:05:40,400 –> 00:05:42,800

146
00:05:42,800 –> 00:05:46,040
دهیم. خوب، اگر بخواهم

147
00:05:46,040 –> 00:05:49,340
زمان‌های مختلف فعل را انتخاب کنم، به‌عنوان

148
00:05:49,340 –> 00:05:51,980
مثال، ریشه ریشه‌دار،

149
00:05:51,980 –> 00:05:54,250
همه‌ی این‌ها ریشه یکسانی دارند،

150
00:05:54,250 –> 00:05:57,680
ریشه روی ریشه، نوعی اکتشافی خام

151
00:05:57,680 –> 00:05:59,750
است که

152
00:05:59,750 –> 00:06:01,670
انتهای همه آن کلمات را قطع می‌کند. که ما

153
00:06:01,670 –> 00:06:04,850
فقط کلمه ریشه را برمی گردانیم، بنابراین یک

154
00:06:04,850 –> 00:06:06,500
کلمه ریشه ممکن است در

155
00:06:06,500 –> 00:06:10,940
زمان های مختلف در یک قطعه متن خاص با

156
00:06:10,940 –> 00:06:12,530
آن استفاده شود، زمانی که در یک مشاهده معین یا

157
00:06:12,530 –> 00:06:14,210
در کل پیکره است و ما فقط

158
00:06:14,210 –> 00:06:17,360
آن را کوتاه می کنیم. به طوری که ما

159
00:06:17,360 –> 00:06:19,190
تعداد مناسبی از ارجاعات به

160
00:06:19,190 –> 00:06:21,460
یک قطعه داده شده را دریافت می کنیم که ممکن است اطلاعاتی داشته باشد

161
00:06:21,460 –> 00:06:24,260
و سپس افراد را نشانه گذاری می کنیم

162
00:06:24,260 –> 00:06:26,480
هر کلمه ای را که پس از پیش پردازش در مجموعه ما باقی می ماند را

163
00:06:26,480 –> 00:06:28,280
با یک

164
00:06:28,280 –> 00:06:33,130
نشانه عدد صحیح منحصر به فرد نمایش

165
00:06:33,439 –> 00:06:37,229
می دهیم.

166
00:06:37,229 –> 00:06:40,259
ما نشانه‌های خود را داریم و می‌توانیم وارد

167
00:06:40,259 –> 00:06:42,299
ماجراجویی شویم که تولید ویژگی است.

168
00:06:42,299 –> 00:06:44,129
من در مورد دو روش اصلی که

169
00:06:44,129 –> 00:06:47,249
ما ویژگی‌ها را از متن تولید

170
00:06:47,249 –> 00:06:50,009
می‌کنیم صحبت خواهم کرد.

171
00:06:50,009 –> 00:06:52,919

172
00:06:52,919 –> 00:06:56,219
به معنای واقعی کلمه یک کیسه از کلمات

173
00:06:56,219 –> 00:06:58,559
است، به عنوان مثال اگر من عباراتی را به

174
00:06:58,559 –> 00:07:00,569
من نشان می دهد که آلفا و کارتاگو دلندا را به من نشان می دهد از من می پرسد

175
00:07:00,569 –> 00:07:03,119
که آیا می خواهم این را به

176
00:07:03,119 –> 00:07:06,389
گرم یونا یا 1 گرم در یک کیسه کلمات بشکنم، آنگاه

177
00:07:06,389 –> 00:07:10,079
باید به من و آلفا را

178
00:07:10,079 –> 00:07:12,989
برای تکه اول متن و کارتاگو

179
00:07:12,989 –> 00:07:15,899
دلندا برای تکه دوم متن من

180
00:07:15,899 –> 00:07:18,179
فقط هر جمله

181
00:07:18,179 –> 00:07:20,459
تک تک سند را می گیرم و آن را به

182
00:07:20,459 –> 00:07:24,839
n کلمه منحصر به فرد درون آن تقسیم می کنم و این فقط

183
00:07:24,839 –> 00:07:26,309
همان کلمه تک تکی است که شما خواهید یافت در اینجا توجه کنید

184
00:07:26,309 –> 00:07:27,419
که من در واقع کلمات توقف را فیلتر نکردم،

185
00:07:27,419 –> 00:07:30,839
بنابراین da هنوز در اینجا است، اما

186
00:07:30,839 –> 00:07:32,669
فعلاً در مورد آن تاکید نخواهیم کرد فقط

187
00:07:32,669 –> 00:07:35,999
برای بعد توجه داشته باشید و ویژگی واقعی

188
00:07:35,999 –> 00:07:39,079
اینجا این است که هر یک از این کلمات

189
00:07:39,079 –> 00:07:42,509
به ستونی تبدیل می شوند. این کلمات

190
00:07:42,509 –> 00:07:44,909
یک ویژگی منحصر به فرد هستند و سپس

191
00:07:44,909 –> 00:07:48,029
مقدار آن ویژگی برای هر قطعه از

192
00:07:48,029 –> 00:07:51,719
متن، تعداد آن کلمه است،

193
00:07:51,719 –> 00:07:53,969
بنابراین در آلفا به من نشان دهید که

194
00:07:53,969 –> 00:07:57,360
تعداد 1 در این متن اول و

195
00:07:57,360 –> 00:07:59,610
کارتاگو Delinda NS I’ خواهد بود.

196
00:07:59,610 –> 00:08:02,189
در متن اول تعداد 0 عدد وجود دارد که فقط

197
00:08:02,189 –> 00:08:03,689
برای متن دوم کاملاً ورق زده شده است،

198
00:08:03,689 –> 00:08:07,649
بنابراین این فقط 1 گرم است و

199
00:08:07,649 –> 00:08:09,949
می توان مجموعه ای از کلمات را نیز ایجاد کرد و

200
00:08:09,949 –> 00:08:13,889
مجموعه بعدی را که توسط Grim’s استفاده می شود برداشت کرد، بنابراین

201
00:08:13,889 –> 00:08:17,159
این هر دو کلمه متوالی در یک

202
00:08:17,159 –> 00:08:18,929
متن معین، بنابراین به من نشان دهید

203
00:08:18,929 –> 00:08:22,319
دلندا و دلندا آلفا کارتاگو

204
00:08:22,319 –> 00:08:24,989
هر کدام از اینها ویژگی های اضافی هستند

205
00:08:24,989 –> 00:08:26,819
که با

206
00:08:26,819 –> 00:08:29,039
این گرام ها در نظر می گیریم و فقط در

207
00:08:29,039 –> 00:08:31,919
هر متنی حساب می کنیم و از اینجا می توانیم

208
00:08:31,919 –> 00:08:34,438
بسازیم. حداکثر تا سه کلمه متوالی برای

209
00:08:34,438 –> 00:08:36,149
لغات متوالی پنج کلمه متوالی

210
00:08:36,149 –> 00:08:39,539
هر تعداد که ما بخواهیم به شرطی که این

211
00:08:39,539 –> 00:08:41,250
ویژگی های اضافی در واقع

212
00:08:41,250 –> 00:08:42,980
قدرت پیش بینی را به مدل ما اضافه کنند، ما

213
00:08:42,980 –> 00:08:44,570
همه این ویژگی ها را

214
00:08:44,570 –> 00:08:46,250
با هم ترکیب

215
00:08:46,250 –> 00:08:49,130
می کنیم.

216
00:08:49,130 –> 00:08:51,620

217
00:08:51,620 –> 00:08:53,870
به طور کلی یونا گرم و بر حسب گرم

218
00:08:53,870 –> 00:08:56,450
بسیار خوب است و حداقل برای

219
00:08:56,450 –> 00:08:57,980
مدل نهایی، اما من استفاده می کنم من

220
00:08:57,980 –> 00:09:01,220
واقعا عمیق تر از خرید گرم نیستم، بنابراین راه بعدی

221
00:09:01,220 –> 00:09:04,280
که می توانیم ویژگی های متن را کمی کنیم

222
00:09:04,280 –> 00:09:07,280
استفاده از جاسازی کلمه است و این

223
00:09:07,280 –> 00:09:09,140
کمی بیشتر است. از نظر ریاضی پیچیده

224
00:09:09,140 –> 00:09:11,810
تر از شمارش کلمات است، اما من همچنین

225
00:09:11,810 –> 00:09:14,390
فکر می کنم شخصاً جالب تر است

226
00:09:14,390 –> 00:09:17,210
که کاری که ما انجام می دهیم این است که ما اساساً

227
00:09:17,210 –> 00:09:19,550
کل مجموعه کلمات خود را در یک

228
00:09:19,550 –> 00:09:22,430
فضای برداری با ابعاد بالا با توجه به

229
00:09:22,430 –> 00:09:24,590
ابعادی که انتخاب می کنیم قرار می دهیم، بنابراین

230
00:09:24,590 –> 00:09:27,130
هر کلمه منفرد را به عنوان یک

231
00:09:27,130 –> 00:09:30,260
n بعدی نشان می دهیم. بردار معمولاً با n

232
00:09:30,260 –> 00:09:33,320
که بین 100 تا 300 است، بنابراین

233
00:09:33,320 –> 00:09:36,620
هر کلمه با

234
00:09:36,620 –> 00:09:39,620
100 تا 300 بعد در این مقدار نشان داده می شود.

235
00:09:39,620 –> 00:09:42,170
فضای ابعادی، به عنوان مثال در

236
00:09:42,170 –> 00:09:43,660
مجموعه ای که من در نهایت

237
00:09:43,660 –> 00:09:48,770
کلمه برداری برای غمگین را به شما نشان خواهم داد، همین

238
00:09:48,770 –> 00:09:51,680
هیولای زشت است، اما این نشان می دهد

239
00:09:51,680 –> 00:09:54,380
که غم دقیقاً در کجای این فضا قرار دارد و

240
00:09:54,380 –> 00:09:55,760
آنچه در مورد جاسازی کلمات جالب

241
00:09:55,760 –> 00:09:57,260
است این است که می تواند به ما حس بدهد.

242
00:09:57,260 –> 00:09:59,210

243
00:09:59,210 –> 00:10:02,120

244
00:10:02,120 –> 00:10:05,180
وقتی کلمه ای را به عنوان یک بردار نشان می دهیم، می تواند به ما حس شباهت به کلمات دیگر بدهد، فقط می توانیم

245
00:10:05,180 –> 00:10:07,520
با آن بردارها همانطور رفتار کنیم که معمولاً

246
00:10:07,520 –> 00:10:09,200
با بردارها رفتار می کنیم، می توانیم آنها را اضافه کنیم، می توانیم آنها را

247
00:10:09,200 –> 00:10:10,790
کم کنیم و می توانیم ببینیم چقدر

248
00:10:10,790 –> 00:10:11,740
به هر یک نزدیک هستند. از جمله دیگر،

249
00:10:11,740 –> 00:10:15,140
ما می‌توانیم ببینیم چه کلماتی بیشتر

250
00:10:15,140 –> 00:10:17,960
شبیه به کلمات دیگر هستند، بنابراین در درون

251
00:10:17,960 –> 00:10:20,330
کلمه‌ی داده‌شده embedding که من دارم،

252
00:10:20,330 –> 00:10:22,460
این کلمه‌ای است به Veck embedding که فقط

253
00:10:22,460 –> 00:10:25,070
یک کلاسیک است، روش کلاسیک دیگر

254
00:10:25,070 –> 00:10:26,600
تعبیه کلمه مانند

255
00:10:26,600 –> 00:10:29,090
یک دکتر است. بک که یک

256
00:10:29,090 –> 00:10:31,370
سند کامل را به جای کلمات تکی جاسازی می کند

257
00:10:31,370 –> 00:10:33,710
و از رویه تقریباً مشابهی پیروی می

258
00:10:33,710 –> 00:10:35,750
کند، اما اینها کلماتی هستند که

259
00:10:35,750 –> 00:10:38,720
بیشتر شبیه به غمگین هستند و ما چیزهایی دریافت می

260
00:10:38,720 –> 00:10:41,140
کنیم که حس شهودی را ایجاد می کند، درست ناراحت کننده

261
00:10:41,140 –> 00:10:44,840
رونق افسرده است که ریشه کلمه

262
00:10:44,840 –> 00:10:47,780
یک بدبین است یا ناامید یا هر کلمه خاصی

263
00:10:47,780 –> 00:10:52,280
مانند آن ویرانگر ناامید عصبانی

264
00:10:52,280 –> 00:10:55,670
ناراحت غمگین شرمنده ناراضی شدم و ما می

265
00:10:55,670 –> 00:10:56,800
توانیم نوعی

266
00:10:56,800 –> 00:10:59,529
رابطه ریشه ای را در نحوه خرد کردن این کلمات مشاهده کنیم،

267
00:10:59,529 –> 00:11:01,420
اما همه

268
00:11:01,420 –> 00:11:04,029
اینها حس شهودی دارند درست است

269
00:11:04,029 –> 00:11:05,860
که ناراحتی و افسردگی و همه اینها منطقی است.

270
00:11:05,860 –> 00:11:08,310
کلمات بسیار نزدیک به غم انگیز

271
00:11:08,310 –> 00:11:10,360
هستند و

272
00:11:10,360 –> 00:11:13,959
در بسیاری از موارد اساساً مترادف یکدیگر هستند و روشی

273
00:11:13,959 –> 00:11:15,070
که ما در واقع برای بررسی

274
00:11:15,070 –> 00:11:17,019
شبیه بودن یا نبودن چیزی استفاده

275
00:11:17,019 –> 00:11:19,120
می کنیم شباهت کسینوس نامیده می شود که

276
00:11:19,120 –> 00:11:20,980
اساساً فقط کسینوس بین این

277
00:11:20,980 –> 00:11:23,290
بردارها و بردارهای بعدی است.

278
00:11:23,290 –> 00:11:27,250
اگر بخواهیم انتخاب کنیم

279
00:11:27,250 –> 00:11:30,010
که همیشه با این اخطار همراه می شود که

280
00:11:30,010 –> 00:11:32,470
برخی از کلمات متریک فاصله

281
00:11:32,470 –> 00:11:34,450
در بالا بهتر کار می کنند، می توانیم از سایر معیارهای فاصله استفاده کنیم. فضاهای بعدی نسبت به

282
00:11:34,450 –> 00:11:39,100
سایرین و اگر کل پیکره‌ای را

283
00:11:39,100 –> 00:11:42,610
که من در اینجا استفاده کردم در نظر بگیریم، همه اینها 100

284
00:11:42,610 –> 00:11:44,079
بردار بعدی هستند، می‌توانیم

285
00:11:44,079 –> 00:11:46,120
اینها را در فضای دو بعدی با استفاده از

286
00:11:46,120 –> 00:11:48,370
روشی به نام T توزیع شده تصادفی

287
00:11:48,370 –> 00:11:49,690
همسایه

288
00:11:49,690 –> 00:11:51,910
بهتر نشان دهیم.

289
00:11:51,910 –> 00:11:53,769
آنچه مهم است این است که ما

290
00:11:53,769 –> 00:11:55,329
می توانیم اساساً یک طرح ریزی را از

291
00:11:55,329 –> 00:11:57,010
فضای با ابعاد بالا به

292
00:11:57,010 –> 00:11:59,190
فضای دوبعدی ببریم به گونه ای که

293
00:11:59,190 –> 00:12:02,200
این فواصل بین اشیاء در

294
00:12:02,200 –> 00:12:04,390
فضای با ابعاد بالا در فضای کم

295
00:12:04,390 –> 00:12:06,730
بعدی حفظ شود، بنابراین کاری که من انجام داده ام این است

296
00:12:06,730 –> 00:12:08,700
که کارهای بسیار زیادی انجام داده ام. خوشه‌بندی اولیه

297
00:12:08,700 –> 00:12:11,079
در این فضا با استفاده از روشی به نام

298
00:12:11,079 –> 00:12:15,910
اسکن HDD و من فکر می‌کنم که

299
00:12:15,910 –> 00:12:17,680
Sicit-Learn در دسترس نیست، اما

300
00:12:17,680 –> 00:12:19,630
به‌عنوان بسته‌ای در دسترس است که شخصی

301
00:12:19,630 –> 00:12:21,100
که روی آن ساخته شده است، بنابراین API بسیار شبیه به آن است،

302
00:12:21,100 –> 00:12:23,200
بنابراین اگر به دنبال اسکن HDD

303
00:12:23,200 –> 00:12:26,020
باشید، یک گسترش اسکن DV که

304
00:12:26,020 –> 00:12:27,570
فکر می کنم در scikit-learn است

305
00:12:27,570 –> 00:12:32,430
و آنها فقط

306
00:12:32,550 –> 00:12:35,140
روش های بسیار خوبی برای خوشه بندی هستند که

307
00:12:35,140 –> 00:12:36,550
نیازی به تعیین تعداد

308
00:12:36,550 –> 00:12:38,380
خوشه ندارند. من و rs همین الان چند خوشه منفرد را انتخاب کردیم

309
00:12:38,380 –> 00:12:40,630
مانند همه کلماتی

310
00:12:40,630 –> 00:12:41,770
که شبیه به خداناباوران هستند

311
00:12:41,770 –> 00:12:43,990
دقیقاً در اینجا نماینده

312
00:12:43,990 –> 00:12:46,510
مشابه کار یا جدا هستند و به

313
00:12:46,510 –> 00:12:49,750
رنگ آبی مرتبط هستند اینجا پارک در این زرد است و

314
00:12:49,750 –> 00:12:52,120
سپس ما در این سبز ناامید هستیم.

315
00:12:52,120 –> 00:12:53,860
و اگر به درون هر

316
00:12:53,860 –> 00:12:56,140
ساختار یا هر خوشه معینی نگاه کنیم،

317
00:12:56,140 –> 00:12:59,199
می‌توانیم ابعاد همه این کلمات را ببینیم

318
00:12:59,199 –> 00:13:02,500
و این فقط پنج کلمه هستند که

319
00:13:02,500 –> 00:13:05,290
ابتدا در این خوشه نشان داده می‌شوند با برچسب یک

320
00:13:05,290 –> 00:13:07,720
ناامید می‌دانم یک ناراحتی غمگین افسرده

321
00:13:07,720 –> 00:13:08,890
منطقی است که اینها همه

322
00:13:08,890 –> 00:13:10,000
خوشه‌ای هستند. من با هم

323
00:13:10,000 –> 00:13:11,980
فقط پنج مورد از آنها را به شما نشان می دهم

324
00:13:11,980 –> 00:13:16,830
زیرا مورد ششم توهین آمیز است، بنابراین از

325
00:13:16,830 –> 00:13:19,240
چه داده هایی که در واقع برای این کار استفاده می

326
00:13:19,240 –> 00:13:20,680
کنم، به مجموعه ها ارجاع زیادی

327
00:13:20,680 –> 00:13:22,750
داده ام و چند

328
00:13:22,750 –> 00:13:24,760
نمونه از مجموعه خود و برخی

329
00:13:24,760 –> 00:13:25,990
تجسم ها را به شما نشان داده ام. که من در این مورد گردآوری

330
00:13:25,990 –> 00:13:28,950
کردم و اما من فقط از داده های توییتر استفاده

331
00:13:28,950 –> 00:13:31,960
کردم، منطقی است که همه در مورد

332
00:13:31,960 –> 00:13:35,800
اهمیت رسانه های اجتماعی در بازارهای مالی صحبت

333
00:13:35,800 –> 00:13:37,420
کنند، برای سنجش

334
00:13:37,420 –> 00:13:40,570
احساسات عمومی مهم است. افرادی که به نظر می‌رسد مردم

335
00:13:40,570 –> 00:13:41,980
تمایل دارند خود را در رسانه‌های اجتماعی ابراز کنند،

336
00:13:41,980 –> 00:13:45,160
بنابراین منطقی است که در اینجا به دنبال

337
00:13:45,160 –> 00:13:48,340
نوعی فرضیه اقتصادی بگردیم و

338
00:13:48,340 –> 00:13:50,590
به‌ویژه من از مجموعه داده‌های احساسات 140 استفاده می‌کنم

339
00:13:50,590 –> 00:13:52,150
که مجموعه داده‌های احساسات توییتری است

340
00:13:52,150 –> 00:13:54,130
که توسط برخی از محققان در

341
00:13:54,130 –> 00:13:56,050
استنفورد ایجاد شده است. آنها

342
00:13:56,050 –> 00:14:00,100
حدود 1.6 میلیون توییت گرفتند و برای

343
00:14:00,100 –> 00:14:01,840
برچسب زدن به آنها به ایموجی نگاه کردند

344
00:14:01,840 –> 00:14:04,480
که در آن توییت ها وجود دارد و از

345
00:14:04,480 –> 00:14:06,940
آن به عنوان یک طبقه بندی پر سر و صدا برای

346
00:14:06,940 –> 00:14:09,660
مثبت یا منفی بودن یک توییت استفاده کردند،

347
00:14:09,660 –> 00:14:12,640
بنابراین اگر تعداد نامتناسبی

348
00:14:12,640 –> 00:14:15,220
صورتک های صورتک داشته باشد، چنین خواهد بود. مثبت است و

349
00:14:15,220 –> 00:14:16,420
اگر تعداد نامتناسبی از

350
00:14:16,420 –> 00:14:19,120
چهره‌های ناراضی داشت، یک توییت منفی بود

351
00:14:19,120 –> 00:14:21,339
و این مجموعه داده‌ای عالی است که

352
00:14:21,339 –> 00:14:22,990
قطعاً ارزش بررسی این را دارد که

353
00:14:22,990 –> 00:14:24,370
آن را آزادانه در وب‌سایت خود در دسترس قرار دهند،

354
00:14:24,370 –> 00:14:26,170
فقط احساس در طبقه D من فکر می‌کنم

355
00:14:26,170 –> 00:14:27,760
ممکن است آرام باشد اما ممکن است جای

356
00:14:27,760 –> 00:14:29,440
دیگری باشند و آنها یک API دارند که در آن می توانید

357
00:14:29,440 –> 00:14:31,420
به احساسات آنها دسترسی پیدا کنید. آنها

358
00:14:31,420 –> 00:14:32,920
مقاله ای در مورد آن دارند که واقعاً

359
00:14:32,920 –> 00:14:35,200
عالی است که من در واقع از آن به عنوان یک برنامه استفاده می کنم. معیاری

360
00:14:35,200 –> 00:14:37,810
برای مدلی که من در اینجا می‌دانم یک مدل خوب است،

361
00:14:37,810 –> 00:14:42,550
بنابراین حتماً آن را بررسی کنید، بنابراین من

362
00:14:42,550 –> 00:14:44,200
دو احساس جداگانه را کنار هم قرار دادم،

363
00:14:44,200 –> 00:14:45,940
اولی یک رگرسیون لجستیک با استفاده

364
00:14:45,940 –> 00:14:48,130
از مدل کیسه‌ای از کلمات است و سپس

365
00:14:48,130 –> 00:14:50,050
دومی یک شبکه عصبی است که اکنون از جاسازی کلمه استفاده می‌کند.

366
00:14:50,050 –> 00:14:53,110
شما که هستید

367
00:14:53,110 –> 00:14:54,310
من با یک رگرسیون لجستیک آشنا نیستم،

368
00:14:54,310 –> 00:14:57,010
این یک

369
00:14:57,010 –> 00:14:58,930
مدل خطی بسیار معمولی است که برای طبقه بندی استفاده می شود،

370
00:14:58,930 –> 00:15:01,170
کاری که ما انجام می دهیم این است که ما اساساً یک

371
00:15:01,170 –> 00:15:03,339
رگرسیون خطی خطی چندگانه

372
00:15:03,339 –> 00:15:05,290
می گیریم که در آن تعدادی ویژگی

373
00:15:05,290 –> 00:15:08,170
و ویژگی با پارامترهای مرتبط

374
00:15:08,170 –> 00:15:10,450
با آنها داریم و یک مقدار رهگیری و ما

375
00:15:10,450 –> 00:15:12,430
آن را از طریق تابع معانی allegis Allah له می

376
00:15:12,430 –> 00:15:13,930
کنیم و این همان چیزی است که نام

377
00:15:13,930 –> 00:15:16,420
رگرسیون لجستیک را می دهد و این

378
00:15:16,420 –> 00:15:18,459
تابع لجستیک خروجی را مجبور می کند بین

379
00:15:18,459 –> 00:15:21,160
0 و 1 باشد بنابراین آنچه به دست می آوریم یک مقدار احتمال

380
00:15:21,160 –> 00:15:23,830
است که چیزی در کلاس 0 یا 0 است.

381
00:15:23,830 –> 00:15:25,690
در کلاس می توان این را

382
00:15:25,690 –> 00:15:27,760
به چندین کلاس افزایش داد، اما این فقط

383
00:15:27,760 –> 00:15:29,560
قانون اساسی است و من فقط با

384
00:15:29,560 –> 00:15:32,860
مثبت یا منفی سر و کار دارم در حال حاضر خوب است

385
00:15:32,860 –> 00:15:35,590
یک رگرسیون لجستیک و

386
00:15:35,590 –> 00:15:36,790
رگرسیون خطی چندگانه با مدل‌های خطی به

387
00:15:36,790 –> 00:15:38,410
طور کلی این است که آنها دوستانه هستند، آنها

388
00:15:38,410 –> 00:15:40,510
آشنا هستند، تفسیر و درک آنها آسان است.

389
00:15:40,510 –> 00:15:42,910
وجود معنی مشخصی

390
00:15:42,910 –> 00:15:45,760
برای این بتاها در این رگرسیون وجود دارد که ما

391
00:15:45,760 –> 00:15:49,210
به راحتی می‌توانیم قدرت یک

392
00:15:49,210 –> 00:15:51,100
کلمه را در مقابل استنباط کنیم. دیگری در تعیین

393
00:15:51,100 –> 00:15:53,080

394
00:15:53,080 –> 00:15:56,380
مثبت یا منفی بودن یک سند داده شده یا یک توییت داده شده به

395
00:15:56,380 –> 00:15:57,640
عنوان مثال اینها

396
00:15:57,640 –> 00:15:59,260
ضرایب رگرسیون لجستیک با استفاده از مدل کیف کلمات من هستند

397
00:15:59,260 –> 00:16:01,180
و می بینیم که

398
00:16:01,180 –> 00:16:03,580
مثبت ترین ضرایب آرزوی شانس هستند

399
00:16:03,580 –> 00:16:06,610
ممنون نگران نباشید لبخند بد نیست. و

400
00:16:06,610 –> 00:16:07,870
غیره و غیره و منفی ترین

401
00:16:07,870 –> 00:16:10,990
ضرایب غم انگیز است

402
00:16:10,990 –> 00:16:15,130
متأسفانه mmm و مقدار واقعی این

403
00:16:15,130 –> 00:16:17,800
ضریب بتا هر چه بیشتر

404
00:16:17,800 –> 00:16:20,020
یا منفی تر باشد

405
00:16:20,020 –> 00:16:23,170
تأثیر بیشتری بر خروجی حاصل خواهد داشت بنابراین اگر

406
00:16:23,170 –> 00:16:25,840
غم را در آن قرار دهیم یک توییت

407
00:16:25,840 –> 00:16:27,940
تاثیر بزرگی روی

408
00:16:27,940 –> 00:16:30,490
دسته بندی آن توییت به عنوان مثبت یا

409
00:16:30,490 –> 00:16:32,740
منفی خواهد داشت و در اینجا یک مصنوع جالب این

410
00:16:32,740 –> 00:16:35,920
است که بسیاری از کلمات

411
00:16:35,920 –> 00:16:38,890
مثبت و مثبت ترین کلمات نفی

412
00:16:38,890 –> 00:16:42,430
منفی هستند پس نگران نباش

413
00:16:42,430 –> 00:16:45,490
بد نیست بد نبود هیچ اشتباهی نیست فراموش

414
00:16:45,490 –> 00:16:47,770
نکن صدمه نمی زند و من واقعاً

415
00:16:47,770 –> 00:16:49,000
توضیحی برای آن ندارم فقط فکر می کنم این یک

416
00:16:49,000 –> 00:16:53,080
نکته کوچک جالبی که باید به آن توجه

417
00:16:53,080 –> 00:16:54,430
کرد، نتایج واقعی این است که در

418
00:16:54,430 –> 00:16:57,730
نمونه ما حدود 80 درصد دقت و 78

419
00:16:57,730 –> 00:17:02,380
درصد دقت خارج از نمونه به دست می آوریم، بنابراین

420
00:17:02,380 –> 00:17:04,240
بد نیست که مردم معمولاً

421
00:17:04,240 –> 00:17:06,790
در ارزیابی احساسات یک

422
00:17:06,790 –> 00:17:08,770
قطعه معین خیلی خوب نیستند. متن چه رسد به احساسات

423
00:17:08,770 –> 00:17:09,910
افراد دیگر که واقعاً از

424
00:17:09,910 –> 00:17:12,940
نظر فیزیکی در اطراف هستند، بنابراین دقت 80 درصد یا

425
00:17:12,940 –> 00:17:15,630
در اطراف وجود دارد، البته بسیار خوب است

426
00:17:15,630 –> 00:17:17,680
زیرا من یک

427
00:17:17,680 –> 00:17:20,050
فرد کمی رقابتی هستم و همیشه به

428
00:17:20,050 –> 00:17:22,900
دنبال بهانه ای می گردم تا یک مشکل ساده را

429
00:17:22,900 –> 00:17:24,369
پیچیده تر کنم. در واقع

430
00:17:24,369 –> 00:17:27,430
تصمیم گرفتم در عوض از برخی

431
00:17:27,430 –> 00:17:32,050
شبکه های عصبی استفاده کنم. مقاله استنفورد روی حس 140

432
00:17:32,050 –> 00:17:33,820
در نهایت دقتی در حدود 81 و نیم تا

433
00:17:33,820 –> 00:17:36,430
82 درصد دارد و این

434
00:17:36,430 –> 00:17:37,450
تفاوت دو

435
00:17:37,450 –> 00:17:40,299
سه درصدی در مجموعه تست

436
00:17:40,299 –> 00:17:43,929
من برای من غیرقابل قبول است، بنابراین برگشتم. به

437
00:17:43,929 –> 00:17:46,210
شبکه‌های عصبی و اگر

438
00:17:46,210 –> 00:17:48,909
با شبکه‌های عصبی آشنایی ندارید، احتمالاً نام

439
00:17:48,909 –> 00:17:51,730
آن‌ها را شنیده‌اید، ایده اصلی این است که ما

440
00:17:51,730 –> 00:17:55,029
در مجموعه‌ای از ورودی‌ها تغذیه می‌کنیم، آن

441
00:17:55,029 –> 00:17:59,320
ورودی‌ها را در وزن‌ها ضرب می‌کنیم مجموع وزن‌ها

442
00:17:59,320 –> 00:18:02,289
مجموع آن ضرب را جمع می‌کنیم و آن را پاس می‌کنیم.

443
00:18:02,289 –> 00:18:04,210
به لایه بعدی پس از عبور آن

444
00:18:04,210 –> 00:18:06,179
از نوعی تابع غیرخطی

445
00:18:06,179 –> 00:18:09,700
، ایده اینجا این است که ما می توانیم یک

446
00:18:09,700 –> 00:18:12,669
مدل غیرخطی بسیار انعطاف پذیر ایجاد کنیم

447
00:18:12,669 –> 00:18:14,289
که توسط این

448
00:18:14,289 –> 00:18:15,970
تابع فعال سازی بین هر

449
00:18:15,970 –> 00:18:19,539
لایه ایجاد می شود، بنابراین ما خروجی را از زمان قبل می گیریم.

450
00:18:19,539 –> 00:18:21,460
ما مجموعه ای

451
00:18:21,460 –> 00:18:23,200
از وزن ها را داریم که به مجموعه

452
00:18:23,200 –> 00:18:25,899
گره های بعدی نگاشت می شوند و همانطور که این مجموع وزنی را

453
00:18:25,899 –> 00:18:28,779
بین چیزها می گیریم، آن را با استفاده از

454
00:18:28,779 –> 00:18:31,029
یک مماس هذلولی یا یک

455
00:18:31,029 –> 00:18:34,840
واحد خطی اصلاح شده یا بسیاری از یا هر یک از ده ها

456
00:18:34,840 –> 00:18:36,850
تابع فعال سازی مختلف که همه

457
00:18:36,850 –> 00:18:40,450
معرفی می کنند، له می کنیم. این غیر خطی بودن و این

458
00:18:40,450 –> 00:18:42,370
به ما انعطاف‌پذیری زیادی می‌دهد، چیزی که

459
00:18:42,370 –> 00:18:45,010
اساساً در

460
00:18:45,010 –> 00:18:46,630
محاوره‌ای‌ترین شرایط ممکن حدس می‌زنم این است که

461
00:18:46,630 –> 00:18:48,399
ضرب ماتریس را انجام می‌دهیم و سپس آن را له می‌کنیم.

462
00:18:48,399 –> 00:18:50,350
d سپس ضرب ماتریس را انجام می دهیم و

463
00:18:50,350 –> 00:18:52,419
سپس آن را له می کنیم و غیره و غیره

464
00:18:52,419 –> 00:18:54,010
تا زمانی که احساس کنیم به اندازه کافی این کار را انجام داده

465
00:18:54,010 –> 00:18:56,279
ایم و سپس یک خروجی دریافت می کنیم

466
00:18:56,279 –> 00:19:00,399
تا مشکل این شبکه عصبی وانیلی

467
00:19:00,399 –> 00:19:04,269
به ویژه به

468
00:19:04,269 –> 00:19:06,370
هر نوع مربوط شود. مدل‌سازی سری‌های زمانی یا

469
00:19:06,370 –> 00:19:07,899
هر چیزی که ساختار توالی دارد

470
00:19:07,899 –> 00:19:10,779
این است که من توضیح می‌دهم یک

471
00:19:10,779 –> 00:19:13,990
مدل بسیار ساده است، این احتمالاً یکی

472
00:19:13,990 –> 00:19:15,340
از ساده‌ترین موارد در کار من است، بنابراین

473
00:19:15,340 –> 00:19:16,389
می‌توانید این یک

474
00:19:16,389 –> 00:19:17,860
شبکه عصبی کاملاً متصل یک فید است. -شبکه عصبی فوروارد

475
00:19:17,860 –> 00:19:19,299
اینجا واقعاً

476
00:19:19,299 –> 00:19:21,429
چیز جالبی در جریان نیست، اما اگر بخواهم

477
00:19:21,429 –> 00:19:23,889
از چیزی عبور کنم که ساختاری

478
00:19:23,889 –> 00:19:27,220
به ترتیب ورودی‌ها داشته باشد،

479
00:19:27,220 –> 00:19:29,470
اگر این سه نقطه در زمان را تصور کنیم که به لایه بعدی منتقل می‌شوند، با مشکل مواجه خواهم شد.

480
00:19:29,470 –> 00:19:33,639

481
00:19:33,639 –> 00:19:36,700
نقاط

482
00:19:36,700 –> 00:19:39,580
آینده به نحوی بر مقادیر عبور تأثیر می‌گذارند،

483
00:19:39,580 –> 00:19:41,169
ما در اینجا

484
00:19:41,169 –> 00:19:43,899
برخی از تعصبات پیش‌رو را معرفی می‌کنیم، بنابراین شبکه‌های عصبی

485
00:19:43,899 –> 00:19:46,120
به‌ویژه شبکه‌های عصبی وانیلی

486
00:19:46,120 –> 00:19:47,710
برای مشاهده این

487
00:19:47,710 –> 00:19:49,600
ساختار فضایی بسیار بهتر هستند. یک

488
00:19:49,600 –> 00:19:50,890
ساختار این توالی،

489
00:19:50,890 –> 00:19:53,170
بنابراین تعدادی تنوع و یک

490
00:19:53,170 –> 00:19:55,450
خانواده کلی از شبکه‌های عصبی مختلف

491
00:19:55,450 –> 00:19:56,890
به نام شبکه‌های عصبی مکرر وجود دارد

492
00:19:56,890 –> 00:19:58,660
که کمک می‌کنند تا کمی با این مشکل برخورد

493
00:19:58,660 –> 00:20:01,299
کنیم و اساساً چیزها را

494
00:20:01,299 –> 00:20:03,670
به داخل منتقل می‌کنیم و قبل از ارسال آن به لایه بعدی

495
00:20:03,670 –> 00:20:06,760
، مقداری را که وجود داشت ارسال می‌کنیم. فقط

496
00:20:06,760 –> 00:20:09,250
با یک وزن دوباره به خودش محاسبه می‌شود،

497
00:20:09,250 –> 00:20:12,970
بنابراین به هر گره

498
00:20:12,970 –> 00:20:15,520
مفهومی از حافظه می‌دهد که می‌تواند

499
00:20:15,520 –> 00:20:18,250
چیزی را از دفعه قبل

500
00:20:18,250 –> 00:20:21,130
که چیز دیگری را پاس کرده‌ایم به خاطر بیاورد و این

501
00:20:21,130 –> 00:20:23,950
برای سکانس‌ها و ساختار سری‌های زمانی بسیار بهتر است و

502
00:20:23,950 –> 00:20:26,620
من در واقع اینگونه تنظیم کردم

503
00:20:26,620 –> 00:20:30,220
. شبکه عصبی من برای

504
00:20:30,220 –> 00:20:33,360
تجزیه و تحلیل احساسات ما می‌توانیم همه جملات را به‌عنوان

505
00:20:33,360 –> 00:20:37,090
دنباله‌ای از کلمات مشاهده کنیم که یک کلمه به دنبال

506
00:20:37,090 –> 00:20:40,120
دیگری می‌آید که کاملاً منطقی است

507
00:20:40,120 –> 00:20:44,020
ساختار جمله وقتی شما زبان را درست می‌فهمید از الگوهای داده شده پیروی می‌کند،

508
00:20:44,020 –> 00:20:46,240

509
00:20:46,240 –> 00:20:47,770
بنابراین دیدن آن به این صورت منطقی است،

510
00:20:47,770 –> 00:20:50,350
همچنین می‌توانید جمله فقط به عنوان یک

511
00:20:50,350 –> 00:20:52,390
مجموعه کلی از فضا است، اما این فقط

512
00:20:52,390 –> 00:20:54,549
روش ترجیحی است که من می

513
00:20:54,549 –> 00:20:55,860
خواهم با شما همراه باشم، می توانید کاملاً از آن استفاده کنید مانند

514
00:20:55,860 –> 00:20:58,090
c اگر می‌خواهید، احتمالاً می‌توانید

515
00:20:58,090 –> 00:21:00,100
فقط از یک شبکه عصبی پیش‌خور وانیلی استفاده کنید،

516
00:21:00,100 –> 00:21:01,750

517
00:21:01,750 –> 00:21:04,390
اما البته من فقط

518
00:21:04,390 –> 00:21:05,559
مسائل را پیچیده‌تر می‌کنم و در واقع

519
00:21:05,559 –> 00:21:06,150
باید این کار را انجام

520
00:21:06,150 –> 00:21:08,500
دهم و به‌ویژه از چیزی

521
00:21:08,500 –> 00:21:11,049
به نام کوتاه‌مدت بلندمدت استفاده می‌کنم. شبکه حافظه

522
00:21:11,049 –> 00:21:14,590
و این حافظه کوتاه مدت بلندمدت

523
00:21:14,590 –> 00:21:17,320
نشان می دهد که ما این

524
00:21:17,320 –> 00:21:20,070
مدت زمان دلخواه را بین زمانی که چیزی

525
00:21:20,070 –> 00:21:22,900
یاد می گیریم و زمانی که بتوان از آن استفاده کرد

526
00:21:22,900 –> 00:21:26,290
، یک حافظه کوتاه مدت طولانی مدت داریم و

527
00:21:26,290 –> 00:21:28,419
این با داشتن دنباله ای از

528
00:21:28,419 –> 00:21:30,610
دروازه ها در هر یک جمع می شود. واحد جداگانه بنابراین ما

529
00:21:30,610 –> 00:21:33,100
مقادیر را وارد می کنیم و سپس گیت ها

530
00:21:33,100 –> 00:21:34,780
نشان می دهند که آیا باید چیزی را به خاطر بسپاریم

531
00:21:34,780 –> 00:21:36,760
یا چیزی را فراموش کنیم یا چگونه یا

532
00:21:36,760 –> 00:21:39,040
و برای چه مدت قبل از اینکه آن را به

533
00:21:39,040 –> 00:21:41,350
لایه بعدی منتقل کنیم و غیره و غیره

534
00:21:41,350 –> 00:21:44,679
و این فاصله برای صبر کردن بین

535
00:21:44,679 –> 00:21:46,929
یادگیری و فراموش کردن چیزها

536
00:21:46,929 –> 00:21:49,330
فقط به عنوان بخشی از فرآیند آموزش

537
00:21:49,330 –> 00:21:54,010
برای یک شبکه عصبی یاد می‌شود، بنابراین من از Kerris استفاده کردم

538
00:21:54,010 –> 00:21:56,200
که لایه‌ای است که بر روی فولکلور تانسور ساخته شده

539
00:21:56,200 –> 00:21:58,440
است تا LST m/s خود را پیاده‌سازی

540
00:21:58,440 –> 00:22:03,100
کند. بسیار ساده است برای ایجاد هر نوع

541
00:22:03,100 –> 00:22:04,120
مراقبت از شبکه های عصبی،

542
00:22:04,120 –> 00:22:05,890
من به شدت آن را توصیه می کنم، API

543
00:22:05,890 –> 00:22:08,920
بسیار آشنا است، تقریباً نزدیک به

544
00:22:08,920 –> 00:22:10,720
scikit-learn است، اگر با

545
00:22:10,720 –> 00:22:14,440
دسته کلی پانداهای ناتوان آشنا هستید و Python

546
00:22:14,440 –> 00:22:17,200
من یک لایه ورودی دارم که آن را به آن ارسال کردم. یک

547
00:22:17,200 –> 00:22:19,860
لایه جاسازی که

548
00:22:19,860 –> 00:22:21,940
رابطه بین کلمات را در یک

549
00:22:21,940 –> 00:22:23,740
فضای برداری یاد می گیرد و می توانید آن را با

550
00:22:23,740 –> 00:22:25,540
مجموعه ای از وزن های جاسازی شده از قبل آموزش دهید، اما من این کار را انجام دادم و

551
00:22:25,540 –> 00:22:27,910
یک مدل کلمه به برداری ایجاد کردم و سپس

552
00:22:27,910 –> 00:22:30,280
این لایه جاسازی را از قبل آموزش دادم که

553
00:22:30,280 –> 00:22:32,620
در نهایت به طور کلی سریعتر شد. سپس

554
00:22:32,620 –> 00:22:35,950
می‌توانید هر لایه جداگانه را به لایه

555
00:22:35,950 –> 00:22:37,900
بعدی منتقل کنید، بنابراین من یک لایه LCM برای آنها دارم یک

556
00:22:37,900 –> 00:22:39,520
لایه LS cm دیگر با انتخاب

557
00:22:39,520 –> 00:22:43,360
تابع فعال‌سازی مماس هذلولی با

558
00:22:43,360 –> 00:22:45,070
یک نرخ ریزش معین، تقریباً

559
00:22:45,070 –> 00:22:47,020
10% افت فقط یک

560
00:22:47,020 –> 00:22:49,780
روش منظم‌سازی است که به ما امکان می‌دهد خطر

561
00:22:49,780 –> 00:22:51,220
بیش از حد برازش را کاهش می دهیم و در نهایت

562
00:22:51,220 –> 00:22:53,470
همه چیز را از این لایه خروجی متراکم عبور می دهیم

563
00:22:53,470 –> 00:22:55,600
که یک تابع سیگموئید است که

564
00:22:55,600 –> 00:22:58,300
خروجی را مجبور می کند بین 0 و 1 باشد بنابراین

565
00:22:58,300 –> 00:23:00,160
احتمال خود را بدست می آوریم. y ارزش

566
00:23:00,160 –> 00:23:04,720
مثبت یا منفی بودن را دارد، بنابراین

567
00:23:04,720 –> 00:23:06,520
نتایج واقعی برای این در نهایت

568
00:23:06,520 –> 00:23:09,130
دقت حدود 81 و نیم درصد است

569
00:23:09,130 –> 00:23:10,900
و مجموعه اعتبارسنجی که بسیار

570
00:23:10,900 –> 00:23:12,760
خوب است، یعنی همان جایی که احساسات

571
00:23:12,760 –> 00:23:14,940
140 نفر آن را دریافت کردند، بنابراین مزیت رقابتی خوب به

572
00:23:14,940 –> 00:23:19,240
اوج می رسد، این خوب است.

573
00:23:19,240 –> 00:23:22,630
فقط هشت تا نه ساعت طول کشید

574
00:23:22,630 –> 00:23:25,630
تا در مقابل بیست دقیقه برای رگرسیون لجستیکی من اجرا کنم،

575
00:23:25,630 –> 00:23:28,420
بنابراین به شما اجازه می‌دهم محاسبه

576
00:23:28,420 –> 00:23:31,360
کنید که آیا این همه

577
00:23:31,360 –> 00:23:32,890
تلاش اضافی ارزشش را داشت یا نه

578
00:23:32,890 –> 00:23:36,460
تا سه درصد دقت اضافی را

579
00:23:36,460 –> 00:23:37,330
که من آن را انجام می‌دهم بدست آوریم.

580
00:23:37,330 –> 00:23:40,030
پس چگونه می‌خواهیم

581
00:23:40,030 –> 00:23:45,180
از این مدل مرکزی به درستی استفاده کنیم، ما به

582
00:23:45,180 –> 00:23:48,670
متنی نیاز داریم که بتوانیم

583
00:23:48,670 –> 00:23:51,220
مثبت یا منفی بودن آن را ارزیابی کنیم که

584
00:23:51,220 –> 00:23:53,920
فکر می‌کنیم به نوعی از

585
00:23:53,920 –> 00:23:55,800
دانش اقتصادی تبدیل به نوعی

586
00:23:55,800 –> 00:23:57,580
سیگنال اقتصاد کلان می‌شود که سپس می‌توانیم

587
00:23:57,580 –> 00:23:59,560
برای سهام‌های جداگانه استفاده کنیم. بنابراین

588
00:23:59,560 –> 00:24:02,230
تصمیم گرفتم توییتر رئیس

589
00:24:02,230 –> 00:24:04,600
جمهور ایالات متحده دونالد ترامپ را انتخاب کنم که او

590
00:24:04,600 –> 00:24:07,330
زیاد توییت می کند و بسیار منطقی است

591
00:24:07,330 –> 00:24:09,160
که رئیس جمهور قدرتمندترین

592
00:24:09,160 –> 00:24:12,940
اقتصاد در جهان او

593
00:24:12,940 –> 00:24:14,930
در

594
00:24:14,930 –> 00:24:18,740
مورد نحوه عملکرد این اقتصاد جهانی تأثیر می‌گذارد یا تأثیری بر نحوه عملکرد این اقتصاد جهانی خواهد داشت

595
00:24:18,740 –> 00:24:21,800
که چگونه در طول زمان تغییر می‌کند،

596
00:24:21,800 –> 00:24:24,890
سوابق زیادی برای این موضوع وجود دارد، اما چگونه می‌توانیم

597
00:24:24,890 –> 00:24:26,270
یک سیگنال را درست محاسبه کنیم.

598
00:24:26,270 –> 00:24:29,320

599
00:24:29,320 –> 00:24:32,090
می‌تواند

600
00:24:32,090 –> 00:24:34,250
در github پیدا کند و منتظر می‌ماند تا رئیس‌جمهور

601
00:24:34,250 –> 00:24:35,930
شرکت‌های سهامی عام را ذکر کند، سپس

602
00:24:35,930 –> 00:24:38,480
آن توییت را

603
00:24:38,480 –> 00:24:40,280
مثبت یا منفی ارزیابی می‌کند و

604
00:24:40,280 –> 00:24:42,350
بر اساس آن احساسات، موقعیت‌های لانگ و شورت را وارد می‌کند

605
00:24:42,350 –> 00:24:45,650
، همچنین پاداشی در مورد ایالات

606
00:24:45,650 –> 00:24:47,900
متحده در توییتر موجود است که

607
00:24:47,900 –> 00:24:49,280
منتظر رئیس‌جمهور می‌ماند تا شرکت‌های منشن که به صورت عمومی

608
00:24:49,280 –> 00:24:51,830
معامله می‌شوند از تحلیل احساسات

609
00:24:51,830 –> 00:24:53,000
برای تعیین مثبت یا منفی استفاده می‌کنند

610
00:24:53,000 –> 00:24:55,670
و سپس

611
00:24:55,670 –> 00:24:57,680
بر اساس احساس

612
00:24:57,680 –> 00:24:59,750
سومی که من پیدا کردم ترامپ و دامپ است

613
00:24:59,750 –> 00:25:02,780
که از طریق این لینک در دسترس است و

614
00:25:02,780 –> 00:25:04,100
منتظر است رئیس جمهور به صورت عمومی اشاره کند، پوزیشن‌های خرید یا فروش را وارد می‌کند.

615
00:25:04,100 –> 00:25:06,410
شرکت های معامله شده از

616
00:25:06,410 –> 00:25:07,820
تجزیه و تحلیل احساسات برای تعیین مثبت یا منفی بودن آنها استفاده می

617
00:25:07,820 –> 00:25:09,740
کنند و سپس فقط سهام

618
00:25:09,740 –> 00:25:12,710
کوتاه را وارد می کنند موضع‌گیری‌ها بر اساس

619
00:25:12,710 –> 00:25:15,560
منفی بودن احساسات است، بنابراین این

620
00:25:15,560 –> 00:25:17,420
واقعاً تنها نوآوری است که من در

621
00:25:17,420 –> 00:25:19,340
افرادی یافتم که علناً در مورد مدل‌هایی صحبت

622
00:25:19,340 –> 00:25:21,260
می‌کنند که به ترامپ وثیقه داده‌اند و این

623
00:25:21,260 –> 00:25:25,040
برای من خیلی جالب نیست، فقط به این دلیل که

624
00:25:25,040 –> 00:25:28,100
همه این روش‌های فردی با نام‌های واحد مبادله می‌کنند

625
00:25:28,100 –> 00:25:29,960
و زمانی که ما در

626
00:25:29,960 –> 00:25:31,130
تجارت الگوریتمی، ما می‌خواهیم تا جایی

627
00:25:31,130 –> 00:25:34,670
که ممکن است با نام‌های بیشتری معامله کنیم، درست

628
00:25:34,670 –> 00:25:36,710
می‌خواهیم یک سبد متنوع داشته باشیم،

629
00:25:36,710 –> 00:25:38,180
می‌خواهیم شرط‌بندی‌های مختلف را

630
00:25:38,180 –> 00:25:40,640
همزمان انجام دهیم، در حالی که این جالب و

631
00:25:40,640 –> 00:25:41,900
شهودی است و بسیار منطقی است

632
00:25:41,900 –> 00:25:43,850
و شاید عملکرد خوب باشد و

633
00:25:43,850 –> 00:25:47,600
در واقع نمی‌دانم که این برخلاف

634
00:25:47,600 –> 00:25:48,890
بسیاری از حساسیت‌های من

635
00:25:48,890 –> 00:25:50,990

636
00:25:50,990 –> 00:25:52,610

637
00:25:52,610 –> 00:25:54,820

638
00:25:54,820 –> 00:25:58,250

639
00:25:58,250 –> 00:26:01,130
است.

640
00:26:01,130 –> 00:26:05,180
مجموعه ای از مدل های تغییر نام تجاری از رگرسیون خطی

641
00:26:05,180 –> 00:26:07,100
و مدل سازی دو عاملی در

642
00:26:07,100 –> 00:26:10,180
فضای مالی به ما امکان می دهد

643
00:26:10,180 –> 00:26:13,400
اهمیت سری های زمانی را در o ارزیابی کنیم.

644
00:26:13,400 –> 00:26:16,310
سری‌های زمانی و مالی، بنابراین ما

645
00:26:16,310 –> 00:26:17,810
مدل قیمت‌گذاری دارایی‌های سرمایه‌ای را داریم که

646
00:26:17,810 –> 00:26:19,580
به‌نوعی اولین مورد از این مدل‌ها بود

647
00:26:19,580 –> 00:26:22,730
که بازده پرتفوی من را می‌گیرد و

648
00:26:22,730 –> 00:26:25,550
آن‌ها را بر حسب

649
00:26:25,550 –> 00:26:28,250
بازده بازار به طور کلی بیان می‌کند و مقداری

650
00:26:28,250 –> 00:26:29,000
رهگیری می‌کند

651
00:26:29,000 –> 00:26:31,220
تا بتوانیم آن را به این شکل تفسیر کنیم. از آنجایی که

652
00:26:31,220 –> 00:26:33,320
بازده پرتفوی من

653
00:26:33,320 –> 00:26:37,010
تا حدودی به دلیل بازار است و سپس چیز

654
00:26:37,010 –> 00:26:41,179
دیگری، و این عبارت بتا در اینجا

655
00:26:41,179 –> 00:26:43,460
تأثیر بازار را بر پرتفوی من کمی نشان می‌دهد،

656
00:26:43,460 –> 00:26:46,280
این به فونت

657
00:26:46,280 –> 00:26:48,530
فاکتورهای فرانسوی تعمیم می‌یابد که دو

658
00:26:48,530 –> 00:26:50,539
عامل اضافی را معرفی می‌کند – بالا و پایین. کوچک

659
00:26:50,539 –> 00:26:53,659
– بزرگ که دفتری بالا هستند – نسبت قیمت

660
00:26:53,659 –> 00:26:56,600
– دفتری کم – نسبت قیمت و

661
00:26:56,600 –> 00:26:59,240
ارزش بازار کوچک – ارزش بازار بزرگ و اینها

662
00:26:59,240 –> 00:27:01,010
جریان‌های بازدهی هستند که با هم ترکیب

663
00:27:01,010 –> 00:27:04,190
می‌شوند تا تأثیر

664
00:27:04,190 –> 00:27:07,700
سهام در حال رشد و سهام بازارهای کوچک را تعیین کنند

665
00:27:07,700 –> 00:27:09,530
و به دست آورند. حق بیمه‌های ریسک

666
00:27:09,530 –> 00:27:11,480
مرتبط با آن‌ها، بنابراین اکنون می‌توانیم

667
00:27:11,480 –> 00:27:12,799
پورتفولیوی خود را بر اساس

668
00:27:12,799 –> 00:27:14,720
این سه رشته بازدهی تجزیه کنیم و

669
00:27:14,720 –> 00:27:16,850
امتیاز پایان هر یک از این

670
00:27:16,850 –> 00:27:19,850
جریان‌های بازده رایگان را دریافت کنیم. در پورتفولیوی خود و

671
00:27:19,850 –> 00:27:22,250
سپس چیزی باقی مانده است و سپس

672
00:27:22,250 –> 00:27:24,169
می‌توانیم

673
00:27:24,169 –> 00:27:26,240
هر تعداد جریان بازگشتی

674
00:27:26,240 —

پاسخ دهید لغو پاسخ

اکانت vip

دوره آموزش پایتون

مطالب تصادفی

فیلم آموزشی: آموزش پایتون: آماده سازی داده ها برای تجزیه و تحلیل خوشه ای با زیرنویس فارسی

فیلم آموزشی: نحوه ایجاد لیست باکس با اسکرولبار در پایتون با زیرنویس فارسی

فیلم آموزشی: مدیریت و اجرای اسکریپت های پایتون از ServiceNow

فیلم آموزشی: تجزیه LU در پایتون با زیرنویس فارسی

فیلم آموزشی: بازده روزانه و نمودارهای توزیع در نوت بوک های پایتون و ژوپیتر با زیرنویس فارسی

فیلم آموزشی: Python: ورود به برنامه وب با Python Flask MySQL

فیلم آموزشی: تایپ پایتون: ژنراتور[T, S, R] (متوسط) آنتونی #297 توضیح می‌دهد با زیرنویس فارسی

فیلم آموزشی: نوع ایمن ORM با Prisma Client و Real Python در PyCon US 2022 | پادکست واقعی پایتون شماره 107 با زیرنویس فارسی

فیلم آموزشی: Dan Yeaw – 5 مرحله برای ساخت ابزارک‌های رابط کاربری گرافیکی بومی پایتون برای BeeWare – PyCon 2019 با زیرنویس فارسی

فیلم آموزشی: نمایش تصاویر در ترمینال لینوکس با استفاده از پایتون با زیرنویس فارسی

فیلم آموزشی: {Python Strings} – [# 05 ط§ظ «ط³ظ« ط§ط³ظ «ظپظٹ ط¨ط§ظٹط« ظˆظ † – [طھط¹ظ «ظ… ط¨ط§ظٹط« ظˆظ † ط¨ط§ظ «ط¹ط ظٹ

فیلم آموزشی: نحوه نصب پایتون 3.9.5 در ویندوز 10 با زیرنویس فارسی

فیلم آموزشی: زیرساخت خود را بسازید – با پایتون! با زیرنویس فارسی

فیلم آموزشی: کدنویسی پایتون در iPad – Google Colab

فیلم آموزشی: آموزش پایتون | کتابخانه های پایتون را با استفاده از فایل Requiremets (Requirements.txt) نصب کنید با زیرنویس فارسی

فیلم آموزشی: رگرسیون خطی 1 [پایتون] با زیرنویس فارسی

پشتیبانی سایت

نماد اعتماد اینماد و زیبال

برای دانلود این فیلم ، عضو vip سایت شوید.

دانلود 17000 فیلم پایتون با پرداخت 15 هزار تومان (عضویت یک ماهه)

مطالب مرتبط: