فیلم آموزشی: رونویسی صدا و استفاده از تشخیص گفتار در پایتون با زیرنویس فارسی

در این مطلب، ویدئو رونویسی صدا و استفاده از تشخیص گفتار در پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:17:13

تصاویر این ویدئو:

قسمتی از زیرنویس این فیلم:

1
00:00:00,480 –> 00:00:02,639
راهنمای نهایی تشخیص گفتار

2
00:00:02,639 –> 00:00:05,359
با پایتون

3
00:00:05,359 –> 00:00:07,200
آیا تا به حال به این فکر کرده اید که چگونه تشخیص گفتار را

4
00:00:07,200 –> 00:00:09,440
به پروژه پایتون خود اضافه کنید

5
00:00:09,440 –> 00:00:12,719
اگر چنین است، پس به تماشای آن ساده

6
00:00:12,719 –> 00:00:14,000
تر از چیزی است که فکر می کنید

7
00:00:14,000 –> 00:00:16,000
از جمله تشخیص گفتار در پروژه پایتون

8
00:00:16,000 –> 00:00:18,080
واقعاً در این راهنما ساده است.

9
00:00:18,080 –> 00:00:21,119

10
00:00:21,119 –> 00:00:23,680
چگونه یاد می گیرید که تشخیص گفتار چگونه

11
00:00:23,680 –> 00:00:25,039
کار می کند

12
00:00:25,039 –> 00:00:28,080
چه بسته هایی در pi pi موجود است و

13
00:00:28,080 –> 00:00:30,000
چگونه می توانید بسته تشخیص گفتار را نصب کنید و از آن استفاده کنید

14
00:00:30,000 –> 00:00:31,519

15
00:00:31,519 –> 00:00:33,920
یک کتابخانه کاملاً دارای ویژگی و آسان برای استفاده از تشخیص گفتار پایتون.

16
00:00:33,920 –> 00:00:36,399

17
00:00:36,399 –> 00:00:38,079

18
00:00:38,079 –> 00:00:40,559
یک بازی با کلمات را حدس بزنید

19
00:00:40,559 –> 00:00:43,520
و ببینید که چگونه همه چیز با هم ترکیب می شود، بنابراین

20
00:00:43,520 –> 00:00:44,000
بیایید

21
00:00:44,000 –> 00:00:48,640
شروع کنیم که چگونه تشخیص گفتار کار می کند

22
00:00:48,640 –> 00:00:52,399
یک مرور کلی قبل از اینکه به

23
00:00:52,399 –> 00:00:54,399
کار ساده تشخیص گفتار

24
00:00:54,399 –> 00:00:55,440
در پایتون بپردازیم،

25
00:00:55,440 –> 00:00:57,039
اجازه دهید لحظه ای در مورد نحوه عملکرد کامل تشخیص گفتار صحبت کنیم.

26
00:00:57,039 –> 00:00:59,280

27
00:00:59,280 –> 00:01:01,600
بحث یک کتاب را پر می کند، بنابراین من

28
00:01:01,600 –> 00:01:03,199
شما را با تمام جزئیات فنی در اینجا خسته نمی

29
00:01:03,199 –> 00:01:04,559
کنم،

30
00:01:04,559 –> 00:01:06,080
در واقع این بخش

31
00:01:06,080 –> 00:01:08,560
پیش نیازی برای بقیه دوره نیست

32
00:01:08,560 –> 00:01:09,760
اگر شما می‌خواهم مستقیماً به اصل

33
00:01:09,760 –> 00:01:12,960
مطلب بپردازم و از

34
00:01:12,960 –> 00:01:14,640

35
00:01:14,640 –> 00:01:16,400

36
00:01:16,400 –> 00:01:19,280

37
00:01:19,280 –> 00:01:21,040

38
00:01:21,040 –> 00:01:23,200

39
00:01:23,200 –> 00:01:25,119

40
00:01:25,119 –> 00:01:26,880
جلوتر بگذریم. سیستم‌ها

41
00:01:26,880 –> 00:01:28,560
از همتایان باستانی خود راه طولانی را

42
00:01:28,560 –> 00:01:29,520
پیموده‌اند

43
00:01:29,520 –> 00:01:30,880
و می‌توانند گفتار را از

44
00:01:30,880 –> 00:01:32,880
چندین سخنران تشخیص دهند و واژگان بسیار زیادی

45
00:01:32,880 –> 00:01:35,680
در زبان‌های متعدد دارند.

46
00:01:35,680 –> 00:01:36,960

47
00:01:36,960 –> 00:01:40,079

48
00:01:40,079 –> 00:01:42,079

49
00:01:42,079 –> 00:01:43,680

50
00:01:43,680 –> 00:01:44,880

51
00:01:44,880 –> 00:01:46,880
و سپس به داده‌های دیجیتال با مبدل آنالوگ

52
00:01:46,880 –> 00:01:49,040
به دیجیتال

53
00:01:49,040 –> 00:01:51,119
پس از دیجیتالی شدن، می‌توان از چندین

54
00:01:51,119 –> 00:01:54,159
مدل برای رونویسی صدا به متن استفاده کرد.

55
00:01:54,159 –> 00:01:56,159
اکثر سیستم‌های تشخیص گفتار مدرن

56
00:01:56,159 –> 00:01:58,320
متکی به آنچه به عنوان مدل مارکوف پنهان شناخته می‌شود،

57
00:01:58,320 –> 00:01:59,360

58
00:01:59,360 –> 00:02:00,880
این رویکرد با این فرض کار می‌کند

59
00:02:00,880 –> 00:02:02,880
که سیگنال گفتار در هنگام در یک

60
00:02:02,880 –> 00:02:04,240
مقیاس زمانی به اندازه کافی کوتاه مشاهده

61
00:02:04,240 –> 00:02:06,719
می شود، می توان گفت 10 میلی ثانیه را می توان به طور منطقی

62
00:02:06,719 –> 00:02:09,598
تقریب زد یک فرآیند ثابت

63
00:02:09,598 –> 00:02:11,760
که فرآیندی است که در

64
00:02:11,760 –> 00:02:15,520
آن خواص آماری در طول زمان تغییر نمی‌کند

65
00:02:15,599 –> 00:02:18,160
در یک Hmm معمولی سیگنال گفتار

66
00:02:18,160 –> 00:02:21,120
به قطعات 10 میلی‌ثانیه‌ای تقسیم می‌شود

67
00:02:21,120 –> 00:02:22,800
که طیف توان هر

68
00:02:22,800 –> 00:02:24,160
قطعه که اساساً نموداری از

69
00:02:24,160 –> 00:02:25,599
قدرت سیگنال به عنوان تابعی از

70
00:02:25,599 –> 00:02:26,959
فرکانس

71
00:02:26,959 –> 00:02:28,959
است. نگاشت به بردار اعداد واقعی

72
00:02:28,959 –> 00:02:31,599
معروف به ضرایب سپتال

73
00:02:31,599 –> 00:02:33,440
، بعد این بردار معمولاً

74
00:02:33,440 –> 00:02:36,160
کوچک است، گاهی اوقات تا 10، اگرچه

75
00:02:36,160 –> 00:02:38,160
سیستم های دقیق تر ممکن است بعد

76
00:02:38,160 –> 00:02:41,360
32 یا بیشتر داشته باشند.

77
00:02:41,360 –> 00:02:43,040
خروجی نهایی hmm

78
00:02:43,040 –> 00:02:46,319
دنباله ای از این بردارها

79
00:02:46,319 –> 00:02:48,720
برای رمزگشایی گفتار است. در گروه های متنی از

80
00:02:48,720 –> 00:02:50,319
بردارها با یک یا چند واج تطبیق داده می شود،

81
00:02:50,319 –> 00:02:51,200

82
00:02:51,200 –> 00:02:54,080
یک واحد اساسی گفتار، این

83
00:02:54,080 –> 00:02:55,920
محاسبه نیاز به آموزش دارد،

84
00:02:55,920 –> 00:02:57,760
زیرا صدای یک واج از

85
00:02:57,760 –> 00:02:58,959
گوینده ای به گوینده دیگر

86
00:02:58,959 –> 00:03:00,800
متفاوت است و حتی از یک گفته به لفظ

87
00:03:00,800 –> 00:03:04,080
دیگر توسط همان گوینده متفاوت

88
00:03:04,080 –> 00:03:06,000
است، سپس الگوریتم خاصی اعمال می شود. برای

89
00:03:06,000 –> 00:03:08,239
تعیین محتمل ترین کلمه یا کلماتی

90
00:03:08,239 –> 00:03:09,840
که دنباله ای از

91
00:03:09,840 –> 00:03:11,599
واج ها را تولید

92
00:03:11,599 –> 00:03:13,280
می کنند، می توان تصور کرد که این کل

93
00:03:13,280 –> 00:03:16,080

94
00:03:16,080 –> 00:03:17,760
در بسیاری از سیستم‌های تشخیص گفتار مدرن، فرآیند ممکن

95
00:03:17,760 –> 00:03:19,519

96
00:03:19,519 –> 00:03:21,280

97
00:03:21,280 –> 00:03:23,120
است از

98
00:03:23,120 –> 00:03:25,519
نظر محاسباتی

99
00:03:25,519 –> 00:03:28,799

100
00:03:28,799 –> 00:03:31,120

101
00:03:31,120 –> 00:03:32,080

102
00:03:32,080 –> 00:03:33,680
گران باشد.

103
00:03:33,680 –> 00:03:36,080
به احتمال زیاد حاوی گفتار است و

104
00:03:36,080 –> 00:03:37,599
این مانع از

105
00:03:37,599 –> 00:03:40,000
اتلاف وقت تشخیص‌دهنده برای تجزیه و تحلیل بخش‌های غیرضروری

106
00:03:40,000 –> 00:03:42,640
سیگنال می‌شود،

107
00:03:42,640 –> 00:03:44,560
خوشبختانه به عنوان یک برنامه‌نویس پایتون،

108
00:03:44,560 –> 00:03:46,400
لازم نیست نگران هیچ‌یک از این‌ها باشید

109
00:03:46,400 –> 00:03:48,319
، تعدادی از خدمات تشخیص گفتار

110
00:03:48,319 –> 00:03:49,840
برای استفاده آنلاین از طریق یک

111
00:03:49,840 –> 00:03:50,720
API

112
00:03:50,720 –> 00:03:52,959
و بسیاری از خدمات در دسترس هستند. این سرویس‌ها sdk‌های پایتون را

113
00:03:52,959 –> 00:03:55,680

114
00:03:55,840 –> 00:03:57,360
در بخش بعدی ارائه می‌دهند، شما یک

115
00:03:57,360 –> 00:04:01,439
نمای کلی از بسته‌های پایتون موجود را مشاهده خواهید کرد که بسته‌های

116
00:04:01,439 –> 00:04:03,360
تشخیص گفتار پایتون را انتخاب می‌کنند.

117
00:04:03,360 –> 00:04:05,760

118
00:04:05,920 –> 00:04:07,439
تعداد انگشت شماری از بسته‌ها برای

119
00:04:07,439 –> 00:04:09,840
تشخیص گفتار در pi pi وجود دارد

120
00:04:09,840 –> 00:04:11,920
که تعدادی از آنها در لیست روی

121
00:04:11,920 –> 00:04:15,840
صفحه نمایش داده شده‌اند، اکنون

122
00:04:15,840 –> 00:04:18,160
برخی از آنها این بسته ها مانند appy ai

123
00:04:18,160 –> 00:04:20,478
و witt ویژگی های داخلی مانند

124
00:04:20,478 –> 00:04:22,079
natural را ارائه می دهند پردازش زبان برای

125
00:04:22,079 –> 00:04:24,080
شناسایی هدف یک گوینده

126
00:04:24,080 –> 00:04:28,320
که فراتر از تشخیص گفتار اولیه است.

127
00:04:28,320 –> 00:04:30,800
دیگران مانند google cloud تمرکز گفتار

128
00:04:30,800 –> 00:04:34,960
صرفاً بر تبدیل گفتار به متن

129
00:04:34,960 –> 00:04:36,639
یک بسته وجود دارد که از

130
00:04:36,639 –> 00:04:38,080
نظر سهولت استفاده

131
00:04:38,080 –> 00:04:41,280
متمایز است. تشخیص گفتار

132
00:04:41,280 –> 00:04:43,120
به ورودی صوتی و تشخیص گفتار نیاز دارد.

133
00:04:43,120 –> 00:04:45,040
بازیابی این ورودی را

134
00:04:45,040 –> 00:04:46,960

135
00:04:46,960 –> 00:04:48,479
به جای نیاز به ساخت اسکریپت‌هایی برای

136
00:04:48,479 –> 00:04:50,320
دسترسی به میکروفون‌ها و پردازش

137
00:04:50,320 –> 00:04:51,919
فایل‌های صوتی از

138
00:04:51,919 –> 00:04:53,520
ابتدا به شما آسان می‌کند.

139
00:04:53,520 –> 00:04:56,400

140
00:04:56,400 –> 00:04:58,160

141
00:04:58,160 –> 00:05:00,479

142
00:05:00,479 –> 00:05:03,759
یکی از اینها بسیار منعطف است

143
00:05:03,759 –> 00:05:04,320

144
00:05:04,320 –> 00:05:06,880
، google web speech api از یک

145
00:05:06,880 –> 00:05:09,360
کلید api پیش‌فرض پشتیبانی می‌کند که به صورت سخت در کتابخانه تشخیص گفتار کدگذاری شده است، به

146
00:05:09,360 –> 00:05:11,680
این

147
00:05:11,680 –> 00:05:13,360
معنی که می‌توانید

148
00:05:13,360 –> 00:05:16,160
بدون نیاز به ثبت نام در یک

149
00:05:16,160 –> 00:05:18,000
سرویس، انعطاف‌پذیری و سهولت استفاده از

150
00:05:18,000 –> 00:05:19,919
تشخیص گفتار را راه‌اندازی کنید و کار کنید. بسته آن را به یک

151
00:05:19,919 –> 00:05:22,479
انتخاب عالی برای هر پروژه پایتون

152
00:05:22,479 –> 00:05:24,400
با وجود پشتیبانی از آن تبدیل می کند همه ویژگی‌های

153
00:05:24,400 –> 00:05:27,600
هر api که می‌پیچد تضمینی

154
00:05:27,600 –> 00:05:29,039
نیست، باید مدتی را صرف

155
00:05:29,039 –> 00:05:30,800
تحقیق در مورد گزینه‌های موجود

156
00:05:30,800 –> 00:05:32,560
کنید تا متوجه شوید که آیا تشخیص گفتار

157
00:05:32,560 –> 00:05:35,759
در مورد خاص شما کار می‌کند یا

158
00:05:36,000 –> 00:05:37,680
نه، بنابراین اکنون که متقاعد شده‌اید باید

159
00:05:37,680 –> 00:05:39,360

160
00:05:39,360 –> 00:05:41,120
در مرحله بعدی تشخیص گفتار را امتحان کنید. این است که آن را در محیط خود نصب کنید

161
00:05:41,120 –> 00:05:43,039
و این همان چیزی است که در

162
00:05:43,039 –> 00:05:46,000
بخش زیر

163
00:05:46,160 –> 00:05:49,840

164
00:05:49,840 –> 00:05:51,759

165
00:05:51,759 –> 00:05:53,759

166
00:05:53,759 –> 00:05:55,600

167
00:05:55,600 –> 00:05:57,680

168
00:05:57,680 –> 00:06:00,319
پوشش

169
00:06:00,319 –> 00:06:03,840
داده شده است. 3.9

170
00:06:03,840 –> 00:06:05,840
هنگام کار با هر کتابخانه جدید،

171
00:06:05,840 –> 00:06:07,600
اغلب ایده خوبی است که در یک محیط مجازی کار کنید

172
00:06:07,600 –> 00:06:08,400

173
00:06:08,400 –> 00:06:10,319
و اگر مطمئن نیستید که چگونه آن را راه اندازی

174
00:06:10,319 –> 00:06:14,080
کنید، به این دوره آموزشی پایتون واقعی در اینجا نگاهی بیندازید،

175
00:06:14,160 –> 00:06:15,919
می توانید ببینید من در حال ایجاد یک

176
00:06:15,919 –> 00:06:19,120
محیط مجازی در mac os

177
00:06:19,120 –> 00:06:20,720
و سپس با تغییر دادن به آن با استفاده از

178
00:06:20,720 –> 00:06:23,520
دستور زیر،

179
00:06:24,240 –> 00:06:26,240
می‌توانید تشخیص گفتار را از

180
00:06:26,240 –> 00:06:29,600
یک ترمینال با استفاده از pip

181
00:06:33,680 –> 00:06:35,840
نصب

182
00:06:35,840 –> 00:06:37,360
کنید، پس از نصب تشخیص گفتار، نصب را تأیید کنید.

183
00:06:37,360 –> 00:06:40,560
باز کردن یک دافعه پایتون

184
00:06:40,560 –> 00:06:49,599
و تایپ کردن موارد زیر که روی صفحه نمایش داده می شود،

185
00:06:49,599 –> 00:06:51,039
پس از اینکه تأیید کردید که نسخه مناسب

186
00:06:51,039 –> 00:06:52,560
تشخیص گفتار

187
00:06:52,560 –> 00:06:53,440
نصب شده است

188
00:06:53,440 –> 00:06:55,599
، مخزن پایتون را باز بگذارید

189
00:06:55,599 –> 00:06:59,280
زیرا کمی بعد با آن

190
00:06:59,440 –> 00:07:01,360
کار خواهید کرد، اگر تشخیص گفتار خارج از

191
00:07:01,360 –> 00:07:02,800
جعبه باشد. تنها کاری که باید انجام دهید این

192
00:07:02,800 –> 00:07:05,440
است که با موارد استفاده خاص فایل های صوتی موجود کار

193
00:07:05,440 –> 00:07:06,160

194
00:07:06,160 –> 00:07:08,160
کنید، اما به چند وابستگی نیاز دارد،

195
00:07:08,160 –> 00:07:09,599
به

196
00:07:09,599 –> 00:07:11,840
ویژه بسته صوتی pi برای گرفتن ورودی میکروفون مورد نیاز است،

197
00:07:11,840 –> 00:07:14,960

198
00:07:14,960 –> 00:07:17,199
اما در مرحله بعد، بیایید به بررسی

199
00:07:17,199 –> 00:07:20,240
اصول اولیه

200
00:07:20,319 –> 00:07:23,680

201
00:07:23,840 –> 00:07:25,680
پکیج بپردازیم. تشخیص گفتار

202
00:07:25,680 –> 00:07:28,800
در کلاس شناساگر اتفاق می‌افتد

203
00:07:28,800 –> 00:07:30,960

204
00:07:30,960 –> 00:07:32,880
، البته هدف اصلی هر نمونه شناسایی، تشخیص

205
00:07:32,880 –> 00:07:34,160
گفتار است.

206
00:07:34,160 –> 00:07:35,840

207
00:07:35,840 –> 00:07:37,280

208
00:07:37,280 –> 00:07:40,479

209
00:07:40,479 –> 00:07:44,160

210
00:07:44,160 –> 00:07:46,160

211
00:07:46,160 –> 00:07:48,560

212
00:07:52,080 –> 00:07:54,000
هر نمونه شناساگر هفت

213
00:07:54,000 –> 00:07:55,919
روش برای تشخیص گفتار از

214
00:07:55,919 –> 00:07:58,800
منبع صوتی با استفاده از apis های مختلف دارد

215
00:07:58,800 –> 00:08:02,240
شناسایی بینگ مایکروسافت بینگ

216
00:08:02,240 –> 00:08:03,599
گفتار

217
00:08:03,599 –> 00:08:07,440
تشخیص گوگل گوگل گفتار وب گوگل api

218
00:08:

پاسخ دهید لغو پاسخ

اکانت vip

دوره آموزش پایتون

مطالب تصادفی

فیلم آموزشی: ترسیم منحنی ROC با استفاده از پایتون | مجموعه داده دیگر | فراگیری ماشین با زیرنویس فارسی

فیلم آموزشی: نحوه ارتقای پایتون در ویندوز با زیرنویس فارسی

فیلم آموزشی: دوره پایتون 3 برای زیست شناسان (مبتدی مطلق): Tut 1 با زیرنویس فارسی

فیلم آموزشی: داده های تاریخی سهام را از Yahoo Finance با استفاده از Python دانلود کنید با زیرنویس فارسی

فیلم آموزشی: تجزیه و تحلیل داده ها با پایتون | تجزیه و تحلیل داده ها با SQL | آموزش تحلیل داده ها | Intellipaat

فیلم آموزشی: چگونه API Kubernetes را با استفاده از Python کاوش کنیم با زیرنویس فارسی

فیلم آموزشی: ساخت اپلیکیشن وب پیش بینی روند سهام در پایتون | GeeksforGeeks

فیلم آموزشی: نحوه نصب کد پایتون و ویژوال استودیو در لینوکس فدورا با زیرنویس فارسی

فیلم آموزشی: Power BI و یادگیری ماشین پایتون A تا Z قسمت 7: استقرار مدل و تجسم نتایج با زیرنویس فارسی

فیلم آموزشی: نحوه ساخت نمودار با 3 محور y با استفاده از matplotlib در پایتون با زیرنویس فارسی

فیلم آموزشی: دوره Raspberry Pi – روز چهاردهم سنسور PIR با پایتون با زیرنویس فارسی

فیلم آموزشی: 22 – حذف نویز تصاویر میکروسکوپ در پایتون با زیرنویس فارسی

فیلم آموزشی: پایتون JSON | رمزگذاری و رمزگشایی داده های JSON با پایتون | ادورکا با زیرنویس فارسی

فیلم آموزشی: Nerd Rant 2.0 – Ep.17: Using Python Libraries in Houdini با زیرنویس فارسی

فیلم آموزشی: علوم فضایی با پایتون – AI 1-14: GMM – انتخاب خوبی است؟ با زیرنویس فارسی

فیلم آموزشی: بسته بندی پایتون: طرح بندی src (متوسط) آنتونی #048 را توضیح می دهد با زیرنویس فارسی

پشتیبانی سایت

نماد اعتماد اینماد و زیبال

برای دانلود این فیلم ، عضو vip سایت شوید.

دانلود 17000 فیلم پایتون با پرداخت 15 هزار تومان (عضویت یک ماهه)

مطالب مرتبط: