در این مطلب، ویدئو رونویسی صدا و استفاده از تشخیص گفتار در پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:17:13
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,480 –> 00:00:02,639
راهنمای نهایی تشخیص گفتار
2
00:00:02,639 –> 00:00:05,359
با پایتون
3
00:00:05,359 –> 00:00:07,200
آیا تا به حال به این فکر کرده اید که چگونه تشخیص گفتار را
4
00:00:07,200 –> 00:00:09,440
به پروژه پایتون خود اضافه کنید
5
00:00:09,440 –> 00:00:12,719
اگر چنین است، پس به تماشای آن ساده
6
00:00:12,719 –> 00:00:14,000
تر از چیزی است که فکر می کنید
7
00:00:14,000 –> 00:00:16,000
از جمله تشخیص گفتار در پروژه پایتون
8
00:00:16,000 –> 00:00:18,080
واقعاً در این راهنما ساده است.
9
00:00:18,080 –> 00:00:21,119
10
00:00:21,119 –> 00:00:23,680
چگونه یاد می گیرید که تشخیص گفتار چگونه
11
00:00:23,680 –> 00:00:25,039
کار می کند
12
00:00:25,039 –> 00:00:28,080
چه بسته هایی در pi pi موجود است و
13
00:00:28,080 –> 00:00:30,000
چگونه می توانید بسته تشخیص گفتار را نصب کنید و از آن استفاده کنید
14
00:00:30,000 –> 00:00:31,519
15
00:00:31,519 –> 00:00:33,920
یک کتابخانه کاملاً دارای ویژگی و آسان برای استفاده از تشخیص گفتار پایتون.
16
00:00:33,920 –> 00:00:36,399
17
00:00:36,399 –> 00:00:38,079
18
00:00:38,079 –> 00:00:40,559
یک بازی با کلمات را حدس بزنید
19
00:00:40,559 –> 00:00:43,520
و ببینید که چگونه همه چیز با هم ترکیب می شود، بنابراین
20
00:00:43,520 –> 00:00:44,000
بیایید
21
00:00:44,000 –> 00:00:48,640
شروع کنیم که چگونه تشخیص گفتار کار می کند
22
00:00:48,640 –> 00:00:52,399
یک مرور کلی قبل از اینکه به
23
00:00:52,399 –> 00:00:54,399
کار ساده تشخیص گفتار
24
00:00:54,399 –> 00:00:55,440
در پایتون بپردازیم،
25
00:00:55,440 –> 00:00:57,039
اجازه دهید لحظه ای در مورد نحوه عملکرد کامل تشخیص گفتار صحبت کنیم.
26
00:00:57,039 –> 00:00:59,280
27
00:00:59,280 –> 00:01:01,600
بحث یک کتاب را پر می کند، بنابراین من
28
00:01:01,600 –> 00:01:03,199
شما را با تمام جزئیات فنی در اینجا خسته نمی
29
00:01:03,199 –> 00:01:04,559
کنم،
30
00:01:04,559 –> 00:01:06,080
در واقع این بخش
31
00:01:06,080 –> 00:01:08,560
پیش نیازی برای بقیه دوره نیست
32
00:01:08,560 –> 00:01:09,760
اگر شما میخواهم مستقیماً به اصل
33
00:01:09,760 –> 00:01:12,960
مطلب بپردازم و از
34
00:01:12,960 –> 00:01:14,640
35
00:01:14,640 –> 00:01:16,400
36
00:01:16,400 –> 00:01:19,280
37
00:01:19,280 –> 00:01:21,040
38
00:01:21,040 –> 00:01:23,200
39
00:01:23,200 –> 00:01:25,119
40
00:01:25,119 –> 00:01:26,880
جلوتر بگذریم. سیستمها
41
00:01:26,880 –> 00:01:28,560
از همتایان باستانی خود راه طولانی را
42
00:01:28,560 –> 00:01:29,520
پیمودهاند
43
00:01:29,520 –> 00:01:30,880
و میتوانند گفتار را از
44
00:01:30,880 –> 00:01:32,880
چندین سخنران تشخیص دهند و واژگان بسیار زیادی
45
00:01:32,880 –> 00:01:35,680
در زبانهای متعدد دارند.
46
00:01:35,680 –> 00:01:36,960
47
00:01:36,960 –> 00:01:40,079
48
00:01:40,079 –> 00:01:42,079
49
00:01:42,079 –> 00:01:43,680
50
00:01:43,680 –> 00:01:44,880
51
00:01:44,880 –> 00:01:46,880
و سپس به دادههای دیجیتال با مبدل آنالوگ
52
00:01:46,880 –> 00:01:49,040
به دیجیتال
53
00:01:49,040 –> 00:01:51,119
پس از دیجیتالی شدن، میتوان از چندین
54
00:01:51,119 –> 00:01:54,159
مدل برای رونویسی صدا به متن استفاده کرد.
55
00:01:54,159 –> 00:01:56,159
اکثر سیستمهای تشخیص گفتار مدرن
56
00:01:56,159 –> 00:01:58,320
متکی به آنچه به عنوان مدل مارکوف پنهان شناخته میشود،
57
00:01:58,320 –> 00:01:59,360
58
00:01:59,360 –> 00:02:00,880
این رویکرد با این فرض کار میکند
59
00:02:00,880 –> 00:02:02,880
که سیگنال گفتار در هنگام در یک
60
00:02:02,880 –> 00:02:04,240
مقیاس زمانی به اندازه کافی کوتاه مشاهده
61
00:02:04,240 –> 00:02:06,719
می شود، می توان گفت 10 میلی ثانیه را می توان به طور منطقی
62
00:02:06,719 –> 00:02:09,598
تقریب زد یک فرآیند ثابت
63
00:02:09,598 –> 00:02:11,760
که فرآیندی است که در
64
00:02:11,760 –> 00:02:15,520
آن خواص آماری در طول زمان تغییر نمیکند
65
00:02:15,599 –> 00:02:18,160
در یک Hmm معمولی سیگنال گفتار
66
00:02:18,160 –> 00:02:21,120
به قطعات 10 میلیثانیهای تقسیم میشود
67
00:02:21,120 –> 00:02:22,800
که طیف توان هر
68
00:02:22,800 –> 00:02:24,160
قطعه که اساساً نموداری از
69
00:02:24,160 –> 00:02:25,599
قدرت سیگنال به عنوان تابعی از
70
00:02:25,599 –> 00:02:26,959
فرکانس
71
00:02:26,959 –> 00:02:28,959
است. نگاشت به بردار اعداد واقعی
72
00:02:28,959 –> 00:02:31,599
معروف به ضرایب سپتال
73
00:02:31,599 –> 00:02:33,440
، بعد این بردار معمولاً
74
00:02:33,440 –> 00:02:36,160
کوچک است، گاهی اوقات تا 10، اگرچه
75
00:02:36,160 –> 00:02:38,160
سیستم های دقیق تر ممکن است بعد
76
00:02:38,160 –> 00:02:41,360
32 یا بیشتر داشته باشند.
77
00:02:41,360 –> 00:02:43,040
خروجی نهایی hmm
78
00:02:43,040 –> 00:02:46,319
دنباله ای از این بردارها
79
00:02:46,319 –> 00:02:48,720
برای رمزگشایی گفتار است. در گروه های متنی از
80
00:02:48,720 –> 00:02:50,319
بردارها با یک یا چند واج تطبیق داده می شود،
81
00:02:50,319 –> 00:02:51,200
82
00:02:51,200 –> 00:02:54,080
یک واحد اساسی گفتار، این
83
00:02:54,080 –> 00:02:55,920
محاسبه نیاز به آموزش دارد،
84
00:02:55,920 –> 00:02:57,760
زیرا صدای یک واج از
85
00:02:57,760 –> 00:02:58,959
گوینده ای به گوینده دیگر
86
00:02:58,959 –> 00:03:00,800
متفاوت است و حتی از یک گفته به لفظ
87
00:03:00,800 –> 00:03:04,080
دیگر توسط همان گوینده متفاوت
88
00:03:04,080 –> 00:03:06,000
است، سپس الگوریتم خاصی اعمال می شود. برای
89
00:03:06,000 –> 00:03:08,239
تعیین محتمل ترین کلمه یا کلماتی
90
00:03:08,239 –> 00:03:09,840
که دنباله ای از
91
00:03:09,840 –> 00:03:11,599
واج ها را تولید
92
00:03:11,599 –> 00:03:13,280
می کنند، می توان تصور کرد که این کل
93
00:03:13,280 –> 00:03:16,080
94
00:03:16,080 –> 00:03:17,760
در بسیاری از سیستمهای تشخیص گفتار مدرن، فرآیند ممکن
95
00:03:17,760 –> 00:03:19,519
96
00:03:19,519 –> 00:03:21,280
97
00:03:21,280 –> 00:03:23,120
است از
98
00:03:23,120 –> 00:03:25,519
نظر محاسباتی
99
00:03:25,519 –> 00:03:28,799
100
00:03:28,799 –> 00:03:31,120
101
00:03:31,120 –> 00:03:32,080
102
00:03:32,080 –> 00:03:33,680
گران باشد.
103
00:03:33,680 –> 00:03:36,080
به احتمال زیاد حاوی گفتار است و
104
00:03:36,080 –> 00:03:37,599
این مانع از
105
00:03:37,599 –> 00:03:40,000
اتلاف وقت تشخیصدهنده برای تجزیه و تحلیل بخشهای غیرضروری
106
00:03:40,000 –> 00:03:42,640
سیگنال میشود،
107
00:03:42,640 –> 00:03:44,560
خوشبختانه به عنوان یک برنامهنویس پایتون،
108
00:03:44,560 –> 00:03:46,400
لازم نیست نگران هیچیک از اینها باشید
109
00:03:46,400 –> 00:03:48,319
، تعدادی از خدمات تشخیص گفتار
110
00:03:48,319 –> 00:03:49,840
برای استفاده آنلاین از طریق یک
111
00:03:49,840 –> 00:03:50,720
API
112
00:03:50,720 –> 00:03:52,959
و بسیاری از خدمات در دسترس هستند. این سرویسها sdkهای پایتون را
113
00:03:52,959 –> 00:03:55,680
114
00:03:55,840 –> 00:03:57,360
در بخش بعدی ارائه میدهند، شما یک
115
00:03:57,360 –> 00:04:01,439
نمای کلی از بستههای پایتون موجود را مشاهده خواهید کرد که بستههای
116
00:04:01,439 –> 00:04:03,360
تشخیص گفتار پایتون را انتخاب میکنند.
117
00:04:03,360 –> 00:04:05,760
118
00:04:05,920 –> 00:04:07,439
تعداد انگشت شماری از بستهها برای
119
00:04:07,439 –> 00:04:09,840
تشخیص گفتار در pi pi وجود دارد
120
00:04:09,840 –> 00:04:11,920
که تعدادی از آنها در لیست روی
121
00:04:11,920 –> 00:04:15,840
صفحه نمایش داده شدهاند، اکنون
122
00:04:15,840 –> 00:04:18,160
برخی از آنها این بسته ها مانند appy ai
123
00:04:18,160 –> 00:04:20,478
و witt ویژگی های داخلی مانند
124
00:04:20,478 –> 00:04:22,079
natural را ارائه می دهند پردازش زبان برای
125
00:04:22,079 –> 00:04:24,080
شناسایی هدف یک گوینده
126
00:04:24,080 –> 00:04:28,320
که فراتر از تشخیص گفتار اولیه است.
127
00:04:28,320 –> 00:04:30,800
دیگران مانند google cloud تمرکز گفتار
128
00:04:30,800 –> 00:04:34,960
صرفاً بر تبدیل گفتار به متن
129
00:04:34,960 –> 00:04:36,639
یک بسته وجود دارد که از
130
00:04:36,639 –> 00:04:38,080
نظر سهولت استفاده
131
00:04:38,080 –> 00:04:41,280
متمایز است. تشخیص گفتار
132
00:04:41,280 –> 00:04:43,120
به ورودی صوتی و تشخیص گفتار نیاز دارد.
133
00:04:43,120 –> 00:04:45,040
بازیابی این ورودی را
134
00:04:45,040 –> 00:04:46,960
135
00:04:46,960 –> 00:04:48,479
به جای نیاز به ساخت اسکریپتهایی برای
136
00:04:48,479 –> 00:04:50,320
دسترسی به میکروفونها و پردازش
137
00:04:50,320 –> 00:04:51,919
فایلهای صوتی از
138
00:04:51,919 –> 00:04:53,520
ابتدا به شما آسان میکند.
139
00:04:53,520 –> 00:04:56,400
140
00:04:56,400 –> 00:04:58,160
141
00:04:58,160 –> 00:05:00,479
142
00:05:00,479 –> 00:05:03,759
یکی از اینها بسیار منعطف است
143
00:05:03,759 –> 00:05:04,320
144
00:05:04,320 –> 00:05:06,880
، google web speech api از یک
145
00:05:06,880 –> 00:05:09,360
کلید api پیشفرض پشتیبانی میکند که به صورت سخت در کتابخانه تشخیص گفتار کدگذاری شده است، به
146
00:05:09,360 –> 00:05:11,680
این
147
00:05:11,680 –> 00:05:13,360
معنی که میتوانید
148
00:05:13,360 –> 00:05:16,160
بدون نیاز به ثبت نام در یک
149
00:05:16,160 –> 00:05:18,000
سرویس، انعطافپذیری و سهولت استفاده از
150
00:05:18,000 –> 00:05:19,919
تشخیص گفتار را راهاندازی کنید و کار کنید. بسته آن را به یک
151
00:05:19,919 –> 00:05:22,479
انتخاب عالی برای هر پروژه پایتون
152
00:05:22,479 –> 00:05:24,400
با وجود پشتیبانی از آن تبدیل می کند همه ویژگیهای
153
00:05:24,400 –> 00:05:27,600
هر api که میپیچد تضمینی
154
00:05:27,600 –> 00:05:29,039
نیست، باید مدتی را صرف
155
00:05:29,039 –> 00:05:30,800
تحقیق در مورد گزینههای موجود
156
00:05:30,800 –> 00:05:32,560
کنید تا متوجه شوید که آیا تشخیص گفتار
157
00:05:32,560 –> 00:05:35,759
در مورد خاص شما کار میکند یا
158
00:05:36,000 –> 00:05:37,680
نه، بنابراین اکنون که متقاعد شدهاید باید
159
00:05:37,680 –> 00:05:39,360
160
00:05:39,360 –> 00:05:41,120
در مرحله بعدی تشخیص گفتار را امتحان کنید. این است که آن را در محیط خود نصب کنید
161
00:05:41,120 –> 00:05:43,039
و این همان چیزی است که در
162
00:05:43,039 –> 00:05:46,000
بخش زیر
163
00:05:46,160 –> 00:05:49,840
164
00:05:49,840 –> 00:05:51,759
165
00:05:51,759 –> 00:05:53,759
166
00:05:53,759 –> 00:05:55,600
167
00:05:55,600 –> 00:05:57,680
168
00:05:57,680 –> 00:06:00,319
پوشش
169
00:06:00,319 –> 00:06:03,840
داده شده است. 3.9
170
00:06:03,840 –> 00:06:05,840
هنگام کار با هر کتابخانه جدید،
171
00:06:05,840 –> 00:06:07,600
اغلب ایده خوبی است که در یک محیط مجازی کار کنید
172
00:06:07,600 –> 00:06:08,400
173
00:06:08,400 –> 00:06:10,319
و اگر مطمئن نیستید که چگونه آن را راه اندازی
174
00:06:10,319 –> 00:06:14,080
کنید، به این دوره آموزشی پایتون واقعی در اینجا نگاهی بیندازید،
175
00:06:14,160 –> 00:06:15,919
می توانید ببینید من در حال ایجاد یک
176
00:06:15,919 –> 00:06:19,120
محیط مجازی در mac os
177
00:06:19,120 –> 00:06:20,720
و سپس با تغییر دادن به آن با استفاده از
178
00:06:20,720 –> 00:06:23,520
دستور زیر،
179
00:06:24,240 –> 00:06:26,240
میتوانید تشخیص گفتار را از
180
00:06:26,240 –> 00:06:29,600
یک ترمینال با استفاده از pip
181
00:06:33,680 –> 00:06:35,840
نصب
182
00:06:35,840 –> 00:06:37,360
کنید، پس از نصب تشخیص گفتار، نصب را تأیید کنید.
183
00:06:37,360 –> 00:06:40,560
باز کردن یک دافعه پایتون
184
00:06:40,560 –> 00:06:49,599
و تایپ کردن موارد زیر که روی صفحه نمایش داده می شود،
185
00:06:49,599 –> 00:06:51,039
پس از اینکه تأیید کردید که نسخه مناسب
186
00:06:51,039 –> 00:06:52,560
تشخیص گفتار
187
00:06:52,560 –> 00:06:53,440
نصب شده است
188
00:06:53,440 –> 00:06:55,599
، مخزن پایتون را باز بگذارید
189
00:06:55,599 –> 00:06:59,280
زیرا کمی بعد با آن
190
00:06:59,440 –> 00:07:01,360
کار خواهید کرد، اگر تشخیص گفتار خارج از
191
00:07:01,360 –> 00:07:02,800
جعبه باشد. تنها کاری که باید انجام دهید این
192
00:07:02,800 –> 00:07:05,440
است که با موارد استفاده خاص فایل های صوتی موجود کار
193
00:07:05,440 –> 00:07:06,160
194
00:07:06,160 –> 00:07:08,160
کنید، اما به چند وابستگی نیاز دارد،
195
00:07:08,160 –> 00:07:09,599
به
196
00:07:09,599 –> 00:07:11,840
ویژه بسته صوتی pi برای گرفتن ورودی میکروفون مورد نیاز است،
197
00:07:11,840 –> 00:07:14,960
198
00:07:14,960 –> 00:07:17,199
اما در مرحله بعد، بیایید به بررسی
199
00:07:17,199 –> 00:07:20,240
اصول اولیه
200
00:07:20,319 –> 00:07:23,680
201
00:07:23,840 –> 00:07:25,680
پکیج بپردازیم. تشخیص گفتار
202
00:07:25,680 –> 00:07:28,800
در کلاس شناساگر اتفاق میافتد
203
00:07:28,800 –> 00:07:30,960
204
00:07:30,960 –> 00:07:32,880
، البته هدف اصلی هر نمونه شناسایی، تشخیص
205
00:07:32,880 –> 00:07:34,160
گفتار است.
206
00:07:34,160 –> 00:07:35,840
207
00:07:35,840 –> 00:07:37,280
208
00:07:37,280 –> 00:07:40,479
209
00:07:40,479 –> 00:07:44,160
210
00:07:44,160 –> 00:07:46,160
211
00:07:46,160 –> 00:07:48,560
212
00:07:52,080 –> 00:07:54,000
هر نمونه شناساگر هفت
213
00:07:54,000 –> 00:07:55,919
روش برای تشخیص گفتار از
214
00:07:55,919 –> 00:07:58,800
منبع صوتی با استفاده از apis های مختلف دارد
215
00:07:58,800 –> 00:08:02,240
شناسایی بینگ مایکروسافت بینگ
216
00:08:02,240 –> 00:08:03,599
گفتار
217
00:08:03,599 –> 00:08:07,440
تشخیص گوگل گوگل گفتار وب گوگل api
218
00:08: