در این مطلب، ویدئو تجزیه و تحلیل صدا با استفاده از پایتون | تجزیه و تحلیل گفتار | PyDub با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:17:45
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:02,320 –> 00:00:02,660
[تشویق حضار]
2
00:00:02,660 –> 00:00:09,819
[موسیقی]
3
00:00:10,639 –> 00:00:12,000
یک روز زیبای دیگر
4
00:00:12,000 –> 00:00:14,880
و یک کتابخانه زیبا دیگر هی بچه ها
5
00:00:14,880 –> 00:00:17,199
این پاتنایک است و به کانال من خوش آمدید
6
00:00:17,199 –> 00:00:17,920
7
00:00:17,920 –> 00:00:19,840
امروز در مورد
8
00:00:19,840 –> 00:00:22,000
تجزیه و تحلیل صوتی صحبت خواهیم کرد و من در مورد
9
00:00:22,000 –> 00:00:23,920
یکی از کتابخانه های جذاب به نام
10
00:00:23,920 –> 00:00:24,240
11
00:00:24,240 –> 00:00:31,840
پایتون صحبت خواهیم کرد، بیایید شروع کنیم
12
00:00:33,840 –> 00:00:36,000
اوه خوب شما قبلاً
13
00:00:36,000 –> 00:00:38,239
خروجی نهایی این پروژه خاص را
14
00:00:38,239 –> 00:00:40,480
دیده اید، ما بالاخره چیزی از
15
00:00:40,480 –> 00:00:41,280
دوبله pi ایجاد
16
00:00:41,280 –> 00:00:43,200
کردیم، تجزیه و تحلیل صوتی انجام دادیم و
17
00:00:43,200 –> 00:00:46,239
در نهایت موسیقی نهایی خود را ایجاد کردیم
18
00:00:46,239 –> 00:00:49,280
واضح است که آنقدرها هم عالی نیست، اما
19
00:00:49,280 –> 00:00:52,320
من می گویم شروع بدی نیست، پس بیایید شروع کنیم
20
00:00:52,320 –> 00:00:54,000
دوستان شروع موضوع امروز قرار
21
00:00:54,000 –> 00:00:54,640
است در مورد
22
00:00:54,640 –> 00:00:58,079
دوبله pi دستکاری صدا با یک
23
00:00:58,079 –> 00:01:01,039
رابط سطح بالا آسان و ساده با استفاده از pi
24
00:01:01,039 –> 00:01:02,879
dub باشد، شما قطعاً می توانید با فایل های wav خود مقابله کنید،
25
00:01:02,879 –> 00:01:04,159
می توانید
26
00:01:04,159 –> 00:01:07,119
کارهای زیادی انجام دهید من
27
00:01:07,119 –> 00:01:09,119
اخیراً یک وبلاگ در مورد آن نیز نوشته ام. من
28
00:01:09,119 –> 00:01:10,240
29
00:01:10,240 –> 00:01:13,840
جزئیات وبلاگ را با شما به اشتراک خواهم گذاشت، بنابراین اجازه دهید
30
00:01:13,840 –> 00:01:15,520
وبلاگ را مرور کنیم و در
31
00:01:15,520 –> 00:01:17,600
همین حین، بخش آموزشی قسمت کدنویسی را نیز به شما
32
00:01:17,600 –> 00:01:18,400
33
00:01:18,400 –> 00:01:21,200
نشان خواهم داد که بسیار ساده خواهد بود. بیایید
34
00:01:21,200 –> 00:01:22,320
ببینیم چگونه با
35
00:01:22,320 –> 00:01:24,799
فایل های صوتی با استفاده از پایتون کار کنیم
36
00:01:24,799 –> 00:01:26,880
پایتون ماژولی به نام spydub برای کار با
37
00:01:26,880 –> 00:01:28,000
فایل های صوتی ارائه می دهد
38
00:01:28,000 –> 00:01:30,320
pidub یک کتابخانه پایتون است که
39
00:01:30,320 –> 00:01:31,040
فقط با فایل های wav کار می
40
00:01:31,040 –> 00:01:34,400
کند و به آرامی و پیوسته
41
00:01:34,400 –> 00:01:36,479
به قسمت های تجزیه و تحلیل گفتار نیز می پریم،
42
00:01:36,479 –> 00:01:38,320
اما بله موضوع امروز بسیار
43
00:01:38,320 –> 00:01:39,200
محدود
44
00:01:39,200 –> 00:01:40,880
به پردازش صوتی ساده است
45
00:01:40,880 –> 00:01:42,560
که با استفاده از پایتون انجام میشود،
46
00:01:42,560 –> 00:01:44,320
بنابراین اینها برخی از
47
00:01:44,320 –> 00:01:45,680
کارهایی هستند که
48
00:01:45,680 –> 00:01:48,399
میتوان با استفاده از
49
00:01:48,399 –> 00:01:50,479
بارگذاری پایتون و پخش فایلهای صوتی
50
00:01:50,479 –> 00:01:52,799
دریافت اطلاعات خاص یا کانالهای پیوند فایل،
51
00:01:52,799 –> 00:01:53,759
52
00:01:53,759 –> 00:01:55,520
افزایش یا کاهش حجم و افزایش حجم و کاهش حجم، انجام شود.
53
00:01:55,520 –> 00:01:57,920
ادغام کردن فایلهای صوتی تقسیم فایلهای
54
00:01:57,920 –> 00:01:59,119
صوتی
55
00:01:59,119 –> 00:02:01,600
صادرات فایلها، افزودن تکنیکها
56
00:02:01,600 –> 00:02:04,240
و تولید آهنگهای صوتی، بسیار
57
00:02:04,240 –> 00:02:07,119
خوب است، پس بیایید سریع شروع کنیم بچهها، من
58
00:02:07,119 –> 00:02:09,038
از هماکنون نمیتوانم این موسیقی را پخش کنم،
59
00:02:09,038 –> 00:02:09,679
60
00:02:09,679 –> 00:02:11,840
اما میتوانید از طریق این وبلاگ بروید
61
00:02:11,840 –> 00:02:13,200
، موسیقی را پخش کنید.
62
00:02:13,200 –> 00:02:15,920
که شما را مجذوب خود می کند، من
63
00:02:15,920 –> 00:02:17,760
قطعاً کد را به این
64
00:02:17,760 –> 00:02:19,680
پروژه خاص واگذار می کنم تا شما نیز بتوانید
65
00:02:19,680 –> 00:02:21,920
کد را دانلود کرده و خودتان آن را امتحان کنید.
66
00:02:21,920 –> 00:02:24,160
ay، بیایید شروع کنیم، بنابراین من از
67
00:02:24,160 –> 00:02:25,920
کتابخانه دوبله pi در اینجا استفاده می کنم، قبلاً
68
00:02:25,920 –> 00:02:27,760
کد را یادداشت کرده ام تا
69
00:02:27,760 –> 00:02:31,200
ویدیوی خیلی طولانی نداشته باشیم
70
00:02:31,200 –> 00:02:32,800
و البته آن را برای شما ارسال می کنم تا
71
00:02:32,800 –> 00:02:34,239
بتوانید
72
00:02:34,239 –> 00:02:38,000
اکنون اینجا تمرین کنید. من فقط کدی را اجرا می
73
00:02:38,000 –> 00:02:41,519
کنم که از url lib.request.url retrieve
74
00:02:41,519 –> 00:02:42,800
برای واکشی
75
00:02:42,800 –> 00:02:45,760
فایل استفاده می کنم بنابراین این موسیقی آنلاینی است که من
76
00:02:45,760 –> 00:02:48,319
از freemusicloops.com دریافت
77
00:02:48,319 –> 00:02:49,440
78
00:02:49,440 –> 00:02:51,920
79
00:02:51,920 –> 00:02:53,519
کرده ام.
80
00:02:53,519 –> 00:02:55,360
فایل نظرسنجی دانلودی را به این
81
00:02:55,360 –> 00:02:58,159
نام خاص دانلود میکند، ابتدا فایل موج نقطهای را دانلود میکند
82
00:02:58,159 –> 00:03:00,080
و سپس با استفاده از قسمت صوتی نقطه از موج، صدا را بارگیری
83
00:03:00,080 –> 00:03:01,519
84
00:03:01,519 –> 00:03:05,440
میکنم، بنابراین اگر مجبور باشم این را پخش کنم، فایل صوتی من صدای
85
00:03:05,440 –> 00:03:08,239
نهایی من
86
00:03:08,239 –> 00:03:09,840
87
00:03:09,840 –> 00:03:13,040
را دارد. بر
88
00:03:13,040 –> 00:03:15,440
روی صفحه نمایش پخش شود
89
00:03:16,560 –> 00:03:19,440
خوب است، بنابراین اجازه دهید به جلو حرکت کنیم و
90
00:03:19,440 –> 00:03:20,959
تکنیک های مختلف را ببینیم یا روش
91
00:03:20,959 –> 00:03:22,879
های مختلفی برای بررسی انواع داده ها باید وجود داشته باشد
92
00:03:22,879 –> 00:03:25,440
بررسی نرخ نمونه برداری
93
00:03:25,440 –> 00:03:27,360
نرخ فریم و بسیاری از موارد
94
00:03:27,360 –> 00:03:28,879
در مورد فایل صوتی
95
00:03:28,879 –> 00:03:31,120
اساساً پیش پردازش داده ها را بررسی کنید. مراحل
96
00:03:31,120 –> 00:03:32,879
یا می توانید آن را به عنوان اکتشاف داده نام ببرید
97
00:03:32,879 –> 00:03:33,599
98
00:03:33,599 –> 00:03:36,480
درست است، بنابراین در فایل های صوتی، نکته اصلی شما این
99
00:03:36,480 –> 00:03:37,840
است که
100
00:03:37,840 –> 00:03:38,959
میزان نمونه برداری را
101
00:03:38,959 –> 00:03:41,120
درک کنید، درک عرض،
102
00:03:41,120 –> 00:03:42,319
درک کانال ها،
103
00:03:42,319 –> 00:03:44,400
درک طول آن،
104
00:03:44,400 –> 00:03:46,159
فهمیدن اینکه نویز کجاست و همه
105
00:03:46,159 –> 00:03:46,799
این موارد
106
00:03:46,799 –> 00:03:49,280
خوب است، بنابراین اولین کار بررسی
107
00:03:49,280 –> 00:03:50,959
نوع داده این فایل است. نوع داده
108
00:03:50,959 –> 00:03:53,439
چیزی نیست، اما یک فایل بخش صوتی
109
00:03:53,439 –> 00:03:55,640
است، نرخ فریم آن
110
00:03:55,640 –> 00:03:57,400
44100 است که به معنای
111
00:03:57,400 –> 00:04:00,959
44.1 کیلوهرتز است، اگر
112
00:04:00,959 –> 00:04:03,840
تنظیمات اولیه پیش فرض ما را در هر
113
00:04:03,840 –> 00:04:06,080
نوع سیستمی نمی دانید.
114
00:04:06,080 –> 00:04:08,720
115
00:04:08,720 –> 00:04:10,400
به طور پیشفرض روی
116
00:04:10,400 –> 00:04:13,680
44.1 کیلوهرتز تنظیم شده است، شما قطعاً میتوانید
117
00:04:13,680 –> 00:04:15,439
آن را به 48 کیلوهرتز
118
00:04:15,439 –> 00:04:19,279
96 کیلوهرتز بر اساس نیاز خود تغییر
119
00:04:19,279 –> 00:04:21,759
دهید تا در مورد کانالهایی که ما داریم
120
00:04:21,759 –> 00:04:23,600
روش کانالهای صوتی یک نقطهای را بدانید که به
121
00:04:23,600 –> 00:04:24,639
ما میگوید خوب،
122
00:04:24,639 –> 00:04:26,400
ما در این فایل خاص دو کانال داریم
123
00:04:26,400 –> 00:04:28,080
.
124
00:04:28,080 –> 00:04:31,040
پهنای نمونه حداکثر دامنه
125
00:04:31,040 –> 00:04:33,040
ای که از این فایل صوتی خاص دریافت می کنیم چقدر است،
126
00:04:33,040 –> 00:04:33,680
127
00:04:33,680 –> 00:04:35,360
من نمی توانم بلافاصله فایل را تجسم
128
00:04:35,360 –> 00:04:38,080
کنم، کد را دارم اما
129
00:04:38,080 –> 00:04:40,160
من ننوشتم احتمالاً وقتی آن
130
00:04:40,160 –> 00:04:41,919
را با شما به اشتراک می گذارم، آن قطعه کد را نیز اضافه می کنم،
131
00:04:41,919 –> 00:04:43,280
132
00:04:43,280 –> 00:04:45,680
بنابراین اساساً به شما این ایده را
133
00:04:45,680 –> 00:04:46,320
می
134
00:04:46,320 –> 00:04:48,880
دهد که دامنه چیست
135
00:04:48,880 –> 00:04:49,440
زیرا
136
00:04:49,440 –> 00:04:51,600
معمولاً همانطور که قبلاً می دانیم فایل های صوتی
137
00:04:51,600 –> 00:04:52,880
چیزی نیستند جز اینها یکی هستند.
138
00:04:52,880 –> 00:04:55,520
فایل های بعدی بسیار خوب است، بنابراین
139
00:04:55,520 –> 00:04:57,520
محور x شما چیزی جز زمان نیست و
140
00:04:57,520 –> 00:04:59,440
محور y شما چیزی جز دامنه
141
00:04:59,440 –> 00:05:02,880
نیست، بنابراین اگر باید فایل صوتی را
142
00:05:02,880 –> 00:05:03,600
ببینم باید
143
00:05:03,600 –> 00:05:05,600
چیزی شبیه به این باشد، چیزی شبیه به
144
00:05:05,600 –> 00:05:06,880
این خوب است،
145
00:05:06,880 –> 00:05:09,039
بنابراین اساسا حداکثر دامنه من چقدر است.
146
00:05:09,039 –> 00:05:10,000
147
00:05:10,000 –> 00:05:12,160
این حداکثر دامنه نقشه های من
148
00:05:12,160 –> 00:05:13,759
درست است، بنابراین مقدار
149
00:05:13,759 –> 00:05:17,400
این مقدار 37 07 32
150
00:05:17,400 –> 00:05:21,039
768 است، خوب به طور مشابه
151
00:05:21,039 –> 00:05:23,039
طول فایل
152
00:05:23,039 –> 00:05:25,520
هفت 7376 طول خوب یعنی چند
153
00:05:25,520 –> 00:05:27,039
میلی ثانیه
154
00:05:27,039 –> 00:05:30,160
خوب است و پس از آن می توانیم
155
00:05:30,160 –> 00:05:32,080
نرخ فریم های مختلف را نیز تنظیم کنیم. همانطور که قبلاً
156
00:05:32,080 –> 00:05:33,199
بحث کردیم که
157
00:05:33,199 –> 00:05:35,280
نرخ فریم پیشفرض در این
158
00:05:35,280 –> 00:05:37,080
فایل صوتی خاص
159
00:05:37,080 –> 00:05:40,560
44.1 کیلوهرتز است، اجازه دهید نرخ فریم را تغییر
160
00:05:40,560 –> 00:05:42,800
دهیم و سعی کنیم موسیقی را پخش کنیم و
161
00:05:42,800 –> 00:05:43,440
ببینیم
162
00:05:43,440 –> 00:05:45,680
که صدای آن چگونه است که واضح است که ما
163
00:05:45,680 –> 00:05:47,680
نمیتوانیم تفاوت های زیادی را پیدا کنید
164
00:05:47,680 –> 00:05:49,520
اما قطعاً تفاوت هایی وجود خواهد داشت که
165
00:05:49,520 –> 00:05:51,039
166
00:05:51,039 –> 00:05:53,120
نرخ فریم تغییر می کند، بنابراین وقتی
167
00:05:53,120 –> 00:05:55,120
صحبت از تجزیه و تحلیل صدا می شود، زمانی که در حال
168
00:05:55,120 –> 00:05:57,759
تجزیه و تحلیل برخی از داده های صوتی هستید و در صورتی
169
00:05:57,759 –> 00:05:58,319
که ممکن
170
00:05:58,319 –> 00:06:00,000
است از قبل در مورد
171
00:06:00,000 –> 00:06:02,479
تقسیم بندی تصویر که بخشی از
172
00:06:02,479 –> 00:06:04,479
تصویر تقویتی است اطلاع داشته باشید. تقویت
173
00:06:04,479 –> 00:06:06,319
که بخشی از تقویت تصاویر و
174
00:06:06,319 –> 00:06:07,120
ایجاد
175
00:06:07,120 –> 00:06:09,039
تصاویر جدید است به طوری که شما می توانید
176
00:06:09,039 –> 00:06:11,440
پهنای باند خود را افزایش دهید یا اندازه داده خود
177
00:06:11,440 –> 00:06:13,759
را به طور مشابه در مورد صدا
178
00:06:13,759 –> 00:06:15,520
179
00:06:15,520 –> 00:06:15,840
180
00:06:15,840 –> 00:06:18,000
افزایش دهید، راه های مختلفی وجود دارد که می توانید داده ها را با تغییر
181
00:06:18,000 –> 00:06:21,520
نرخ فریم افزایش دهید. تغییر
182
00:06:21,520 –> 00:06:22,400
ولوم
183
00:06:22,400 –> 00:06:25,440
بر حسب ولوم با افزایش صدا،
184
00:06:25,440 –> 00:06:26,800
کاهش
185
00:06:26,800 –> 00:06:29,120
صدا با تغییر زیر و بم و همه این
186
00:06:29,120 –> 00:06:30,000
موارد خوب است،
187
00:06:30,000 –> 00:06:31,759
بنابراین من فقط نرخ فریم را
188
00:06:31,759 –> 00:06:33,039
در اینجا از
189
00:06:33,039 –> 00:06:35,039
نقطه یک کیلو هرتز کفش بیست و دو
190
00:06:35,039 –> 00:06:36,560
نقطه پنج کیلو هرتز تغییر دادم و
191
00:06:36,560 –> 00:06:39,440
موسیقی اینگونه به نظر می رسد مثل اینکه منظورم این است که
192
00:06:39,440 –> 00:06:48,800
موسیقی خیلی خوب به نظر می رسد،
193
00:06:48,800 –> 00:06:51,599
بنابراین بعد از این من فقط از
194
00:06:51,599 –> 00:06:53,759
روش صادرات استفاده می کنم و در آینده در مورد صادرات صحبت خواهم کرد
195
00:06:53,759 –> 00:06:55,199
196
00:06:55,199 –> 00:06:58,479
چند خط اما
197
00:06:58,479 –> 00:06:59,360
صادرات چیزی نیست جز
198
00:06:59,360 –> 00:07:02,000
اینکه شما می توانید، بنابراین روش پخش اساسا
199
00:07:02,000 –> 00:07:03,680
شما را روی خود صفحه نمایش می دهد که در حال
200
00:07:03,680 –> 00:07:04,319
حاضر کاملاً
201
00:07:04,319 –> 00:07:06,639
قابل مشاهده نیست، اما اگر می خواهید
202
00:07:06,639 –> 00:07:08,160
آن را ذخیره کنید، می توانید فقط
203
00:07:08,160 –> 00:07:10,560
از روش صادرات استفاده کنید نام
204
00:07:10,560 –> 00:07:11,280
205
00:07:11,280 –> 00:07:12,880
فایل، فایل خروجی خروجی نقطه برابر با این و
206
00:07:12,880 –> 00:07:14,960
فرمت این است، بنابراین قطعاً
207
00:07:14,960 –> 00:07:16,800
فایل شما را ذخیره می کند، شما می توانید موج را ببینید
208
00:07:16,800 –> 00:07:19,199
که فایل جدید موج
209
00:07:19,199 –> 00:07:20,319
در اینجا ذخیره شده است،
210
00:07:20,319 –> 00:07:22,160
بسیار خوب، بنابراین من قبلاً این کد خاص را اجرا کرده ام،
211
00:07:22,160 –> 00:07:23,680
بنابراین
212
00:07:23,680 –> 00:07:28,080
فایل های وب زیادی را نیز می بینم،
213
00:07:28,080 –> 00:07:29,680
بنابراین مرحله بعدی ما قرار است صدا را
214
00:07:29,680 –> 00:07:31,599
کم یا زیاد
215
00:07:31,599 –> 00:07:33,440
کنیم، بیایید سعی کنیم صدا را افزایش
216
00:07:33,440 –> 00:07:35,919
دهیم و بیایید سعی کنیم صدا را کاهش دهیم و ببینیم
217
00:07:35,919 –> 00:07:39,360
تفاوت چگونه به نظر می رسد،
218
00:07:39,680 –> 00:07:42,840
بنابراین من فقط ابتدا موسیقی بی صدا را پخش می کنم
219
00:07:42,840 –> 00:07:45,300
220
00:07:45,300 –> 00:07:49,759
[Music]
221
00:07:49,759 –> 00:07:52,000
تا مطمئناً بفهمم که
222
00:07:52,000 –> 00:07:52,879
وجود دارد با
223
00:07:52,879 –> 00:07:55,280
اختلاف صدا درست
224
00:07:55,280 –> 00:07:57,120
بود حجم اولیه کمی بیشتر
225
00:07:57,120 –> 00:07:59,440
بود و فایل موج بی صدا جدید چیزی نیست
226
00:07:59,440 –> 00:08:00,800
اما
227
00:08:00,800 –> 00:08:02,879
کمی حجم آن کمی کاهش یافته است من می توانم
228
00:08:02,879 –> 00:08:04,319
آن را تا 10 کاهش دهم
229
00:08:04,319 –> 00:08:06,400
اما برای ti مشکلی ندارد ming همانطور که
230
00:08:06,400 –> 00:08:08,639
کاملاً قابل مشاهده است متأسفانه برای ما کاملاً شنیدنی است
231
00:08:08,639 –> 00:08:10,879
بیایید سعی کنیم فایل اصلی
232
00:08:10,879 –> 00:08:13,400
233
00:08:13,400 –> 00:08:17,280
[موسیقی] را پخش
234
00:08:17,280 –> 00:08:20,000
کنیم بسیار خوب اکنون کاملاً واضح است که
235
00:08:20,000 –> 00:08:21,840
فایل موج بی صدا و فایل
236
00:08:21,840 –> 00:08:23,360
صوتی تفاوتی در زیر و بم
237
00:08:23,360 –> 00:08:26,240
دارند، بنابراین بیایید سعی کنیم فایل جدید را پخش کنیم.
238
00:08:26,240 –> 00:08:28,800
فایل وب که چیزی جز
239
00:08:28,800 –> 00:08:31,599
فایل اصلی به اضافه 10 دسی بل نیست، خوب
240
00:08:31,599 –> 00:08:33,440
واضح است که فایل بلندتری خواهد بود،
241
00:08:33,440 –> 00:08:41,839
بیایید ببینیم