در این مطلب، ویدئو آموزش متن به گفتار پایتون – نحوه ساخت کتاب صوتی با پایتون با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:12:41
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,320 –> 00:00:02,879
سلام خیلی خوش آمدید بعد از وقفه طولانی
2
00:00:02,879 –> 00:00:04,799
که به دلیل این واقعیت بود که من
3
00:00:04,799 –> 00:00:07,040
برای بار دوم پدر شدم
4
00:00:07,040 –> 00:00:09,840
و به همین دلیل زمان کافی
5
00:00:09,840 –> 00:00:11,599
برای ضبط ویدیوهای جدید را نداشتم
6
00:00:11,599 –> 00:00:14,639
و همچنین متوجه شدم که در
7
00:00:14,639 –> 00:00:17,279
حال حاضر به اندازه کافی ندارم وقت آن است که
8
00:00:17,279 –> 00:00:19,760
مقالاتی را که در گذشته
9
00:00:19,760 –> 00:00:22,560
می خواندم بخوانم و همچنین به همان اندازه که در گذشته می خواندم کتاب بخوانم
10
00:00:22,560 –> 00:00:23,760
،
11
00:00:23,760 –> 00:00:26,480
بنابراین فکر کردم که می توان برخی از آن مقالات
12
00:00:26,480 –> 00:00:27,439
را
13
00:00:27,439 –> 00:00:30,720
به فایل های mp3 و برخی از آن
14
00:00:30,720 –> 00:00:34,239
کتاب ها را به فایل های mp3 تبدیل کرد. کتابهای صوتی و
15
00:00:34,239 –> 00:00:37,440
به لطف پایتون میتوانم این کار را انجام دهم و
16
00:00:37,440 –> 00:00:39,200
امروز میخواهم به شما نشان دهم که چگونه این کار را انجام
17
00:00:39,200 –> 00:00:43,120
دهید، بنابراین بیایید به کد بپردازیم، خوب، ما در
18
00:00:43,120 –> 00:00:46,320
استودیو ویژوالی هستیم، بنابراین امروز از دو کتابخانه uh python استفاده خواهیم کرد،
19
00:00:46,320 –> 00:00:49,920
اولی uh
20
00:00:49,920 –> 00:00:53,280
pdfplumber است، پس بیایید آن را نصب کنیم.
21
00:00:53,280 –> 00:00:57,520
clip install pdf plumber
22
00:00:57,520 –> 00:01:00,879
و احتمالا اکثر شما
23
00:01:00,879 –> 00:01:02,960
با pi pdf by pdf2
24
00:01:02,960 –> 00:01:06,080
یا حتی pi pdf 4 آشنا هستید که کتابخانه های خوبی هستند
25
00:01:06,080 –> 00:01:06,799
26
00:01:06,799 –> 00:01:08,960
اما مشکل آنها این است که
27
00:01:08,960 –> 00:01:10,320
در
28
00:01:10,320 –> 00:01:13,360
استخراج متن از pdf بسیار بد هستند به همین دلیل
29
00:01:13,360 –> 00:01:15,520
تصمیم گرفتم pdfplumber را انتخاب کنم
30
00:01:15,520 –> 00:01:20,479
. خیلی بهتر در استخراج متن
31
00:01:20,479 –> 00:01:23,119
و دومی چون در حال حاضر
32
00:01:23,119 –> 00:01:24,640
می توانیم
33
00:01:24,640 –> 00:01:27,360
متن را از pdf استخراج کنیم، می خواهیم
34
00:01:27,360 –> 00:01:28,240
متن خام را
35
00:01:28,240 –> 00:01:31,759
به فایل صوتی تبدیل
36
00:01:31,759 –> 00:01:35,040
کنیم، در این صورت فایل mp3 خواهد بود، بنابراین
37
00:01:35,040 –> 00:01:38,159
از کتابخانه متن به گفتار گوگل استفاده خواهیم کرد.
38
00:01:38,159 –> 00:01:43,280
بنابراین
39
00:01:43,799 –> 00:01:45,840
اگر درست میگویم، gts را نصب کنید،
40
00:01:45,840 –> 00:01:50,079
بله، بنابراین
41
00:01:50,479 –> 00:01:52,479
کتابخانههای زیادی وجود دارند که
42
00:01:52,479 –> 00:01:53,520
میتوانند متن
43
00:01:53,520 –> 00:01:58,479
را به صدا تبدیل کنند،
44
00:01:58,479 –> 00:02:01,600
احتمالاً یکی از آنها به متن فراخوانی میشود،
45
00:02:01,600 –> 00:02:04,079
اما کیفیت صدای تولید شده
46
00:02:04,079 –> 00:02:05,520
بسیار بدتر از
47
00:02:05,520 –> 00:02:08,720
این است که گوگل ایجاد کرده است، همانطور که احتمالاً
48
00:02:08,720 –> 00:02:09,520
گوگل را میشناسید.
49
00:02:09,520 –> 00:02:11,920
داده های زیادی دارد می تواند مدل های بسیار خوبی را آموزش دهد
50
00:02:11,920 –> 00:02:12,720
51
00:02:12,720 –> 00:02:16,000
که می توانند خروجی صوتی بسیار خوبی ایجاد کنند
52
00:02:16,000 –> 00:02:19,120
و همچنین می تواند از
53
00:02:19,120 –> 00:02:21,599
بسیاری از زبان ها پشتیبانی کند که جالب است زیرا
54
00:02:21,599 –> 00:02:22,160
55
00:02:22,160 –> 00:02:24,480
از لهستانی که زبان مادری من است نیز پشتیبانی می کند
56
00:02:24,480 –> 00:02:25,280
57
00:02:25,280 –> 00:02:28,959
و بنابراین می توانم مقالات نوشته شده را نیز ترجمه کنم.
58
00:02:28,959 –> 00:02:31,040
به زبان مادری من
59
00:02:31,040 –> 00:02:32,160
نیز
60
00:02:32,160 –> 00:02:35,200
البته از اسپانیایی آلمانی
61
00:02:35,200 –> 00:02:37,680
و انگلیسی پشتیبانی میکند، البته همه آن
62
00:02:37,680 –> 00:02:38,720
کتابخانهها
63
00:02:38,720 –> 00:02:41,760
خوب هستند، بنابراین در حال حاضر
64
00:02:41,760 –> 00:02:45,040
بیایید آن کتابخانهها را pdf
65
00:02:45,040 –> 00:02:49,120
plumber وارد کنیم و
66
00:02:49,120 –> 00:02:53,519
gtds را از متاسفم از gtt وارد کنیم.
67
00:02:53,519 –> 00:02:57,519
gtts
68
00:02:57,519 –> 00:03:00,159
google text را به گفتار وارد کنید خوب است، بنابراین بیایید
69
00:03:00,159 –> 00:03:01,280
با
70
00:03:01,280 –> 00:03:03,440
مقاله ای شروع کنیم که می خواستم آن را بخوانم اما
71
00:03:03,440 –> 00:03:05,040
وقت کافی نداشتم
72
00:03:05,040 –> 00:03:07,519
و این مقاله را تهیه کردم که
73
00:03:07,519 –> 00:03:09,400
از wired.com کپی شده است
74
00:03:09,400 –> 00:03:14,720
، اوه اوه
75
00:03:14,720 –> 00:03:17,920
اوه خیلی طولانی است اما واقعا
76
00:03:17,920 –> 00:03:18,959
جالب است و
77
00:03:18,959 –> 00:03:20,880
به هر حال ارزش خواندن را دارد
78
00:03:20,880 –> 00:03:22,959
[Music]
79
00:03:22,959 –> 00:03:24,959
اگر علاقه مند هستید منبعی برای این مقاله
80
00:03:24,959 –> 00:03:26,400
وجود دارد،
81
00:03:26,400 –> 00:03:28,720
بنابراین ما متغیری داریم که حاوی
82
00:03:28,720 –> 00:03:29,760
متن است
83
00:03:29,760 –> 00:03:32,799
و در حال حاضر کاری که می خواهیم انجام دهیم این است
84
00:03:32,799 –> 00:03:36,239
که این متن را به فایل های صوتی تبدیل
85
00:03:36,239 –> 00:03:39,920
کنیم، بنابراین بیایید زبان
86
00:03:39,920 –> 00:03:42,239
آن را مشخص کنیم. انگلیسی چون wired
87
00:03:42,239 –> 00:03:43,599
به انگلیسی نوشته شده است
88
00:03:43,599 –> 00:03:47,040
و سپس
89
00:03:47,040 –> 00:03:50,159
میتوانیم یک شی تبدیل ایجاد کنیم
90
00:03:50,159 –> 00:03:54,239
که تبدیلکننده gtts خواهد بود،
91
00:03:54,239 –> 00:03:57,360
شاید بیایید آن را فراخوانی کنیم
92
00:03:57,360 –> 00:04:01,920
و سپس شی gtps ایجاد
93
00:04:01,920 –> 00:04:04,799
میکنیم و دو متغیر ارائه میدهیم که یکی از
94
00:04:04,799 –> 00:04:05,439
آنها متن است
95
00:04:05,439 –> 00:04:07,280
که متغیر ما به نام
96
00:04:07,280 –> 00:04:09,760
مقاله
97
00:04:09,840 –> 00:04:14,000
مقاله و دوم زبان است
98
00:04:14,000 –> 00:04:18,320
که ارزش زبان انگلیسی ما خواهد بود،
99
00:04:18,320 –> 00:04:23,120
پس فقط باید
100
00:04:23,120 –> 00:04:27,280
از آن استفاده کنیم زیرا نتیجه
101
00:04:27,280 –> 00:04:30,560
این روش قبلاً یک
102
00:04:30,560 –> 00:04:33,759
فایل صوتی است که توسط google api تولید شده است.
103
00:04:33,759 –> 00:04:36,880
و سپس ما فقط باید
104
00:04:36,880 –> 00:04:38,080
آن را روی دیسک ذخیره کنیم،
105
00:04:38,080 –> 00:04:41,680
بنابراین
106
00:04:41,680 –> 00:04:45,919
ترانسفورماتور gtts آن را به صورت محلی ذخیره کند،
107
00:04:45,919 –> 00:04:49,840
زیرا ممکن است مقاله سیمی
108
00:04:49,840 –> 00:04:53,840
mp3 مشکلی نداشته باشد و سپس فقط آن را چاپ کنیم، تمام
109
00:04:53,840 –> 00:04:56,960
شد،
110
00:04:56,960 –> 00:05:00,479
بنابراین ما می دانیم خوب است در حال حاضر
111
00:05:00,479 –> 00:05:04,639
می توانیم آن را اجرا کنیم و
112
00:05:04,639 –> 00:05:07,360
منبع مقاله خوب است،
113
00:05:07,360 –> 00:05:08,800
نظر داده شد
114
00:05:08,800 –> 00:05:11,919
اما فراموش کردم که اینجا نظر بدهم،
115
00:05:11,919 –> 00:05:15,120
پس بیایید دوباره آن را اجرا کنیم،
116
00:05:15,120 –> 00:05:18,400
پس
117
00:05:18,400 –> 00:05:22,840
ترجمه متن به اوه، ما مقداری زبان خطایی داریم،
118
00:05:22,840 –> 00:05:25,840
119
00:05:27,199 –> 00:05:30,400
اوه پارامتر در واقع lang نامیده می شود
120
00:05:30,400 –> 00:05:33,759
نه زبان، خوب،
121
00:05:33,759 –> 00:05:37,039
بیایید کنسول را پاک کنیم خوب است،
122
00:05:37,039 –> 00:05:40,479
بنابراین در واقع متن را تغییر می دهیم
123
00:05:40,479 –> 00:05:44,080
124
00:05:44,080 –> 00:05:47,360
از نظر من زمان بیشتری
125
00:05:47,360 –> 00:05:50,800
برای نوشتن این بافر صوتی
126
00:05:50,800 –> 00:05:54,400
در یک فایل واقعی بر روی دیسک طول می کشد. بنابراین باید
127
00:05:54,400 –> 00:05:56,080
لحظه ای منتظر
128
00:05:56,080 –> 00:05:58,319
بمانیم و آماده باشد، به همین دلیل من
129
00:05:58,319 –> 00:05:59,759
چاپ را اضافه کردم
130
00:05:59,759 –> 00:06:01,440
زیرا متوجه شدم زمانی که در گذشته با آن بازی میکردم که
131
00:06:01,440 –> 00:06:03,680
132
00:06:03,680 –> 00:06:06,400
مدتی طول میکشد، این مقاله
133
00:06:06,400 –> 00:06:07,360
بسیار طولانی است،
134
00:06:07,360 –> 00:06:11,600
بنابراین در مکبوک پرو 2017 من
135
00:06:11,600 –> 00:06:15,360
حداکثر 30 ثانیه طول میکشد تا
136
00:06:15,360 –> 00:06:19,199
آن را تولید کند،
137
00:06:19,199 –> 00:06:22,319
کار بهخوبی انجام شد و اوه، همینطور که میبینید،
138
00:06:22,319 –> 00:06:25,600
ما یک سیم داریم. d article mp3
139
00:06:25,600 –> 00: