در این مطلب، ویدئو نحوه بارگذاری داده های مرجع در پایگاه داده با پایتون ETL Pipeline | اکسل به Postgres با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:07:50
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,160 –> 00:00:06,560
[موسیقی] با
2
00:00:06,560 –> 00:00:08,880
سلام و خوش آمدگویی به همه
3
00:00:08,880 –> 00:00:11,360
در این جلسه ما بر روی
4
00:00:11,360 –> 00:00:13,840
خط لوله etl که با پایتون ساخته ایم می سازیم،
5
00:00:13,840 –> 00:00:15,200
زمانی می رسد که باید
6
00:00:15,200 –> 00:00:17,440
داده های مرجع را
7
00:00:17,440 –> 00:00:20,080
در یک فایل تخت در انبار داده خود بگنجانید
8
00:00:20,080 –> 00:00:22,400
و امروز یاد خواهیم گرفت که چگونه برای وارد کردن
9
00:00:22,400 –> 00:00:24,560
چندین فایل مسطح در یک
10
00:00:24,560 –> 00:00:27,279
دایرکتوری و بارگذاری آنها در
11
00:00:27,279 –> 00:00:30,160
پایگاه داده postgres ما با پایتون، هدف این است که
12
00:00:30,160 –> 00:00:32,800
داده ها را از یک اشتراک شبکه بخوانیم و سپس
13
00:00:32,800 –> 00:00:34,399
آن را در یک پایگاه داده بارگذاری کنیم
14
00:00:34,399 –> 00:00:36,480
تا داده های مرجع برای گزارش در دسترس باشند.
15
00:00:36,480 –> 00:00:37,680
16
00:00:37,680 –> 00:00:39,600
من دو فایل اکسل در یک فایل دارم.
17
00:00:39,600 –> 00:00:42,719
پوشه مشترک این فایل ها حاوی نقشه حساب و
18
00:00:42,719 –> 00:00:44,399
قلمرو هستند،
19
00:00:44,399 –> 00:00:46,160
ما یک جدول حساب ها در
20
00:00:46,160 –> 00:00:47,280
پایگاه داده داریم
21
00:00:47,280 –> 00:00:49,039
اما سطح
22
00:00:49,039 –> 00:00:51,920
جزئیات مورد نیاز برای گزارش را شامل نمی شود، به
23
00:00:51,920 –> 00:00:54,160
عنوان مثال اگر در حال تهیه گزارش صورت سود و
24
00:00:54,160 –> 00:00:56,399
زیان برای شرکت
25
00:00:56,399 –> 00:00:58,879
خود هستید و جدول حساب های شما دارای این جدول است. حساب پایه
26
00:00:58,879 –> 00:01:00,879
اما شامل سرصفحه یا
27
00:01:00,879 –> 00:01:03,440
سرفصل فرعی نیست که یک دسته
28
00:01:03,440 –> 00:01:07,920
را تقسیم می کند، یعنی درآمد را به بازده ناخالص فروش و
29
00:01:07,920 –> 00:01:09,840
تعدیل و تخفیف
30
00:01:09,840 –> 00:01:12,000
می دهد، این به شما می دهد توانایی گسترش یک
31
00:01:12,000 –> 00:01:14,479
دسته خاص برای دیدن اینکه چه چیزی
32
00:01:14,479 –> 00:01:17,759
درآمد شما یا هزینه عملیاتی
33
00:01:17,759 –> 00:01:19,360
شما را با نقشهبرداری حسابهای جدید ایجاد میکند
34
00:01:19,360 –> 00:01:20,320
35
00:01:20,320 –> 00:01:22,080
و میخواهید از این نگاشت با
36
00:01:22,080 –> 00:01:24,799
دادههای موجود استفاده کنید، اما نمیخواهید
37
00:01:24,799 –> 00:01:26,799
نقشهبرداری را در اکسل نگه دارید.
38
00:01:26,799 –> 00:01:29,360
حذف شده یا بازنویسی شده است یا
39
00:01:29,360 –> 00:01:31,680
کسی می تواند آن را به اشتباه تغییر دهد
40
00:01:31,680 –> 00:01:34,720
و ساعات کار را غیرقابل استفاده کند تا
41
00:01:34,720 –> 00:01:37,360
از این مشکلات جلوگیری شود، ایده خوبی است
42
00:01:37,360 –> 00:01:39,280
که داده های مرجع را در انبار داده خود حفظ کنید،
43
00:01:39,280 –> 00:01:42,240
ما از
44
00:01:42,240 –> 00:01:44,960
خط لوله پایتون etl برای خواندن این فایل ها و ذخیره
45
00:01:44,960 –> 00:01:46,560
آنها در
46
00:01:46,560 –> 00:01:48,560
جداول منبع کامل استفاده می کنیم. کد در github موجود است
47
00:01:48,560 –> 00:01:49,759
48
00:01:49,759 –> 00:01:52,479
بیایید کدنویسی خط لوله etl را در
49
00:01:52,479 –> 00:01:55,280
پایتون شروع کنیم، من از pycharm برای کدگذاری این
50
00:01:55,280 –> 00:01:58,240
خط لوله استفاده میکنم، شما میتوانید از ایده دلخواه خود
51
00:01:58,240 –> 00:02:00,159
یا یک ویرایشگر متن استفاده کنید،
52
00:02:00,159 –> 00:02:02,320
طبق معمول کتابخانههای مورد نیاز را
53
00:02:02,320 –> 00:02:05,200
در بالا وارد میکنیم، برای تعامل به کیمیاگری sql نیاز داریم.
54
00:02:05,200 –> 00:02:08,239
با
55
00:02:08,239 –> 00:02:10,479
پانداهای postgresql برای انجام بخش استخراج و بارگذاری داده ها،
56
00:02:10,479 –> 00:02:12,800
من یک
57
00:02:12,800 –> 00:02:15,360
اسکریپت برای ارسال ایمیل در مورد شکست
58
00:02:15,360 –> 00:02:16,640
و موفقیت
59
00:02:16,640 –> 00:02:18,720
قرار داده ام، یک اسکریپت ساده است و من هستم
60
00:02:18,720 –> 00:02:21,520
اگر
61
00:02:21,520 –> 00:02:24,000
به جزئیات بیشتری در مورد نحوه ارسال
62
00:02:24,000 –> 00:02:26,480
ایمیل در پایتون نیاز
63
00:02:26,480 –> 00:02:29,120
64
00:02:29,120 –> 00:02:31,920
65
00:02:31,920 –> 00:02:32,800
66
00:02:32,800 –> 00:02:35,760
دارید، به آن ارجاع دهید از پوشه پیکربندی
67
00:02:35,760 –> 00:02:37,920
نام کاربری و رمز عبور ذخیره شده از
68
00:02:37,920 –> 00:02:40,239
متغیرهای محیط سیستم را
69
00:02:40,239 –> 00:02:42,160
می توانید به صورت غیرمستقیم تایپ کنید اگر
70
00:02:42,160 –> 00:02:43,120
71
00:02:43,120 –> 00:02:45,360
مایلید رمز عبور و نام کاربری را
72
00:02:45,360 –> 00:02:47,599
از متغیرهای محیط گرفته و آنها را به
73
00:02:47,599 –> 00:02:50,160
صورت محلی ذخیره کنیم و برویم و
74
00:02:50,160 –> 00:02:53,440
جزئیات پایگاه داده مانند پورت پایگاه داده سرور را تعریف کنیم
75
00:02:53,440 –> 00:02:54,480
76
00:02:54,480 –> 00:02:56,400
و این دایرکتوری است. جایی که فایلهای ما در آن قرار
77
00:02:56,400 –> 00:02:59,440
دارند، آدرس ایمیلی را تعریف میکنم
78
00:02:59,440 –> 00:03:01,760
که میتوانیم اعلانهای شکست یا موفقیت را ارسال
79
00:03:01,760 –> 00:03:02,840
80
00:03:02,840 –> 00:03:05,120
کنیم، میتوانیم این دو را
81
00:03:05,120 –> 00:03:07,440
به آرگومانهای خط فرمان تبدیل کنیم تا
82
00:03:07,440 –> 00:03:09,920
بتوانیم فایلها را از چندین فهرست
83
00:03:09,920 –> 00:03:12,080
با استفاده از همان کد پردازش
84
00:03:12,080 –> 00:03:14,080
کنیم و اکنون آماده کدنویسی قسمت استخراج هستیم.
85
00:03:14,080 –> 00:03:14,959
86
00:03:14,959 –> 00:03:17,920
من تابعی به نام Extract تعریف میکنم،
87
00:03:17,920 –> 00:03:20,879
اجازه دهید کد خود را امتحان کنیم، به جز بلوک،
88
00:03:20,879 –> 00:03:23,040
اجازه دهید پوشه پایه خود را
89
00:03:23,040 –> 00:03:26,000
در حلقه for نگه داریم که حلقه را انجام خواهیم داد.
90
00:03:26,000 –> 00:03:27,519
دایرکتوری خشن
91
00:03:27,519 –> 00:03:29,680
با تابع list dir
92
00:03:29,680 –> 00:03:32,400
و این از ماژول os به این
93
00:03:32,400 –> 00:03:35,200
تابع است که مسیر دایرکتوری را ارائه می کنیم
94
00:03:35,200 –> 00:03:38,000
و این تابع نام فایل را برمی گرداند
95
00:03:38,000 –> 00:03:39,519
بیایید با تقسیم کردن آن نام فایل را بدون
96
00:03:39,519 –> 00:03:41,760
پسوند دریافت
97
00:03:41,760 –> 00:03:43,920
کنیم و از نام فایل به عنوان نام جدول استفاده خواهیم کرد.
98
00:03:43,920 –> 00:03:46,319
مطمئن شوید که فایل های خود را به درستی نام گذاری کرده اید
99
00:03:46,319 –> 00:03:49,040
، همچنین ما فقط داده ها را در
100
00:03:49,040 –> 00:03:51,920
فایل های اکسل داریم، بنابراین بیایید بررسی کنیم که آیا پسوند فایل
101
00:03:51,920 –> 00:03:54,879
xlsx است، ما نمی خواهیم
102
00:03:54,879 –> 00:03:57,040
هیچ نوع فایل دیگری ر