در این مطلب، ویدئو نحوه ساخت خط لوله ETL با بارگذاری افزایشی داده با پایتون | پایتون | ETL با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:05:36
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,399 –> 00:00:03,040
سلام و آه، به همه خوش آمدید، امروز
2
00:00:03,040 –> 00:00:05,440
بارگذاری داده افزایشی را در ETL پوشش خواهیم داد
3
00:00:05,440 –> 00:00:07,040
4
00:00:07,040 –> 00:00:09,200
رویکرد بار داده افزایشی
5
00:00:09,200 –> 00:00:11,120
الگوی طراحی ایده آل
6
00:00:11,120 –> 00:00:13,679
7
00:00:13,679 –> 00:00:16,079
8
00:00:16,079 –> 00:00:18,560
9
00:00:18,560 –> 00:00:20,720
است. به این
10
00:00:20,720 –> 00:00:23,199
معنا که ما فقط زیرمجموعه
11
00:00:23,199 –> 00:00:26,720
ردیفها را پردازش میکنیم و از منابع کمتری استفاده میکند، برای
12
00:00:26,720 –> 00:00:28,960
مثال اگر با جدولی کار میکنید
13
00:00:28,960 –> 00:00:31,840
که 20000 ردیف دارد، اما از آخرین اجرای etl
14
00:00:31,840 –> 00:00:35,040
تنها 500 رکورد جدید و 200 رکورد تغییر یافته وجود دارد و
15
00:00:35,040 –> 00:00:38,000
سپس
16
00:00:38,000 –> 00:00:41,040
بار افزایشی وجود دارد. اکنون فقط 700 ردیف را پردازش می کند،
17
00:00:41,040 –> 00:00:43,840
تصور کنید اگر جدول شما 10
18
00:00:43,840 –> 00:00:46,640
برابر بزرگتر باشد زیرا مقیاس داده های ما این
19
00:00:46,640 –> 00:00:48,640
روش یک امر ضروری است.
20
00:00:48,640 –> 00:00:51,199
21
00:00:51,199 –> 00:00:54,160
22
00:00:54,160 –> 00:00:56,800
23
00:00:56,800 –> 00:00:58,800
24
00:00:58,800 –> 00:01:01,120
همه راکت ها را حذف کنید و
25
00:01:01,120 –> 00:01:03,199
همه چیز را از سیستم منبع بارگیری کنید. این
26
00:01:03,199 –> 00:01:05,680
رویکرد ساده و آسان برای راه اندازی است،
27
00:01:05,680 –> 00:01:07,920
اما با مجموعه داده های بزرگ این
28
00:01:07,920 –> 00:01:10,320
به یک p تبدیل می شود. با توجه
29
00:01:10,320 –> 00:01:13,040
به اینکه دادههای شما مقیاس میشوند، فرآیند etl
30
00:01:13,040 –> 00:01:15,360
شما زمان بیشتری برای بارگیری زمان برای
31
00:01:15,360 –> 00:01:17,759
جابجایی و تبدیل دادهها
32
00:01:17,759 –> 00:01:20,400
به طول میانجامد.
33
00:01:20,400 –> 00:01:22,720
34
00:01:22,720 –> 00:01:25,360
35
00:01:25,360 –> 00:01:28,000
36
00:01:28,000 –> 00:01:30,560
رویکردهای بار افزایشی مختلفی وجود دارد،
37
00:01:30,560 –> 00:01:33,360
شماره یک تشخیص تغییر منبع،
38
00:01:33,360 –> 00:01:36,320
دو مقایسه تغییر مقصد و
39
00:01:36,320 –> 00:01:38,960
سه تغییر ثبت داده، امروز
40
00:01:38,960 –> 00:01:41,280
رویکرد دوم را پوشش خواهیم داد و اگر
41
00:01:41,280 –> 00:01:43,600
به cdc علاقه دارید، رویکرد cdc را در این ویدیو
42
00:01:43,600 –> 00:01:46,399
در اینجا پوشش دادهام،
43
00:01:46,399 –> 00:01:48,560
سپس این را در
44
00:01:48,560 –> 00:01:51,360
الگوی طراحی تشخیص تغییر منبع ما از دو فیلد کلیدی استفاده میکنیم که
45
00:01:51,360 –> 00:01:54,560
اصلاح شده و در
46
00:01:54,560 –> 00:01:57,680
فیلدهای روزانه ایجاد شده است تا تغییرات را شناسایی کنیم، اگر سیستم منبع شما از تشخیص تغییر منبع پشتیبانی نمیکند،
47
00:01:57,680 –> 00:02:00,240
دادهها را به خط لوله etl میکشیم که
48
00:02:00,240 –> 00:02:03,040
از آخرین اجرای etl درج شده و یا تغییر کرده است.
49
00:02:03,040 –> 00:02:05,759
50
00:02:05,759 –> 00:02:07,840
51
00:02:07,840 –> 00:02:10,239
به این معنی که تاریخ های ایجاد شده
52
00:02:10,239 –> 00:02:12,720
و اصلاح شده اضافه را ندارد، سپس
53
00:02:12,720 –> 00:02:15,920
به مقایسه مبدا به مقصد برمی گردیم
54
00:02:15,920 –> 00:02:17,599
دادههای مبدأ را با
55
00:02:17,599 –> 00:02:20,239
مقصد مقایسه کنید تا تعیین کنید کدام ردیفهای جدید
56
00:02:20,239 –> 00:02:22,640
یا اصلاحشده هستند. این روش
57
00:02:22,640 –> 00:02:24,640
تشخیص تغییر مستلزم مقایسه ردیف به ردیف است
58
00:02:24,640 –> 00:02:27,440
تا دادههای بدون تغییر
59
00:02:27,440 –> 00:02:30,239
و تغییر را متمایز کند، این کارایی
60
00:02:30,239 –> 00:02:32,239
کمتری نسبت به تشخیص تغییر منبع دارد برای
61
00:02:32,239 –> 00:02:34,319
این روش که ما همه دادهها را در آن بارگذاری میکنیم.
62
00:02:34,319 –> 00:02:37,120
خط لوله etl برای مقایسه، مقایسه
63
00:02:37,120 –> 00:02:38,720
تغییر مقصد
64
00:02:38,720 –> 00:02:41,680
را اجرا خواهیم کرد، سپس از جدول مشتری
65
00:02:41,680 –> 00:02:44,319
از پایگاه داده adventureworks استفاده می
66
00:02:44,319 –> 00:02:46,800
کنیم که قبلاً تنظیم کرده بودیم، اجازه دهید
67
00:02:46,800 –> 00:02:48,879
از کد جلسه قبلی خط لوله
68
00:02:48,879 –> 00:02:51,519
etl برای تعریف متغیرها و جزئیات پایگاه داده
69
00:02:51,519 –> 00:02:53,920
و ایجاد اتصال به
70
00:02:53,920 –> 00:02:56,720
پایگاه داده مبدا و مقصد استفاده کنیم.
71
00: