در این مطلب، ویدئو آموزش SAS | ادغام پایتون با SAS Viya با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:31:16
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,030 –> 00:00:02,159
هی من آریایی هستم من یک مربی اینجا در
2
00:00:02,159 –> 00:00:03,600
sass در بخش آموزش آماری و تحلیلی
3
00:00:03,600 –> 00:00:05,549
هستم و
4
00:00:05,549 –> 00:00:07,080
سابقه ای در فیزیک و ریاضی دارم و امروز
5
00:00:07,080 –> 00:00:08,280
در مورد
6
00:00:08,280 –> 00:00:10,349
ادغام Python با sass صحبت خواهیم کرد، بنابراین
7
00:00:10,349 –> 00:00:12,090
بخش مهمی که باید به خاطر بسپارید
8
00:00:12,090 –> 00:00:14,009
اساساً روشی که ما ادغام پایتون را انجام میدهیم این
9
00:00:14,009 –> 00:00:15,780
است که از پایتون
10
00:00:15,780 –> 00:00:17,789
برای ارسال دستورات و کنترلها به
11
00:00:17,789 –> 00:00:20,310
sass از طریق سرور استفاده میکنیم، بنابراین ما
12
00:00:20,310 –> 00:00:22,199
روی یک رایانه محلی پایتون نصب میکنیم و
13
00:00:22,199 –> 00:00:23,880
میتوانید آن را به عنوان لپتاپ یا لپتاپ خود تصور کنید.
14
00:00:23,880 –> 00:00:25,560
ایستگاه کاری شما در محل کار و سپس ما
15
00:00:25,560 –> 00:00:26,820
به سرور رضایت بخش
16
00:00:26,820 –> 00:00:28,289
که شما آن را به عنوان یک سرور فکر می کنید متصل می شویم
17
00:00:28,289 –> 00:00:29,849
و می گوییم اتاق سرور در محل کار شما
18
00:00:29,849 –> 00:00:32,130
برای ما این یک تصویر خدمات وب آمازون است
19
00:00:32,130 –> 00:00:33,930
به طور کلی کاری که ما انجام خواهیم داد. در حال
20
00:00:33,930 –> 00:00:36,180
ارسال دستورات از پایتون به
21
00:00:36,180 –> 00:00:37,680
sass توسط یک سرور است به طوری که تمام
22
00:00:37,680 –> 00:00:39,840
پردازش ها در سرور انجام می شود
23
00:00:39,840 –> 00:00:41,399
وقتی وارد نرم افزار می شویم
24
00:00:41,399 –> 00:00:43,110
25
00:00:43,110 –> 00:00:44,550
26
00:00:44,550 –> 00:00:46,320
. یا
27
00:00:46,320 –> 00:00:47,910
اینکه از راه دور در سرور Safire رخ می دهد،
28
00:00:47,910 –> 00:00:49,620
بنابراین ما با باز کردن
29
00:00:49,620 –> 00:00:52,050
نوت بوک Jupiter شروع می کنیم، نوت بوک Jupiter را
30
00:00:52,050 –> 00:00:53,969
با استفاده از توزیع
31
00:00:53,969 –> 00:00:55,829
Anaconda نصب
32
00:00:55,829 –> 00:00:57,570
می کنیم.
33
00:00:57,570 –> 00:00:59,070
در این
34
00:00:59,070 –> 00:01:01,710
نوتبوکها کمی راحتتر میروم، بنابراین
35
00:01:01,710 –> 00:01:03,180
به اسناد اینجا میروم و
36
00:01:03,180 –> 00:01:05,040
دفترچهای را که آماده کردهام باز میکنم،
37
00:01:05,040 –> 00:01:06,510
کد آمادهشده رایگانی دارم که مرور میکنم و
38
00:01:06,510 –> 00:01:07,830
توضیح میدهم که چه اتفاقی
39
00:01:07,830 –> 00:01:09,600
میافتد و چه میکند و سپس در در پایان به
40
00:01:09,600 –> 00:01:10,950
شما نشان خواهم داد که چگونه می
41
00:01:10,950 –> 00:01:13,200
توانم کد خودم را بعداً در بالا و
42
00:01:13,200 –> 00:01:15,420
فراتر از این توسعه دهم، بنابراین در همان
43
00:01:15,420 –> 00:01:17,009
ابتدا می خواهم برجسته کنم که یک
44
00:01:17,009 –> 00:01:19,530
صفحه مستند در اینجا وجود دارد و فقط یک پیوند
45
00:01:19,530 –> 00:01:21,540
و پیوند در زیر خواهد بود و این
46
00:01:21,540 –> 00:01:23,100
به شما امکان می دهد به داده هایی که استفاده می کنیم
47
00:01:23,100 –> 00:01:24,869
و همچنین نمونه های دیگری از
48
00:01:24,869 –> 00:01:28,049
برنامه نویسی و پایتون با sass دسترسی داشته باشید، بنابراین
49
00:01:28,049 –> 00:01:30,450
وقتی شروع به کار کردیم، بسته های مفیدی را وارد می کنیم
50
00:01:30,450 –> 00:01:32,130
، مهم ترین موردی که می
51
00:01:32,130 –> 00:01:34,079
خواهم برجسته کنم بسته SWOT است. سن که
52
00:01:34,079 –> 00:01:36,630
مخفف SAS Wrapper برای انتقال تجزیه و تحلیل
53
00:01:36,630 –> 00:01:38,759
است، این بسته ای است که
54
00:01:38,759 –> 00:01:41,549
به ما امکان می دهد از کدهای پایتون
55
00:01:41,549 –> 00:01:44,220
به SAS ارسال کنیم، در نهایت کاری که بسته SWAT
56
00:01:44,220 –> 00:01:45,930
انجام می دهد، ترجمه همه چیزهایی است که ما
57
00:01:45,930 –> 00:01:48,060
ارسال می کنیم به شکلی که سرور SAS epheus
58
00:01:48,060 –> 00:01:50,729
بتواند بقیه موارد را بفهمد. این
59
00:01:50,729 –> 00:01:52,950
گزینه ها فقط بسته های پایتون هستند
60
00:01:52,950 –> 00:01:54,540
pandas یک بسته پایتون است که ما برای
61
00:01:54,540 –> 00:01:57,270
تجزیه و
62
00:01:57,270 –> 00:01:59,759
63
00:01:59,759 –> 00:02:01,320
64
00:02:01,320 –> 00:02:02,670
تحلیل داده ها استفاده
65
00:02:02,670 –> 00:02:05,340
می کنیم. روی shift enter کلیک کنید
66
00:02:05,340 –> 00:02:07,170
که فقط یک دستور مشتری است
67
00:02:07,170 –> 00:02:09,750
تا سلول را اجرا کند، بنابراین اولین سلولی را اجرا می کنیم که
68
00:02:09,750 –> 00:02:11,099
یک ستاره کوچک دارد در حالی که در حال اجراست
69
00:02:11,099 –> 00:02:12,330
وقتی تمام شد
70
00:02:12,330 –> 00:02:14,160
یکی کنارش را دارد. اولین سلولی است که
71
00:02:14,160 –> 00:02:16,950
اجرا کردیم این یکی است. یکی از مراحل بسیار مهم
72
00:02:16,950 –> 00:02:18,840
اتصال به SAS از طریق سرور،
73
00:02:18,840 –> 00:02:20,790
ما در حال ایجاد یک اتصال از
74
00:02:20,790 –> 00:02:23,580
محیط محلی پایتون خود به SAS از طریق
75
00:02:23,580 –> 00:02:25,080
سرور هستیم که سرور راه دوری است
76
00:02:25,080 –> 00:02:27,390
که قبلاً ذکر کردم این نام است.
77
00:02:27,390 –> 00:02:29,070
در سرور URL که
78
00:02:29,070 –> 00:02:31,830
از طریق آن وصل میشویم، در پورت 8777 وصل
79
00:02:31,830 –> 00:02:33,930
میشویم و نام کاربری و رمز عبور خود را در
80
00:02:33,930 –> 00:02:35,310
یک محیط واقعی میدهیم، شما
81
00:02:35,310 –> 00:02:37,770
نام کاربری و رمز عبور خود را به صورت توکن میدهید یا در
82
00:02:37,770 –> 00:02:39,750
نسخه هش شده، آن را از طریق
83
00:02:39,750 –> 00:02:41,760
متن ساده HTTP ارسال میکنیم. از آنجا که ما از یک تصویر آزمایشی استفاده می کنیم،
84
00:02:41,760 –> 00:02:43,740
بنابراین در زندگی واقعی شما همیشه
85
00:02:43,740 –> 00:02:45,750
می خواهید از تنظیمات امنیتی بیشتری نسبت به
86
00:02:45,750 –> 00:02:48,240
آنچه در اینجا استفاده می کنیم استفاده کنید، من به Shift اجازه می دهم تا
87
00:02:48,240 –> 00:02:49,800
آن را اجرا کند و این به من یک اتصال می دهد
88
00:02:49,800 –> 00:02:51,390
و می بینید که اتصال نامگذاری شده است.
89
00:02:51,390 –> 00:02:53,459
و در آینده همه کارهایی که من
90
00:02:53,459 –> 00:02:55,620
روی سرور satisfy انجام
91
00:02:55,620 –> 00:02:57,870
میدهم از طریق آن اتصال مدیریت میشود، بنابراین فوراً به
92
00:02:57,870 –> 00:02:59,820
آن میرسیم، میخواهم برخی از
93
00:02:59,820 –> 00:03:01,920
دادهها را بارگیری کنم، جدول دادههایم را که به آن
94
00:03:01,920 –> 00:03:04,530
مرجع محلی تایتانیک میگویم. TBL برای
95
00:03:04,530 –> 00:03:06,660
جدول تایتانیک مجموعه دادهها از بقا
96
00:03:06,660 –> 00:03:07,950
در تایتانیک به دست میآید و با بررسی برخی از دادههایمان،
97
00:03:07,950 –> 00:03:08,970
کمی بیشتر درباره آن
98
00:03:08,970 –> 00:03:11,580
صحبت خواهیم کرد.
99
00:03:11,580 –> 00:03:14,610
100
00:03:14,610 –> 00:03:16,830
بنابراین
101
00:03:16,830 –> 00:03:18,360
من در واقع آن را از
102
00:03:18,360 –> 00:03:19,890
لپ تاپ یا محل کارم می خوانم هر جا که
103
00:03:19,890 –> 00:03:21,900
کار می کنم و آن را در
104
00:03:21,900 –> 00:03:24,120
سرور گاو با نام تایتانیک بارگذاری می کنم و
105
00:03:24,120 –> 00:03:26,580
سرور بازیگر فقط SAS از طریق سرور است
106
00:03:26,580 –> 00:03:28,920
TAS مخفف خدمات تحلیلی ابری
107
00:03:28,920 –> 00:03:31,050
است و فقط نیروی کار قدرت پردازش
108
00:03:31,050 –> 00:03:32,489
در پشت همه اقداماتی است که
109
00:03:32,489 –> 00:03:35,489
ما انجام می دهیم، Shift enter را می زنم تا
110
00:03:35,489 –> 00:03:38,070
این عبارت را اجرا کنیم. کاری که ما انجام دادیم این است
111
00:03:38,070 –> 00:03:40,350
که داده ها را در حافظه سرور Sapphire بارگذاری کرده
112
00:03:40,350 –> 00:03:42,720
ایم، بنابراین ما اکنون یک جدول Titanic داریم
113
00:03:42,720 –> 00:03:45,690
که در حافظه سرور است، بیایید
114
00:03:45,690 –> 00:03:47,519
بررسی کنیم که این جدول در مورد چیست. بنابراین
115
00:03:47,519 –> 00:03:48,989
، ابتدا به برخی از ستونها نگاه
116
00:03:48,989 –> 00:03:51,450
میکنیم که این جدول دادهها از چه چیزی آمده است، اگر
117
00:03:51,450 –> 00:03:53,130
به مسافران کشتی تایتانیک
118
00:03:53,130 –> 00:03:54,720
نگاه میکردیم و به این که چه کسی جان سالم به در برد و چه کسی مرد
119
00:03:54,720 –> 00:03:56,430
و به اطلاعات مختلفی
120
00:03:56,430 –> 00:03:58,200
در مورد مسافران نگاه کردیم که به ما کمک میکند
121
00:03:58,200 –> 00:04:01,310
پیشبینی کنیم که آیا آنها جان خود را از دست داده یا
122
00:04:01,310 –> 00:04:03,930
زنده مانده است.
123
00:04:03,930 –> 00:04:05,640
124
00:04:05,640 –> 00:04:07,080
125
00:04:07,080 –> 00:04:08,100
126
00:04:08,100 –> 00:04:09,360
127
00:04:09,360 –> 00:04:11,130
128
00:04:11,130 –> 00:04:12,510
شکل گیری مانند نام
129
00:04:12,510 –> 00:04:14,340
مسافران، جنسیت مسافران،
130
00:04:14,340 –> 00:04:16,829
سن مسافران بلیطی
131
00:04:16,829 –> 00:04:18,298
که خریداری کرده اند یا مبلغی که برای بلیط پرداخت کرده اند
132
00:04:18,298 –> 00:04:20,399
، برخی از این متغیرها
133
00:04:20,399 –> 00:04:22,019
در پیش بینی
134
00:04:22,019 –> 00:04:23,520
هدف نجات یافته و برخی از آنها مفید خواهند بود.
135
00:04:23,520 –> 00:04:25,500
بنابراین ما کمی بعد متغیرهای خود را انتخاب خواهیم
136
00:04:25,500 –> 00:04:27,050
کرد.
137
00:04:27,050 –> 00:04:29,430
یکی از مواردی که می خواهم برجسته کنم این است که از
138
00:04:29,430 –> 00:04:31,620
این عمل اطلاعات ستون استفاده می کنم و بنابراین کاری که
139
00:04:31,620 –> 00:04:33,870
انجام می دهم جدول در حافظه
140
00:04:33,870 –> 00:04:36,240
سرور باقی می ماند و من دستوری را به سرور ارسال می کنم.
141
00:04:36,240 –> 00:04:37,200
سرور برای گفتن
142
00:04:37,200 –> 00:04:39,240
اطلاعاتی در مورد ستون ها به من می دهد و
143
00:04:39,240 –> 00:04:41,940
آن اطلاعات را به صورت محلی می فرستد
144
00:04:41,940 –> 00:04:43,380
تا اینجا پردازش روی
145
00:04:43,380 –> 00:04:44,750
سرور راه دور انجام شده است
146
00:04:44,750 –> 00:04:47,400
، اکنون تابع head را اجرا می
147
00:04:47,400 –> 00:04:49,590
کنم تا پنج ردیف اول جدول را به من نشان دهد
148
00:04:49,590 –> 00:04:51,390
این همان داده های ما است. جدول در واقع
149
00:04:51,390 –> 00:04:53,850
شبیه چیزی است که من دوست دارم در اینجا برجسته کنم و
150
00:04:53,850 –> 00:04:55,140
من دوباره به این موضوع اشاره می کنم همانطور که
151
00:04:55,140 –> 00:04:57,270
از طریق این نمایش به جلو حرکت می کنیم، خواهیم
152
00:04:57,270 –> 00:04:58,740
دید که این تابع head در واقع
153
00:04:58,740 –> 00:05:01,590
داده ها را به صورت محلی می آورد بنابراین کل
154
00:05:01,590 –> 00:05:03,690
جدول در حافظه است و اکنون ما باید و این پنج
155
00:05:03,690 –> 00:05:05,580
ردیف که به صورت محلی به پایتون آورده شدهاند،
156
00:05:05,580 –> 00:05:07,800
بنابراین ما میتوانیم با استفاده از توابع پایتون آنها را تجزیه و تحلیل کنیم
157
00:05:07,800 –> 00:05:09,090
یا کارهای مختلف و
158
00:05:09,090 –> 00:05:11,070
پایتون برای آنها انجام دهیم، اما میخواهیم اغلب
159
00:05:11,070 –> 00:05:13,320
مراقب باشیم زیرا ممکن است به
160
00:05:13,320 –> 00:05:15,420
اندازه فضای محلی در ایستگاه کاری شما فضای محلی
161
00:05:15,420 –> 00:05:18,150
وجود نداشته باشد. سرور درون حافظه، بنابراین
162
00:05:18,150 –> 00:05:19,770
اگر مجموعه داده ای عظیم با میلیون ها
163
00:05:19,770 –> 00:05:21,600
و میلیون ها رکورد دارید و بخواهید
164
00:05:21,600 –> 00:05:23,280
که همه آن ها به صورت محلی ارائه شود،
165
00:05:23,280 –> 00:05:25,140
ممکن است با مشکلاتی مواجه شوید
166
00:05:25,140 –> 00:05:26,340
، کمی بعد به آن باز خواهم گشت و ما
167
00:05:26,340 –> 00:05:29,370
در واقع این کار را انجام می دهیم. اینکه چگونه ما روی تابع شکل قرار داریم
168
00:05:29,370 –> 00:05:31,290
تا اساساً به من بگوییم که
169
00:05:31,290 –> 00:05:33,270
جدول چقدر بزرگ است، اینجاست که ما متوجه میشویم
170
00:05:33,270 –> 00:05:35,430
که فقط حدود 1300 ردیف است
171
00:05:35,430 –> 00:05:37,320
که میلیونها نفر در تایتانیک نبودهاند، بنابراین
172
00:05:37,320 –> 00:05:39,090
ما فقط دادههایی در مورد برخی از آنها داشتیم.
173
00:05:39,090 –> 00:05:40,620
خدمه، بنابراین همه
174
00:05:40,620 –> 00:05:43,260
مسافران روی تایتانیک 15 ستون و
175
00:05:43,260 –> 00:05:48,720
1300 ردیف 1309 هستند، ما مقداری
176
00:05:48,720 –> 00:05:50,610
آمار خلاصه در مورد متغیرهای عددی و
177
00:05:50,610 –> 00:05:52,530
کاراکتری دریافت خواهیم کرد.
178
00:05:52,530 –> 00:05:55,169
179
00:05:55,169 –> 00:05:57,360
180
00:05:57,360 –> 00:06:00,419
سرور برای بازگرداندن نتایج درخواست می کند، بنابراین
181
00:06:00,419 –> 00:06:01,800
در این مورد ما چیزهایی مانند
182
00:06:01,800 –> 00:06:03,390
تعداد متغیرهای مختلف،
183
00:06:03,390 –> 00:06:05,790
تعداد مقادیر منحصر به فرد داریم، بنابراین می بینید که
184
00:06:05,790 –> 00:06:07,830
شناسه کلید برای هر ردیف دارای ارزش منحصر به فرد است
185
00:06:07,830 –> 00:06:09,480
زیرا شناسه منحصر به فردی است که ما از آن
186
00:06:09,480 –> 00:06:11,280
برای ارجاع استفاده خواهیم کرد. میدانید میانگین کدام ردیف است
187
00:06:11,280 –> 00:06:14,160
که میخواهم آن را برجسته
188
00:06:14,160 –> 00:06:15,960
کنم، میانگین روی کل
189
00:06:15,960 –> 00:06:18,150
مجموعه داده محاسبه میشود، اما در سرور رضایت بخش محاسبه میشود
190
00:06:18,150 –> 00:06:19,860
و نتایج به صورت محلی آورده میشوند،
191
00:06:19,860 –> 00:06:22,290
بنابراین میانگین به صورت محلی محاسبه نمیشود،
192
00:06:22,290 –> 00:06:23,970
بنابراین همه کارها همچنان ادامه دارد.
193
00:06:23,970 –> 00:06:25,800
که توسط SAS از طریق به جای
194
00:06:25,800 –> 00:06:28,680
پایتون انجام میشود، اینجاست که ما در واقع میبینیم
195
00:06:28,680 –> 00:06:30,990
که دادهها کجا قرار دارند، من از تابع type
196
00:06:30,990 –> 00:06:32,910
در پایتون استفاده میکنم و
197
00:06:32,910 –> 00:06:35,190
نوع جدول تایتانیک را میپرسم که مرجع من
198
00:06:35,190 –> 00:06:37,380
به دادههای درون حافظه است و به من میگوید
199
00:06:37,380 –> 00:06:39,390
که این یک میز ریختهگری است SWAT cows dog
200
00:06:39,390 –> 00:06:39,960
table
201
00:06:39,960 –> 00:06:42,300
جدول گاو که این شیء است
202
00:06:42,300 –> 00:06:44,250
زیرا از راه دور روی این سرور صوفیه زندگی میکند،
203
00:06:44,250 –> 00:06:48,690
اگر من سر جدول تایتانیک را بخواهم
204
00:06:48,690 –> 00:06:51,479
که یک کپی محلی را به
205
00:06:51,479 –> 00:06:53,460
پایتون میآورد و میبینیم که اگر
206
00:06:53,460 –> 00:06:55,470
نوع تابع را فراخوانی کنم، چنین است. n روی آن یک قاب داده SAS
207
00:06:55,470 –> 00:06:57,569
است که به این معنی است که داده ها به
208
00:06:57,569 –> 00:06:59,009
صورت محلی در محیط پایتون شما زندگی می
209
00:06:59,009 –> 00:07:01,770
کنند، اغلب اوقات ممکن است آنقدر حافظه وجود داشته باشد
210
00:07:01,770 –> 00:07:03,750
که ببخشید داده های زیادی وجود دارد
211
00:07:03,750 –> 00:07:05,880
که فضای حافظه در سرور یاقوت کبود
212
00:07:05,880 –> 00:07:07,650
می تواند آن را نگه دارد اما فضای حافظه در حافظه
213
00:07:07,650 –> 00:07:09,990
است. در پایتون این کار را نمیکند، بنابراین اگر
214
00:07:09,990 –> 00:07:11,910
دادههای زیادی بخواهید، در نهایت
215
00:07:11,910 –> 00:07:15,090
دستگاه محلی خود را خراب میکنید، بنابراین من اغلب از این
216
00:07:15,090 –> 00:07:16,500
نوع توابع استفاده میکنم تا مطمئن شوم که میدانم دادههایم را کجا
217
00:07:16,500 –> 00:07:18,270
قرار میدهم و اساساً آنها را در محیط مناسب رها میکنند.
218
00:07:18,270 –> 00:07:22,050
بنابراین من
219
00:07:22,050 –> 00:07:23,490
در مورد اینکه چگونه می توانید
220
00:07:23,490 –> 00:07:25,169
با آوردن داده های بیش از حد به صورت محلی به خود آسیب برسانید صحبت کردم، می
221
00:07:25,169 –> 00:07:26,460
خواهم به شما نمایشی از
222
00:07:26,460 –> 00:07:28,680
آوردن تمام داده ها به صورت محلی ارائه دهم، بنابراین در اینجا
223
00:07:28,680 –> 00:07:31,620
من جدول تایتانیک را نقطه به قاب صدا می زنم و این
224
00:07:31,620 –> 00:07:33,300
یک قاب داده محلی از
225
00:07:33,300 –> 00:07:35,639
جدول تایتانیک ایجاد می کند. این دستور را همین جا
226
00:07:35,639 –> 00:07:36,870
و من دوست دارم این را برجسته کنم
227
00:07:36,870 –> 00:07:38,819
زیرا بسیار مهم است که من تمام
228
00:07:38,819 –> 00:07:41,699
داده ها را به صورت محلی آوردم اگر مثلاً 16
229
00:07:41,699 –> 00:07:44,250
گیگابایت رم روی لپ تاپم داشتم اما
230
00:07:44,250 –> 00:07:46,020
یک جدول در سرور satisfy
231
00:07:46,020 –> 00:07:48,720
داشتم که 64 گیگابایت بود و فرض کنید من sau ce
232
00:07:48,720 –> 00:07:50,970
توسط سروری که 240
233
00:07:50,970 –> 00:07:52,199
گیگابایت رم را میدانستید، زیرا این یک محیط مشترک بزرگ
234
00:07:52,199 –> 00:07:53,729
برای همه است که دادههای خود را به اشتراک بگذارند،
235
00:07:53,729 –> 00:07:56,580
اگر من بخواهم جدول 64 گیگابایتی
236
00:07:56,580 –> 00:07:58,710
را به صورت محلی به فریم بیاورم، اگر
237
00:07:58,710 –> 00:08:00,750
این دستور را فراخوانی کنم، کامپیوتر محلی من خراب میشود.
238
00:08:00,750 –> 00:08:02,310
زیرا تمام
239
00:08:02,310 –> 00:08:06,449
16 گیگابایت حافظه را با داده ها پر می کرد و
240
00:08:06,449 –> 00:08:07,680
هنوز چهل و هشت
241
00:08:07,680 –> 00:08:09,150
گیگابایت دیگر باقی می ماند که فقط سعی می کرد
242
00:08:09,150 –> 00:08:11,219
و بدون رم روی رایانه من ریخته می شد
243
00:08:11,219 –> 00:08:13,259
رایانه من از کار
244
00:08:13,259 –> 00:08:14,610
می افتاد بنابراین من همیشه مردها باید مراقب باشند که شما
245
00:08:14,610 –> 00:08:15,990
دادهها را به صورت محلی میآورید و مطمئن
246
00:08:15,990 –> 00:08:17,610
میشوید که در واقع نمونهای از
247
00:08:17,610 –> 00:08:20,039
دادهها را میآورید که بر روی دستگاه محلی شما قرار میگیرد، ما همین
248
00:08:20,039 –> 00:08:22,520
الان بالای دادههایمان بررسی کردیم.
249
00:08:22,520 –> 00:08:25,409
250
00:08:25,409 –> 00:08:28,860
این
251
00:08:28,860 –> 00:08:30,690
به هیچ وجه از SAS استفاده نمیکند، این
252
00:08:30,690 –> 00:08:32,880
پایتون است برای رسم هیستوگرام برخی
253
00:08:32,880 –> 00:08:35,190
از ورودیها که ما از هیستوگرام استفاده میکنیم
254
00:08:35,190 –> 00:08:36,690
فقط برای ورودیهای عددی کار میکند،
255
00:08:36,690 –> 00:08:38,549
بنابراین میبینیم که به
256
00:08:38,549 –> 00:08:40,559
توزیعی از سنها نگاه میکنیم که میبینیم اکثر مردم هستند.
257
00:08:40,559 –> 00:08:43,370
حدود 29 تا 30 در تایتانیک
258
00:08:43,370 –> 00:08:45,510
توزیع بدن مشخص می شود که
259
00:08:45,510 –> 00:08:47,790
بدنه ورودی در واقع شماره شناسایی بدن است
260
00:08:47,790 –> 00:08:49,440
زمانی که آنها
261
00:08:49,440 –> 00:08:51,720
اجساد را از اقیانوس اطلس شمالی بیرون کشیدند به طوری
262
00:08:51,720 –> 00:08:52,949
که احتمالاً برای پیش بینی قیمت مناسب مفید نخواهد بود.
263
00:08:52,949 –> 00:08:53,660
264
00:08:53,660 –> 00:08:55,940
آنها خرج کردند ما می بینیم
265
00:08:55,940 –> 00:08:57,379
که اکثر مردم همان مبلغ را
266
00:08:57,379 –> 00:08:59,029
برای بلیط های خود خرج کردند چند نفر
267
00:08:59,029 –> 00:09:00,800
سوئیت های اجرایی را در بالای
268
00:09:00,800 –> 00:09:03,019
کشتی خریدند بنابراین مقدار کمی بیشتر پرداخت کردند
269
00:09:03,019 –> 00:09:05,180
البته به یاد داشته باشید که این اوایل دهه 1900 است بنابراین
270
00:09:05,180 –> 00:09:08,149
تورم نقش مهمی را ایفا می کند ایده اصلی ما
271
00:09:08,149 –> 00:09:10,879
برای همه آنها ارزشهای منحصر به فردی دارد که
272
00:09:10,879 –> 00:09:13,370
هدف جان سالم به در برده است، به نظر می رسد
273
00:09:13,370 –> 00:09:14,689
نسبت های مشابهی از افرادی داریم که
274
00:09:14,689 –> 00:09:16,610
جان سالم به در برده اند و جان
275
00:09:16,610 –> 00:09:18,410
276
00:09:18,410 –> 00:09:20,120
خود را از دست داده اند.
277
00:09:20,120 –> 00:09:23,269
278
00:09:23,269 –> 00:09:24,560
در مورد برخی از ورودیها، زمانی که
279
00:09:24,560 –> 00:09:26,689
مدلهای پیشبینی خود را میسازیم، اکنون
280
00:09:26,689 –> 00:09:28,009
برخی از ورودیهای خود را انتخاب میکنیم که در
281
00:09:28,009 –> 00:09:29,600
واقع از آنها استفاده میکنیم و بنابراین
282
00:09:29,600 –> 00:09:32,329
، شناسه کلید را به عنوان یک شناسه منحصربهفرد نگه میداریم.
283
00:09:32,329 –> 00:09:34,040
از نظر جنسیت، چه مرد باشند چه
284
00:09:34,040 –> 00:09:36,680
زن، ما از سن استفاده میکنیم که
285
00:09:36,680 –> 00:09:39,139
مسافران چند ساله بودهاند، از کرایه استفاده میکنند که
286
00:09:39,139 –> 00:09:41,300
چقدر برای بلیطهایشان پرداخت کردهاند،
287
00:09:41,300 –> 00:09:43,639
از کلاس P استفاده میکنند که کلاسی است که
288
00:09:43,639 –> 00:09:45,319
آنها در آن حضور داشتند، بنابراین کلاس اول است.
289
00:09:45,319 –> 00:09:47,329
کابینهای زیبا درجه دوم برای
290
00:09:47,329 –> 00:09:48,949
کابینهای متوسط و کلاس سوم برای کا
291
00:09:48,949 –> 00:09:50,860
ینهای نزدیک به پایین قایق که
292
00:09:50,860 –> 00:09:53,120
لاس P است، بنابراین یک متغیر طبقهبندی شده با
293
00:09:53,120 –> 00:09:55,459
ه سطح خواهر و برادر و هم
294
00:09:55,459 –> 00:09:57,110
ران این یکی اطلاعات کمی کمتری دارد زی
295
00:09:57,110 –> 00:09:59,360
ا ترکیبی از تع
296
00:09:59,360 –> 00:10:01,220
اد است. از خواهر و برادرها و/یا همسرانی که
297
00:10:01,220 –> 00:10:03,709
آنها دارند، بنابراین اگر یکی را
298
00:10:03,709 –> 00:10:05,180
دیدید، اگر دو یا سه
299
00:10:05,180 –> 00:10:07,399
خواهر و برادر احتمالاً تعداد زیادی از افراد را
300
00:10:07,399 –> 00:10:09,199
در کشتی تایتانیک ببینید که بیش از یک
301
00:10:09,199 –> 00:10:11,360
همسر با خود آوردهاند و هدف زنده مانده است، میتواند یک همسر باشد.
302
00:10:11,360 –> 00:10:12,860
برای پیشبینی اینکه آیا
303
00:10:12,860 –> 00:10:14,990
مردم اساساً از سقوط تایتانیک جان سالم به
304
00:10:14,990 –> 00:10:19,279
در میبرند، بنابراین من از پانداها استفاده
305
00:10:19,279 –> 00:10:20,569
میکنم و میخواهم این را برجسته کنم،
306
00:10:20,569 –> 00:10:22,069
همه دادهها را به صورت محلی آوردهام و اکنون از پانداها استفاده میکنم
307
00:10:22,069 –> 00:10:24,620
که فقط یک بسته پایتون برای
308
00:10:24,620 –> 00:10:26,480
زیر مجموعه دادهها است و ایجاد یک
309
00:10:26,480 –> 00:10:28,939
قاب داده کوچکتر قاب داده ذخیرهسازی است
310
00:10:28,939 –> 00:10:30,199
که دادهها به روشی که دادههای
311
00:10:30,199 –> 00:10:32,389
ذخیره شده در پانداها یک
312
00:10:32,389 –> 00:10:35,060
قاب داده کمی کوچکتر میسازد فقط برای نشان دادن شما و سپس
313
00:10:35,060 –> 00:10:36,740
من آن فریم داده را پشتیبانگیری در سرور آپلود میکنم
314
00:10:36,740 –> 00:10:39,380
، این احتمالاً یک قاب داده نیست.
315
00:10:39,380 –> 00:10:41,059
به طور کلی بهترین روش شما می خواهید
316
00:10:41,059 –> 00:10:42,889
سعی کنید داده ها را روی سرور نگه دارید نه
317
00:10:42,889 –> 00:10:44,569
اینکه آنها را به صورت محلی بیاورید
318
00:10:44,569 –> 00:10:45,980
و تجزیه و تحلیل محلی انجام دهید و آن ها را به سرور برگردانید،
319
00:10:45,980 –> 00:10:47,990
اما من می خواستم نشان دهم که چگونه
320
00:10:47,990 –> 00:10:49,639
داده ها را به صورت محلی بیاورید این به چه
321
00:10:49,639 –> 00:10:50,569
معناست و چگونه می توانید
322
00:10:50,569 –> 00:10:52,459
اگر می خواهید دستکاری های خود را به صورت محلی انجام دهید و
323
00:10:52,459 –> 00:10:54,290
سپس نتیجه را دوباره به
324
00:10:54,290 –> 00:10:57,500
سرور آپلود کنید، بنابراین من اساساً یک جدول جدید می
325
00:10:57,500 –> 00:10:59,839
سازم و آنچه را داشتم بازنویسی می
326
00:10:59,839 –> 00:11:01,970
کنم زیرا یک جدول تایتانیک روی سرور
327
00:11:01,970 –> 00:11:03,649
داشتم، بنابراین اکنون آن را بازنویسی می کنم. با این
328
00:11:03,649 –> 00:11:05,420
قاب داده ای که من ایجاد کردم و سپس یک
329
00:11:05,420 –> 00:11:08,080
ارجاع جدید به آن ایجاد کردم، بنابراین من این سلول را اجرا می
330
00:11:08,080 –> 00:11:10,160
کنم و همیشه دوست
331
00:11:10,160 –> 00:11:11,780
دارم اگر نوع تایتانیک DF را بپرسم که همان فریم داده ای است که انجام داده ایم، کاری را که انجام داده ایم برجسته
332
00:11:11,780 –> 00:11:13,910
333
00:11:13,910 –> 00:11:16,580
کنم. دستکاری محلی آن را به من می گوید
334
00:11:16,580 –> 00:11:19,190
فریم داده SWOT قاب داده SAS را تنظیم می کند، بنابراین
335
00:11:19,190 –> 00:11:21,080
به صورت محلی روی کلاینت زندگی می کند، به طوری که
336
00:11:21,080 –> 00:11:23,000
در پایتون من برای
337
00:11:23,000 –> 00:11:25,160
محیط پایتون من روی لپ تاپ من نصب می شود، در حالی که اگر
338
00:11:25,160 –> 00:11:27,470
نوع جدول تایتانیک را بخواهم، یک
339
00:11:27,470 –> 00:11:29,330
جدول ریخته گری است که از راه دور روی سرور زندگی می کند،
340
00:11:29,330 –> 00:11:32,570
اکنون ما دادهها را
341
00:11:32,570 –> 00:11:34,100
دوباره روی سرور آپلود کنید و
342
00:11:34,100 –> 00:11:35,570
ما بقیه تجزیه و تحلیلها را روی سرور
343
00:11:35,570 –> 00:11:37,310
انجام میدهیم و نتایج خود را به صورت محلی به عقب
344
00:11:37,310 –> 00:11:40,010
345
00:11:40,010 –> 00:11:41,240
346
00:11:41,240 –> 00:11:42,860
برمیگردانیم که با بهترین روشهای ما مطابقت دارد.
347
00:11:42,860 –> 00:11:44,810
سپس آن را دوباره به سمت بالا فشار داد تا
348
00:11:44,810 –> 00:11:46,250
به شما نشان دهد چگونه این کار را انجام دهید، نه زیرا
349
00:11:46,250 –> 00:11:48,830
فکر می کنم شما همیشه باید این کار را انجام دهید، بنابراین ما
350
00:11:48,830 –> 00:11:50,480
می خواهیم مقادیر از دست رفته را مدیریت کنیم،
351
00:11:50,480 –> 00:11:52,190
بیایید ببینیم آیا مقادیر گم شده ای
352
00:11:52,190 –> 00:11:55,310
در داده های خود داریم یا
353
00:11:55,310 –> 00:11:57,410
خیر. در سرور به ما می گوید
354
00:11:57,410 –> 00:11:59,390
که مقداری برای سن
355
00:11:59,390 –> 00:12:01,810
و یک مقدار گم شده برای کرایه
356
00:12:01,810 –> 00:12:03,920
داریم، صرف نظر از مدل های پیش بینی ما، آنها
357
00:12:03,920 –> 00:12:05,300
واقعاً مقادیر از دست رفته را دوست ندارند،
358
00:12:05,300 –> 00:12:08,750
بنابراین ما این اولین
359
00:12:08,750 –> 00:12:10,820
چیزی است که من به عنوان cal فکر می کنم. ves action syntax
360
00:12:10,820 –> 00:12:12,410
calves اکشنها اقدامات سرویسهای تحلیلی ابری هستند که
361
00:12:12,410 –> 00:12:14,930
اساساً همه چیزهایی
362
00:12:14,930 –> 00:12:17,570
که ما از Sofia میخواهیم انجام دهد
363
00:12:17,570 –> 00:12:19,400
به این اقدامات محتاطانه ترجمه میشود که
364
00:12:19,400 –> 00:12:21,470
رایانه میداند چگونه پردازش کند، بنابراین در این
365
00:12:21,470 –> 00:12:23,120
مورد به این عمل مقادیر گمشده نسبت داده میشود،
366
00:12:23,120 –> 00:12:25,670
بنابراین ما از SAS از طریق و
367
00:12:25,670 –> 00:12:27,460
از مجموعه اقدامات پیش پردازش دادهها میآید،
368
00:12:27,460 –> 00:12:29,690
بنابراین مجموعهای از
369
00:12:29,690 –> 00:12:30,740
اقدامات مختلف مربوط به
370
00:12:30,740 –> 00:12:33,410
پیش پردازش است.
371
00:12:33,410 –> 00:12:35,330
372
00:12:35,330 –> 00:12:38,090
373
00:12:38,090 –> 00:12:40,460
ورودیهای ما
374
00:12:40,460 –> 00:12:41,660
به این دلیل است که میخواهیم از
375
00:12:41,660 –> 00:12:43,730
ورودیهای دیگری استفاده کنیم که وارد نمیکنیم و سپس
376
00:12:43,730 –> 00:12:45,620
میخواهیم جدول را ذخیره
377
00:12:45,620 –> 00:12:46,910
378
00:12:46,910 –> 00:12:48,740
کنیم.
379
00:12:48,740 –> 00:12:51,590
این
380
00:12:51,590 –> 00:12:55,730
عمل را می بینیم که خروجی می دهد
381
00:12:55,730 –> 00:12:57,380
اینها را با میانگینی که من مشخص
382
00:12:57,380 –> 00:12:59,180
نکردم که من فقط رفتار پیش فرض را پذیرفته ام، خروجی می
383
00:12:59,180 –> 00:13:01,760
دهد، بنابراین به طور پیش فرض
384
00:13:01,760 –> 00:13:04,880
مقادیر را با میانگین وارد می کنیم و سپس اگر
385
00:13:04,880 –> 00:13:06,950
اطلاعات ستون را در این برگه بخواهم بنابراین، این از
386
00:13:06,950 –> 00:13:08,780
من میپرسد که چه
387
00:13:08,780 –> 00:13:11,420
متغیرهایی در این جدول وجود دارد، ما میبینیم که
388
00:13:11,420 –> 00:13:13,550
سن و کرایه نسبت داده شده را اضافه کردهایم
389
00:13:13,550 –> 00:13:16,130
و اینها
390
00:13:16,130 –> 00:13:17,480
متغیرهایی هستند که میخواهیم به جای
391
00:13:17,480 –> 00:13:21,059
کرایه عامل استفاده کنیم، ما میخواهیم
392
00:13:21,059 –> 00:13:22,559
مقداری پیشبینی انجام دهیم. مدلسازی و
393
00:13:22,559 –> 00:13:24,119
همه مدلهای پیشبینی
394
00:13:24,119 –> 00:13:26,669
، مجموعهای از ورودیهای هدف را انتظار دارند و
395
00:13:26,669 –> 00:13:28,289
میخواهند بدانند کدام یک از متغیرها
396
00:13:28,289 –> 00:13:30,569
اسمی و کدام فاصله هستند، بنابراین
397
00:13:30,569 –> 00:13:31,979
398
00:13:31,979 –> 00:13:34,679
کامپیوتر همیشه
399
00:13:34,679 –> 00:13:36,839
نمیداند که آیا آنها عددی هستند یا مقولهای.
400
00:13:36,839 –> 00:13:38,699
صفر و یک های خود را اعداد می کند، بنابراین
401
00:13:38,699 –> 00:13:40,319
رایانه به طور پیش فرض ممکن است فکر کند که یک
402
00:13:40,319 –> 00:13:42,089
متغیر بازه ای است، اما واقعاً یک
403
00:13:42,089 –> 00:13:43,409
متغیر اسمی است، زیرا یک
404
00:13:43,409 –> 00:13:47,159
پرچم باینری است، بنابراین هدفی که ما صدا می زنیم زنده مانده است،
405
00:13:47,159 –> 00:13:48,569
زیرا می دانیم که این هدفی است که
406
00:13:48,569 –> 00:13:51,919
من این پنج ورودی را انتخاب کردم که
407
00:13:51,919 –> 00:13:54,929
خواهر و برادرها و همسران کلاس جنسی به آنها نسبت داده می شوند. سن در
408
00:13:54,929 –> 00:13:56,399
جفت منتسب، ما مجبور نبودیم
409
00:13:56,399 –> 00:13:57,389
متغیرهای دیگر را بهبود دهیم، زیرا
410
00:13:57,389 –> 00:13:59,489
مقادیر از دست رفته وجود نداشت و سپس
411
00:13:59,489 –> 00:14:02,219
کلاس جنسیت و ماندگاری اسمی ما جنس است.
412
00:14:02,219 –> 00:14:04,859
کلاس های p نر یا ماده یک دو یا
413
00:14:04,859 –> 00:14:06,479
سه و بنابراین با وجود اینکه اعداد
414
00:14:06,479 –> 00:14:08,009
هستند، آنها واقعاً دسته هستند،
415
00:14:08,009 –> 00:14:09,509
سطوح طبقه بندی هستند درجه اول کلاس دوم
416
00:14:09,509 –> 00:14:12,689
کلاس سوم من فقط اینها را ذخیره کردم
417
00:14:12,689 –> 00:14:14,459
این همه پایتون است اینها فقط
418
00:14:14,459 –> 00:14:16,199
لیست های پایتون هستند یا در مورد هدف فقط
419
00:14:16,199 –> 00:14:18,239
یک رشته است و سپس
420
00:14:18,239 –> 00:14:19,919
این نتایج پایتون را به
421
00:14:19,919 –> 00:14:21,989
ابزارهای مدلسازی پیشبینیکننده خود وارد میکنیم و ما را راضی
422
00:14:21,989 –> 00:14:23,939
میکنیم که از آن برای پر کردن
423
00:14:23,939 –> 00:14:25,789