در این مطلب، ویدئو 2. مقدمه ای بر مجموعه داده های پایتون (فایل های csv.) با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:17:27
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,060 –> 00:00:02,669
سلام دوستان، بنابراین در این ویدیو من قصد دارم
2
00:00:02,669 –> 00:00:05,609
مجموعه داده هایی را معرفی
3
00:00:05,609 –> 00:00:08,250
کنم که دقیقاً یک مجموعه داده است.
4
00:00:08,250 –> 00:00:11,550
5
00:00:11,550 –> 00:00:14,580
6
00:00:14,580 –> 00:00:16,470
7
00:00:16,470 –> 00:00:18,060
بسیار خب
8
00:00:18,060 –> 00:00:20,580
، این ناتان است که مصمم است
9
00:00:20,580 –> 00:00:23,820
10
00:00:23,820 –> 00:00:26,490
هوش مصنوعی Big Data Hadoop و
11
00:00:26,490 –> 00:00:28,800
رایانش ابری را در جهان دموکراتیک کند و با این هدف
12
00:00:28,800 –> 00:00:31,470
من
13
00:00:31,470 –> 00:00:33,690
محتوای مرتبط را ایجاد خواهم کرد و به صورت دوره ای منتشر خواهم کرد
14
00:00:33,690 –> 00:00:35,790
و آن را برای شما در دسترس قرار
15
00:00:35,790 –> 00:00:38,520
خواهم داد تا بتوانید مشترک شوید. به کانال من
16
00:00:38,520 –> 00:00:40,079
برای دریافت آخرین بهروزرسانیها در مورد
17
00:00:40,079 –> 00:00:42,629
این داغترین فناوریهای خز رایگان
18
00:00:42,629 –> 00:00:46,800
و تیراندازی خوب در ویدیوی قبلی
19
00:00:46,800 –> 00:00:50,640
یاد گرفتیم که شما میدانید چگونه
20
00:00:50,640 –> 00:00:53,039
کتابخانهها را وارد کنید، اما سلولها را اجرا نکردیم،
21
00:00:53,039 –> 00:00:56,690
پس اجازه دهید ابتدا خودم
22
00:00:56,690 –> 00:01:05,188
یا ویدیوی قبلی، پس دوستان میتوانید
23
00:01:05,188 –> 00:01:08,700
اینجا را ببینید، این
24
00:01:08,700 –> 00:01:11,299
دفترچه یادداشت Jupiter است که در آن عبارتهای import را قرار دادهایم،
25
00:01:11,299 –> 00:01:14,220
بنابراین چگونه آن را اجرا کنید، یا
26
00:01:14,220 –> 00:01:17,430
Shift Enter OK را فشار دهید یا میتوانید
27
00:01:17,430 –> 00:01:20,159
این دکمه شست را نیز فشار دهید تا اکنون
28
00:01:20,159 –> 00:01:23,250
می توانید ببینید که این ستاره در اینجا به این
29
00:01:23,250 –> 00:01:25,140
معنی است که پردازش در حال انجام است، در
30
00:01:25,140 –> 00:01:27,930
اینجا نیز می توانید ببینید که سرهنگ مشغول است،
31
00:01:27,930 –> 00:01:30,750
بنابراین هر زمان که یک دایره جامد بود، به این
32
00:01:30,750 –> 00:01:33,090
معنی است که سرهنگ مشغول است اکنون در حالت بیکار
33
00:01:33,090 –> 00:01:36,450
است. بسیار خوب، پس عبارات ما با
34
00:01:36,450 –> 00:01:39,150
موفقیت و بدون خطا اجرا شده اند، بسیار خوب،
35
00:01:39,150 –> 00:01:43,350
پس بیایید به این موضوع ادامه دهیم که این موضوع مجموعه داده را بدانید،
36
00:01:43,350 –> 00:01:50,280
بسیار خوب، بنابراین طبق
37
00:01:50,280 –> 00:01:52,649
ویکی پدیا یا داده ها، زیرا مجموعه
38
00:01:52,649 –> 00:01:55,229
مجموعه ای از داده ها است و معمولاً
39
00:01:55,229 –> 00:01:57,659
مجموعه داده های ما با محتوای یک متن مطابقت دارد.
40
00:01:57,659 –> 00:01:59,790
جدول پایگاه داده واحد یا یک
41
00:01:59,790 –> 00:02:02,790
ماتریس داده آماری واحد که در آن هر
42
00:02:02,790 –> 00:02:04,920
ستون جدول نشان دهنده
43
00:02:04,920 –> 00:02:07,229
متغیر خاصی است و هر ردیف
44
00:02:07,229 –> 00:02:09,750
مربوط به عضو داده
45
00:02:09,750 –> 00:02:11,640
شده
46
00:02:11,640 –> 00:02:13,390
از مجموعه داده است، در واقع عضو خوب مجموعه داده به طور
47
00:02:13,390 –> 00:02:15,610
خاص، بنابراین اکنون می توانیم
48
00:02:15,610 –> 00:02:17,530
داده ها را به ترتیب در پایتون وارد کنیم. برای ساخت یک
49
00:02:17,530 –> 00:02:19,959
مدل یادگیری ماشین و برای آن
50
00:02:19,959 –> 00:02:22,360
ممکن است دادهای در قالب اکسل یا
51
00:02:22,360 –> 00:02:25,540
فرمت متن یا هر فرمت دیگری داشته باشیم و آن
52
00:02:25,540 –> 00:02:27,910
فایل ممکن است در
53
00:02:27,910 –> 00:02:31,240
پوشه یا پوشه خاصی در سیستم ما قرار داشته باشد. بنابراین ما
54
00:02:31,240 –> 00:02:33,580
میتوانیم دایرکتوری کاری را با
55
00:02:33,580 –> 00:02:37,060
استفاده از ماژول سیستمعامل پایتون یا کتابخانه سیستمعامل تنظیم کنیم
56
00:02:37,060 –> 00:02:40,209
که تابعی را برای تغییر
57
00:02:40,209 –> 00:02:43,900
دایرکتوری کاری فعلی ارائه میکند، بنابراین اجازه دهید
58
00:02:43,900 –> 00:02:47,290
ابتدا فهرست راهنمای سیستمعامل را وارد کنیم یا متأسفیم
59
00:02:47,290 –> 00:02:48,430
OS
60
00:02:48,430 –> 00:02:52,870
خوب، آنها نمیگویند سیستم عامل را وارد کنید. بسیار خوب
61
00:02:52,870 –> 00:02:56,489
و سپس یا دستور اساساً
62
00:02:56,489 –> 00:02:59,380
تغییر دایرکتوری کاری، اما هنگام
63
00:02:59,380 –> 00:03:01,720
کار در آنجا، سیستم عامل درختی آن را نمی بیند،
64
00:03:01,720 –> 00:03:05,040
باید خطا کند، اما قبل از اینکه به آن بروید،
65
00:03:05,040 –> 00:03:09,459
اجازه دهید PWD یا بزرگ u را تایپ کنیم، این است که
66
00:03:09,459 –> 00:03:12,550
مسیر دایرکتوری فعلی shift را ببینید و shift و up را
67
00:03:12,550 –> 00:03:20,470
فشار دهید. خوب پس اجازه دهید به
68
00:03:20,470 –> 00:03:23,769
اینجا پرش کنم، بنابراین اکنون اینجا می توانید ببینید که چگونه وقتی
69
00:03:23,769 –> 00:03:25,750
روی یک سلول تایپ کردم، می توانید ببینید که
70
00:03:25,750 –> 00:03:29,380
مسیر دایرکتوری فعلی برای من
71
00:03:29,380 –> 00:03:33,959
این است، اما فایل من در دایرکتوری F قرار دارد
72
00:03:33,959 –> 00:03:37,239
، بسیار خوب، پس پس از آن، من خواهم بود.
73
00:03:37,239 –> 00:03:40,030
از
74
00:03:40,030 –> 00:03:44,380
فایل مقادیر جدا شده با ویرگول CSV مشتریان کوچک برای
75
00:03:44,380 –> 00:03:47,829
بقیه ویدیو استفاده خواهد کرد، بنابراین از آنجایی که
76
00:03:47,829 –> 00:03:50,640
در درایو F قرار دارد، می خواهم
77
00:03:50,640 –> 00:03:53,110
دایرکتوری کاری فعلی false را به
78
00:03:53,110 –> 00:03:56,140
جرم ok تغییر دهم، بنابراین در حال حاضر می بینم اما می
79
00:03:56,140 –> 00:04:00,940
خواهم آن را تغییر دهم. به F باشه پس اجازه بده
80
00:04:00,940 –> 00:04:03,510
دایرکتوری کاری فعلی را تغییر دهید
81
00:04:03,510 –> 00:04:07,620
که دستور آدرس
82
00:04:07,620 –> 00:04:12,880
CH dirt است و سپس در کاماهای معکوس
83
00:04:12,880 –> 00:04:14,830
فقط می توانید نام آن
84
00:04:14,830 –> 00:04:15,819
دایرکتوری را ذکر
85
00:04:15,819 –> 00:04:18,820
کنید OK و سپس shift enter را دوباره فشار دهید تا
86
00:04:18,820 –> 00:04:20,980
دایرکتوری کاری فعلی من
87
00:04:20,980 –> 00:04:23,050
اکنون تغییر کرده است بنابراین اکنون دایرکتوری کاری فعلی تغییر کرده است.
88
00:04:23,050 –> 00:04:25,710
اگر بخواهم ببینم چیست،
89
00:04:25,710 –> 00:04:28,570
می توانم ببینم که EFT است و اگر
90
00:04:28,570 –> 00:04:31,380
بخواهم محتوای داخل این
91
00:04:31,380 –> 00:04:34,690
دایرکتوری خاص را ببینم، دستوری به نام Alice را تایپ می کنم،
92
00:04:34,690 –> 00:04:38,410
بنابراین اکنون فایل ها را لیست
93
00:04:38,410 –> 00:04:42,400
کنید، می توانم ببینم که جزئیات شرکت در اینجا
94
00:04:42,400 –> 00:04:45,340
درست است. من این دایرکتوری ها را دارم و
95
00:04:45,340 –> 00:04:48,940
این فایل من است این اندازه
96
00:04:48,940 –> 00:04:51,700
فایل است، سپس ما نمونه فایل دیگری از
97
00:04:51,700 –> 00:04:54,370
داده های املاک و مستغلات داریم که باز
98
00:04:54,370 –> 00:04:59,250
هم اندازه فایل خوب است، بنابراین
99
00:04:59,250 –> 00:05:02,200
این روشی است که ما اساساً او دایرکتوری فعلی کار ما است.
100
00:05:02,200 –> 00:05:05,050
و اکنون
101
00:05:05,050 –> 00:05:07,870
همانطور که به شما گفتم
102
00:05:07,870 –> 00:05:11,919
از فایل CSV مشتری بازار برای هدف خود استفاده خواهیم کرد،
103
00:05:11,919 –> 00:05:16,440
بنابراین می دانید که من قبلاً وارد کرده ام
104
00:05:16,440 –> 00:05:20,680
یا این کتابخانه خاص
105
00:05:20,680 –> 00:05:24,310
به نام PD pandas یا Import Finder به عنوان PD
106
00:05:24,310 –> 00:05:28,660
بنابراین شما می دانید ما اکنون باید آن مجموعه داده را وارد کنیم،
107
00:05:28,660 –> 00:05:31,630
بنابراین بیایید برای
108
00:05:31,630 –> 00:05:35,560
این کتابخانه اطلاعاتی استفاده کنیم و در اینجا
109
00:05:35,560 –> 00:05:38,080
متغیری را اعلام می
110
00:05:38,080 –> 00:05:41,500
کنیم که مجموعه داده را ذخیره می کند، بنابراین بعداً متوجه خواهید شد که
111
00:05:41,500 –> 00:05:45,100
من این متغیر را صدا خواهم زد، یعنی می توانم تماس بگیرم.
112
00:05:45,100 –> 00:05:47,620
این متغیر به عنوان داده خوب است،
113
00:05:47,620 –> 00:05:53,770
بنابراین برای اینکه در واقع آزمایشگاه
114
00:05:53,770 –> 00:05:59,229
مجموعه داده را وارد کند، می خواهم
115
00:05:59,229 –> 00:06:01,690
بگویم متغیر این است که این
116
00:06:01,690 –> 00:06:07,389
داده ها را ذخیره می کند داده ها خوب است یا اجازه دهید بگوییم
117
00:06:07,389 –> 00:06:10,180
فایل داده اوکی است، بنابراین متغیری که
118
00:06:10,180 –> 00:06:15,760
کل داده ها را ذخیره می کند. مجموعه ای از
119
00:06:15,760 –> 00:06:18,460
فایل CSV مشتری این مرکز خرید فایل داده ای است
120
00:06:18,460 –> 00:06:21,199
و ما
121
00:06:21,199 –> 00:06:25,639
این کتابخانه پونتاس را به شما می دهیم و روش
122
00:06:25,639 –> 00:06:31,099
CSV را می خوانیم خوب است بنابراین ما از آن استفاده می کنیم و
123
00:06:31,099 –> 00:06:32,810
این یک میانبر است همانطور که به شما گفتم صوتی است
124
00:06:32,810 –> 00:06:34,550
بنابراین ما از این استفاده می کنیم و سپس می
125
00:06:34,550 –> 00:06:37,789
خوانیم CSV و سپس
126
00:06:37,789 –> 00:06:45,650
نام فایلی را که mall customer dot
127
00:06:45,650 –> 00:06:48,830
CSV است نام میگذاریم بنابراین نام یافتن ما بیشتر مشتریان
128
00:06:48,830 –> 00:06:52,310
نقطه CSV است و این یک فایل CSV است
129
00:06:52,310 –> 00:06:53,960
، به همین دلیل است که از روشی
130
00:06:53,960 –> 00:06:58,069
بر خلاف CSV استفاده کردهایم و اکنون اگر شما
131
00:06:58,069 –> 00:07:00,529
می خواهم ببینم که تعداد انگشت شماری از رکوردها را می
132
00:07:00,529 –> 00:07:03,560
شناسید اگر این صفحه داده خاص
133
00:07:03,560 –> 00:07:07,699
خوب است، بنابراین من میتوانم این
134
00:07:07,699 –> 00:07:10,069
یک نوع تاریخ او یا یک جدول بعدی است
135
00:07:10,069 –> 00:07:12,979
که
136
00:07:12,979 –> 00:07:14,629
دادههای مشتریان کوچک را ذخیره میکند.
137
00:07:14,629 –> 00:07:18,409
138
00:07:18,409 –> 00:07:22,610
این است که از فایل داده استفاده کنید، کلاه نقطه
139
00:07:22,610 –> 00:07:25,909
بسیار خوب است، بنابراین اگر کلاه چه کاری انجام می دهد این است که
140
00:07:25,909 –> 00:07:30,099
به شما نشان می دهد تعداد انگشت شماری از
141
00:07:30,099 –> 00:07:33,050
مشاهدات یا سوابق را می شناسید، shift
142
00:07:33,050 –> 00:07:37,399
enter را در اینجا فشار ندهید و اکنون می توانید ببینید
143
00:07:37,399 –> 00:07:41,509
که ما در اینجا پنج ستون داریم
144
00:07:41,509 –> 00:07:44,300
شناسه مشتری جنسیت سن درآمد سالانه و
145
00:07:44,300 –> 00:07:47,120
رتبه بندی برای Okay اجازه دهید
146
00:07:47,120 –> 00:07:49,279
محتوای فایل CSV مشتری مرکز خرید را به شما نشان دهم، بنابراین
147
00:07:49,279 –> 00:07:51,889
در اینجا می توانید ببینید که پنج
148
00:07:51,889 –> 00:07:53,870
ستون در این فایل CSV خاص نشان داده شده است.
149
00:07:53,870 –> 00:07:57,199
این شناسه مشتری جنسیت سن mmm
150
00:07:57,199 –> 00:07:59,599
بیایید و در این چهار خرج
151
00:07:59,599 –> 00:08:02,930
کنید اینجا را ببینید که پنج مورد اول را نشان داده است،
152
00:08:02,930 –> 00:08:07,789
خوب است و نام ستون
153
00:08:07,789 –> 00:08:09,589
است، همان نام ستون ها می گویند
154
00:08:09,589 –> 00:08:10,279
خوب است
155
00:08:10,279 –> 00:08:12,830
و می توانید مشاهدات را در اینجا ببینید،
156
00:08:12,830 –> 00:08:17,060
بسیار خوب، بنابراین این روشی است که ما در اینجا انجام می دهیم،
157
00:08:17,060 –> 00:08:22,009
منظورم این است که داده های بسیار مهمی هستند.
158
00:08:22,009 –> 00:08:24,490
159
00:08:24,490 –> 00:08:28,690
دومی تی باید به شما بگویم که
160
00:08:28,690 –> 00:08:32,320
نمایه سازی شاخص های ستون در اینجا از صفر شروع می شود،
161
00:08:32,320 –> 00:08:36,309
بنابراین ستون ID مشتری
162
00:08:36,309 –> 00:08:38,