در این مطلب، ویدئو نحوه شناسایی و حذف مقادیر تکراری از Python Pandas DataFrame با زیرنویس فارسی را برای دانلود قرار داده ام. شما میتوانید با پرداخت 15 هزار تومان ، این ویدیو به علاوه تمامی فیلم های سایت را دانلود کنید.اکثر فیلم های سایت به زبان انگلیسی می باشند. این ویدئو دارای زیرنویس فارسی ترجمه شده توسط هوش مصنوعی می باشد که میتوانید نمونه ای از آن را در قسمت پایانی این مطلب مشاهده کنید.
مدت زمان فیلم: 00:10:52
تصاویر این ویدئو:
قسمتی از زیرنویس این فیلم:
00:00:00,080 –> 00:00:03,360
سلام، در این ویدیو در
2
00:00:03,360 –> 00:00:05,600
مورد چگونگی شناسایی و حذف
3
00:00:05,600 –> 00:00:06,879
گزارش های تکراری
4
00:00:06,879 –> 00:00:10,080
در پایتون با استفاده از کتابخانه pandas صحبت خواهم کرد،
5
00:00:10,080 –> 00:00:13,280
بنابراین بیایید پیش برویم و
6
00:00:13,280 –> 00:00:15,839
کتابخانه pandas را ابتدا import pandas spd وارد کنیم
7
00:00:15,839 –> 00:00:16,400
8
00:00:16,400 –> 00:00:19,680
و من از
9
00:00:19,680 –> 00:00:22,480
مجموعه داده ای که استفاده می کردم استفاده خواهم کرد. در
10
00:00:22,480 –> 00:00:24,640
بسیاری از ویدیوهای قبلی که
11
00:00:24,640 –> 00:00:27,599
نمونه ای از داده های فروش سوپراستور است که شامل
12
00:00:27,599 –> 00:00:28,400
فروش یک
13
00:00:28,400 –> 00:00:31,760
سوپراستور است و پس از خواندن آن
14
00:00:31,760 –> 00:00:33,840
از فایل اکسل با استفاده از تابع
15
00:00:33,840 –> 00:00:34,960
pd.read
16
00:00:34,960 –> 00:00:37,840
excel و ذخیره آن برگه در
17
00:00:37,840 –> 00:00:38,559
18
00:00:38,559 –> 00:00:41,680
سفارشات، در حال مشاهده دو ردیف بالا هستم،
19
00:00:41,680 –> 00:00:44,879
پس بیایید برویم. جلوتر و اجرا کنید که
20
00:00:44,879 –> 00:00:48,160
همه در اینجا بالای صفحه من هستند، اما
21
00:00:48,160 –> 00:00:50,320
دو ردیف اول آنچه که من
22
00:00:50,320 –> 00:00:52,239
واقعاً باید بگویم دو ردیف اول در مجموعه داده است
23
00:00:52,239 –> 00:00:53,039
24
00:00:53,039 –> 00:00:56,000
زیرا بالا نشان می دهد که ردیف های بالا بر اساس
25
00:00:56,000 –> 00:00:57,600
فروش یا تخفیف، بنابراین این چیزی
26
00:00:57,600 –> 00:00:59,760
نیست که هست، دو ردیف اول است.
27
00:00:59,760 –> 00:01:02,879
ردیفهای مجموعه داده کاملاً درست است،
28
00:01:02,879 –> 00:01:05,280
وقتی اینجا باشیم، خواهیم دید که اوه
29
00:01:05,280 –> 00:01:07,280
وجود دارد، مقادیر تکراری زیادی وجود خواهد داشت
30
00:01:07,280 –> 00:01:10,400
، به عنوان مثال،
31
00:01:10,400 –> 00:01:10,960
32
00:01:10,960 –> 00:01:12,479
نام چندین مشتری چندین بار رخ میدهد
33
00:01:12,479 –> 00:01:14,240
و
34
00:01:14,240 –> 00:01:16,400
به طور مشابه اجازه دهید y بخش مشتری دسته بندی محصول
35
00:01:16,400 –> 00:01:18,799
و همه آن چیزها،
36
00:01:18,799 –> 00:01:21,360
اما گاهی اوقات اینها ضروری هستند و
37
00:01:21,360 –> 00:01:21,920
شما واقعاً
38
00:01:21,920 –> 00:01:23,600
نمی خواهید آن را حذف کنید زیرا آنها
39
00:01:23,600 –> 00:01:25,200
در واقع نشان
40
00:01:25,200 –> 00:01:27,119
دهنده داده هایی هستند که باید در مجموعه داده های شما وجود داشته باشد،
41
00:01:27,119 –> 00:01:29,439
اما برای مثال فرض کنید
42
00:01:29,439 –> 00:01:31,600
اوه شما ندارید. الزامی که در آن
43
00:01:31,600 –> 00:01:32,640
میدانید
44
00:01:32,640 –> 00:01:35,520
به چند نام مشتری در مجموعه دادهها نیاز
45
00:01:35,520 –> 00:01:37,280
دارید و فقط میخواهید یک نام منحصربفرد داشته باشید،
46
00:01:37,280 –> 00:01:38,640
شاید برای برخی از
47
00:01:38,640 –> 00:01:41,600
نیازهای تحقیقاتی یا چیزی که میخواهید
48
00:01:41,600 –> 00:01:42,479
49
00:01:42,479 –> 00:01:45,360
با نگاه کردن
50
00:01:45,360 –> 00:01:46,560
به نام مشتری منحصر به فرد
51
00:01:46,560 –> 00:01:48,479
یا شاید برخی از مجموعه دادههای خود را بدانید. به دلایل دیگر
52
00:01:48,479 –> 00:01:50,960
شما فقط به مقادیر منحصربهفرد
53
00:01:50,960 –> 00:01:52,799
برای یک ستون خاص نیاز دارید،
54
00:01:52,799 –> 00:01:55,119
بنابراین چگونه میتوانیم این کار را انجام دهیم، در این ویدیو به شما نشان خواهم داد
55
00:01:55,119 –> 00:01:56,320
که
56
00:01:56,320 –> 00:01:57,280
57
00:01:57,280 –> 00:01:59,680
با استفاده از روشهای دادهشده در کتابخانه پانداها بسیار ساده است،
58
00:01:59,680 –> 00:02:00,799
59
00:02:00,799 –> 00:02:03,040
بنابراین اولین چیزی که نگاه کردن به
60
00:02:03,040 –> 00:02:04,719
کل است. مجموعه داده ای که
61
00:02:04,719 –> 00:02:07,119
در ترتیبات اشیاء قرار دارد و با استفاده از
62
00:02:07,119 –> 00:02:08,878
روش duplicate
63
00:02:08,878 –> 00:02:11,520
چه کاری انجام می دهد که هر جا
64
00:02:11,520 –> 00:02:12,480
65
00:02:12,480 –> 00:02:15,360
ردیف تکراری را شناسایی کند آن را به عنوان تکراری علامت گذاری می کند
66
00:02:15,360 –> 00:02:16,160
67
00:02:16,160 –> 00:02:19,440
و درست یا نادرست را نشان می دهد.
68
00:02:19,440 –> 00:02:21,599
بر اساس اینکه آیا تکراری است یا نه،
69
00:02:21,599 –> 00:02:25,280
بنابراین من فقط این را اجرا می کنم
70
00:02:25,840 –> 00:02:28,160
و در اینجا همانطور که می بینید مقادیر زیادی وجود دارد
71
00:02:28,160 –> 00:02:29,840
که می آیند
72
00:02:29,840 –> 00:02:32,879
و تا آخر خواهد رفت و به
73
00:02:32,879 –> 00:02:34,319
طور پیش فرض نشان می دهد
74
00:02:34,319 –> 00:02:36,400
که همه آنها نادرست هستند،
75
00:02:36,400 –> 00:02:38,959
یعنی هیچ ردیف تکراری وجود ندارد که به این معنی است که
76
00:02:38,959 –> 00:02:41,680
تمام محتویات در کل این
77
00:02:41,680 –> 00:02:44,640
سلول ها وجود دارد، بنابراین اگر من فقط کمی بالا بروم
78
00:02:44,640 –> 00:02:51,760
و شیب کمی را به شما نشان دهم،
79
00:02:51,760 –> 00:02:56,400
80
00:02:56,400 –> 00:02:59,200
بنابراین کل این ردیف
81
00:02:59,200 –> 00:02:59,760
با
82
00:02:59,760 –> 00:03:02,319
این ردیف مقایسه می شود و سپس این نشان میدهد
83
00:03:02,319 –> 00:03:03,840
که آیا
84
00:03:03,840 –> 00:03:06,959
ردیف تکراری است یا خیر، بنابراین در
85
00:03:06,959 –> 00:03:07,760
86
00:03:07,760 –> 00:03:10,000
مورد ما، نکته مثبت این است که هیچ دو ردیف
87
00:03:10,000 –> 00:03:11,760
تکراری
88
00:03:11,760 –> 00:03:14,480
نیستند، زیرا اکنون false برمیگردد.
89
00:03:14,480 –> 00:03:15,200
90
00:03:15,200 –> 00:03:17,519
91
00:03:17,519 –> 00:03:18,879
92
00:03:18,879 –> 00:03:21,440
چون همه
93
00:03:21,440 –> 00:03:23,599
مقادیر نشان داده نشده اند، من فکر می کنم
94
00:03:23,599 –> 00:03:25,519
30 مقدار اول و 30 مقدار آخر در اینجا نشان داده شده اند
95
00:03:25,519 –> 00:03:26,480
96
00:03:26,480 –> 00:03:30,480
و همانطور که می بینید سه نقطه وجود خواهد داشت بسیار
97
00:03:30,840 –> 00:03:32,159
98
00:03:32,159 –> 00:03:35,519
خوب اینجاست که بعد از 29
99
00:03:35,519 –> 00:03:37,760
شما سه نقطه دارید و بنابراین ممکن است سناریویی وجود داشته باشد.
100
00:03:37,760 –> 00:03:40,159
که ممکن است شما
101
00:03:40,159 –> 00:03:43,200
یک درست است در اینجا، پس
102
00:03:43,200 –> 00:03:45,360
بیایید ببینیم که اگر میخواهید در مورد آن بدانید
103
00:03:45,360 –> 00:03:46,959
104
00:03:46,959 –> 00:03:49,040
، ابتدا
105
00:03:49,040 –> 00:03:50,959
باید تعداد ردیفهایی را که واقعاً تکرار شدهاند، به دست آوریم،
106
00:03:50,959 –> 00:03:54,080
بنابراین
107
00:03:54,080 –> 00:03:57,200
دوباره دستور میدهد که نقطهای تکراری
108
00:03:57,200 –> 00:04:01,040
جمع نقطهای
109
00:04:01,040 –> 00:04:04,959
اساساً در اینجا در پشت این
110
00:04:04,959 –> 00:04:08,560
برنامه uh یا یا این متن
111
00:04:08,560 –> 00:04:10,480
با 1 و false با 0 نشان داده شده است و
112
00:04:10,480 –> 00:04:12,640
برخی تمام آنهایی را که به معنای واقعی هستند جمع می
113
00:04:12,640 –> 00:04:14,000
کنند و به ما می دهند
114
00:04:14,000 –> 00:04:16,238
که چند ردیف تکراری وجود دارد، بنابراین اگر
115
00:04:16,238 –> 00:04:17,839
من ادامه دهم و اجرا
116
00:04:17,839 –> 00:04:20,238
کنم، می بینید که هیچ ردیفی وجود ندارد که همه آنها
117
00:04:20,238 –> 00:04:22,240
کپی شده
118
00:04:22,240 –> 00:04:25,520
باشند. بیایید برویم و کمی
119
00:04:25,520 –> 00:04:26,400
عمیقتر
120
00:04:26,400 –> 00:04:28,880
برویم، مثلاً میخواهیم
121
00:04:28,880 –> 00:04:30,400
ببینیم در یک
122
00:04:30,400 –> 00:04:33,440
ستون یا یک سری، چند مقدار تکراری
123
00:04:33,440 –> 00:04:34,960
وجود دارد،
124
00:04:34,960 –> 00:04:37,840
بنابراین مثلاً بگوییم سفارشها به
125
00:04:37,840 –> 00:04:39,280
نام مشتری،
126
00:04:39,280 –> 00:04:43,280
مثلاً میخواهید ببینید چند
127
00:04:43,280 –> 00:04:46,000
ردیف تکراری وجود دارد. آیا اجازه دهید من فقط
128
00:04:46,000 –> 00:04:46,400
از
129
00:04:46,400 –> 00:04:50,880
برخی استفاده کنم بنابراین مقادیر 7604 وجود دارد که
130
00:04:50,880 –> 00:04:53,280
تکراری هستند زیرا همان
131
00:04:53,280 –> 00:04:55,600
مشتریان به شما سفارش می دهند یا ممکن است
132
00:04:55,600 –> 00:04:56,320
سفارش
133
00:04:56,320 –> 00:04:59,759
در چندین محصول پخش شده باشد
134
00:04:59,759 –> 00:05:01,919
و چندین محصول در چند برابر باشند.
135
00:05:01,919 –> 00:05:03,440
و به همین دلیل است که نام مشتری
136
00:05:03,440 –> 00:05:06,160
می آید و این 7604
137
00:05:06,160 –> 00:05:07,199
مقداری را نشان می دهد که
138
00:05:07,199 –> 00:05:10,880
شما تعداد مشتریان تکراری
139
00:05:10,880 –> 00:05:13,680
دارید اگر می خواهید این مجموعه داده را فیلتر کنید
140
00:05:13,680 –> 00:05:14,320
که در آن
141
00:05:14,320 –> 00:05:16,080
نام همه مشتریان آمده است.
142
00:05:16,080 –> 00:05:18,160
143
00:05:18,160 –> 00:05:21,440
دستور دهید و
144
00:05:21,440 –> 00:05:24,240
دستورات را بنویسید و در آن پیست کنید، بنابراین کاری
145
00:05:24,240 –> 00:05:25,919
که انجام میدهد این است
146
00:05:25,919 –> 00:05:28,720
که هر کجا که درست میآید
147
00