我想计算一个数据集中已验证的URL数。
Date Urls Verified
12/03/2020 www.stackoverflow.com True
12/03/2020 www.google.com True
12/03/2020 www.youtube.com True
12/03/2020 www.bients.com False
13/03/2020 www.google.com True
13/03/2020 www.amazon.com True
14/03/2020 www.bients.com False
14/03/2020 www.Breaking-CNN.com False
等等。
我想得到:
- 按日期显示的经过验证的网址数(Verified = True);
- 已验证网址的总数。
但是,我需要从计数中删除重复项。 我的预期输出将是:
12/03/2020 Verified: 3
Not Verified: 1
13/03/2020 Verified: 2
Not Verified: 0
14/03/2020 Verified: 0
Not Verified: 2
已验证总数:4(我应该避免重复,例如www.google.com或www.bients.com) 未验证总数:2
我如何获得这些结果?我认为使用唯一和分组方式,但我不了解顺序。
We can do
drop_duplicates
, thegroupby
+value_counts