从熊猫数据框获取统计信息:按日期排列的唯一字段

我想计算一个数据集中已验证的URL数。

       Date                   Urls  Verified
 12/03/2020  www.stackoverflow.com      True
 12/03/2020         www.google.com      True
 12/03/2020        www.youtube.com      True
 12/03/2020         www.bients.com     False
 13/03/2020         www.google.com      True
 13/03/2020         www.amazon.com      True
 14/03/2020         www.bients.com     False
 14/03/2020   www.Breaking-CNN.com     False

等等。

我想得到:

  • 按日期显示的经过验证的网址数(Verified = True);
  • 已验证网址的总数。

但是,我需要从计数中删除重复项。 我的预期输出将是:

12/03/2020 Verified: 3
           Not Verified: 1
13/03/2020 Verified: 2
           Not Verified: 0
14/03/2020 Verified: 0
           Not Verified: 2

已验证总数:4(我应该避免重复,例如www.google.com或www.bients.com) 未验证总数:2

我如何获得这些结果?我认为使用唯一和分组方式,但我不了解顺序。

评论
lsint
lsint

We can do drop_duplicates, the groupby + value_counts

s=df.drop_duplicates().groupby('Date').Verified.value_counts().unstack(fill_value=0).stack()
Date        Verified
12/03/2020  False       1
            True        3
13/03/2020  False       0
            True        2
14/03/2020  False       2
            True        0
dtype: int64
点赞
评论