从熊猫数据框获取统计信息:按日期排列的唯一字段

我想计算一个数据集中已验证的URL数。

       Date                   Urls  Verified
 12/03/2020  www.stackoverflow.com      True
 12/03/2020         www.google.com      True
 12/03/2020        www.youtube.com      True
 12/03/2020         www.bients.com     False
 13/03/2020         www.google.com      True
 13/03/2020         www.amazon.com      True
 14/03/2020         www.bients.com     False
 14/03/2020   www.Breaking-CNN.com     False

等等。

我想得到:

  • 按日期显示的经过验证的网址数(Verified = True);
  • 已验证网址的总数。

但是,我需要从计数中删除重复项。 我的预期输出将是:

12/03/2020 Verified: 3
           Not Verified: 1
13/03/2020 Verified: 2
           Not Verified: 0
14/03/2020 Verified: 0
           Not Verified: 2

已验证总数:4(我应该避免重复,例如www.google.com或www.bients.com) 未验证总数:2

我如何获得这些结果?我认为使用唯一和分组方式,但我不了解顺序。

评论
  • lsint
    lsint 回复

    We can do drop_duplicates, the groupby + value_counts

    s=df.drop_duplicates().groupby('Date').Verified.value_counts().unstack(fill_value=0).stack()
    Date        Verified
    12/03/2020  False       1
                True        3
    13/03/2020  False       0
                True        2
    14/03/2020  False       2
                True        0
    dtype: int64