我们如何在python中映射数据结构?

我的词典中有大量内容,这些内容是通过在大型Wikipedia语料库中搜索相似句子而创建的。它具有低于字典格式的格式,当我将其写入文件的大小为150mb时,现在将其写入文件之前,我想对该字典进行预处理并删除具有某些群集名称的句子(例如,如果群集名称为“ sport_Soccer”,删除那些在字典中是关键的句子)为了做到这一点,我必须在内存中循环这巨大的字典,并且需要很长时间才能过滤掉,我读到了mmap,许多人说这有助于加快操作速度,所以我试图使用mmap加载字典,但出现以下错误,并且所有教程仅显示如何使用mmap加载文件,因此mmap仅限于文件而不是数据结构吗?

cluster_dict = { .. .. “句子”:“集群名称” .. .. .. }

dd={"the soccer match news will be telecasted live today":"sport_Soccer","The stock markets crashed":"Trading_market"}
ss = mmap.mmap(dd.fileno(), 0)

ss = mmap.mmap(dd.fileno(), 0)

AttributeError: 'dict' object has no attribute 'fileno'

当我只使用下面的代码时,它给出了不同的错误 ss = mmap.mmap(dd,0)

TypeError:必须为整数(输入类型dict)

评论
  • Yi心情
    Yi心情 回复

    dict is a Python data structure, not a file format. If you're trying to store and reload dict data, I recommend that you use the json package. The dump and load methods do what I think you want: a reliable way to store and retrieve key-value data.