有什么有效的方法可以阻止数据链接吗?

我要求从两个不同的医院CSV文件中查找相似的患者,因此我应该在Python中使用阻塞方法。每个CSV文件的列标题如下

  • 患者ID(各医院不同)
  • 患者全名
  • 患者DOB
  • 治疗说明

可以在除患者ID之外的所有列中找到相似之处。 该程序需要将每个医院的每个患者ID分配给一个区,并且该区由区号唯一标识。

答案将是基于“真肯定”,“真否定”,“假肯定”和“假否定”进行检查,而且生成阻止实现所花费的时间必须与数据集中的项目数成线性关系。这意味着您无需将一所医院的每个患者与另一所医院的所有患者进行比较,您需要找到一种将每个患者分配到一个区域的方法。

我的问题是,我不知道使用基本的python包进行数据科学中的阻塞的任何方法,我正在寻找一种方法来执行此任务。这是一个Python问题。

评论