如何建立一个分类器来确定两对是否匹配?

我正在尝试建立一个可以确定两个地址是匹配还是不匹配的分类器。

假设我有一个具有匹配或不匹配标签的地址对数据集。

我是ML的新手,所以可能有些想法困扰着我,但这就是我正在考虑的任务方式:

建立分类器的方法

  • 将每个地址细分为其子组件,例如街道名称,邮政编码等
  • 为每个字段构造一维比较向量。这些字段保存来自字符串相似性方法(如jaro-winkler)的值。
  • 现在,我所有带有相关匹配标签的比较向量都可以用于训练分类器

预测一对是否匹配

  • 通过使用诸如阻塞的方法构建候选地址对的列表
  • 构造比较向量,方法与上面构建分类器的方式相同
  • 现在将每个候选者的比较向量输入到分类器中,这将解析为匹配或不匹配

My approach was inspired by research paper Machine learning innovations in address matching: A practical comparison of word2vec and CRFs but a lot of the things are vaguely described for a beginner.

总而言之,我正在寻找有关此方法是否有效的信息,或者我完全误解了某些信息