使用模糊python删除重复的近似单词匹配

我想问一下如何使用python中的模糊或任何可行的方法来删除重复的近似单词匹配。我有一个包含近似相似名称的excel,在这一点上,我想删除包含高度相似性的名称,仅保留一个名称。

例如,这是输入(excel文件),总共有6行5列:

abby_john         abc   abc   abc   abc 
abby_johnny       def   def   def   def 
a_j               ghi   ghi   ghi   ghi 
abby_(john)       abc   abc   abc   abc 
abby_john_doe     def   def   def   def 
aby_John_Doedy    ghi   ghi   ghi   ghi

尽管以上所有名称看起来都不同,但实际上它们是相同的,python应该如何知道它们都是相同的,并删除重复的名称,并保留名称的任何一个,并保留其整个行?顺便说一句,输入文件为Excel文件格式(.xlsx)。

所需的输出:

abby_john         abc   abc   abc   abc 

由于下划线不是很重要,因此可以用“ spacing”代替,因此可以接受以下另一个输出: 另一个所需的输出:

abby john         abc   abc   abc   abc 

如果有人可以帮助我,我会非常感激,谢谢!

评论