我想问一下如何使用python中的模糊或任何可行的方法来删除重复的近似单词匹配。我有一个包含近似相似名称的excel,在这一点上,我想删除包含高度相似性的名称,仅保留一个名称。
例如,这是输入(excel文件),总共有6行5列:
abby_john abc abc abc abc
abby_johnny def def def def
a_j ghi ghi ghi ghi
abby_(john) abc abc abc abc
abby_john_doe def def def def
aby_John_Doedy ghi ghi ghi ghi
尽管以上所有名称看起来都不同,但实际上它们是相同的,python应该如何知道它们都是相同的,并删除重复的名称,并保留名称的任何一个,并保留其整个行?顺便说一句,输入文件为Excel文件格式(.xlsx)。
所需的输出:
abby_john abc abc abc abc
由于下划线不是很重要,因此可以用“ spacing”代替,因此可以接受以下另一个输出: 另一个所需的输出:
abby john abc abc abc abc
如果有人可以帮助我,我会非常感激,谢谢!