适用于NLP的Python无监督学习-逻辑步骤

当我想确定单词关联时,这些是在NLP上进行Python监督学习的正确步骤吗? 1)标记数据 2)清理数据(定义,小写,删除停用词,删除非字母) 3)查看剩余单词列表以选择关键字 4)向量化数据集 5)执行k均值聚类。 6)查找在前5个单词中包含关键字的集群。 7)在这些集群中找到其他4个热门单词。 我有什么遗漏吗,顺序正确吗? 谢谢。

评论