我的目标是在列 B 中找到与列 A 最相似的条目。我已经使用 TF-IDF 来做到这一点,但有时有同义词不明显匹配,例如货币和货币。
我怎样才能找到匹配,其中也包括同义词?
我不知道 TF-IDF 将如何在这里使用,如果你正在使用单个单词对。
无论如何,有两个明显的解决方案。
使用传统的知识库,对于这个用例,我建议使用Wordnet,它被广泛认为是业界的标准。
第二个选择是使用机器学习算法 Word2Vec (或像 Glove 这样的变体)。我会说这是最简单的解决方案,如果你使用的模型已经像Google News一样训练。查看Gensim's implementation加载模型并计算相似性。
本站系公益性非盈利分享网址,本文来自用户投稿,不代表边看边学立场,如若转载,请注明出处
评论列表(9条)