有没有办法使用NLTK在给定的文本中显示哪些单词是填充词?如果没有人知道我在哪里可以得到一个带有英语填充词的wordlist?谢谢
已解决:从 nltk.corpus 导入停用词
NLTK 本身不提供这样的列表,尽管许多列表在 Web 上的其他地方都可以找到。
存在很多来源:Web 搜索带有“亵渎”“badwords.txt”或blacklists.txt的单词列表将产生许多来源。
noswearing.com是一个起点。
Netnanny 和其他一些网站使用“列表”(this thread has a link)。下载一个并从那里开始。
在我们公司的案例中,我们最终创建了自己的列表,并根据需要添加到列表中。根据您的受众群体,列表必须进行调整和调整。
最后,即使这个SO question是关闭的(关于 php),我发现引用和讨论非常有用。
更新:您想要的是停止词的列表。
Try:http://www.ranks.nl/resources/stopwords.htmlMIT also maintains a list个停止词。
希望有帮助。
本站系公益性非盈利分享网址,本文来自用户投稿,不代表边看边学立场,如若转载,请注明出处
评论列表(88条)