用gensim做中文文档的作者-主题模型分析

蔡艺君小朋友 · 发表于 2018-3-24 20:14:23

说明：win10，python3.6.4，IDE:pycharm
有已经分词，去停用词，去低频词的100份txt文档，每份txt文档内容示例如下
经济生态发现去除效果水力停留时间占地面积水力抗冲击潜流湿地特征

参考https://blog.csdn.net/sinat_26917383/article/details/79339727#t11博客下关于官网的代码，但是报错
Traceback (most recent call last):
  File "D:/ATModel/no_loop5.py", line 80, in <module>
dictionary = Dictionary(docs)  # 百度后，此处docs改为[docs]不能解决实际问题
  File "D:\Python3.6.4\lib\site-packages\gensim\corpora\dictionary.py", line 79, in __init__
self.add_documents(documents, prune_at=prune_at)
  File "D:\Python3.6.4\lib\site-packages\gensim\corpora\dictionary.py", line 195, in add_documents
self.doc2bow(document, allow_update=True)  # ignore the result, here we only care about updating token ids
  File "D:\Python3.6.4\lib\site-packages\gensim\corpora\dictionary.py", line 233, in doc2bow
raise TypeError("doc2bow expects an array of unicode tokens on input, not a single string")
TypeError: doc2bow expects an array of unicode tokens on input, not a single string
好像是我没有处理docs，没有单词和对应id的映射，但不知道怎么解决。
卡在这里快一个月了，希望得到帮助，求解决

jing1208 · 发表于 2018-3-28 13:39:47

这个错误字面意思是，输入要求是数组，不是字符串。你有检查过这方面？你是用的字典吗？

		自动登录	找回密码
密码			立即注册

[求助] 用gensim做中文文档的作者-主题模型分析