中文乱码问题

shaqing_0928 · 发表于 2016-5-7 16:22:13

for line in text_file:
line = line.strip()

sentence = line.decode('utf-8')
seg_list = jieba.cut(sentence, cut_all = False) #中文分词
lstr = list(jieba.cut(sentence, cut_all=False))  #将分词结果保存在list中
#print "/".join(seg_list)

str1 = "/".join(lstr)
#str1 = str1.decode('utf-8')
str1 = str1.split('/')
for temp_col_count in range(len(str1)):
      list1.append(str1)
temp_row_count = temp_row_count + 1
print list1

我想将txt文本中每行的词语保存成二维数据，打印的结果如下：
[[u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u6708\u6c60', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u6708\u6c60', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u6708\u6c60', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u
我能从变量中看到文本，但是看不到这段乱码和中文词语之间的关系。应怎么处理，求帮助。顺便问一下，如果要想删除每行中的某个词语应怎么做？

jonny_liang · 发表于 2016-5-16 14:40:45

这不是乱码是bytecode，使用encode('utf-8')转换回来就可了

It_way · 发表于 2016-5-16 22:17:35

>>> s
u'\u5b89\u5eb7\u5e02'
>>> print s
安康市

		自动登录	找回密码
密码			立即注册