找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 3080|回复: 2

中文乱码问题

6

主题

10

帖子

10

积分

贫民

积分
10
shaqing_0928 发表于 2016-5-7 16:22:13 | 显示全部楼层 |阅读模式
for line in text_file:
    line = line.strip()

    sentence = line.decode('utf-8')
    seg_list = jieba.cut(sentence, cut_all = False)   #中文分词
    lstr = list(jieba.cut(sentence, cut_all=False))  #将分词结果保存在list中
    #print "/".join(seg_list)   

    str1 = "/".join(lstr)
    #str1 = str1.decode('utf-8')
    str1 = str1.split('/')
    for temp_col_count in range(len(str1)):
        list1.append(str1)   
    temp_row_count = temp_row_count + 1
print list1  

我想将txt文本中每行的词语保存成二维数据,打印的结果如下:
[[u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u6708\u6c60', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u6708\u6c60', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u6708\u6c60', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u
我能从变量中看到文本,但是看不到这段乱码和中文词语之间的关系。应怎么处理,求帮助。顺便问一下,如果要想删除每行中的某个词语应怎么做?

回复

使用道具 举报

0

主题

2

帖子

6

积分

贫民

积分
6
jonny_liang 发表于 2016-5-16 14:40:45 | 显示全部楼层
这不是乱码是bytecode,使用encode('utf-8')转换回来就可了
回复 支持 反对

使用道具 举报

0

主题

11

帖子

11

积分

贫民

积分
11
It_way 发表于 2016-5-16 22:17:35 | 显示全部楼层
>>> s
u'\u5b89\u5eb7\u5e02'
>>> print s
安康市
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表