|
for line in text_file:
line = line.strip()
sentence = line.decode('utf-8')
seg_list = jieba.cut(sentence, cut_all = False) #中文分词
lstr = list(jieba.cut(sentence, cut_all=False)) #将分词结果保存在list中
#print "/".join(seg_list)
str1 = "/".join(lstr)
#str1 = str1.decode('utf-8')
str1 = str1.split('/')
for temp_col_count in range(len(str1)):
list1.append(str1)
temp_row_count = temp_row_count + 1
print list1
我想将txt文本中每行的词语保存成二维数据,打印的结果如下:
[[u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\ufeff', u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u897f\u95e8', u'\u6cb3', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u6708\u6c60', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u6708\u6c60', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u5e02', u'\u7d2b\u9633\u53bf', u'\u6708\u6c60', u'\u4f9b\u6c34', u'\u5de5\u7a0b'], [u'\u5b89\u5eb7\u
我能从变量中看到文本,但是看不到这段乱码和中文词语之间的关系。应怎么处理,求帮助。顺便问一下,如果要想删除每行中的某个词语应怎么做?
|
|