找回密码
 立即注册

扫一扫,访问微社区

QQ登录

只需一步,快速开始

查看: 3326|回复: 2

[求助] 如何用Python提取文本中特定内容,去重并编号?

1

主题

1

帖子

1

积分

贫民

积分
1
momo 发表于 2017-11-13 09:30:22 | 显示全部楼层 |阅读模式
本帖最后由 momo 于 2017-11-13 09:33 编辑

主要想提取原始数据(如图)中红框里的内容,其它内容不要,然后最后得到Excel表中(如图)的内容效果:论文的题目保存并编号,对应的关键词不用保存,只需计数、去重并编号,之前没接触过,最好是将提取内容输出到一个新的文本中,求大神赐教!!

最终想要得到的数据

最终想要得到的数据


原始数据举例

原始数据举例
TIM图片20171111102045.png
回复

使用道具 举报

0

主题

8

帖子

8

积分

贫民

积分
8
东虫下草 发表于 2017-11-14 11:46:16 | 显示全部楼层
这个自己用正则去取吧
回复 支持 反对

使用道具 举报

0

主题

956

帖子

956

积分

圣骑士

积分
956
sheeboard 发表于 2017-11-14 12:12:18 | 显示全部楼层
我的想法是先提取分段,然后每一段用正则提取所需内容,然后用pandas处理数据,最后输出到excel文件.楼主能上传个样本文件吗,图片实在看不清楚.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表