由于需要对产品测试数据进行分析,想到了用Python的pandas进行数据分析,数据源是csv格式的,想到了用read_csv来读取dataframe。
但是数据源的格式很烦人,上半部分是测试的一些Summary,只有一列内容,而测试数据是逗号分隔符的标准csv格式如下图所示
在pandas读入csv的时候总是会提示:pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 146, saw 126
感觉应该是两块数据区域的分隔符不同导致pandas无法读取。自己尝试将两个数据域分成两个csv文件均可以正常读取。
但是考虑到要批量处理,人工分数据域工作量太大,想通过脚本自动执行。
数据源中有一个特殊的字符SITE_NUM,初步想法是查找SITE_NUM所在行,
将SITE_NUM所在行前面的数据存为一个CSV文件,将SITE_NUM所在行后面的数据存为另一个CSV文件,再通过pandas进行处理。
在网上查找了很多方法,都不太好实现,想请教一下有什么比较好的处理方法。
最好是python直接处理,因为后续数据分析还想要用python。
附件是数据源,谢谢大家~
rawData.zip
(152.59 KB, 下载次数: 2)
|