|
听说pandas在处理大数据还不错,最近在学习。但是刚开始学习的第一步就卡死了。我的数采生成一个2G 的.csv的原始数据。
我用pandas写了一个数据读取的程序,分块读取。
代码:
import pandas as pd
file_name = r'C:\Users\40725\Desktop\1.csv'
#save_name = r'C:\Users\40725\Desktop\2.csv'
data = pd.read_csv(file_name, error_bad_lines=False, chunksize =1000)
n = 0
for chunk in data:
n += 1
print('正在处理第 %d 块' % n)
print(chunk)
对于原始的数据设置chunksize= 100000,然而出现了读取假死,程序一直运行,但是就是没有返回值:
于是我怀疑是原始前端数采生成的表头有问题,我就把原始文件用Excel打开,copy出前4k行数据,保存成另一个CSV文件,再执行该程序:
可以读取了
why?难道大文件就读取不了吗?
哪位大神可以帮忙看看
要抓狂了
|
|