Pandas读取大csv数据产生的问题

BraveMouse · 发表于 2019-5-7 22:14:05

听说pandas在处理大数据还不错，最近在学习。但是刚开始学习的第一步就卡死了。我的数采生成一个2G 的.csv的原始数据。
我用pandas写了一个数据读取的程序，分块读取。
代码：
import pandas as pd

file_name = r'C:\Users\40725\Desktop\1.csv'
#save_name = r'C:\Users\40725\Desktop\2.csv'

data = pd.read_csv(file_name, error_bad_lines=False, chunksize =1000)

n = 0
for chunk in data:
      n += 1
      print('正在处理第 %d 块' % n)
      print(chunk)

对于原始的数据设置chunksize= 100000，然而出现了读取假死，程序一直运行，但是就是没有返回值：

批注 2019-05-07 220318.png

于是我怀疑是原始前端数采生成的表头有问题，我就把原始文件用Excel打开，copy出前4k行数据，保存成另一个CSV文件，再执行该程序：
捕获.PNG

可以读取了

why？难道大文件就读取不了吗？

哪位大神可以帮忙看看

要抓狂了

sheeboard · 发表于 2019-5-8 10:03:03

耐心等吧，我读两三百兆的文件也要很长时间的。

BraveMouse · 发表于 2019-5-8 20:10:18

sheeboard 发表于 2019-5-8 10:03
耐心等吧，我读两三百兆的文件也要很长时间的。

有没有别的读取速度快的办法呢？别人都是堆电脑配置提速的吗

sheeboard · 发表于 2019-5-9 09:19:23

给个测试数据吧，我去研究一下。

		自动登录	找回密码
密码			立即注册

[求助] Pandas读取大csv数据产生的问题