找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 166|回复: 3

[求助] Pandas读取大csv数据产生的问题

1

主题

2

帖子

2

积分

贫民

积分
2
BraveMouse 发表于 2019-5-7 22:14:05 | 显示全部楼层 |阅读模式
听说pandas在处理大数据还不错,最近在学习。但是刚开始学习的第一步就卡死了。我的数采生成一个2G 的.csv的原始数据。
我用pandas写了一个数据读取的程序,分块读取。
代码:
import pandas as pd

file_name = r'C:\Users\40725\Desktop\1.csv'
#save_name = r'C:\Users\40725\Desktop\2.csv'

data = pd.read_csv(file_name, error_bad_lines=False, chunksize =1000)

n = 0
for chunk in data:
        n += 1
        print('正在处理第 %d 块' % n)
        print(chunk)


对于原始的数据设置chunksize= 100000,然而出现了读取假死,程序一直运行,但是就是没有返回值:

批注 2019-05-07 220318.png
于是我怀疑是原始前端数采生成的表头有问题,我就把原始文件用Excel打开,copy出前4k行数据,保存成另一个CSV文件,再执行该程序:
捕获.PNG
可以读取了

why?难道大文件就读取不了吗?

哪位大神可以帮忙看看

要抓狂了



回复

使用道具 举报

0

主题

438

帖子

438

积分

骑士

积分
438
sheeboard 发表于 2019-5-8 10:03:03 | 显示全部楼层
耐心等吧,我读两三百兆的文件也要很长时间的。
回复 支持 反对

使用道具 举报

1

主题

2

帖子

2

积分

贫民

积分
2
BraveMouse  楼主| 发表于 2019-5-8 20:10:18 | 显示全部楼层
sheeboard 发表于 2019-5-8 10:03
耐心等吧,我读两三百兆的文件也要很长时间的。

有没有别的读取速度快的办法呢?别人都是堆电脑配置提速的吗
回复 支持 反对

使用道具 举报

0

主题

438

帖子

438

积分

骑士

积分
438
sheeboard 发表于 2019-5-9 09:19:23 | 显示全部楼层
给个测试数据吧,我去研究一下。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表