读取数据出错该怎么处理

baijianyun12345 · 发表于 2021-12-23 15:06:44

sheeboard 发表于 2021-12-23 13:50
我试过了，应该没错，最小用idxmin(),遍历文件用glob.glob,具体细节自己去调整吧。
顺便讲一下，iloc是索引 ...

我的代码,哪里错的，请帮我改改：
path = 'C:/Users/Administrator/Desktop/stock333/stock_hfq'
def get_stock_code_list_in_one_dir(path):
"""
从指定文件夹下，导入所有csv文件的文件名
:param path:
:return:
"""
stock_list = []

# 系统自带函数os.walk，用于遍历文件夹中的所有文件
for root, dirs, files in os.walk(path):
if files:  # 当files不为空的时候
      for f in files:
         if f.endswith('.csv'):
            stock_list.append(f[:9])
      #print(files)

return sorted(stock_list)
stockk_list = get_stock_code_list_in_one_dir(path)
all_stock=pd.DataFrame()
for code in stockk_list:
data = pd.read_csv(path + '/%s.csv' % code, header=0,encoding='gbk')
data['trade_date']=pd.to_datetime(data['trade_date'].astype('string'))
data.sort_values(by = 'trade_date',inplace=True)
df=pd.read_csv("C:/Users/Administrator/Desktop/bbb.csv")
print(data)

res_df = pd.DataFrame()
res_list = []
for index, row in df.iterrows():
_start = row['date_start']
_end = row['date_end']
tmp = data.loc[(data['trade_date']>_start)&(data['trade_date']<_end)]
print(tmp)
res_list.append(tmp)

if res_list:
res_df = pd.concat(res_list)

res_df
res_df.to_csv("C:/Users/Administrator/Desktop/ppp.csv",mode='a', index=False)
支持(0)反对(0)回复 | baijianyun12345 | 园豆：192 (初学一级) | 2021-12-21 11:16 | 修改  删除
我用2只股票数据来实验的结果，前面都对
000001.SZ,2019-12-14,2020-03-23,1326.4034
000001.SZ,2020-08-23,2020-12-01,2226.5124
000560.SZ,2020-02-12,2020-05-22,15.9701
000560.SZ,2020-02-15,2020-05-25,15.9701
算000560就不对了，第三行441股票代码和时间就对不上了，应该算000560.SZ,2020-02-12了可还是000001，你的我也试试再回你，感谢你的回复
247,000001.SZ,2020-11-27,2220.96,2220.96,2152.1102,2187.6456,2165.436,22.20959999999968,1.0256
246,000001.SZ,2020-11-30,2209.8552,2318.6822,2175.4303,2192.0875,2187.6456,4.44190000000026,0.203
441,000001.SZ,2020-02-13,1605.876,1624.4347,1594.9591,1599.3258,1612.4261,-13.100299999999834,-0.8125
440,000001.SZ,2020-02-14,1610.2427,1652.8187,1604.7843,1640.8101,1599.3258,41.48429999999985,2.5939
439,000001.SZ,2020-02-17,1641.9018,1677.9275,1629.8932,1677.9275,1640.8101,37.11740000000009,2.2621

sheeboard · 发表于 2021-12-23 16:09:02

本帖最后由 sheeboard 于 2021-12-23 16:16 编辑

问一下，你最终结果要什么样子，是所有数据放一个文件，还是一个tscode放一个文件或两个文件？

baijianyun12345 · 发表于 2021-12-23 17:40:21

sheeboard 发表于 2021-12-23 16:09
问一下，你最终结果要什么样子，是所有数据放一个文件，还是一个tscode放一个文件或两个文件？
...

首先说以下stock_hfqaa是股票数据文件，bbb是我想提取stock_hfqaa里文件数据的位置数据，如
000001.SZ,2019-12-14,2020-03-23,1326.4034
000001.SZ,2020-08-23,2020-12-01,2226.5124
000560.SZ,2020-02-12,2020-05-22,15.9701
000560.SZ,2020-02-15,2020-05-25,15.9701
000001第一行是最小值第二行是最大值前100天开始和结束时间，我想以bbb位置文件得到stock_hfqaa里每支股票的最小值和最大值前100天开始和结束这段时间的数据，而不是一只。
最后当然文件分开放好一些，一个股票一个表，条理清除点

sheeboard · 发表于 2021-12-23 19:55:47

本帖最后由 sheeboard 于 2021-12-23 19:56 编辑

参考

import pandas as pd
import glob
import os
os.chdir('path/stock_hfqqa')
summ=pd.DataFrame()
for file in glob.glob('*.csv'):
fname='.'.join(file.split('.')[0:2])
df=pd.read_csv(file,dtype={'trade_date':'str'})
df['trade_date']=pd.to_datetime(df['trade_date'])
df['year']=df['trade_date'].dt.year
min_row=df[df['year']==2020]['close'].idxmin()
end_date_min=df.iloc[min_row]['trade_date']
start_date_min=end_date_min-pd.Timedelta(days=100)
mindf=df.loc[(df['trade_date']>=start_date_min) & (df['trade_date']<=end_date_min)]
tempdf=mindf.head(1).copy()
tempdf['date_start']=start_date_min
summ=summ.append(tempdf,ignore_index=True)
filemin=fname+'_min'+'.xlsx'
mindf.to_excel(filemin,index=False)
max_row=df[df['year']==2020]['close'].idxmax()
end_date_max=df.iloc[max_row]['trade_date']
start_date_max=end_date_max-pd.Timedelta(days=100)
maxdf=df.loc[(df['trade_date']>=start_date_max) & (df['trade_date']<=end_date_max)]
tempdf=maxdf.head(1).copy()
tempdf['date_start']=start_date_max
summ=summ.append(tempdf,ignore_index=True)
filemax=fname+'_max'+'.xlsx'
maxdf.to_excel(filemax,index=False)
summ=summ[['ts_code','date_start','trade_date','close']]
summ.columns=['ts_code','date_start','date_end','close']
summ.to_excel('bbbb.xlsx',index=False)

复制代码

baijianyun12345 · 发表于 2021-12-24 09:25:19

sheeboard 发表于 2021-12-23 19:55
参考

谢谢老师，用直接求值的方式得出结果，万分感谢，如果可以的话，还是想从bbb读取数据确定我需要的data股票数据，毕竟我的思路是这么来的。

sheeboard · 发表于 2021-12-24 10:23:53

参考

target=pd.read_csv('bbbb.csv')
for code,data in target.groupby('ts_code'):
file=code+'.csv'
df=pd.read_csv(file,dtype={'trade_date':'str'})
df['trade_date']=pd.to_datetime(df['trade_date'])
tempdf=pd.DataFrame()
for index,row in data.iterrows():
star=row['date_start']
end=row['date_end']
datadf=df.loc[(df['trade_date']>=start) & (df['trade_date']<=end)]
tempdf=tempdf.append(datadf,ignore_index=True)
tempdf.to_excel(code+'.xlsx',index=False)

复制代码

bbbb.csv文件里最好加个列，标明是max还是min的数据,方便后面查看或分文件。

baijianyun12345 · 发表于 2021-12-24 10:53:45

sheeboard 发表于 2021-12-24 10:23
参考

bbbb.csv文件里最好加个列，标明是max还是min的数据,方便后面查看或分文件。 ...

这怎么加啊，一只股票就两行数据，一行最大一行最小，除非把他们分开，一列最大，一列最小还有结束时间，具体怎么做还没想好，我是用的signal.argrelextrema（）求的最大最小值

baijianyun12345 · 发表于 2021-12-24 11:51:22

sheeboard 发表于 2021-12-24 10:23
参考

bbbb.csv文件里最好加个列，标明是max还是min的数据,方便后面查看或分文件。 ...

没看到上面的，谢谢了，我试试看。。。。

		自动登录	找回密码
密码			立即注册

[求助] 读取数据出错该怎么处理