关于pandas groupby之后apply的问题

很白很白的小白 · 发表于 2020-9-14 21:54:02

	ID	PD	Type	Deadline	Type_ID
0	1	2	test	2015-05-18	1
1	1	3	test	2020-05-18	1
2	331	1	test	2019-05-18	1

想根据ID groupby之后选取Dealine最大的日期的。
代码为：
Task1=pd.DataFrame(result)
def get_largest_date(x):
         df = x.sort_values(by="Deadline",ascending=True)
         return df.iloc[-1,:]

      Task=Task1.groupby('ID').agg({'PD':'sum','Type_ID':'max'}).apply(get_largest_date)

返回如下错误信息

TypeError: sort_values() got an unexpected keyword argument 'by'

是因为这里的Dealine无法进行排序或者比较么？因为我用  Task=Task1.groupby('ID').agg({'PD':'sum','Deadline':'max','Type_ID':'max'})也不行。
求高手指点迷津。
先谢过了~~

sheeboard · 发表于 2020-9-15 12:03:58

本帖最后由 sheeboard 于 2020-9-15 12:31 编辑

给的数据太简单了，数据稍微详细点，最好是没处理过的，要求再描述清楚点。

wodewan · 发表于 2020-9-15 16:37:09

你apply接在agg后面，apply的是agg得到的DataFrame,而agg得到的DataFrame是没有时间列的（只有PD和TypeID），所以sort_values()找不到时间列只能报错，你分开写就看出来了。

很白很白的小白 · 发表于 2020-9-15 19:04:06

wodewan 发表于 2020-9-15 16:37
你apply接在agg后面，apply的是agg得到的DataFrame,而agg得到的DataFrame是没有时间列的（只有PD和TypeID） ...

茅塞顿开。感谢

		自动登录	找回密码
密码			立即注册

[求助] 关于pandas groupby之后apply的问题