|
本帖最后由 a836669648 于 2019-10-31 16:00 编辑
有关于公交车信息的两个表,一个是公交表,里面放了公交车的ID,站点ID,还有到站时间,离站时间;另一个是乘客表,保存了乘客刷卡时的公交ID,还有刷卡时间。需求是:两个表的公交ID相同,然后乘客的刷卡时间在车的到离站时间范围内,判断出乘客在哪里上的车,并把站点写在乘客表里面。
目前我的想法是定义一个函数,功能是判断两个表的公交ID和时间。然后在乘客表中调用apply方法,对每一行数据进行判断。这个方法即使用了多进程也需要六个小时的时间,我一直觉得是我没有找对方法,所以想请教一下各位pandas大佬有没有什么办法能高效、快速的完成这个需求。
ps:每个表中BUSID是大量重复的,但是时间都不一样。(同一辆车有多个到站离站时间,同一辆车有多个用户刷卡上车)
|
|