[kaggle]DC比赛进程4

简介: 本次提交的个人观点:对GIS的依赖程度 ,是否要接入postgresql进行GIS方面的计算(之前有一点点研究,并不深入);关键的特征应该是trajectories轨迹方面的特征。

本次提交的个人观点:

  1. 对GIS的依赖程度 ,是否要接入postgresql进行GIS方面的计算(之前有一点点研究,并不深入);
  1. 关键的特征应该是trajectories轨迹方面的特征。在初期可以采用类似张洋在翻译中提到的geohash的方法(没找到和R相关的,倒是有个python包,谁帮忙研究下):类似的思想就是将地图切分成大量的小方块(高级一点会切成六边形,小方块的案例有:Uber和神州专车,没找到技术链接将地图切块,进行用车预测,从而动态调价;六边形的好像是高德,做地图上某个六边形区域点击,可以看到半小时、一小时、两小时的到达区域范围)切成块之后进行编码,这样可以将任意一条行程转化成为轨迹覆盖区域编码的序列,或者整个编码区域的稀疏矩阵。再简单点,之间使用起止点的编码作为特征进行预测也是可以接受的。
  2. 在上一步的基础上,可以进行一些OD方面提取特征,baidu出租车OD分析baidu出租车运营平台

一些还未想好是否能合理使用的点:

  • 是否应该将行程切分,区分载客和/空车的行程(需要进行验证),在后期用来训练的数据是根据某个特征(载客/空车)切分的行程,还是整个行程中的每两个点之间的行程都作为训练数据?
    比如说一段行程在经过geohash标号后, A →B→C→C→D→E,到达每个标号的时间知道;
    训练的输入会是其中任意一个子集么,如A →B; A →B→C
  • (这条肯定用)高德的API,企业用户,具体可能会发生关联的如:路径规划API;基于API的相关属性构建特征值;
  • 驾驶员驾驶行为属性(由于数据间隔30s,所以很难学习到驾驶员的驾驶行为倾向)
  • 用户画像方面:驾驶员的生活习惯,貌似也没什么建模必要;
  • H2O的使用;

以下是我的方案:

  1. 在将原始数据计算平均车速度后,验证一些典型的特征验证:
  • 城市不同时段的车流量;
  • 不同日期的车流量变化(节假日/非节假日,需要考察程度在该段时间内会影响OD的重大事件)
  • 每个人的平均速度是否有不同(个人驾驶倾向)
  • 载客与非载客对时间的影响,理论上taxi在乘客上车后,应该直接确定目的地,并且不会在中间因为非交通原因等待。
  • 出驻车的换班时段是否固定,如不固定是否有必要作为特征
  1. 对于轨迹的信息提取,倾向于使用geohash的方法,编码地图上的每一个小块。(能想到的另一种方法是GIS数据库,postgresql的使用),基于编码提取特征,将GIS特征变为数字特征作为输入参数;
    其他的特征还有:
  • 行程起止点GPS距离;
  • 行程的GPS点个数;
  • 行程所处时间段、日期;
  • 行程是否包含了预设的经常拥堵路段;
  • 驾驶员方面的因素;
  • 高德提供的特征:如导航时长
  • 未完待续。。。。。。
  1. 模型,这部分现在谈好像纸上谈兵,但是否使用一些机器学习的平台可以提前考虑下,比如H2O;
  2. 测试,
  3. 提交测试结果,可以查看下被用来预测数据的样式;目前最高分0.22。

尽量能在月底提交一次结果吧,通过与结果的比对,不断迭代更新算法吧。

任务 完成日期 任务分发
目录
相关文章
[kaggle]DC比赛进程3-参考资料
本次比赛可借鉴的比赛有: NYC taxi:因为数据开源NYC Open Data,所以网上有大量的研究。 ECML/PKDD 15: Taxi Trajectory Prediction KDD支持的在kaggle社区的比赛。
934 0
|
分布式计算 算法
[kaggle]DC比赛进程2
周末公司计算系统崩了。也没想好用什么怎么进行数据处理。 周一和经理汇报工作时,得到了支持。适当可以申请,使用生产环境。 公司测试环境基本够用,180 vcores + 180G memory(一个任务30/30) 重新启用了之前的一个AWS的计算环境(1 vcores /1G memory/30G SSD)。
1155 0
|
定位技术
[kaggle]DC比赛进程
数据量不算小,压缩包7个G Paste_Image.png 估计今晚看不到了.png 赛题分析: 赛题分析.png 敲黑板的重点:用于学习道路交通状况,以期对某时段下某出租车行驶某条线路所需的时间做出预测。
903 0
|
5月前
BOSHIDA DC/AC电源模块的节能特点与环保优势
BOSHIDA DC/AC电源模块的节能特点与环保优势
BOSHIDA DC/AC电源模块的节能特点与环保优势
|
5月前
|
安全
DC/AC电源模块为现代电子设备提供稳定的能源
DC/AC电源模块为现代电子设备提供稳定的能源
 DC/AC电源模块为现代电子设备提供稳定的能源
|
5月前
|
安全
DC/AC电源模块:让电力转换变得更简单
DC/AC电源模块:让电力转换变得更简单
DC/AC电源模块:让电力转换变得更简单
|
6月前
DC/AC电源模块能够提供高效率和可靠性的能源转换
DC/AC电源模块能够提供高效率和可靠性的能源转换
DC/AC电源模块能够提供高效率和可靠性的能源转换
|
3月前
|
芯片 网络架构
开关电源DC-DC电源应用
DC-DC指直流转直流电源(Direct Current)。是一种在直流电路中将一个电压值的电能变为另一个电压值的电能的装置。如,通过一个转换器能将一个直流电压(5.0V)转换成其他的直流电压(1.5V或12.0V),我们称这个转换器为DC-DC转换器,或称之为开关电源或开关调整器。 DC-DC转换器一般由控制芯片,电感线圈,二极管,三极管,电容器构成。在讨论DC-DC转换器的性能时,如果单针对控制芯片,是不能判断其优劣的。其外围电路的元器件特性,和基板的布线方式等,能改变电源电路的性能,因此,应进行综合判断。 DC-DC转换器的使用有利于简化电源电路设计,缩短研制周期,实现最佳指标等,被
|
5月前
|
安全
BOSHIDA 使用DC/AC电源模块时需要注意的事项
BOSHIDA 使用DC/AC电源模块时需要注意的事项
BOSHIDA  使用DC/AC电源模块时需要注意的事项
|
5月前
|
安全
DC/AC电源模块在工业科技中重要的作用
DC/AC电源模块在工业科技中发挥着重要的作用
DC/AC电源模块在工业科技中重要的作用