[kaggle]DC比赛进程4-阿里云开发者社区

开发者社区> hohooo> 正文

[kaggle]DC比赛进程4

简介: 本次提交的个人观点: 对GIS的依赖程度 ,是否要接入postgresql进行GIS方面的计算(之前有一点点研究,并不深入); 关键的特征应该是trajectories轨迹方面的特征。
+关注继续查看

本次提交的个人观点:

 1. 对GIS的依赖程度 ,是否要接入postgresql进行GIS方面的计算(之前有一点点研究,并不深入);
 1. 关键的特征应该是trajectories轨迹方面的特征。在初期可以采用类似张洋在翻译中提到的geohash的方法(没找到和R相关的,倒是有个python包,谁帮忙研究下):类似的思想就是将地图切分成大量的小方块(高级一点会切成六边形,小方块的案例有:Uber和神州专车,没找到技术链接将地图切块,进行用车预测,从而动态调价;六边形的好像是高德,做地图上某个六边形区域点击,可以看到半小时、一小时、两小时的到达区域范围)切成块之后进行编码,这样可以将任意一条行程转化成为轨迹覆盖区域编码的序列,或者整个编码区域的稀疏矩阵。再简单点,之间使用起止点的编码作为特征进行预测也是可以接受的。
 2. 在上一步的基础上,可以进行一些OD方面提取特征,baidu出租车OD分析baidu出租车运营平台

一些还未想好是否能合理使用的点:

 • 是否应该将行程切分,区分载客和/空车的行程(需要进行验证),在后期用来训练的数据是根据某个特征(载客/空车)切分的行程,还是整个行程中的每两个点之间的行程都作为训练数据?
  比如说一段行程在经过geohash标号后, A →B→C→C→D→E,到达每个标号的时间知道;
  训练的输入会是其中任意一个子集么,如A →B; A →B→C
 • (这条肯定用)高德的API,企业用户,具体可能会发生关联的如:路径规划API;基于API的相关属性构建特征值;
 • 驾驶员驾驶行为属性(由于数据间隔30s,所以很难学习到驾驶员的驾驶行为倾向)
 • 用户画像方面:驾驶员的生活习惯,貌似也没什么建模必要;
 • H2O的使用;

以下是我的方案:

 1. 在将原始数据计算平均车速度后,验证一些典型的特征验证:
 • 城市不同时段的车流量;
 • 不同日期的车流量变化(节假日/非节假日,需要考察程度在该段时间内会影响OD的重大事件)
 • 每个人的平均速度是否有不同(个人驾驶倾向)
 • 载客与非载客对时间的影响,理论上taxi在乘客上车后,应该直接确定目的地,并且不会在中间因为非交通原因等待。
 • 出驻车的换班时段是否固定,如不固定是否有必要作为特征
 1. 对于轨迹的信息提取,倾向于使用geohash的方法,编码地图上的每一个小块。(能想到的另一种方法是GIS数据库,postgresql的使用),基于编码提取特征,将GIS特征变为数字特征作为输入参数;
  其他的特征还有:
 • 行程起止点GPS距离;
 • 行程的GPS点个数;
 • 行程所处时间段、日期;
 • 行程是否包含了预设的经常拥堵路段;
 • 驾驶员方面的因素;
 • 高德提供的特征:如导航时长
 • 未完待续。。。。。。
 1. 模型,这部分现在谈好像纸上谈兵,但是否使用一些机器学习的平台可以提前考虑下,比如H2O;
 2. 测试,
 3. 提交测试结果,可以查看下被用来预测数据的样式;目前最高分0.22。

尽量能在月底提交一次结果吧,通过与结果的比对,不断迭代更新算法吧。

任务 完成日期 任务分发

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
使用NAT网关轻松为单台云服务器设置多个公网IP
在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。
26763 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
9976 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13739 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
9138 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
4646 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
7317 0
阿里云服务器ECS登录用户名是什么?系统不同默认账号也不同
阿里云服务器Windows系统默认用户名administrator,Linux镜像服务器用户名root
4447 0
+关注
hohooo
渣渣码农,在线写虫
14
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载