打杂coder
不同地域的内容偏好性分析 摘要: 本报告简要分析了中国不同省市的用户对于凤凰网各主要频道的浏览偏好,以期为进一步的内容设置、区域营销及广告投放提供参考。主要结论如下: 1) 中国不同省市用户的内容偏好性有比较明显的差异,同时在各大区域之内又显示出一定的一致性。
问题描述:根据用户标识和历史库的匹配结果,识别是否是新增用户,单位:天 要求:历史库每天累加更新,要考录用户历史数据库的幂等性及回补数据策略 输出: 用户pushid pushid对应的uid(如果当天没有没有登录就没有对应的pushid则从历史库中匹配) pushid当天和uid是否有对应关系 用户新增时间 用户历史所有投资次数 当天用户投资次数 用户每次投资时间(rechargeTime) 说明: 用户标识有两个 pushid、uid,pushid表示用户的注册id,登录的时候才会存在,uid是用户访问的cookie(会频繁变化)。
起因:公司的移动APPsaas后台项目基本稳定,但是总感觉不够精炼,和一些成熟的开源python框架比感觉缺乏美感,总想着重构后台代码,但是做的时候一团乱麻,不知道从何处下手; 由于缺乏框架实现的经验,所以打算从使用的几个Python框架入手,先学习别人的框架设计思路; 以此为为记,2017年3月31日。
需求:绘制渠道用户的每日趋势(每分钟一组数据一天1440组,2000+个渠道,区分新/老用户,2*1440*2000+=576万+/每天),需要保存90天。 查询条件:渠道号、新or老用户、日期 rowkey:渠道_日期_新or老用户_小时分钟(hhmm) 连接HBase from thrift.
第一步:下载python2.7.4版本源码:wget http://python.org/ftp/python/2.7.4/Python-2.7.4.tgz解压文件[aa@localhost ~]$ tar jxvf Python-2.
设置如下参数开启动态分区: hive.exec.dynamic.partition=true 默认值:false 描述:是否允许动态分区 hive.exec.dynamic.partition.
从一个表里group by 之后 计算累加值、去重值: 为了效率设置并行:set hive.exec.parallel=true(可选:set hive.exec.parallel.thread.number=16)、set hive.
用惯了python在使用java,在读取文件这真心觉得麻烦,写了一小段代码对java的读写进行了简单的封装,总算舒服了一点: package seleniumTest; import java.
数据格式:时间(小时)/各个省份数据 数据输入: locdata
参考资源:http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cm_ig_install_path_b.
元组比较: 1 >>> (0, 1, 2) < (0, 3, 4) 2 True 3 >>> (0, 1, 2000000) < (0, 3, 4) 4 True 列表的多字段排序: sorted_list = [ [1, 2, 3, 4, 5, 6, 7, 8],...
注意: docker容器最早受到RHEL完善的支持是从最近的CentOS 7.0开始的,官方说明是只能运行于64位架构平台,内核版本为2.6.32-431及以上(即>=CentOS 6.5,运行docker时实际提示3.8.0及以上),升级内核请参考CentOS 6.x 内核升级,请参考CentOS 6.x 内核升级(2.6.32 -> 3.10.58)过程记录。
Docker能处理的事情包括: 1、隔离应用依赖 2、创建应用镜像并进行复制 3、创建容易分发的即启即用的应用 4、允许实例简单、快速地扩展 5、测试应用并随后销毁它们 Docker背后的想法是创建软件程序可移植的轻量容器,让其可以在任何安装了Docker的机器上运行,而不用关心底层操作系统,就像野心勃勃的造船者们成功创建了集装箱而不需要考虑装在哪种船舶上一样。
如下文件需要处理,每个文件大概13G,其中字段以空格(32)分隔的7个字段;最麻烦的是中间有脏数据: -rw-r--r-- 1 hadoop ifengdev 1895843464 May 6 14:56 feedback201503_201.
docker: 告诉你为什么应该关注docker的好文章: http://thenewstack.io/why-you-should-care-about-docker/ docker源码介绍,想读源码的可以看一看: http://oilbeater.
将要执行异步任务脚本 tasks.py: from celery import Celery from celery import group # host='10.32.21.52', port=6379, db=3 app = Celery('tasks', backend = 'redis://10.
往Hive表中插入时报错: java.lang.RuntimeException: java.lang.UnsupportedOperationException: Currently the writer can only accept BytesRefArrayWritable at org.