数据采集

首页 标签 数据采集
# 数据采集 #
关注
20909内容
大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据加工:用户画像》篇
本手册为阿里云MVP《云计算·大数据:海量日志数据分析与应用》的《数据加工:用户画像》篇而准备。主要阐述在使用大数据开发套件过程中如何将已经采集至MaxCompute上的日志数据进行加工并进行用户画像,学员可以根据本实验手册,去学习如何创建SQL任务、如何处理原始日志数据。
SHEVDC平台及物联网技术产品选型
本文的整理自2017云栖大会-南京峰会上技术专家李学根的分享讲义,讲义以新能源汽车发展现状与未来前景为背景,介绍SHEVDC平台搭建设计与物联网技术产品选型应用,其分享的重点在于大数据并发与存储解决方案,与平台体系建设未来展望。
| |
来自: 云存储
Logtail技术分享(二) : 多租户隔离技术+双十一实战效果
目前logtail已承载阿里云全站、所有云产品服务、全球各Region部署、阿里巴巴集团(淘宝、天猫、菜鸟等)上重要服务的数据采集。在集团内部一台服务存在数百个采集配置属于常态,每个配置的优先级、日志产生速度、处理方式、上传目的地址等都有可能不同,如何有效隔离各种自定义配置,保证采集配置QoS不因部.
| |
来自: 云存储
Logtail技术分享(一) : Polling + Inotify 组合下的日志保序采集方案
logtail是阿里云一款进行日志实时采集的Agent,当前几十万台部署logtail的设备运行在各种不同环境上(集团、蚂蚁、阿里云,还有用户部署在公网、IOT设备),每天采集数PB的数据,支撑上千种应用的日志采集。
赋能平台、提效工具、场景化应用,地产大数据玩转有诀窍
在2017在线峰会——票选最美云上大数据暨大数据技术峰会上,来自明源云的刘峥分享了整个的地产行业的趋势以及探索应用实践。他主要从行业趋势和应用实践两个方面进行了分享。他详细的分享了数据管理平台DMP平台的基础层、画像层、算法层、展示层的架构设计,并通过应用场景诠释了大数据在地产行业的作用。
word2vec 自己训练中文语料
(1) 准备文本 可以用爬虫爬,也可以去下载,必须是全文本。 (2)对数据进行分词处理 因为英文但此只见是空格所以不需要分词,二中文需要分词, 中文分词工具还是很多的,我自己常用的: - 中科院NLPIR - 哈工大LTP - 结巴分词 注意:分词后保存的文件将会作为word2vec的输入文件进行训练 (3)训练与实验 python 需要先安装gensim,参
免费试用