数据采集

首页 标签 数据采集
# 数据采集 #
关注
21415内容
极测未来|淘宝"千人千面"内容下的智能评测技术与实践
本次分享将结合淘宝导购业务,介绍海量的 feeds 流内容,个性化推荐分发,庞大用户群体,碎片化机型环境的挑战下,通过统计学习和视觉技术,从消费侧推荐评估--供给侧素材管控—无线 CVT 测试,如何构建整体内容导购质量体系,进行问题发现,体验度量,丰富和提效测试手段。
“做好大数据测试,我是认真的!”
阿里妹导读:大数据已然是当下的重要课题,大大小小的企业在重视大数据的同时,也渐渐重视大数据质量的问题。阿里巴巴测试开发专家小郅,今天会分享他对数据测试的系统性思考。文章内容架构清晰,内容较长,建议大家收藏阅读哦~
【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路
在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为《企业大数据平台仓库架构建设思路》。本次分享中,李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库。
用Excel利用RFM模型进行客户细分
背景: 一个会员服务的企业,有近1年约1200个会员客户的收银数据。由于公司想针对不同类别不活跃客户进行激活促销;同时,为回馈重点客户,也计划推出一系列针对重点客户的优惠活动,希望保留这些客户,维持其活跃度。因此希望利用该数据进行客户分类研究。 根据客户的需求,RFM模型相对简单并且直接,按照R(Recency-近度)、F(Frequency-频度)和M(Monetary-额度
袋鼠云数据中台专栏(五):数栈,企业级一站式数据中台PaaS
本文作者:江枫 袋鼠云CTO,花名江枫,本名宁海元。 2007年加入淘宝,曾是双十一大促技术指挥部成员,“去IOE”数据库负责人。 打造过千亿级实时日志平台、手机淘宝日志分析创始人、阿里云数加平台技术创始人。
微博python爬虫,每日百万级数据
新浪微博作为一个巨大的、实时的语料库,对微博数据爬取和分析,有重大的意义,本文就将讲述如何抓取微博数据。
【资料下载】Python 第十讲——xpath元素定位获取及爬虫中使用实例
直播时间:4月2日 20:00——21:00 直播介绍:python是非常适合敏捷开发的语言,用python编写爬虫快速获取数据,并做数据分析,对日常生活和工作能起到一定帮助。而python爬虫有很多种爬取方式,例如Requests+正则表达式、selenium+Chrome/PhantomJS等,xpath定位是其中的一种,以其使用简便、运行高效、应用场景多的优点,被很多爬虫开发者使用。
SHEVDC平台及物联网技术产品选型
本文的整理自2017云栖大会-南京峰会上技术专家李学根的分享讲义,讲义以新能源汽车发展现状与未来前景为背景,介绍SHEVDC平台搭建设计与物联网技术产品选型应用,其分享的重点在于大数据并发与存储解决方案,与平台体系建设未来展望。
Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy
1. 36氪(36kr)数据----写在前面 今天抓取一个新闻媒体,36kr的文章内容,也是为后面的数据分析做相应的准备的,预计在12月底,爬虫大概写到50篇案例的时刻,将会迎来一个新的内容,系统的数据分析博文,记得关注哦~ 36kr 让一部分人先看到未来,而你今天要做的事情确实要抓取它的过去。
免费试用