试读《大数据日知录:架构与算法》有感

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 活动地址:http://blog.csdn.net/blogdevteam/article/details/39894901。

活动地址:http://blog.csdn.net/blogdevteam/article/details/39894901

其实“大数据”这个词在我的脑海中还没有一个比较确切的定义,几年前我接触了一个名词“海量数据”,它主要是指在数据库中如何处理优化查询海量数据的SQL,或者使用NoSQL(Not only SQL)进行处理,进而进行数据分析、数据挖掘等,从大量无规律的数据中提取出有价值的信息,总之海量数据是与数据库紧密关联的。而这两年兴起了“大数据”浪潮,我认为“海量数据”强调的是数据量的大小,而大数据则不仅仅是数据量的大小,还指数据本身的大小。用《大数据时代》中的4V特点来概括大数据就是:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

大数据的应用场景

大数据时代已经来临,比如淘宝网的日交易记录、用户浏览商品的记录就是大数据的典型应用场景,根据这些“数据”能够推断出用户购买商品的习惯、用户喜欢什么样的商品,进而更加准确的推荐一些商品给用户,以此提高交易额和交易量。再比如微信的应用,6亿多用户本身就是“大数据”,再加上6亿多用户彼此之间的关系,更是形成了一张巨大的社交网络。如何为这6亿用户提供高质量的实时通信交流、如何提供精确的搜索,都是大数据应用领域需要研究的课题。

pagerank 排名算法

pagerank即搜索引擎是根据什么样的规则、应用什么样的算法来对网页进行关联度筛选的,正好试读部分提供了这部分的内容。以前曾经写过简单的网页爬虫程序,抓取指定网站的页面的新闻等。原理很简单,就是通过请求网站获取返回的html进行分析,用正则筛选出包含关键字的页面的href和标题,然后存入数据库中。而通过试读部分我了解到,pagerank即网页的页面等级基于两个假设:数量假设、质量假设。pagerank算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个页面节点的pagerank得分,直到得分稳定为止。


TAO图数据库

我还关注到了试读当中介绍的Facebook的TAO这个跨数据中心分布式图数据库。它由分布在多个数据中心的数千台服务器构成,为了能够实时响应应用请求,系统架构更重视可用性和低延时,尤其是对读操作做了很多优化。

通过主cache和从cache的二级缓存机制,降低缓存之间的耦合,同时系统也易于扩展。


未来大数据将会在各个领域不断发展和演变,并深刻的影响人类的生活。它涉及到的新技术、新架构非常繁杂,包括分布式、机器学习、数据挖掘等各个技术方向,并作为移动互联网、云计算、物联网等应用领域的核心支撑。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
3月前
|
机器学习/深度学习 自然语言处理 算法
大数据选举预测:算票的不只是选票,还有算法
大数据选举预测:算票的不只是选票,还有算法
133 0
|
5月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
2月前
|
算法 搜索推荐 大数据
当“爆款书”遇上大数据:出版业的老路,正在被算法改写
当“爆款书”遇上大数据:出版业的老路,正在被算法改写
144 8
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
638 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
6月前
|
存储 SQL 分布式计算
19章构建企业级大数据平台:从架构设计到数据治理的完整链路
开源社区: 贡献者路径:从提交Issue到成为Committer 会议演讲:通过DataWorks Summit提升影响力 标准制定: 白皮书撰写:通过DAMA数据治理框架认证 专利布局:通过架构设计专利构建技术壁垒
|
3月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
286 1
|
4月前
|
算法 搜索推荐 大数据
大数据能不能看透消费者的心?聊聊那些“你以为是偶然,其实是算法的必然”
大数据能不能看透消费者的心?聊聊那些“你以为是偶然,其实是算法的必然”
129 5
|
4月前
|
SQL 存储 监控
流处理 or 批处理?大数据架构还需要流批一体吗?
简介:流处理与批处理曾是实时监控与深度分析的两大支柱,但二者在数据、代码与资源上的割裂,导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升,传统架构难以为继,流批一体应运而生。它旨在通过逻辑、存储与资源的统一,实现一套系统、一套代码同时支持实时与离线处理,提升效率与一致性,成为未来大数据架构的发展方向。
|
5月前
|
消息中间件 分布式计算 大数据
“一上来就搞大数据架构?等等,你真想清楚了吗?”
“一上来就搞大数据架构?等等,你真想清楚了吗?”
100 1
|
6月前
|
机器学习/深度学习 运维 监控
实时异常检测实战:Flink+PAI 算法模型服务化架构设计
本文深入探讨了基于 Apache Flink 与阿里云 PAI 构建的实时异常检测系统。内容涵盖技术演进、架构设计、核心模块实现及金融、工业等多领域实战案例,解析流处理、模型服务化、状态管理等关键技术,并提供性能优化与高可用方案,助力企业打造高效智能的实时异常检测平台。
454 1

热门文章

最新文章