资深数据产品专家,人工智能探索者。
一、大数据的未来在哪里 1.互联网已死 大数据的未来在哪里?以BAT为代表的互联网公司之外是否还会有新的互联网巨无霸诞生,基于技术和资本两方面的考虑,几无可能,未来的互联网世界只能是一个几家独大,行业细分的市场,新生互联网公司的机会在于细分,而不在于挑战传统互联网巨无霸。
一、大数据的挑战 大数据面对挑战是你必须重新思考构建数据分析应用的方式。传统方式的应用构建是基于数据存储在不支持大数据处理的基础之上。这主要是因为一下原因: 1.传统应用的基础设施是基于传统数据库访问模式设计的,它不支持Hadoop; 2.数据存储在Hadoop之上,实时访问集群中部分数据是可行的; 3.Hadoop大数据存储能力使得你可以存储数据集的多个版本,来挑战传统覆写数据方式。
前言:最近有朋友给推荐一本书,英文原版《Wrox.Professional.Hadoop.Solutions》,感觉很好打算翻译成中文,共享给朋友,时间关系,不知能否成行,先干着吧。以下部分是本书的目录,算是一个开始,至于何时能够成稿,且干着吧,毕竟最近不是一般的忙。
一、背景资料 2013年6月13日,余额宝面世,截止3季度末,余额宝已经吸纳资金556.53亿元,实际用户1367.88万户,11月11日当天即时收益率4.8250%。10月28日,“百度金融中心——理财“平台支持的华夏基金上线,由于网民对其高年化收益的期待,不到4小时内即抢购10亿元。
1.引言 看到一张图,关于Hadoop技术框架的图,基本上涉及到Hadoop当前应用的主要领域,感觉可以作为测试Hadoop开发人员当前能力和水平的比较好的一个工具,特此分享给大家。如果你能够明白说出每一个技术框架的功能、应用场景和设计架构,那么恭喜你,已经正式步入Hadoop应用开发的世界了。
一、连接操作相关的命令 quit:关闭连接(connection) auth:简单密码认证 二、对value操作的命令 exists(key):确认一个key是否存在 del(key):删除一个key type(key):返回值的类型 k...
一、引用 这两天在弄Reids高速缓存平台的图形化监控,由于对于Python并不是很熟悉,安装过程中遇到了不少问题,包括: 1.python必备安装包的安装问题 2.Redis Live界面显示问题 二、环境 REHL6.
一、从一个例子开始 关于JVM的内存泄露,让我们从下面一个例子开始吧,大家来判断一下如果按照下面这种分配方式,会不会出现内存泄露呢? 1 import java.util.List; 2 import java.
一、引言 JVM虚拟机内存回收机曾迷惑了不少人,文本从JVM实现机制的角度揭示JVM内存回收的原理和机制。 一、Java平台逻辑架构 二、JVM物理结构 通过从JVM物理结构图我们可以看到: 1.JVM两个子系统:类加载子系统和执行引擎子系统; 2.JVM两个组件:本地接口方法组件和内存空间组件。
一、软考的英文名称 经中国外文局审定官方版本,软考英文名称计算机技术与软件专业技术资格(水平)考试的英文名称为:Qualification Certificate of Computer and Software Technology Proficiency 二、各级别证书推荐英文名称 信息系...
引言: 了解Linux环境下,进程的地址空间划分,对于我们理解Linux应用程序有很大的帮助,否则会被New与Malloc之类的指针操作弄的晕头转向,本文基于Linux内核讲述了Linux/Unix线性地址空间的划分,为你答疑解惑。
一、引言: 上篇文章提起关于HBase插入性能优化设计到的五个参数,从参数配置的角度给大家提供了一个性能测试环境的实验代码。根据网友的反馈,基于单线程的模式实现的数据插入毕竟有限。通过个人实测,在我的虚拟机环境下,单线程插入数据的值约为4w/s。
引言: 大家在使用HBase的过程中,总是面临性能优化的问题,本文从HBase客户端参数设置的角度,研究HBase客户端数据批量插入性能优化的问题。事实胜于雄辩,数据比理论更有说服力,基于此,作者设计了这么一个HBase数据插入性能优化实测实验,希望大家用自己的服务器跑出的结果,给自己一个值得信服的结论。
一、引言: 互联网的发展和电子商务平台的崛起,催生了大数据时代的来临,作为大数据典型开发框架的MongoDB成为了No-sql数据库的典型代表。MongoDB从入门到精通你不得不知的21个为什么专为大数据时代,大数据应用系统系统分析、架构设计和平台开发人员而准备。
前言: 参加Unix/Linux相关高级研发职位时,是否经常会被文档,单机允许最大进程数、线程数和Socket连接数,而你却感到束手无措呢?本文给你一个最为详细的答案。 一、最大进程数 运行Linux ulimit -a指令,我们可以看到:max user processes =102...
openpoker源码 erlang写的网游服务器源码,OpenPoker是一个大型多人扑克网游,内建支持了容错能力,负载平衡和无限制的规模大小。本文是openpoker源码文件功能的一个清单式说明: 模块名称 模块功能说明 备注 ante.
前言: 刚刚完成的HDFS高级开发培训课程课件中的一个章节,不知道PPT,如何导出HTML格式,只好批量导出图片,贴图了。 连接管理:建立连接、断开连接、设置连接参数 文件操作:浏览文件、上传文件、下载文件、删除文件、导入文件(批量)、刷新列表 用户管理:查看用户信息、修改用户密码 ...
一、问题描述 因为之前(2012)对HDFS客户端Thrift接口的库文件封装使用的是VS2010,最近考虑做一个完整的网盘系统的客户端,就把该库文件使用起来,比较悲剧的是之前做过操作系统的还原。
引言 先来看一段代码吧, 1 #include 2 #include 3 #include 4 #include 5 6 int main(int argc, char **argv) 7 { 8 pid_t pid = fork(); 9...
前言: 本文是《基于Hadoop开发网络云盘系统架构设计方案》的第二篇,针对界面原型原本考虑有两个方案:1、类windows模式,文件夹、文件方式,操作习惯完全按照Windows方式进行,提供右键菜单管理命令。
引言:二代支付系统是人民银行新一代现代化支付系统,目前各商业银行的接入开发工作正紧锣密鼓的进行。按照人民银行的计划和安排,2013年10份,第一批接入工作将开始。本文是第二代支付系统城市商业银行接入系统的总体设计初稿。
引言 云计算技术的发展,各种网络云盘技术如雨后春笋,层出不穷,百度、新浪、网易都推出了自己的云盘系统,本文基于开源框架Hadoop设计实现了一套自己的网络云盘系统,方案为初步设计方案,不断完善中。
引言 Hadoop提供的HDFS布式文件存储系统,提供了基于thrift的客户端访问支持,但是因为Thrift自身的访问特点,在高并发的访问情况下,thrift自身结构可能将会成为HDFS文件存储系统的一个性能瓶颈。
引文: 个人名言:“同一条河里淹死两次的人,是傻子,淹死三次及三次以上的人是超人”。经历过上次悲催的面试,决定沉下心来,好好的补充一下基础知识点。本文是这一系列第一篇:进程间通讯之mmap。 一、概念:什么是mmap? 通过共享存储实现进程间通讯是一个主要的进程间通讯的方式。
引文:线程模型(Threading Model)默认从进程域 (M:N 模型 ) 改为系统全局域 (1:1 模型 ) 在 AIX 5L 中,pthread 线程的默认模型是 m:n 方式,而从 AIX 6.1 开始,默认改为了 1:1 方式。
引子:线程死锁曾是多少程序员的噩梦,每每为此食不甘味,夜不成寐,一句话:苦不堪言。本文从几个场景入手,试图解开产生死锁的原因之谜。 教科书:说的很具体,理解很抽象 关于死锁产生的原因《操作系统》中有比较好的说明: (1)因为系统资源不足。
引文:学而时习之,不亦说乎。总是忙于具体项目,业务功能的实现;关于编程本身的技能都要有些生疏了,于是就选择了几个专题做了一次温习,重点放在了多线程和多进程上,跑了一个实例,居然有新的发现: (1)多个线程顺序创建的顺序=线程执行顺序吗? (2)多个线程顺序创建,回调函数执行顺序有规律吗? 示例: #include "apue.
引子:本文是《SOA体系结构基础培训教程》第3章《SOA标准与规范》课件,版权所有,转载请注明出处。 随着SOA在业界的应用日益广泛,SOA的标准化问题也成为各界日益关注的焦点。但是由于国际标准的不统一,给SOA的应用带来了不小的麻烦。
引言: 最近受邀做了一个企业的SOA体系结构的内训,本文是内训课程的培训大纲,分享一下吧,希望大家能够喜欢。同时也想针对大纲中列出的内容对SOA架构体系做一次回顾,如果时间允许把完整的课件也想放上来共享一下吧。
引子: Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。
大数据应用日志采集之Scribe 安装配置指南 1.概述 Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能从各种日志源收集日志,存储到一个中央存储系统上,便于进行集中统计分析处理。
大数据应用电子商务之精准推广 作者:张子良 版权所有,转载请注明出处 1.1 引子:来自亚马逊的邮件 经常网购的朋友最近是否注意到,上一次京东,浏览过什么产品,当你打开其他的有京东推荐链接的网页时,总是能够看到来自京东的推荐呢?而推荐的产品恰恰是你最近在关注的。
大数据应用之双色球算奖平台总体设计历史数据存储篇 作者:张子良 版权所有,转载请注明出处 1.1 引子:文件OR数据库 历史期次的双色球选注数据的存储,采用什么样的格式比较好呢?这需要重点从三个方面考虑,一、文件访问方便吗?二、文件服务器空间够用吗?三、软硬件故障环境下,如何保障数据的可用性。
大数据应用之Windows平台Hbase客户端Eclipse环境搭建-Java版 作者:张子良 版权所有,转载请注明出处 引子: 大数据的场景下,NoSql型数据库的优势不言而喻,但是涉及NoSQL数据库的实际动手开发的东西多是Linux平台,大多语焉不详,至于Windows平台介绍的东西就更少了,而且大多无法运行。
引子: 看了一坨文字《编码规范是技术上的遮羞布》,很是上火,见人见智,本是无可厚非,却深感误人子弟者众。原文观点做一个简单的提炼: 1.扔掉编码规范吧,让程序员自由发挥,你会得到更多的好处。
引子:你是否为无法看到自己园子的访问流量而黯然神伤呢? 每写一篇文字,你是都否期待有人来阅读,是否期待有人来支持,与你共享心得和体会呢?注册园子有几个月了,很喜欢这么一个平台,总可以找到心意相通的朋友,也发现了一些不足。
悬崖边上的舞者,记7.2生产数据库灾难事件 作者:张子良 版权所有,转载请注明出处 引子:出事了 7月2日是一个难得的大晴天,一段时间以来桂林一直在下雨,一直下,害的我减肥的计划一再的泡汤,因为下雨每天早上的跑步变成了观雨。
项目管理之道之沟通那点事,有多少事可以落实 作者:张子良 版权所有,转载请注明出处 1.1 项目故事 就在昨天,经历了一次典型的技术和业务沟通故事,这是一个金融支付项目,技术团队是界面设计团队,负责前端展现界面的设计,业务团队来自银行内部一线业务人员(柜员),而我是一个列席者。
大数据应用之双色球算奖平台总体设计数据规模估算篇 作者:张子良 版权所有,转载请注明出处 引子:什么才算大数据? 自从写了上一篇《大数据应用之双色球算奖平台总体设计大纲篇一》,受到许多园友的关注和指导,在此表示感谢,尤其是园友个人知识管理给出的一个评论,让我深思,原文如下“双色球算奖这么简单的活,也称大数据。
从郭美美霸气侧漏看项目管理之项目经理防身术 作者:张子良 版权所有,转载请注明出处 引子 1.红监会:监督权缺失 现有机制下查不了“郭美美”们 6月14日,红监会宣布,经过红监会6月9日中会议讨论,决定建议红十字会协调相关部门,对于可能发现的关于“郭美美事件”的新证据进行调查,并欢迎任何单位和个人提供新的证据。
虚拟化技术发展简史 作者:张子良 版权所有,转载请注明出处 一 概述 虚拟化技术按照其发展历史,可以分为四个阶段:硬件仿真虚拟化、完全虚拟化、半虚拟化和操作系统虚拟化。当前阶段的虚拟化技术以半虚拟化技术为主流,操作系统虚拟化是发展方向,目前主要应用在高端应用领域。
从国足1:5输泰国看项目管理之项目失败责任该有谁负 作者:张子良 版权所有,转载请注明出处 引子 中国足球又输球了,输球不是新闻,1:5输给泰国才是新闻,而这次输球也必将成为中国足球的一个分水岭。
大数据应用之双色球算奖平台总体设计大纲篇一 作者:张子良 版权所有,转载请注明出处 引子:双色球延期开奖,你Hold住了吗 福利彩票走进百姓生活,每期的500w大奖吸引了千万彩民的眼球和关注,备受争议的双色球延期开奖也成了争议的焦点,成为继12306之后,又一个站在风口浪尖的悲催儿。
项目管理潜规则之出差那些事 作者:张子良 版权所有,转载请注明出处 2006年,当我还是IT行业很菜很菜的一个小菜鸟的时候,我很天真,真的很天真。公司通知出差:有个项目当前出现了问题,各网点数据无法准时上送到服务器,需要有人现场支持一下,预计时间一个周。
项目管理潜规则之加班 Yes/No 作者:张子良 先从几个问题开始吧。身为程序猿的你,每一天下班后你都能准时回家吗?下班后,你都多长时间能够离开办公室,30分钟,一个小时,还是更久;每次加班,你有加班费吗?加班费按照什么计算?是按照实际到手的工资吗?还是基本工资呢?后天就要端午节了,端午节是不是公司安排你加班了呢,加班给钱吗,加班是按照双倍或者三薪给加班费吗?不说了,闹心,还是说说潜规则吧,关于加班的潜规则。
项目经理的生存之道强势or弱势 作者:张子良 本不想写这个专题,但是却被一些东西触发,有了不吐不快的冲动,项目经理的工作方式、管理技巧种种抛开不谈,本文只从项目经理工作中面临各种压力、问题时采用的态度谈起,旨在抛砖引玉,也希望藉此能够找到项目经理防身立事的秘籍,希望大家能够畅所欲言。
1.1 业务规则 球员数据排行榜,实时显示两队各项技术参数最高的球员信息,技术参数包括得分、篮板、助攻、抢断、盖帽、出场时间、失误和犯规次数。如下图所示: 1.2 技术选型 Redis提供当前版本提供四种数据类型string、list、set、zset、hash,其中string为基础类型,其它四种为扩展类型。
内存数据库应用之NBA篮球图文直播室存储设计(Redis版) 1.1 摘要 上一篇《内存数据库应用之NBA篮球图文直播室存储设计》针对NBA篮球直播室的需求规格做了详细的介绍,其中存储设计是基于Memcached内存结构特点进行。
内存数据库应用之NBA篮球图文直播室存储设计 1.1 摘要 内存数据库适用于实时性访问要求很高的业务应用系统,尤其是实时数据直播报类系统,如篮球比赛图文直播室,足球比赛图文直播室等各类实时播放类的体育赛事。
1. 概述 常言道:有数据,有真相。数据库的性能瓶颈分析也是需要拿出具体的数据来的,否则单纯的说谁比谁性能强弱,都是没有说服力和根据的。关于内存数据库和磁盘数据库的性能对比也是如此。内存数据库通过读取内存中的数据来实现读写加速,磁盘数据库通过硬盘IO实现数据读写。