数澜科技致力于搭建世界最先进大数据理念及思想的企业大数据服务平台。为客户提供包括:企业大数据服务体系、数据技术、数据建模及标准化、企业profile、场景化数据产品等在内的大数据应用产品及服务。
这篇文章主要从数据治理中的重要基础内容:数据标准入手,从以下几个角度展开具体讲解: 对数据标准的认识误区 数据标准的定义 企业如何制定数据标准 数据标准化过程中出现难题的原因以及解决方案 一、大数据治理标准体系 根据全国信息技术标准化技术委员会大数据标准工作组制定的大数据标准体系,大数据的标准体系框架共由七个类别的标准组成,分别为:基础标准、数据标准、技术标准、平台和工具标准、管理标准、安全和隐私标准、行业应用标准。
作者|数澜UED团队 没有飞线的地图就像一个发际线上移的中年人一样平淡无奇。 —— By 胖子 每年春运和双十一的统计图都因为有飞线动效才更加吸引眼球,今天要为大家带来一根漂亮飞线要用什么姿势生成才能。
作者简介:铁叫兽,10年+数据相关经验,曾在电信、阿里从事过DBA,数仓,解决方案,目前从事零售行业的解决方案。 序言:是否碰到大量的人力投入基于流程管理的信息化系统建设,也运行了好几年了,同时大数据也热了好几年了,但企业IT部门还是无从下手,既不确信大数据是否可以真的带来业务价值也不清楚从哪着手更容易推动大数据项目落地,本文就是通过“标签”,一种基于具体业务场景但同时又是业务人员看的懂的数据的方式,帮助企业从点做起,循序渐进,让大数据真正落地。
作者:刀哥(朱建) 前言:mvvm模式即model-view-viewmodel模式简称,单项/双向数据绑定的实现,让前端开发者们从繁杂的dom事件中解脱出来,很方便的处理数据和ui之间的联动。本文将从vue的双向数据绑定入手,剖析mvvm库设计的核心代码与思路。
数字化浪潮席卷全球,颠覆性创新正在加速,企业面临着前所未有的挑战和机遇,必须不断加速数字化转型才能生存和领先。在数字化转型过程中,企业需要更为深入地理解客户和市场,以数据洞察来驱动企业的行动,从而更好地获取、服务以及留存客户,实现业务增长。
在2018中国大数据高峰论坛上,数澜科技CEO风剑分享了对数据资产化的理解、大数据平台的建设、大数据落地过程中的挑战,以及数据应用在未来的机遇与挑战。具体全文摘录如下: 一、什么是数据资产化 “数据资产化是数澜一直秉持的概念并持续在做的事情”。
科研中,需要分析在每次迭代过程中参与计算的顶点数目,来进一步优化系统。比如,在SSSP的compute()方法最后一行,都会把当前顶点voteToHalt,即变为InActive状态。所以每次迭代完成后,所有顶点都是InActive状态。
文章转自「首席数字官」 ID:ChiefDigitalOfficer 作者:李国欢 4 月 24 日晚,由数澜科技联合锦囊专家共同打造的《数据中台硬核汇》系列线上微课第一讲火热开启。1000 位 CXO 同时收听,群友累计提问 30+,问嗨全场!本文为本次微课分享内容整理,错过 24 日晚微课的同学不要慌,干货文章已备好,快来尝鲜吧! 「DT时代真的来了!今天,我国整个行业的模式已经发生了变化,从互联网+、智能到智慧,再到大数据和人工智能等技术在各应用场景中的作用发挥等等,这一切的发生均为企业发展注入了全新的活力。
一、RPC是什么 在很久之前的单机时代,一台电脑中跑着多个进程,进程之间没有交流各干各的,就这样过了很多年。突然有一天有了新需求,A进程需要实现一个画图的功能,恰好邻居B进程已经有了这个功能,偷懒的程序员C想出了一个办法:A进程调B进程的画图功能。
数据可视化最吸引人的地方在于,通过科学和艺术的完美结合,让隐藏在数据中可预测的和出人意料的故事都变得一目了然。 一个优秀的数据可视化方案,应该同时具备精确度和精美度。精确度,即使用基本视觉元素的形状、尺寸、颜色和位置来呈现数据的多少和关联关系,让受众快速且正确地阅读数据中隐含的故事,是数据可视化的最基本要求。
导读: 8月23日,“新零售论坛:零售业的再革命” 由数澜科技与华院数据在上海百联创业空间成功举办。数澜科技参谋长武凯(行竹)就“零售数据中台实践”进行了分享,并在“新零售创业的机遇与挑战”圆桌论坛中发表了独特的见解。
1.在Vertex类中,顶点的存储方式采用邻接表形式。每个顶点有 VertexId、VertexValue、OutgoingEdges和Halt,boolean型的halt变量用于记录顶点的状态,false时表示active,true表示inactive状态。
背景介绍 Web应用一般是指B/S架构的通过HTTP/HTTPS协议提供服务的统称。随着互联网的发展,Web应用已经融入了我们的日常生活的各个方面。在目前的Web应用中,大多数应用不都是静态的网页浏览,而是涉及到服务器的动态处理。
作者|白松 关于Giraph 共有九个章节,本文第五个章节。 环境:在单机上(机器名:giraphx)启动了2个workers。 输入:SSSP文件夹,里面有1.txt和2.txt两个文件。 1、在Worker向Master汇报健康状况后,就开始等待Master创建InputSplit。
本文主要讲数据治理中的重要工作:数据质量管理。 从数据质量管理的目标,质量问题产生的根源,讲到如何评估数据质量,如何贯彻数据质量管理流程,最后从取与舍两个角度谈谈我对质量问题的一些个人观点。
从 IT 时代到 DT 时代,每个企业无一不被「大数据」、「数字化转型」这样陌生又熟悉的词汇环绕着。似乎一夜之间,这条通往未来的数据之路旁早已挤满了拿着车票却不知该如何上车的企业主们,特别是一些传统行业的巨头们,更是早早挤在了队伍的前头。
一、相关概念 1、大数据 大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。 大数据包括了以Hadoop和Spark为代表的基础大数据框架,还包括实时数据处理,离线数据处理,数据分析,数据挖掘和用机器算法进行预测分析等技术。
前言:作为一名开发人员我们经常会听到HTTP协议、TCP/IP协议、UDP协议、Socket、Socket长连接、Socket连接池等字眼,然而它们之间的关系、区别及原理并不是所有人都能理解清楚,这篇文章就从网络协议基础开始到Socket连接池,一步一步解释他们之间的关系。
一、自动化测试框架 在大部分测试人员眼中只要沾上“框架”,就感觉非常神秘,非常遥远。大家之所以觉得复杂,是因为落地运用起来很复杂;每个公司,每个业务及产品线的业务流程都不一样,所以就导致了“自动化测试框架”去完成自动化测试的时候产生很多不稳定因素,这样就很难定位成一个固定的框架。
本文的目的 说明Giraph如何借助ZooKeeper来实现Master与Workers间的同步(不太确定)。 环境 在单机上(机器名:giraphx)启动了2个workers。 Giraph遵从单Master多Workers结构,BSPServiceMaster使用MasterThread线程来进行全局的同步。
由前文知道每个BSPServiceWorker有一个WorkerServer对象,WorkerServer对象里面又有ServerData对象,作为数据实。ServerData中包含该Worker的partitionStore、edgeStore、incomingMessageStore、currentMessageStore、聚集值等。
大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用不敢用,因此,数据治理是大数据时代我们用好海量数据的必然选择。
“2018年,在人工智能、区块链等概念的花式风口与泡沫之下,企业服务领域反以其针对B端企业的重实用性与宽“护城河”,正有条不紊的发展着。云服务、企业OA、协同SaaS产品、大数据服务等各种兼具敏捷性与实用性的产品层出不穷,企服产品的提效应用让许多企业摆脱了冗杂的工作流程,提升了业务效率,涌现而出的商业机会则成为了新经济突破口。
大数据并不一定要数据达到了多少体量才能算是大数据,但是如果数据简单量少到只需要用xlsx、SPSS等传统数据处理就能解决,就不需要再用大数据技术,有点杀鸡用牛刀的感觉。但大数据应用一定并不仅仅指分析,跳出传统数据分析的范畴,大数据应用领域可以指导使用在我们所有的生活工作业务、场景领域,例如个性化推荐、精准营销、风险监控等。
wiremock-py 是基于WireMock实现的, 使用Python批量生成不同 测试场景 下不同HTTP API的 mock 数据, 然后作为mock server快速全面地对 API 进行测试。
三个问题 1.当下是否还需要一个复杂的EDW(企业级数据仓库)? 2.数据系统的目标用户是谁? 3.让数据适应计算能力还是计算跟着数据走 数据仓库这个概念在二十多年前由Bill Inmon提出后,几乎所有的IT厂商都开始介入这个领域,为企业级数据仓库设计非常复杂的体系结构和数据模型,典型的企业级数据应用架构如下: 这个架构,层次结构非常清晰,但是链路非常长,导致数据冗余非常大,同时数据表结构关系复杂,是一个典型的给技术人员使用的模型,业务的同学要使用数据是非常难的,没法理解底层复杂的表结构和表之间复杂的关联关系。
作者 | 白松 注:本文为原创,引用转载需与数澜联系。 1、org.apache.giraph.bsp.CentralizedService 接口 功能:Basic service interface shared by both CentralizedServiceMaster and CentralizedServiceWorker.
一、如何理解数据中台 在解决你是否需要数据中台这个问题之前,让我们先理理它究竟是什么。 它是工具?是方法?还是组织架构?我的回答是:都不仅仅是。 数据中台包括平台、工具、数据、组织、流程、规范等一切与企业数据资产如何用起来所相关的。
作者 | 白松 【注:本文为原创,引用转载需与数澜联系。】 Giraph介绍: Apache Giraph is an iterative graph processing system built for high scalability.
作者 | 大尊 hdfs是hadoop的分布式文件系统,即Hadoop Distributed Filesystem。下面主要讲下HDFS设计中的比较重要的点,使读者能通过简短的文章一窥HDFS的全貌,适合对HDFS有一点了解,但是对HDFS又感到困惑的初学者。