• 我们为什么需要Greenplum?

    在这样的业务情况之下,要做的第一个步骤就是进行数据采集,也就是让用户定义自身的数据类型并且进行采集。数据采集完成之后就进入了第二个步骤,也就是数据分析。在数据采集完成之后导入到某一个地方去,汇总之后...
    文章 2016-11-02 3344浏览量
  • 秒极黑洞 解决大规模DDoS攻击导致的“躺枪”

    接下来的问题更有趣,秒级是什么概念?几十秒?还是几秒?回答这个问题需要站在业务角度上——哪个用户可以忍受几十秒甚至更长的业务延迟?因此,秒级的概念当然是个位数的,再进一步说,需要在5秒甚至更短的时间...
    文章 2017-09-04 1802浏览量
  • 自定义 ForkJoinPool 提升并行流 ParallelStream 执行...

    java8 的并发流在大批量数据处理时可简化多线程的使用,在遇到耗时业务或者重度使用并发流不妨根据业务情况采用自定义线程池来提示处理速度。开源推荐 Spring boot 微服务高效开发 mica 工具集:...
    文章 2019-08-24 2932浏览量
  • Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越...

    这是一个典型的数据分析的场景,下面是基础设施,数据采集、存储到处理,左边是数据处理,右边价值输出。连接数据和价值之间的是知识发现,用专业词汇讲,知识就是模型,知识发现就是建模和学习的过程。问题来了,大...
    文章 2017-05-02 1105浏览量
  • Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越...

    这是一个典型的数据分析的场景,下面是基础设施,数据采集、存储到处理,左边是数据处理,右边价值输出。连接数据和价值之间的是这知识发现,用专业词汇讲,知识就是模型,知识发现就是建模和学习的过程。问题来了,...
    文章 2017-05-02 1180浏览量
  • 什么我们用的系统这么烂?谁的锅?

    这是为什么:该软件厂商的程序基本是使用定制化模板,根据业务拼接,开发方便,但是后台语句条件复杂,语句庞大在数据量增大以后语句的执行变得很耗资源,也更依赖与CPU的并行,在没有设置并行度的情况下升级硬件...
    文章 2017-05-15 1504浏览量
  • 当学生遇到iPIN数据科学家|在线问答

    主要需要考虑哪些变量因素,采集哪些数据,运用什么算法手段,如何建模和可视化?潘嵘:不同的推荐问题数据、建模可能都很不一样。学生椰咯斯大O.O:老师,如果个人爱好者想学数据挖掘,个人PC机的性能够用吗?...
    文章 2017-08-01 1036浏览量
  • Flink 使用大状态时的一点优化

    本文分析了目前 Flink 使用大状态时遇到的问题,并给了多种解决方案。目前笔者已经实现了随机、TaskManager 内轮循、基于 Zookeeper 的全局轮循三种策略,并应用到生产环境,可以直接在 flink-conf.yaml 文件中...
    文章 2020-07-04 1223浏览量
  • 如何帮企业数据库“从马车升级到汽车”?深入解读...

    往往是数据了事情再来处理,所谓术业有专攻,SA或开发人员处理数据问题(不管是性能问题还是管理问题),通常时间也可能很久。3、POLARDB 2.0 重磅发布新特性 POLARDB 2.0 完全继承了1.0的架构体系,同时兼容...
    文章 2019-07-28 859浏览量
  • Basho 开源了它的时序数据库产品 Riak TS

    对虚拟节点的并行数据抽取;灵活的复合键值;InfoQ:Riak TS产品的开发已持续近18个月了,你能介绍一下这个开发经历吗?McCrory:在早期,我们看到客户用Riak KV产品去保存时序数据。当我们审视其中的需求时,发现为...
    文章 2017-06-02 1548浏览量
  • POLARDB v2.0 技术解读

    往往是数据了事情再来处理,所谓术业有专攻,SA或开发人员处理数据问题(不管是性能问题还是管理问题),通常时间也可能很久。2.0 重磅发布新特性 POLARDB 2.0 完全继承了1.0的架构体系,同时兼容了另外两个...
    文章 2019-12-16 382浏览量
  • POLARDB v2.0 技术解读

    往往是数据了事情再来处理,所谓术业有专攻,SA或开发人员处理数据问题(不管是性能问题还是管理问题),通常时间也可能很久。2.0 重磅发布新特性 POLARDB 2.0 完全继承了1.0的架构体系,同时兼容了另外两个...
    文章 2019-06-19 26163浏览量
  • 说说这些年做的云计算和大数据项目

    入行十几年了,做了不少分布计算、并行计算、内存计算、海量数据处理的项目,按照现在的分类,这些都属于云计算/大数据范畴。今天说说我做过的其中三个项目,只三个。第 一个是我们接到的视频分享网站的视频转码的...
    文章 2016-07-22 5030浏览量
  • 阿里云CPFS在人工智能/深度学习领域的实践

    采集数据:根据业务需要,实际采集相应的数据,或者从专门的数据采集公司购买现成的原始数据。数据预处理:这些原始数据可能会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,...
    文章 2018-08-06 9715浏览量
  • 《Spark核心技术与高级应用》——1.1节什么是Spark

    定制广告系统,在定制广告业务方面需要大数据做应用分析、效果分析、定向优化等,借助Spark快速迭代的优势,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法,支持上亿的请求量处理...
    文章 2017-05-02 1095浏览量
  • 双11数据大屏背后:大规模流式增量计算及应用(附资料...

    因为产生的数据本身是存在顺序的,很多应用对于数据的顺序也是非常关心的,所以整体而言对于数据总线部分是存在新的要求的,这些就是关于输入和数据采集问题。在之后会详细地分析计算这一部分,在这里先不考虑计算...
    文章 2017-05-22 1667浏览量
  • 一步步实施 DevOps(三)

    除此之外监控与开发密切相关,在开发阶段需要为监控数据采集做铺垫,每开发一个新功能就要想到未来这个功能是否需要监控,怎样监控。数据前期采集与数据挖掘非常重要,监控不仅能做软件与硬件的性能分析,还能提供...
    文章 2019-01-03 1512浏览量
  • 双11数据大屏背后的秘密:大规模流式增量计算及应用

    因为产生的数据本身是存在顺序的,很多应用对于数据的顺序也是非常关心的,所以整体而言对于数据总线部分是存在新的要求的,这些就是关于输入和数据采集问题。在之后会详细地分析计算这一部分,在这里先不考虑计算...
    文章 2017-03-13 6108浏览量
  • 一文总结机器学习类面试问题与思路

    数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还需要底层开发、并行计算、分布式计算等方面的知识。二、算法研究类 文本挖掘,如领域知识图谱构建、垃圾短信过滤等;推荐,广告...
    文章 2018-08-06 2318浏览量
  • Hadoop不适合处理实时数据的原因剖析

    目前典型的处理策略:数据的产生系统一般出自 Web 日志和解析 DB 的 Log,流计算数据采集是获取的消息队列(如:Kafka,RabbitMQ)等。批处理系统一 般将数据采集到分布式文件系统(如:HDFS),当然也有使用消息队列的。我们 ...
    文章 2016-04-19 1985浏览量
  • 清华大学张长水教授:机器学习和图像识别(附视频、...

    我们如果需要去识别路上的交通标志,就要在不同的环境下,不同的光照下,比如说早晨、中午、晚上,逆光还是背光,不同的视角,是否有遮挡,所有的因素都要考虑到,来采集数据。经验上每种标识收集上千张或者更多的...
    文章 2018-05-15 4011浏览量
  • MapReduce 不适合处理实时数据的原因剖析

    般将数据采集到分布式文件系统(如:HDFS),当然也有使用消息队列的。我们 暂且把消息队列和文件系统称为预处理存储。二者在这个阶段的延时和吞吐上没 太大的区别,接下来从这个预处理存储到数据计算阶段有很大的区别。...
    文章 2016-04-25 6681浏览量
  • 《机器学习与数据科学(基于R的统计学习方法)》——1...

    这就是为什么数据采集过程需要你具有创造力,并且有相关领域的专家提供帮助(诸如一个能给你提供销售数据或者薪资数据的主管)。这一步可能涉及IT部门,需要数据库工程师为你切分提取数据。3.处理数据。在项目的...
    文章 2017-05-02 1933浏览量
  • 实战、运维和调优》——1.1 什么是实时流计算

    目前,互联网企业的海量数据采集工具有Facebook开源的Scribe、LinkedIn开源的Kafka、Cloudera开源的Flume,淘宝开源的TimeTunnel、Hadoop的Chukwa等,它们均可以满足每秒数百MB的日志数据采集和传输需求。...
    文章 2017-07-03 2266浏览量
  • 日志收集之kafka篇

    日志采集客户端,负责日志数据采集,定时写受写入Kafka队列;Kafka消息队列,负责日志数据的接收,存储和转发;日志处理应用:订阅并消费kafka队列中的日志数据;下面是一个应用的实例图 存储可以是Elasticsearch,...
    文章 2016-08-29 11071浏览量
  • Hadoop不适合处理实时数据的原因剖析

    目前典型的处理策略:数据的产生系统一般出自 Web 日志和解析 DB 的 Log,流计算数据采集是获取的消息队列(如:Kafka,RabbitMQ)等。批处理系统一 般将数据采集到分布式文件系统(如:HDFS),当然也有使用消息队列的。我们 ...
    文章 2017-11-22 1001浏览量
  • 历年双11实战经历者:我们是如何做数据库性能优化及运...

    有了这样的目标,接着我们就开始将客户端到SLB,proxy,再到DB节点,所有的请求通过TCPRT全链路数据采集存储下来。TCPRT全链路系统对用户所有节点上的网络包进行实时分析并绘制网络拓扑,可以追溯到每段链路上每条...
    文章 2017-09-07 9973浏览量
  • 基于Flink CDC打通数据实时入湖

    在构建实时数仓的过程中,如何快速、正确的同步业务数据是最先面临的问题,本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术,来解决业务数据实时入湖相关的问题。01 Flink CDC介绍CDC全称...
    文章 2021-09-10 76浏览量
  • 2021算法岗基础技能树怎么点?

    所以在学习过程中不光要知道How,还是要多知道几个Why,一是为了能在面试的时候能回答出问题,二是为了更好地理解手里的这个工具。3-算法的基础技能树 面经总结出来的点也还是有点乱,所以我又参考了一些算法学习...
    文章 2020-04-13 772浏览量
  • 有了Tableau,为什么AWS还要做BI?

    数据采集(Collect)方面:AWS Direct Connect/AWS Import/Export/Amzon Kinesis 数据存储(Store)方面:Amazon S3/Amazon RDS/Aurora/Amazon Glacier/Amazon DynamoDB/Amazon CloudSearch/Amazon Elasticsearch ...
    文章 2016-12-10 7011浏览量
1 2 3 4 ... 9 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化