• 消息队列常见的 5 个应用场景

    日志采集客户端,负责日志数据采集,定时写受写入Kafka队列;Kafka消息队列,负责日志数据的接收,存储和转发;日志处理应用:订阅并消费kafka队列中的日志数据。以下是新浪kafka日志处理应用案例: Kafka:接收用户...
    文章 2018-07-30 1031浏览量
  • 消息中间件系列一、消息中间件的基本了解

    日志采集客户端,负责日志数据采集,定时写受写入Kafka队列 Kafka消息队列,负责日志数据的接收,存储和转发 日志处理应用:订阅并消费kafka队列中的日志数据 以下是新浪kafka日志处理应用案例:转自...
    文章 2018-10-03 3355浏览量
  • 那些年,我们处理过的SQL问题

    一大早,某网省兄弟告诉我,数据库会话执行的SQL开启了并行,导致负载很高,会话也高,查了半天,没找到具体原因,也不知道该如何解决?对于他的问题,我直接回应了:这还不清楚吗?常见原因无非有以下两个: 第一:...
    文章 2018-11-14 1621浏览量
  • 助你所在团队走上大数据路途的六大规则

    数据采集过后,你的公司需要任何人工处理吗?如果答案是需要,那么你不需要实时数据,你需要正确的时刻获取数据。如果你有智能或规则驱动的自动化系统,那么你可考虑获取实时数据的“原材料”。5、数据质量差,但还是...
    文章 2017-08-01 1300浏览量
  • 【重磅开源】Hawk-数据抓取工具:简明教程

    HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件,并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。Hawk的含义为“鹰...
    文章 2016-06-28 606浏览量
  • 【重磅开源】Hawk-数据抓取工具:简明教程

    HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件,并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。Hawk的含义为“鹰...
    文章 2016-11-09 603浏览量
  • 关于大数据的五大陷阱

    因此,如何才能把大数据“物尽其用”变得至关重要。以下是一些您应该规避的最常见的大数据陷阱: 陷阱1:缺乏企业平台或以数据为本的架构 Hadoop系统通常是以具体应用的原型身份进入企业的,然后逐渐成为重心,吸引...
    文章 2017-07-03 828浏览量
  • [雪峰磁针石博客]python 3.7极速入门教程9最佳python...

    第 1部分重点介绍网络数据采集的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第 二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何...
    文章 2018-11-05 2431浏览量
  • [雪峰磁针石博客]python 3.7极速入门教程8语言比较与...

    第 1部分重点介绍网络数据采集的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第 二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何...
    文章 2018-11-05 2183浏览量
  • Java消息队列总结只需一篇解决ActiveMQ、RabbitMQ、...

    日志采集客户端,负责日志数据采集,定时写受写入Kafka队列 Kafka消息队列,负责日志数据的接收,存储和转发 日志处理应用:订阅并消费kafka队列中的日志数据 2.5消息通讯 消息通讯是指,消息队列一般都内置了高效的...
    文章 2018-09-19 1759浏览量
  • 消息队列常见的几种使用场景介绍!

    负责日志数据采集&xff0c;定时写受写入Kafka队列&xff1b;Kafka消息队列&xff0c;负责日志数据的接收&xff0c;存储和转发&xff1b;日志处理应用&xff1a;订阅并消费kafka队列中的日志数据。以下是新浪kafka日志处理应用案例&xff...
    文章 2021-12-14 17浏览量
  • 云栖PPT下载|开源界大咖集体现身,开源数据库专场重点...

    如今,一种数据库难以适应所有业务场景的需要,需要依靠混合持久化数据库来解决不同数据存储需求。One For All时代已经过去,数据库即便做到“大而全”,也难以涵盖所有场景,现在要做的是“Best Fit”,针对某一种...
    文章 2019-10-17 2351浏览量
  • Pandas并非完美无缺

    3.高速数据采集和导出(数据库和文件格式) Arrow的高效内存布局和丰富的元数据使其成为数据库和柱状存储格式(如Apache Parquet)的入站数据的理想容器。Arrow的原始构造之一是“记录批处理流”的概念,聚在一起的...
    文章 2017-09-24 6463浏览量
  • 清华大学张长水教授:机器学习和图像识别(附视频、...

    所以在机器学习中,有人关心在众包情况下、标注数据有错的时候,我们如何设计学习算法,使得它对错误的标注不敏感。这个事大概七八年前就开始研究,不断的有新的文章出现。当数据没有那么多的时候,怎么办?机器学习...
    文章 2018-05-15 4100浏览量
  • 数据蒋堂】列式存储的另一面

    只有分块内列数据占用空间比读入缓冲区大很多时,无用数据读入时间和寻道时间的占比才会比较小,这就要求每个分块中有足够多的记录数,也就是说,实现列存并行数据量要足够大才有意义,对于机械硬盘(包括用机械...
    文章 2017-06-01 1118浏览量
  • 智慧城市建设的关键技术研究

    目前的智慧城市应用大多是一些处理数据采集和数据传输的简单场景,简单数据采集和数据传输模式虽然有一定的领域,但碰到一些复杂的领域就无法应对了。在我们的现实世界中,还有很多复杂的情况,需要不同类型节点协同...
    文章 2017-07-06 1356浏览量
  • 高精地图技术专栏|基于空间连续性的异常3D点云修复...

    本文会从MTA问题产生的原理、激光应对MTA的内部机制、数据处理算法三方面来介绍高精资料处理是如何解决这个问题的。图1 MTA问题数据2.MTA原理那么,MTA究竟是怎样产生的呢?这要从激光的测量原理说起。2.1 激光测距...
    文章 2021-03-16 5299浏览量
  • 双11数据大屏背后的秘密:大规模流式增量计算及应用

    第三个场景就是有时实时计算除了使得之前提到的应用成为可能还有一种场景下就需要数据采集手段的提高,因为存在大量的实时数据不得不以流式地进行预处理做一些筛选,将真正重要的信息存储下来再去进行离线的更加深入...
    文章 2017-03-13 6228浏览量
  • 双11数据大屏背后:大规模流式增量计算及应用(附资料...

    第三个场景就是有时实时计算除了使得之前提到的应用成为可能还有一种场景下就需要数据采集手段的提高,因为存在大量的实时数据不得不以流式地进行预处理做一些筛选,将真正重要的信息存储下来再去进行离线的更加深入...
    文章 2017-05-22 1699浏览量
  • [转载]Prismatic:用机器学习分析用户兴趣只需10秒钟

    从外部来看,Prismatic的系统被分成了10个独立的服务模块,大致可以归总为5种类型:数据采集;新用户管理;API;其他客户机服务;批处理。每个服务都是为一个功能而设计,通过一种特殊的方式进行横向扩展,通常受1到...
    文章 2016-10-31 960浏览量
  • 时序数据库HiTSDB:分布式流式聚合引擎

    另外一个维度是时间线,由指标和数据源组成,数据源就是由一系列的标签标示的唯一数据采集点。例如指标cpu.usage的数据来自于机房,应用,实例等维度组合成的采集点。这样大家逻辑上就可以抽象出来一个id+{timestamp...
    文章 2018-04-19 4419浏览量
  • 机器学习入门|集成学习(boosting,bagging)

    在每一轮如何改变训练数据的权值或概率分布?通过什么方式来组合基学习器?用boosting中代表的adaboost举例: 采集m个样本,初始化第一个基学习器中每个样本权重为$\frac{1}{m}$ 用给定算法训练样本 计算误差,超过0...
    文章 2018-02-02 2264浏览量
  • 未来如何将嵌入式AI解决方案做到第一?

    按照不同的业务属性,Intel Capital将这次投资的15家公司纳入了数据分析、数据采集、数据管理、数据安全4个类目,由此构建围绕数据的价值链。这也是Intel今年频频对外提到的,从一家计算处理公司转型成“数据”公司...
    文章 2017-11-06 1207浏览量
  • Hawk:20分钟无编程抓取大众点评17万数据

    数据采集完成了!如果看到这一步累了,可以不看下面的内容,但如果想获取全部内容,步骤就复杂多了,如果你下决心学习,我们接着往下看 5.准备葱蒜:获取城市的美食门类 解决问题的办法是分而治之,获取每个区县(如...
    文章 2017-03-28 1352浏览量
  • 前端异常监控解决方案研究

    1)慢 2)服务端未返回数据但仍200,前端按正常进行数据遍历 3)提交数据时网络中断 4)服务端500错误时前端未做任何错误处理 偶尔 系统错误 1)内存不够用 2)磁盘塞满 3)壳不支持API 4)不兼容 较少 2 异常采集 2.1 采集...
    文章 2019-08-29 1835浏览量
  • 安防云计算核心技术探讨

    提供海量存储的同时,如何快速有效的定位多维度数据,挖掘出各类孤岛数据在多维度的潜在关联关系,一直是我们致力于解决的问题。云计算、大数据等技术正在慢慢渗入安防行业,随着这些技术的发展成熟,将对安防行业...
    文章 2017-07-03 1367浏览量
  • GMTC 大前端时代前端监控的最佳实践

    一个连接上打开多个流,还可以双向数据传输,轻松突破6路并行限制。思考一下:在http1时代的把资源散列在不同域名下还有效吗?实际上非但不能提升性能,反而会新增连接开销。突破6路限制就够了吗?我们再来看看另...
    文章 2018-06-29 3224浏览量
  • 阿里可观测性数据引擎的技术实践

    相比自有协议的封闭模式,兼容开源、标准协议大大扩充了我们平台能够支持的数据采集范围,而且减少了不必要的造轮子环节。上图展示了我们兼容外部协议、Agent的整体进度:Traces:除了内部的飞天Trace、鹰眼Trace外...
    文章 2021-11-18 473浏览量
  • 阿里HBase超详实践总结|一文读懂大数据时代的结构化...

    为了提升目标端的写入效率,我们将所有待发送的HLog先进行排序,使得同表同Region的数据都能合并处理,同时将目标端的数据写入尽量并行化。热点辅助 尽管做了以上两点后,集群间的数据复制能力大大增强,但是个别...
    文章 2017-06-20 4663浏览量
  • 分层自动化之UI自动化体系建设

    根据这些采集到的元素的基本数据,就可以生成element.set(data)这一测试代码。那抓取元素一定需要抓取哪些信息呢?首先是元素基本的ID、class、text、tagName等属性需要抓取;其次是xpath(相对)路径,它可以通过...
    文章 2017-07-21 2480浏览量
1 2 3 4 ... 7 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化