开源大数据周刊-第79期

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 资讯 警惕大数据成了互联网的“PX项目” 新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光,也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑,以及互联网公司如何使用这些数据,可以说是一个很好数据安全的科普。

资讯

  • 警惕大数据成了互联网的“PX项目”
    新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光,也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑,以及互联网公司如何使用这些数据,可以说是一个很好数据安全的科普。
  • 李飞飞发文发布谷歌云AutoML Vision平台,订制化的企业级机器学习模型不再是难题
    一直以来机器学习或深度学习都存在这比较高的入门门槛,比如要有一定的算法功底,数学水平也不能太差,至少能看清楚 loss function 的意义等等。AutoML Vision 平台的推出让普通人也能够通过在页面上点击几下就能创建自己的模型并调参训练成为了可能。这样,对深度学习不怎么了解的普通企业也可以构建自己的人工智能系统了。这对于普及人工智能技术来说意义重大。
  • 微软和阿里开发的人工智能在阅读测试中首次击败人类
    关于人工智能系统击败人类已经不是什么新鲜事了。这次是“阅读理解”,即让机器和人阅读一些文章,并根据自己对文章的理解回答一些问题。最终的结果是微软和阿里巴巴的系统各自以几个百分点的优势击败人类。

技术

  • 基于Kubernetes构建现代大数据管道
    大数据生态从早期的 hadoop、hive、spark 等传统批处理场景逐步过渡到与 kafka、flink 等流式处理场景和 tensorflow 等机器学习场景相融合的阶段,从而实现数据从采集到存储到分析到挖掘的一站式处理过程。越来越多的生态组件和越来越多的应用场景对如何整合这些组件形成一个完整的数据管道提出了很大的挑战。本文介绍了利用容器技术来实现一个数据管道的思路,即完全借助于云上服务,并利用 kubernetes 提供统一的编排。在这种解决方案中,hadoop、spark、tensorflow 等都被容器化,数据流在这些容器之间流动,整个数据流由 kubernetes 控制。这是一种无服务器框架(关于无服务器技术,可参考这篇文章)。该文章还提到了另外一种无服务器框架 nuclio这里是 Eliran Bivas 在 kubecon 2017 的报告链接。
  • 从原理到策略算法再到架构产品看推荐系统 | 附Spark实践案例
    这是一篇纯技术文章,介绍了推荐系统的原理与实现。一般地说,推荐系统与搜索引擎、广告系统类似,都是一个相关性排序问题。相关性排序问题,核心是如何定义相关性,这就引出了种种的相似度度量算法。当用户搜索并点击了一个词条时,把除此之外的最相关的东西呈现在用户面前,就完成了一次最简单的推荐。这个过程说简单也简单,说复杂也复杂。文章系统的分析了在具体做相似度计算时应当仔细考量的因素,诸如长尾效应(马太效应)、计算矩阵过大、多因子权重调整等等。文章之后对个性化推荐、协同过滤两种经典场景(或者技术)给出了spark代码实现,可以作为学习推荐系统的新手来练手。文章的可贵之处是除了算法和技术,还讨论了产品形态和技术架构,这个往往是普通技术人员所欠缺的,如果读者想成为一个素质全面的综合性人才,这部分内容更要多看看。
  • Apache Ranger调研
    这是关于 apache ranger 的系列文章,上边的链接是其第一篇。在该系列文章中,作者从调研选型、测试到原理都进行了深入的剖析,可以说是读者入门 ranger 的一个不错的介绍文章。另外,如果读者对 hadoop 安全选型方面有需求,可以参考一下这篇英文文章
  • Spark Security面面观
    本文是关于 spark 安全的介绍文章,主要从认证、授权、数据/链路加密、与其他系统安全交互几个方面进行了讲解。认证方面介绍了 spnego(以 kerberos 为基础的 http 认证机制)、LDAP,以及 SASL 认证体系(在数据链路加密一节中进行了介绍)。授权方面介绍了 spark acl 的使用。文章的重点是介绍 spark 系统中需要对哪些数据,以及哪些数据链路进行加密。文章最后介绍了和其他系统如何做安全的交互。

欢迎入群技术交流!

EMR_dingding


版权声明:信息都是来自互联网,如果侵权,请联系我们,我们负责删除。

阿里云E-Mapreduce团队出品

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
446 0
|
12月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
604 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
存储 机器学习/深度学习 大数据
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
Apache Flink 诚邀您参加 7 月 27 日在杭州举办的阿里云开源大数据 Workshop,了解流式湖仓、湖仓一体架构的最近演进方向,共探企业云上湖仓实践案例。
265 12
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
|
机器学习/深度学习 监控 大数据
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
|
机器学习/深度学习 分布式计算 大数据
MaxCompute 2.0:开源系统的集成与创新
增强实时处理能力:进一步加强与Flink等实时处理框架的合作。 强化机器学习支持:提供更多内置的机器学习算法和工具。 增强数据治理功能:提供更完善的数据质量和安全治理方案。
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
358 1
|
关系型数据库 分布式数据库 数据处理
【PolarDB 开源】PolarDB 在大数据分析中的应用:海量数据处理方案
【5月更文挑战第25天】PolarDB是解决大数据挑战的关键技术,以其高性能和可扩展性处理大规模数据。通过与数据采集和分析工具集成,构建高效数据生态系统。示例代码显示了PolarDB如何用于查询海量数据。优化策略包括数据分区、索引、压缩和分布式部署,广泛应用于电商、金融等领域,助力企业进行精准分析和决策。随着大数据技术进步,PolarDB将继续发挥关键作用,创造更多价值。
424 0
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
612 4
|
SQL 存储 大数据
从0到1介绍一下开源大数据服务平台dataService
从0到1介绍一下开源大数据服务平台dataService
1022 1
|
关系型数据库 大数据 分布式数据库
PolarDB 开源版 使用PostGIS 数据寻龙点穴(空间聚集分析)- 大数据与GIS分析解决线下店铺选址问题
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB 开源版 使用PostGIS 数据寻龙点穴(空间聚集分析)-...
473 0