|
自然语言处理 索引 算法
|

OpenSearch自定义分词服务

背景 OpenSearch是一个以云服务方式提供给广大开发者使用的搜索引擎平台。在搜索引擎中,分词是最基础但很重要的功能,其效果会直接影响文档的召回。分词歧义会导致引擎无法召回目标文档。例如: 乒乓球拍卖完了 ==> 乒乓球/拍卖/完了 乒乓球拍 ==> 乒乓/球拍 在上面的case中,短语“乒乓球拍”不同的上下文中分词的结果不一样。

4736 0
来自: 智能搜索推荐  版块
|
SQL 分布式计算 搜索推荐
|

开源大数据周刊-第31期

数据生态治理要啃硬骨头、将人类送上火星、大数据框架对比、SQL on Hadoop

2567 0
|
分布式计算 搜索推荐 大数据
|

融合大数据能力,解决在存量时代下的力分之困

上月,有微博爆料逻辑思维计划在2018年提交IPO申请,2019年底前创业板上市。虽然很快罗振宇方面就出面否认,但从近日阿里应用分发发布的2017年Q2应用行业报告显示,5家知识付费平台同比增长率均在50%以上,目前用户已达到5000万,知识付费正处于高速增长中。

2749 0
来自: 大数据计算 MaxCompute  版块
|
弹性计算 分布式计算 大数据
|

阿里云大数据计算服务MaxCompute(原ODPS)华南1(深圳)Region即将开服!

2017年9月7日,阿里云数加·MaxCompute(原ODPS)华南1(深圳)数据中心正式开服售卖,这是数加·MaxCompute在国内开服的第二个区域。届时MaxCompute将会针对新服开展促销活动,具体活动规则敬请期待!

2870 0
来自: 大数据计算 MaxCompute  版块
|
存储 SQL 消息中间件
|

美团点评基于 Flink 的实时数仓平台实践

数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。

5169 0
来自: 实时计算 Flink  版块
|
分布式计算 druid 对象存储
|

EMR Druid 探索(二)

EMR Druid 探索(二) EMR Druid 上文介绍了 Druid 的特点、使用场景以及性能。EMR 在 3.11.0 引入了 Druid,并专门推出了一种新的集群类型:Druid 集群。在具体使用时,Druid 集群可以与 Hadoop 集群结合,以 HDFS 集群作为 deep storage 的存储,以 YARN 作为批量索引的计算引擎。

2861 0
|
消息中间件 数据采集 分布式计算
|

在 Cloudera Data Flow 上运行你的第一个 Flink 例子

本文主要是介绍如何在 CDH6.3 中安装 Flink 1.9 以及运行你的第一个 Flink 例子。

2910 0
来自: 实时计算 Flink  版块
|
监控 安全 大数据
|

阿里云Elasticsearch11月2日正式商业化,双十一大促最低5折

阿里云Elasticsearch是阿里云和Elasticsearch开源公司Elasitc联合打造的重磅产品,经过了2个月的公测锤炼,已于11月2日正式商业化。我们决定在双十一期间(11月10日~11日)以最低5折的产品优惠回馈广大用户。

2868 0
|
分布式计算 安全 大数据
|

开源大数据周刊-第46期

2608 0
|
机器学习/深度学习 人工智能 分布式计算
|

用炸弹开路——加速到来的证券投资行业人工智能时代

去年开始涉足人工智能技术应用于证券投资领域的研究,将近两年的研究实践,发现公开资料上很多关于人工智能(AI)对证券投资业发展影响的文章都存在几个明显的思维误区:①一个是对人工智能的认识有误。人工智能是个广域笼统的概念,但基石是机器学习,以机器学习算法构建逻辑和规则为基石的人工智能与自动化程序软件及通过数据回测构建起来的以固定逻辑运行的量化投资模型是完全不同的事物,区别就好比活鸡和模型鸡,需要明白自动化软件不是人工智能,国内大多数所谓智能投顾其实还不是真正意义上的人工智能投顾;②另一个是曲解了人工智能在证券投资行业的应用。

2741 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Hadoop
|

开源大数据周刊-第8期

阿里云李津谈布局专有云的深层用意,2016年杭州第四次spark meetup见闻

2793 0
|
流计算 资源调度 Java
|

Apache Flink 零基础入门(四):客户端操作的 5 种模式

本文主要分享 Flink 的 5 种任务提交的方式。熟练掌握各种任务提交方式,有利于提高我们日常的开发和运维效率。

7075 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 人工智能 算法
|

人工智能居然会模仿人类品酒

《机器学习实践应用》作者傲海,手把手带领大家在机器学习PAI上,体验各种酒的口感,完成整个机器“品酒”的过程,内容包含:如何上传数据、如何做数据预处理、如何分类、如何评估四个部分,全程在线实操,并产出结果。

2613 0
来自: 大数据计算 MaxCompute  版块
|
数据可视化
|

分享你的花样DataV

投稿你与DataV的“爱恨情仇”就有机会获得丰富的奖品!

5202 0
来自: 数据可视化DataV  版块
|
机器学习/深度学习 存储 算法
|

追求极致的AI·OS——AI·OS引擎平台

6195 0
来自: 智能搜索推荐  版块
|
消息中间件 Kafka 流计算
|

如何构建批流一体数据融合平台的一致性语义保证?

本文根据陈肃老师在 Apache Kafka x Flink Meetup 深圳站的分享整理而成,文章首先将从数据融合角度,谈一下 DataPipeline 对批流一体架构的看法,以及如何设计和使用一个基础框架。其次,数据的一致性是进行数据融合时最基础的问题。

4430 0
来自: 实时计算 Flink  版块
|
SQL 大数据 测试技术
|

blink测试技术介绍

blink测试团队成立一年多的时间,从无到有,逐步建立起完整的blink测试体系,从代码质量到集成测试再到预发测试,全方位保障blink质量,取得了显著的成果。

4179 0
来自: 实时计算 Flink  版块
|
存储 分布式计算 大数据
|

MaxCompute,基于Serverless的高可靠大数据服务

2019年1月18日,由阿里巴巴MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,阿里巴巴高级技术专家吴永明为大家分享了MaxCompute,基于Serverless的高可用大数据服务,以及MaxCompute低计算成本背后的秘密。

3484 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 监控 大数据
|

开源大数据周刊-第35期

2488 0
|
分布式计算 Java MaxCompute
|

MaxCompute_SDK_开发指南

方便和辅助 MaxCompute 开发人员使用 Java / Python SDK 方式进行日常代码的开发工作。

4573 0
来自: 大数据计算 MaxCompute  版块
|
算法 大数据 测试技术
|

京信通信:数据智能为生产调试“增效瘦身”

“数据驱动测试优化,突破自动测试边界,赋能智慧测试新模式。”——京信智能制造副总经理葛鑫 “进入车间,映入眼帘的是一条长约20 米的 O 型生产线,产线前三名工人和几个机器人正协同工作,将各种元器件的印刷线路板(PCBA 板)与产品壳体组装起来。

2652 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 测试技术
|

扩展Spark Catalyst,打造自定义的Spark SQL引擎

在Spark2.2版本中,引入了新的扩展点,使得用户可以在Spark session中自定义自己的parser,analyzer,optimizer以及physical planning stragegy rule。

4490 0
|
机器学习/深度学习 存储 分布式计算
|

开源大数据周刊-第45期

阿里云E-MapReduce实践 云HBase助力物联网建设 物联网最大的特点写入量大,要求延迟低,且数据存量巨大。云HBase非常满足物联网存储需求,存储数P甚至百P的空间存储需求,延迟稳定在数毫秒之内,跟Hadoop分析体系有较为深入的结合,满足分析类的需求。

2513 0
|
SQL Web App开发 流计算
|

Flink入坑指南第五章 - 语法糖 view

Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。本文属个人原创,仅做技术交流之用,笔者才疏学浅,如有错误,欢迎指正。 什么是view(视图):视图无非就是存储在数据库中并具有名字的 SQL 语句,或者说是以预定义的 SQL 查询的形式存在的数据表的成分。

4134 1
来自: 实时计算 Flink  版块
|
流计算 SQL HIVE
|

小红书如何实现高效推荐?解密背后的大数据计算平台架构

小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。

9205 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第38期

本期关注:梨视频基于阿里云E-MapReduce搭建视频推荐系统的实践,Apache Eagle成为新的顶级项目,英特尔开源的分布式深度学习库BigDL,Hadoop 3.0新功能测评

2436 0
|
机器学习/深度学习 SQL 分布式计算
|

开源大数据周刊-第10期

云上Hadoop之最佳实践

2308 0
|
大数据
|

国庆宅在家?不如来玩玩阿里云大数据产品系列教程~

爱学习的你的国庆最佳选择

2618 1
来自: 大数据计算 MaxCompute  版块
|
分布式计算 大数据 Apache
|

开源大数据周刊-第37期

[阿里云E-MapReduce动态] E-MapReduce 2.3.1镜像主版本发布基础镜像CentOS 6.5内核版本升级到2.6.32-642;并支持job failover 资讯 2017年数据领域的八大发展趋势 在2017年数据社区将会有大量的机会出现,并伴随一些危机性的挑战,

2273 0
|
城市大脑 监控 算法
|

阿里云双11访谈之数据智能

在阿里云双11访谈之数据智能专场中,阿里云交互设计师梓铭、阿里云人工智能资深产品运营席嘉和阿里云DataV资深产品运营苇如为大家简单分享了数据智能的应用,介绍了阿里云新近发布的产品ET城市大脑以及它所用到的技术支撑和在其他领域的应用,最后还介绍了双11的具体优惠活动。

2582 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 Shell MaxCompute
|

如何制作可以在 MaxCompute 上使用的 crcmod

之前我们介绍过在 PyODPS DataFrame 中使用三方包。对于二进制包而言,MaxCompute 要求使用包名包含 cp27-cp27m 的 Wheel 包。但对于部分长时间未更新的包,例如 oss2 依赖的 crcmod,PyPI 并未提供 Wheel 包,因而需要自行打包。

3408 0
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 流计算
|

通过WebUI查看Structured Streaming作业统计信息

前言 从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。

2554 0
|
资源调度 分布式计算 大数据
|

面向大数据与云计算调度挑战的阿里经济体核心调度系统—Fuxi 2.0全揭秘

随阿里经济体和阿里云丰富的业务需求(尤其是双十一)和磨练,伏羲的内涵不断扩大,从单一的资源调度器(对标开源系统的YARN)扩展成大数据的核心调度服务,覆盖数据调度(Data Placement)、资源调度(Resouce Management)、计算调度(Application Manager)、和本地微(自治)调度(即正文中的单机调度)等多个领域,并在每一个细分领域致力于打造超越业界主流的差异化能力。

4172 1
来自: 大数据计算 MaxCompute  版块
|
SQL 分布式计算 Java
|

MaxCompute_UDF_开发指南

本文将介绍Java / Python UDF 如何使用新建工程,添加代码,打包,上传资源包和注册方法,对初次接触的用户提供帮助。

4958 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute SQL
|

MaxCompute 最新特性介绍2019年8月版

距离上一次MaxCompute新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute不断地在增加新的功能和特性,比如参数化视图、UDF支持动态参数、支持分区裁剪、生成建表DDL语句功能等功能都已经得到了广大开发者的广泛使用。

3011 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute Java
|

这样才能正确解锁MaxCompute客户端

飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。

3821 0
来自: 大数据计算 MaxCompute  版块
|
新零售 人工智能 分布式计算
|

赋能数据处理能力 阿里云MaxCompute助企业洞察市场

阿里云在上月中,就将MaxCompute大数据计算服务向香港市场开放上线,此前该服务已先后于中国大陆及新加坡推出。 阿里巴巴集团旗下电子商务平台最大特点及优势,在于其平台上的人工智能及大数据处理能力,可以洞察消费者的需要,并因不同人的偏好而提供个性化设定,大大提升消费者体验,并可为商家反馈重要的市场数据,从而精准去计划市场策略。

2215 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 新零售 人工智能
|

阿里云机器学习PAI征文大赛正式启动

征文大赛奖品丰厚

2478 0
来自: 人工智能平台PAI  版块
|
流计算 API SQL
|

修改代码150万行!与 Blink 合并后的 Apache Flink 1.9.0 究竟有哪些重大变更?

早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎 Blink 进行开源并向 Apache Flink 贡献代码。Flink 1.9.0 版本在结构上有重大变更,修改代码达 150 万行,本文将梳理 Flink 1.9.0 中非常值得关注的重大变更与新增功能特性。

4554 0
来自: 实时计算 Flink  版块
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第57期

ECM功能上线北京region,用户可以通过EMR-3.2.0版本创建新集群体验,ECM提供组件的配置修改/起停等操作

2303 0
|
流计算 API Scala
|

Flink SQL 系列 | 5 个 TableEnvironment 我该用哪个?

本文为 Flink SQL 系列文章的第二篇,前面对 Flink 1.9 Table 新架构及 Planner 的使用进行了详细说明,本文详细讲解 5 个 TableEnvironment 及其适用场景,并介绍 Flink 社区对 TableEnvironment 的未来规划。

5869 1
来自: 实时计算 Flink  版块
|
SQL 机器学习/深度学习 运维
|

必看!Apache Flink 运维&实战系列直播,揭秘生产环境技术难点

随着 Flink 社区的快速发展,其技术也逐渐走向成熟。在 2019 年,国内已经有大量的本土互联网公司开始采用 Apache Flink 作为主流的实时计算解决方案。同时,在全球范围内,优步、网飞、微软和亚马逊等国际互联网公司也逐渐开始使用 Apache Flink。

4225 0
来自: 实时计算 Flink  版块
|
分布式计算 DataWorks TensorFlow
|

MaxCompute Mars 完全指南

Mars 能利用并行和分布式技术,加速 Python 数据科学栈,包括 numpy、pandas 和 scikit-learn。同时,也能轻松与 TensorFlow、PyTorch 和 XGBoost 集成。

4041 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 监控 Spark
|

TalkingData的Spark On Kubernetes实践

本文整理自talkingdata云架构师徐蓓的分享,介绍了Spark On Kubernetes在TalkingData的实践。

2853 0
|
算法
|

ALS算法实现用户音乐打分预测

很多人在决定是否看一部电影之前都会去豆瓣看下评分作为参考,看完电影也会给一个自己的分数。每个人对每个商品或者电影或是音乐都有一个心理的分数,这个分数标明用户是否对这个内容满意。作为内容的提供方,如果可以预测出每个用户对于内容的心理分数,就能更好的理解用户,并给用户提供好的内容推荐。

3761 2
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 分布式计算 大数据
|

开源大数据周刊-第58期

阿里云E-Mapreduce动态: EMR即将在新的版本中支持本地盘机型,大幅降低集群的存储成本。 资讯 借助亚马逊AWS Sno大数据如何改变垂直电商? 垂直电商仍旧将是平台电商们在未来极其有力的竞争者和合作者。

2319 0
|
机器学习/深度学习 存储 人工智能
|

揭秘工业级大规模GNN图采样

互联网下的图数据纷繁复杂且规模庞大,如何将GNN应用于如此复杂的数据上呢?答案是图采样。结合阿里巴巴开源的GNN框架Graph-Learn(https://github.com/alibaba/graph-learn),本文重点介绍GNN训练过程中的各种图采样和负采样技术。

3539 0
来自: 人工智能平台PAI  版块