文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

数芯平台的信息处理架构是什么？

已解决

数芯平台的信息处理架构是什么？

展开

收起

游客lmkkns5ck6auu 2022-08-16 14:58:06 513 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

● 数据来源（注：数据采集成功后统一发布到 DataHub 中）

○ 爬虫：实时的去各大网站、微博、微信等内容平台抓取数据。

○ 从其他机构采集数据。

● 数据处理实时计算订阅 DataHub 然后进行数据处理。数据处理包括两个重要的部分：实时数据流和算法服务 API。

● 实时数据流通过实时计算串起整个实时数据流，总体包括对数据进行清洗、提取目标，整理成结构化的数据，然后按照所需维度对结构化的数据进行聚合。并且要把原始数据、结构化的数据、汇总的结果都发布到下游存储系统中。

○ 数据清洗：对爬虫抓取的数据进行清洗，比如垃圾过滤、文本去重等。这一步通过实时计算提供的 UDX（自定义函数）来调用算法服务 API来完成；

○ 目标提取：从已经完成清洗的数据中抽取出感兴趣的目标，比如抽取实体（人物、地点、事件等），对内容的情感评分，抽取文章关键词等，这一步的目标是从非结构化的文本中抽取结构化的信息；

○ 结果聚合：对已经结构化的数据按维度聚合，比如某事件的按天计数，某新闻的传播热度等。最终把这些聚合信息联合原始信息分别写到下游存储中去。

● 算法服务 API 预先训练好模型，把垃圾过滤、文本去重、实体提取、情感打分、关键词提取等暴露成 API 服务，供实时计算调用。

● 数据存储与服务 RDS 保存聚合数据，OTS 保存原始新闻，ES 对新闻建立索引，提供搜索服务，这三个数据存储直接为最终产品服务。

以上内容摘自《5天入门视觉AI》电子书，点击https://developer.aliyun.com/topic/download?id=31可下载完整版

2022-08-17 16:36:26

赞同展开评论

问答分类：

云原生大数据计算服务 MaxCompute

问答标签：

信息架构架构平台

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

云原生架构下，业务应用与技术平台的关系有何变化？

146

1

0

在云效中，使用buildkit得时候，如何传递参数来制定编译后的平台架构呢？

408

2

0

在云效中想申请一些云效平台的paas和saas演进路线资料包括架构图也行，能帮忙提供一下吗？

244

2

0

阿里实时计算平台在架构演进上有什么变化？

244

1

0

餐道信息科技有限公司的业务架构图和部署架构图主要展示了哪些内容？

211

1

0

玄武实时计算平台的架构是如何设计的？

343

1

0

实时计算平台采用的是什么架构和运行方式？

205

1

0

vPaaS视频应用开发平台在技术架构设计上遵循了哪些原则？

132

1

0

Serverless架构在FaaS平台更新迭代过程中，有哪些重要的路线逐渐清晰？

317

1

0

除了FaaS平台，Serverless架构还包括哪些重要的组成部分？

231

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347743

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

寻找 AI 全能王——阿里云 Data+AI 工程师全球大奖赛正式开启

金融行情系统中，API 接入常见的 5 个工程问题

#Nginx教程 Nginx作为目前最流行的高性能Web服务器和反向代理服务器，凭借其高并发、低内存消耗的特点，被广泛应用于各类生产环境。本文将从零开始，带你快速掌握Nginx的核心配置与实战技巧。

Spark SQL 函数分类导航

大模型长文本处理实践：基于分段提取与结果合并生成结构化摘要

相关解决方案

更多

云上高可用架构

一站式搭建短剧平台

HappyHorse 打造一站式影视创作平台

漫剧工坊：一站式动画创作平台

多模态数据信息提取

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

请问下大数据计算MaxCompute dataworks是否有全局变量？

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

在大数据计算MaxCompute怎么将字符串日期快速转成timestamp类型？

MaxCompute这个yaml资源在生产环境中无法找到,什么原因？

大数据计算MaxCompute failed：odps-0110999怎么办？

关于优化AI交互策略的改进建议——基于用户分层实现工具价值与体验平衡

展开全部

［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

MaxCompute模板与样例

Mars——基于张量的统一分布式计算框架

PyODPS 安装常见问题解决

大数据Workshop：《云数据·大计算：海量日志数据分析与应用》环境准备

[干货]作为大数据入门者，你不得不知道的2017杭州云栖大会

MaxCompute 2.0—从ODPS到MaxCompute

阿里巴巴MaxCompute亮相VLDB2017

[使用初学者]如何快速玩转阿里云大数据计算服务MaxCompute

展开全部

还有其他疑问?