【云栖号案例 | 互联网】佰腾科技上云 专利大数据的云上裂变之路

本文涉及的产品
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
对象存储 OSS,20GB 3个月
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 佰腾科技急需大数据的处理能力和数据平台的扩展性,快速支撑有需求的应用。上云后提升数据存储和处理的效率、实现自动化编排,一键式处理,很高效。

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

公司简介

我们江苏佰腾科技有限公司是一家从事专利信息应用、专利咨询服务的企业,是国内知名的知识产权服务公司,以佰腾网和专利巴巴为网络平台,面向国内外用户提供知识产权、科技创新整体解决方案。2014年起,我们公司积极推进互联网转型,实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司,并采用B2B、O2O线上线下相结合的模式为客户提供全方位的、全流程的知识产权一体化服务。

业务痛点

  • 急需大数据的处理能力。

1.上百项数据维度的高效存储和高效处理是我们公司目前急需解决的问题。提升了大数据的处理能力,才能加快专利信息应用的步伐、满足客户更多的需求。
2.现在的数据维度比较多,处理环节非常多,需要实现数据处理流程的自动化编排。

  • 数据平台的可扩展问题。
    我们公司的专利巴巴产品架构中几十个组件都要维护,每有一个客户需求都需要做组件,需要解决数据平台的扩展性,以便快速支撑各种需求的应用。

解决方案

图 1. 专利巴巴业务架构

image

  • 数据处理能力:

1.使用MaxCompute平台代替数据库。我们上云之前的原始数据处理和数据维度分析都使用了数据库集群,现在将这两部分放入了MaxCompute,大幅提升整个数据存储和处理的效率。
2.通过使用MaxCompute的任务平台,来编排处理任务。数据都存在MaxCompute表里,因此可以定义MaxCompute函数,访问表里的内容,并进行相应处理。Shell任务对原始数据进行数据包拆解,拆包后把数据放到MaxCompute,然后通过SQL任务对数据维度进行拆解和分析,这时会用到定义的MaxCompute函数,最后还可以调用一个Shell任务,对数据维度索引,供上层应用使用。

  • 数据应用需求:

1.平台架构分层化设计。按照专利大数据的处理流程和职责明确做了设计,核心是数据维度数据库。

1)数据获取层:负责从数据源拉取数据,检验数据的完整性。
2)数据处理层:对原始数据进行数据维度的挖掘。
3)数据应用层:对数据维度进行各类索引以便应用。
4)数据服务层:负责对外提供统一的数据服务接口,保障服务质量。
5)数据管控层:负责对整个数据平台进行运行监控。

2.数据维度规范化处理。
我们对于数据维度做了大量的规范性要求:

1)为每个数据维度明确其应用目标。
2)明确数据维度的数据样式规范。
3)明确数据维度的质量标准。

3.数据维度规范化应用。

1)引擎组件:各类引擎组件用不同的方式对数据维度进行编码索引,并提供各种特性的数据应用功能。
2)模型系统:对引擎组件的能力进行编排,实现可重用的数据分析能力,提高数据分析应用的复杂度。

上云价值

  • 数据的测算之前基于RDS的数据存储,一个维度的数据处理需要2-3天,现在处理时间缩短到3-6个小时,整个性能提升非常之大;而且,在大量数据处理时,很多时候是处理到80%的时候才会发现数据处理有问题,若处理时间过长,当发现问题时会一切重新开始,浪费的时间非常长。所以在这个场景下,MaxCompute的性能非常可靠。
  • 上云之后的大数据处理流程比之前的流程简单很多。所有数据处理流程都实现了自动化编排,一键式处理就可以完全编排,非常高效。

相关产品

  • 大数据计算服务 · MaxCompute

MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页

  • 云服务器ECS

云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。
更多关于云服务器ECS的介绍,参见云服务器ECS 产品详情页

  • 云数据库RDS MySQL版

MySQL 是全球最受欢迎的开源数据库之一,作为开源软件组合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一环,广泛应用于各类应用场景。
更多关于云数据库RDS MySQL版的介绍,参见云数据库RDS MySQL版产品详情页

  • 数据传输服务DTS

数据传输服务(Data Transmission Service) DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。
更多关于数据传输服务DTS的介绍,参见数据传输服务DTS产品详情页

  • 对象存储OSS

阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于 99.9999999999%(12 个 9),服务设计可用性(或业务连续性)不低于 99.995%。
更多关于对象存储OSS的介绍,参见对象存储OSS产品详情页

【云栖号在线课堂】每天都有产品技术专家分享!
在线课堂地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
29天前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
22 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
26天前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
25 1
|
30天前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
37 3
|
29天前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
30 1
|
30天前
|
消息中间件 分布式计算 druid
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
49 1
|
29天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
8天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
42 1
|
30天前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
46 3
|
2天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
10 3
|
2天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
12 2