借助数加,原来需要2-3天的单维度数据处理时间,目前仅需3-6小时,研发周期更短,产品需求符合度更高。

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: “在原来自建的环境里进行一个维度的数据处理大约需要 2-3天时间,而使用数加平台处理相同数据只需要 3-6 个小时。这些效率的提升可以缩短数据分析应用产品的研发周期,并能更好的提高这些产品的需求符合度。


“在原来自建的环境里进行一个维度的数据处理大约需要 2-3天时间,而使用数加平台处理相同数据只需要 3-6 个小时。这些效率的提升可以缩短数据分析应用产品的研发周期,并能更好的提高这些产品的需求符合度。”-CTO 许鹏

关于江苏佰腾

江苏佰腾科技有限公司(以下简称“佰腾”)成立于2012年,是一家专业从事知识产权服务的高科技服务企业,国内知名的知识产权服务机构,江苏省最大的民营知识产权综合服务机构。佰腾科技以专利信息应用和专利咨询服务为核心,面向国内外用户提供专利信息检索、专利大数据应用开发、专利代理服务、专利预警分析、专利战略研究、知识产权贯标辅导、知识产权管理、专利技术成果转化交易等服务,为客户提供知识产权、科技创新的整体解决方案。佰腾科技的专利信息检索平台(专利探索者)已经持续研发了 10 年,是目前国内最知名的免费面向公众服务的大数据应用平台,为中国专利事业的发展做出了很多的突出贡献。
2014年起,佰腾实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,使公司转型为知识产权领域内的互联网公司,并采用B2B、O2O线上线下相结合的模式为客户提供全方位的、全流程的知识产权一体化服务。用互联网的思维和技术来改造传统的知识产权行业,在这个过程中,大数据技术的应用是佰腾科技最重要的手段之一。佰腾在专利信息应用上研究多年,一直致力于解决一个问题:让专利信息应用变得大众化。公司累计服务企业达120000多家,其中上市公司560多家。

挑战

佰腾科技致力于为客户提供最好的专利信息和技术创新服务。近年来,一些企业,特别是出口型企业开始慢慢认识到,不仅要在技术上做突围,同时也要构筑自己的专利壁垒,因此就一定需要创新。对企业来讲,创新投入的费用非常大,因此要找捷径,了解当前所在行业领域的技术发展程度,迫切需要找到技术的热点和空白点,于是这也就成为了佰腾专利信息应用的新的课题,这就要求佰腾不能单纯把专利信息的内容简单地拆解出来,而是需要通过大数据挖掘、大数据应用进行分析。在大数据处理流程中,不仅仅使用专利数据进行数据挖掘,还会更多地引用期刊文献、法律诉讼信息、企业信息,并将其整合。
佰腾之前自建的数据平台已经不能满足大数据挖掘和应用的需求,在以下方面存在巨大的挑战:
1.投入成本过高。“整个平台,自建投入费用过百万,每年的维护也需要差不多十几万,投入非常大。”CTO许鹏讲道。
2.海量数据处理的能力差,不满足周期性的数据更新要求。“专利信息的大数据与其它领域的大数据不同,虽然全球专利信息的总量仅在 1.3 亿多条,但是每条专利信息要分析获取的数据维度目前就多达200多项,实际处理的数据量在100亿多条级别,同时,针对各种客户的不同需求,还要基于这些数据实现数百种的分析模型和方法,从中挖掘出专利信息的深层次价值。当前,专利大数据的业务已经非常复杂,数据业务场景从10年前的个位数增长到十位数,可用数据维度从30多项增加到200多项。”许鹏讲道。佰腾不仅仅提供给用户文本检索功能,还有图像检索、特征检索、关联检索,并将它们串起来,产生相应的报告;数据应用的深度也已经加大,数据维度的增加使数据处理量翻了数十倍,数据处理的能力已不再满足周期性的数据更新。一开始能做到每个维度都更新,后来随着数据维度的增加,处理不过来,有一些数据维度则会把更新的周期拉长。而且,在海量数据处理时,自建系统很多情况下在数据处理到80%的时候才会发现有问题,由于处理时间过长,当发现问题时只能重新开始,浪费的时间非常多,数据的处理周期会成倍拉长。
3. 数据处理和数据应用瓶颈频发。瓶颈主要存在以下3个方面:
• 分布式抓取模型,维护成本大,资源利用率不高;
• 单点数据存储结构,无法满足大量的读写并发,降低了数据检查和数据处理的速度;
• 索引数据和文本数据混合存储,数据应用性能较差。
• 需要分析的数据维度比较多,因此处理环节非常多,数据处理流程异常复杂,流程编排完全靠手工,任务繁重,无法自动化编排。
4.专利大数据的深度挖掘越来越需要依赖新的数据挖掘技术,比如文本聚类、机器学习、图像识别等,而佰腾不可能短时间内建立并拥有研发这些技术的专业团队,迫切需要借助第三方的平台及工具支撑。
5.专利大数据的应用是一个实践性非常强的领域,随着客户应用需求的不断提升,佰腾需要不断更新分析和展示数据结果的模型和方法,不仅有提升数据处理效率的问题,也有提升数据分析应用能力的问题。因此还需要数据平台具有可扩展性,可以快速响应不断变化的客户需求,而之前的平台有几十个组件均需要维护,而每有一个新的客户需求都需要重新做组件。

为什么选择阿里云数加

佰腾之前采用自建的数据平台进行大数据的处理和分析,如上所述,自建大数据基础设施需要采购和维护大量硬件设备,部署和配置复杂的系统环境,需要耗费大量资源保证服务的持续、稳定运行,并且对于运维人员的要求会更高。而且,原有的数据框架平台已使用多年,技术比较落后,在性能和功能上存在很多瓶颈,已经不能很好的支撑新的大数据研发需求。
云服务最大的特点就是只用使用服务,不需要关心底层技术架构、安全性、可靠性、稳定性等方面的问题。而且,对于专利大数据处理业务来讲,云服务是整个业务系统依赖的重要基础,能节省大量的基础建设费用。而且,阿里云数加平台在国内大数据技术方面处于领先地位,也是最早进行大数据云化的平台,因此佰腾决定使用阿里云数加作为大数据平台。同时,也会根据自身业务的需求,对云服务进行进一步的开发,形成最有利于自身业务发展的大数据分析应用平台。

解决方案及架构

随着对专利信息维度挖掘的深入,佰腾对于信息挖掘的需求正在从“文字表述“向“逻辑概念”转移,比如希望从专利信息中挖掘出技术概念并发现它们之间的关系,这样就能帮助客户更好的分析技术发展的趋势和热点。目前,佰腾正在推进专利信息深度挖掘技术的研发,借助数加平台的机器学习以及数据分析能力,为客户提供更加精准、更加全面、更个性化的专利大数据应用服务。基于阿里云的大数据平台技术架构如页面下方架构图所示。
整个平台按照数据业务处理过程中的职能对平台架构进行分层设计:
数据获取层:负责从数据源拉取数据,检验数据的完整性。如图中源数据处理组件所示,现在有1亿3千多万条专利数据,每周的更新量很大,要保证每周的数据都要拉取正确。
数据处理层:负责对原始数据进行数据维度的挖掘。现在200个数据维度,都通过这一层处理,将处理结果放到整体系统的核心—数据维度数据库,主要通过数加平台的MaxCompute作为数据维度数据库并通过Data IDE进行复杂的分布式大数据处理。此外,图像信息存储在OSS中,通过专利图像处理标准化流程,用于后续的数据应用层的图像索引引擎。
数据应用层:负责对数据维度进行各类索引以便应用。如图所示包括全文引擎、图像引擎等,还有关联索引,用于检索专利间的关系。最左边的图像引擎,和文本处理有些不同,但处理方式差不多。
数据服务层:负责对外提供统一的数据服务接口,保障服务质量。如图所示大数据基础服务平台所涵盖的图片服务、检索服务、分析服务和资源服务。
数据管控层:在架构图中未体现,贯穿上下各层,负责对整个数据平台进行运行监控。
此外,架构图中间还有RDS,将用于展示的数据单独拿出来,和索引分开,可以提高大数据应用的效率。
使用的阿里云数加产品有:
• 大规模计算服务(MaxCompute)
• 大数据开发套件(Data IDE)
• 机器学习

收益

1.成本大大降低。使用数加平台后,如上所述,无需基础设施投入,按需付费,而且无需关注运维问题。据统计,目前佰腾整个数加平台的年消费不到原来自建系统年维护费用的1/5。
2. 数加平台的 MaxCompute 解决了数据存储量大的问题,保证了数据的安全性和完整性,数据存储和处理效率有了大幅提升。“在原来自建的环境里进行一个维度的数据处理大约需要 2-3天时间,而使用数加平台处理相同数据只需要 3-6 个小时。这些效率的提升可以缩短数据分析应用产品的研发周期,并能更好的提高这些产品的需求符合度。”许鹏讲道。
3. Data IDE的图形化任务开发功能很好的解决了数据处理过程中流程标准化的问题,可以将任务托管后自动化执行,解放了开发人员双手;分布式的框架结构解决了多任务的并发处理问题,提高了任务处理的速度,实现了数据价值的快速挖掘,避免了自建系统存在的诸多不稳定问题。
4. 上云之后的大数据处理流程,比之前的流程简单很多。所有流程都实现了自动化编排,一键式处理就可以完全编排,非常高效。新流程相比原来的具备以下优势:更高效、更丰富的数据维度挖掘;减少人工介入,降低了成本;全流程、全自动化的数据处理;索引数据和文本数据分离处理,提高数据应用性能。
5.机器学习平台降低了算法的学习成本,也可利用既有的数据模型算法解决数据挖掘过程中的问题。
6. 目前佰腾已经将基础数据处理和部分数据挖掘的任务放在阿里云数加平台上完成,然而更重要的是,阿里云数加一站式大数据平台还可以在文本数据挖掘、图像数据识别、数据关联分析等方面给予佰腾更多的能力支撑,以助力佰腾在专利大数据分析应用领域继续拓展业务并快速发展。

架构图

TB16VadQFXXXXXaXFXXXXXXXXXX-865-743.png

相关文章

https://yq.aliyun.com/articles/72250

https:// yq.aliyun.com/articles/70510

https://yq.aliyun.com/articles/70509

https:// yq.aliyun.com/articles/69333

https://yq.aliyun.com/articles/68211

https://yq.aliyun.com/articles/67275

https://yq.aliyun.com/articles/70359

https://yq.aliyun.com/articles/70353

https://yq.aliyun.com/articles/70412

https://yq.aliyun.com/articles/70347

bba01b493e1c5d904e882b1c380673c6ebe49a98
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
55 8
|
4月前
|
存储 算法 大数据
指标类需求问题之在商品开发和运营过程中,减少指标计算以节省人效要怎么操作
指标类需求问题之在商品开发和运营过程中,减少指标计算以节省人效要怎么操作
|
1月前
|
SQL 存储 算法
优化银行预计算固定查询成实时灵活查询
W银行指标查询系统用于计算和展示各类汇总指标,支持银行经营决策。因数据量庞大,系统采用预计算方式,但随着指标数量激增,预计算方式逐渐成为瓶颈。文章详细介绍了系统面临的挑战及优化方案,包括列式存储、有序归并、多线程计算等技术,最终实现了从明细数据实时计算指标的目标,显著提升了系统性能。
|
2月前
|
分布式计算 DataWorks 算法
关于单次亿级图片素材调度、处理及使用的工程实践总结
作者有幸参与设计和开发了涉及数十亿量级的图片素材调度、处理和索引使用的平台-产业AI素材库,在平台的建设落地过程中,踩了许多坑,也有了一些工程落地上的实践总结,希望分享给大家。
|
4月前
|
存储 监控 Serverless
函数计算发布功能问题之用户在使用主流函数计算产品的日志服务时可能会遇到使用成本的问题如何解决
函数计算发布功能问题之用户在使用主流函数计算产品的日志服务时可能会遇到使用成本的问题如何解决
|
4月前
|
测试技术 持续交付
持续部署的内涵和实施路径问题之发布时间超过8小时会带来的问题如何解决
持续部署的内涵和实施路径问题之发布时间超过8小时会带来的问题如何解决
|
4月前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之怎么查看数据量是否符合预期
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
Java Spring
通用研发提效问题之配置的若干场景下若干方案的变化该如何解决
通用研发提效问题之配置的若干场景下若干方案的变化该如何解决
|
7月前
|
调度 数据处理 运维
公共日历调度及数据筛选:更符合业务场景的数据产出方式!
在证券行业,数据处理和分析是核心任务之一,对于提供决策支持和市场分析至关重要。由于股市的特殊性,不同的市场(如沪深、港股等)拥有各自的交易日历,这意味着在非交易日,如周末或特定节假日,市场是关闭的,不产生任何交易数据。因此,证券行业的数据处理任务需紧密跟随这些交易日历的规律进行调度,以确保数据的准确性和实时性。
119 1
公共日历调度及数据筛选:更符合业务场景的数据产出方式!
|
数据采集 大数据 开发者
离线数据计算-国际查询转换率及其他|学习笔记
快速学习离线数据计算-国际查询转换率及其他
169 0