更多云场景实践研究案例,点击这里:
【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽
2014年起,公司积极推进互联网转型,实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司。
2014年起,公司积极推进互联网转型,实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司。
佰腾在专利信息应用上研究多年,一直致力于解决一个问题:让专利信息应用变得大众化。佰腾科技在专利技术创新方面经历了3个阶段,分别是萌芽阶段,应用阶段和大数据阶段。从最初的提供的简单功能如字段检索,分类检索,文本检索,统计分析等慢慢演变到能够提供给相应人员进行检索,形成侵权风险检查、预警分析、分析报告等功能。近几年,由于中国创造及技术创新方面的蓬勃发展,单纯把专利信息的内容简单地拆解出来所能提供的信息已不能满足需求。而是需要帮企业发现技术的热点和空白点,需要通过大数据挖掘、大数据应用进行分析。这个阶段,佰腾科技可以给企业提供专利地图、价值评估、技术体系创新辅助、功效矩阵等功能。
采用的阿里云产品
阿里云大数据平台
阿里云MaxCompute
为什么使用阿里云
目前,专利大数据的业务已经非常复杂,如何利用大数据平台让专利信息应用变得大众化?
借助阿里云大数据平台技术,实现高数据维度的高效存储和高效处理,并实现自动编排,支撑各种需求的应用。
关于 佰腾科技
江苏佰腾科技有限公司是一家从事专利信息应用、专利咨询服务的企业,是国内知名的知识产权服务公司,以佰腾网和专利巴巴为网络平台,面向国内外用户提供知识产权、科技创新整体解决方案。2014年起,公司积极推进互联网转型,实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司,并采用B2B、O2O线上线下相结合的模式为客户提供全方位的、全流程的知识产权一体化服务。
佰腾所面临的挑战
目前,专利大数据的业务已经非常复杂,数据业务场景从个位数增长到十位数。由于业务场景不断增加,佰腾科技数据平台上云之前的结构存在基础架构不稳定,数据更新不及时,平台维护复杂,平台不支持弹性扩展,自荐和维护费用极高等弊端。
另外,数据平台上云前的业务处理流程,按照分布式模型进行抓取,维护成本较高,资源利用率不高。而且早期是单点数据存储结构,无法满足大量的读写并发,降低了数据检查和处理的速度。另外,索引信息和文本信息混合存储,导致数据应用的性能也比较差。
为什么选择阿里云?
佰腾上云的核心问题主要是以下两个方面,
一是大数据的处理能力。这里又包括:(1)上百项数据维度如何高效存储和高效处理?如果这个问题得不到解决,那就没法加快专利信息应用的步伐,没办法满足客户更多的需求;(2)现在的数据维度比较多,处理环节非常多,那么如何实现数据处理流程的自动化编排?
二是数据平台的可扩展问题,架构中的几十个组件都要维护,每有一个客户需求都需要做组件,那么如何快速支撑各种需求的应用?
第一个问题,对应的解决方案一方面是使用MaxCompute平台代替数据库。图中的上方是佰腾科技之前的情况,原始数据处理和数据维度分析都使用了数据库集群,现在将这两部分放入了MaxCompute,这样可以大幅提升整个数据存储和处理的效率。另一个方面,通过使用MaxCompute的任务平台,来编排处理任务。其优势在于(1)MaxCompute任务能访问所有MaxCompute数据资源,与专利数据存储方式完美结合。(2)MaxCompute提供了多种任务类型,以及任务编排方法和工具。(3)把基于MaxCompute表的数据处理写到UDF,UDTF和UDAF中。
然而,使用MaxCompute平台也会遇到一些问题。因为用户自定义函数在沙箱里运行,有一些安全限制,函数若由自己编写,需要尽量避免这些问题。但难免会引用第三方组件包,就可能会触及沙箱限制。佰腾目前尝试的方案有:(1)首先可以修改使用的第三方组件包代码,避免限制。(2)对MaxCompute任务机制进行包装,把会触及到沙箱的代码放到Java的任务里运行,然后通过建立MaxCompute任务,使用MaxCompute提供的SDK,启动MaxCompute的任务实例,等待实例结束后再运行后面的任务。
第二点,如何满足不断增长和变化的数据应用需求?数据处理能力方面的提升需要满足不断增长和变化的数据应用需求,主要从三个方面入手:1)平台架构分层化设计;2)数据维度规范化处理,在大数据平台,数据维度是所有问题的核心,也是解决问题的关键;3)数据维度规范化应用。
在架构方面,上图是佰腾基于阿里云的大数据平台技术架构图,最左边的图像引擎,和文本处理有些不同,但处理方式差不多,中间有RDS,将用于展示的数据单独拿出来,和索引分开,可以提高大数据应用的效率。
专利大数据的云上裂变之路
10年前的数据系统,非常简单。萌芽时期佰腾整体目标是拿下文本信息,做规整处理,以Lucene为核心,提供相应的Search API,完成相应程序。这是非常简单的提供文本检索的应用,1台服务器就能支撑整个系统。目前,专利大数据的业务已经非常复杂,数据业务场景从个位数增长到十位数,可用数据维度从30多项增加到200多项。佰腾不仅仅提供给用户文本检索功能,还有图像检索、特征检索、关联检索,将它们串起来,产生相应的报告;数据应用的深度也已经加大,数据维度的增加使数据处理量翻了数十倍,数据处理的能力已不再满足周期性的数据更新。一开始能做到每个维度都更新,后来随着数据维度的增加,处理不过来,有一些数据维度则会把更新的周期拉长;除了会遇到数据处理和数据应用瓶颈,还要提防各种“数据流氓”。
上云后,佰腾在数据处理能力和平台扩展问题在都得到了根本性的提高。数据的测算之前基于RDS的数据存储,一个维度的数据处理需要2-3天,现在利用MaxCompute平台处理时间缩短到3-6个小时,整个性能提升非常之大;而且,在大量数据处理时,很多时候是处理到80%的时候才会发现数据处理有问题,若处理时间过长,当发现问题时会一切重新开始,浪费的时间非常长。所以在这个场景下,MaxCompute的性能非常可靠。
上图是佰腾上云之后的大数据处理流程,比之前的数据处理流程简单很多。目前图上的流程都实现了自动化编排,一键式处理就可以完全编排,非常高效。
此外,
佰腾基于阿里云大数据平台技术的构建了成熟稳定架构,可以流程化的处理数据,平台维护简洁高效,且能够自动的弹性化伸缩。