专访佰腾科技大数据团队,谈专利大数据领域的挑战与实践-阿里云开发者社区

开发者社区> 百遇> 正文

专访佰腾科技大数据团队,谈专利大数据领域的挑战与实践

简介: 专利信息的『大数据』与其它领域的『大数据』多少有些不同,虽然全球专利信息的总量仅在1亿多条,但是每条专利信息要分析获取的数据维度目前就多达200多项,实际处理的数据量在百亿级别。
+关注继续查看
11+大数据行业应用实践请见https://yq.aliyun.com/activity/156,同时这里还有流计算、机器学习、性能调优等技术实践。此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps;更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data 。

江苏佰腾科技有限公司成立于2006年,是一家专业从事知识产权服务的高科技服务企业,国内知名的知识产权服务机构,江苏省最大的民营知识产权综合服务机构。 佰腾科技以专利信息应用和专利咨询服务为核心,面向国内外用户提供专利信息检索、专利大数据应用开发、专利代理服务、专利预警分析、专利战略研究、知识产权贯标辅导、知识产权管理、专利技术成果转化交易等服务,为客户提供知识产权、科技创新的整体解决方案。 

佰腾科技的专利信息检索平台(专利探索者)已经持续研发了10年,是目前国内最知名的免费面向公众服务的大数据应用平台,为中国专利事业的发展做出了很多的突出贡献。 近日,笔者有幸与佰腾科技大数据团队进行交流,就专利大数据领域现状与实践进行了探讨。

以下为实录:

YQ:贵公司主要使用大数据来解决哪些方面的问题,想借助大数据取得哪些成果? 

佰腾科技大数据团队:佰腾科技专注为客户提供最好的专利信息和技术创新服务,我们所依赖的核心就是专利信息的数据挖掘,以及与专利信息相关的其它延展信息的数据挖掘,如全球期刊文献、法律诉讼、企业信息等。专利信息的『大数据』与其它领域的『大数据』多少有些不同,虽然全球专利信息的总量仅在1亿多条,但是每条专利信息要分析获取的数据维度目前就多达200多项,实际处理的数据量在百亿级别。同时,针对各种客户的不同需求,我们还要基于这些数据实现数百种的分析模型和方法,从中挖掘出专利信息的深层次价值。 

在我们的业务处理场景中,我们需要经常性的对原始数据进行维度的挖掘和测试,以确保数据维度满足客户分析应用的要求。以前,我们在自建的环境中进行一次回归数据处理要花费近一周的时间,如果中途发现错误还会导致大量的时间浪费,效率非常低下。而在使用了数加大数据基础服务之后,这个时间缩短到了小时级别,数据回归处理的风险大幅下降,数据分析工程师可以在更快的时间内验证分析模型和方法,效率提升非常显著。 

另外,随着我们对专利信息维度挖掘的深入,我们对于信息挖掘的需求正在从『文字表述』向『逻辑概念』转移,比如我们希望从专利信息中挖掘出技术概念并发现它们之间的关系,这样我们就能帮助客户更好的分析技术发展的趋势和热点。目前我们正在推进专利信息深度挖掘技术的研发,借助数加平台的机器学习以及数据分析能力,为我们的客户提供更加精准、更加全面、更个性化的专利大数据应用服务。 

YQ:在大数据实践的过程中,你们业务场景中的主要挑战有? 

佰腾科技大数据团队:我们的挑战主要来自于三个方面: 
  1. 专利大数据处理的维度内容越来越多,数据量也越来越大,我们原有的以文本搜索为核心的数据框架平台亟待升级,未来我们需要把数加的能力融合到我们的新数据框架平台上,实现对数据的获取、清洗、挖掘、分析、应用的全周期的数据管理、监控和开发支撑。 
  2. 专利大数据的深度挖掘越来越需要依赖新的数据挖掘技术,比如文本聚类、机器学习、图像识别等,而我们不可能建立并拥有研发这些技术的专业团队,我们认为数加平台可以在我们的领域内给予针对性的能力支撑。 
  3. 专利大数据的应用是一个实践性非常强的领域,随着客户应用需求的不断提升, 我们需要不断更新分析和展示数据结果的模型和方法,这里面不仅有提升数据处理效率的问题,也有提升数据分析应用能力的问题。 
YQ:阿里云数加的哪些特性帮助你们解决了这些问题?

佰腾科技大数据团队:数加平台的MaxCompute 解决了我们数据存储量大的问题,保证了数据的安全性和完整性;平台的任务开发功能很好的解决了数据处理过程中流程标准化的问题,可以将任务托管后自动化执行,解放我们双手;分布式的框架结构解决了多任务的并发处理问题, 提高了任务处理的速度,实现了数据价值的快速挖掘,避免了我们自己开发系统存在的诸多不稳定问题;机器学习平台降低了算法的学习成本,也可利用既有的数据模型算法解决数据挖掘过程中的问题。 我们使用的服务有:数据存储、数据处理、流程任务、机器学习。 

5a74a9fc3fa2c633c1ae22f2c781c5da9605d856

使用数加平台后,我们的数据存储和处理效率有了大幅提升。在我们自建的环境里进行一次回归数据处理需要7 天时间,而使用数加平台处理只需要3~6 个小时。这些效率的提升可以缩短我们数据分析应用产品的研发周期,并能更好的提高这些产品的需求符合度。 

YQ:当初是什么原因促使您选择阿里云数加产品的?
 
佰腾科技大数据团队:
  1. 我们自建环境储存数据的代价高昂,不利于大量数据的安全存储和快速处理。 
  2. 我们自建环境和原有数据框架平台对大数据处理的速度很慢,不能适应业务需求的快速变化。 
  3. 我们原有的数据框架平台已使用多年,技术比较落后,已经不能很好的支撑新的大数据研发需求。 
  4. 阿里云在国内大数据技术方面处于领先地位,也是最早进行大数据云化的平台,我们信任阿里云数加平台的能力。 
YQ:对比云服务和自建大数据基础设施,你们是怎么衡量的? 

佰腾科技大数据团队:云服务最大的特点就是只管使用服务,不需要关心底层技术架构、安全性、可靠性、稳定性等方面的问题。自建大数据基础设施需要采购和维护大量硬件设备,部署和配置复杂的系统环境,需要耗费大量资源保证服务的持续、稳定运行,并且对于运维人员的要求会更高。 

对于我们专利大数据处理业务来讲,云服务是我们整个业务系统依赖的重要基础,能帮助我们节省大量的基础建设费用。同时,我们也会根据自身业务的需求,对云服务进行进一步的开发,形成最有利于自身业务发展的大数据分析应用平台。 

YQ:你们未来还想借助大数据实现的场景有?阿里云数加是否能满足你们的需求?如果没有,期待有哪些? 

佰腾科技大数据团队:我们希望借助阿里云数加平台打造面向专利大数据分析应用的领域性大数据平台,并利用大数据技术实现对专利信息数据价值的深度挖掘,能帮助客户及时掌握全球技术发展的动态和热点,提高企业技术创新和知识产权保护的效率和成效。 

目前我们已经将基础数据处理和部分数据挖掘的任务放在阿里云数加平台上完成,我相信数加平台会不断发展并支撑我们更多的大数据业务需求,让我们更多的大数据工作逐步实现云化。 
我们期待阿里云数加平台能在文本数据挖掘、图像数据识别、数据关联分析等方面给予更多的能力支撑,助力专利大数据分析应用领域的快速发展。 

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
专访佰腾科技大数据团队,谈专利大数据领域的挑战与实践
专利信息的『大数据』与其它领域的『大数据』多少有些不同,虽然全球专利信息的总量仅在1亿多条,但是每条专利信息要分析获取的数据维度目前就多达200多项,实际处理的数据量在百亿级别。
5142 0
重磅干货免费下载!阿里云RDS团队论文被数据库顶会SIGMOD 2018收录
来自阿里云RDS团队的论文“**TcpRT: Instrument and Diagnostic Analysis System for Service Quality of Cloud Databases at Massive Scale in Real-time” (TcpRT:面向大规模海量云数据库的服务质量实时采集与诊断系统)**被数据库顶会SIGMOD 2018收录。
10070 0
清华崔鹏团队KDD论文一作解读:在大数据背景下进行因果效应评估
上述图表只汇报了小部分结果,更多结果详见我们论文。从上述结果中,我们发现,基于 Directly Estimator 在所有 setting 下都失败了,这是因为该方法忽略了数据中存在的 confounding bias;基于 propensity score 的方法
1784 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
3975 0
小姐姐亲身体验:在阿里数据库科研团队实习是种怎样的体验?
“对于有志于数据库领域研究的小伙伴,这里是最好的学习和工作平台。 ”
1235 0
企业打开云HBase的正确方式,来自阿里云云数据库团队的解读
一、HBase的历史由来 HBase是一个开源的非关系型分布式数据库(NoSQL),基于谷歌的BigTable建模,是一个高可靠性、高性能、高伸缩的分布式存储系统,使用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
3890 0
+关注
38
文章
30
问答
来源圈子
更多
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载