专访佰腾科技大数据团队,谈专利大数据领域的挑战与实践

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 专利信息的『大数据』与其它领域的『大数据』多少有些不同,虽然全球专利信息的总量仅在1亿多条,但是每条专利信息要分析获取的数据维度目前就多达200多项,实际处理的数据量在百亿级别。
11+大数据行业应用实践请见 https://yq.aliyun.com/activity/156 ,同时这里还有流计算、机器学习、性能调优等技术实践。 此外,通过 Maxcompute及其配套产品 ,低廉的大数据分析仅需几步,详情访问 https://www.aliyun.com/product/odps ;更多精彩内容参见 云栖社区大数据频道 https://yq.aliyun.com/big-data  。

江苏佰腾科技有限公司成立于2006年,是一家专业从事知识产权服务的高科技服务企业,国内知名的知识产权服务机构,江苏省最大的民营知识产权综合服务机构。 佰腾科技以专利信息应用和专利咨询服务为核心,面向国内外用户提供专利信息检索、专利大数据应用开发、专利代理服务、专利预警分析、专利战略研究、知识产权贯标辅导、知识产权管理、专利技术成果转化交易等服务,为客户提供知识产权、科技创新的整体解决方案。 

佰腾科技的专利信息检索平台(专利探索者)已经持续研发了10年,是目前国内最知名的免费面向公众服务的大数据应用平台,为中国专利事业的发展做出了很多的突出贡献。  近日,笔者有幸与佰腾科技大数据团队进行交流,就专利大数据领域现状与实践进行了探讨。

以下为实录:

YQ:贵公司主要使用大数据来解决哪些方面的问题,想借助大数据取得哪些成果? 

佰腾科技大数据团队:佰腾科技专注为客户提供最好的专利信息和技术创新服务,我们所依赖的核心就是专利信息的数据挖掘,以及与专利信息相关的其它延展信息的数据挖掘,如全球期刊文献、法律诉讼、企业信息等。专利信息的『大数据』与其它领域的『大数据』多少有些不同,虽然全球专利信息的总量仅在1亿多条,但是每条专利信息要分析获取的数据维度目前就多达200多项,实际处理的数据量在百亿级别。同时,针对各种客户的不同需求,我们还要基于这些数据实现数百种的分析模型和方法,从中挖掘出专利信息的深层次价值。 

在我们的业务处理场景中,我们需要经常性的对原始数据进行维度的挖掘和测试,以确保数据维度满足客户分析应用的要求。以前,我们在自建的环境中进行一次回归数据处理要花费近一周的时间,如果中途发现错误还会导致大量的时间浪费,效率非常低下。而在使用了数加大数据基础服务之后,这个时间缩短到了小时级别,数据回归处理的风险大幅下降,数据分析工程师可以在更快的时间内验证分析模型和方法,效率提升非常显著。 

另外,随着我们对专利信息维度挖掘的深入,我们对于信息挖掘的需求正在从『文字表述』向『逻辑概念』转移,比如我们希望从专利信息中挖掘出技术概念并发现它们之间的关系,这样我们就能帮助客户更好的分析技术发展的趋势和热点。目前我们正在推进专利信息深度挖掘技术的研发,借助数加平台的机器学习以及数据分析能力,为我们的客户提供更加精准、更加全面、更个性化的专利大数据应用服务。 

YQ:在大数据实践的过程中,你们业务场景中的主要挑战有? 

佰腾科技大数据团队:我们的挑战主要来自于三个方面: 
  1. 专利大数据处理的维度内容越来越多,数据量也越来越大,我们原有的以文本搜索为核心的数据框架平台亟待升级,未来我们需要把数加的能力融合到我们的新数据框架平台上,实现对数据的获取、清洗、挖掘、分析、应用的全周期的数据管理、监控和开发支撑。 
  2. 专利大数据的深度挖掘越来越需要依赖新的数据挖掘技术,比如文本聚类、机器学习、图像识别等,而我们不可能建立并拥有研发这些技术的专业团队,我们认为数加平台可以在我们的领域内给予针对性的能力支撑。 
  3. 专利大数据的应用是一个实践性非常强的领域,随着客户应用需求的不断提升, 我们需要不断更新分析和展示数据结果的模型和方法,这里面不仅有提升数据处理效率的问题,也有提升数据分析应用能力的问题。 
YQ:阿里云数加的哪些特性帮助你们解决了这些问题?

佰腾科技大数据团队:数加平台的MaxCompute 解决了我们数据存储量大的问题,保证了数据的安全性和完整性;平台的任务开发功能很好的解决了数据处理过程中流程标准化的问题,可以将任务托管后自动化执行,解放我们双手;分布式的框架结构解决了多任务的并发处理问题, 提高了任务处理的速度,实现了数据价值的快速挖掘,避免了我们自己开发系统存在的诸多不稳定问题;机器学习平台降低了算法的学习成本,也可利用既有的数据模型算法解决数据挖掘过程中的问题。 我们使用的服务有:数据存储、数据处理、流程任务、机器学习。 

5a74a9fc3fa2c633c1ae22f2c781c5da9605d856

使用数加平台后,我们的数据存储和处理效率有了大幅提升。在我们自建的环境里进行一次回归数据处理需要7 天时间,而使用数加平台处理只需要3~6 个小时。这些效率的提升可以缩短我们数据分析应用产品的研发周期,并能更好的提高这些产品的需求符合度。 

YQ:当初是什么原因促使您选择阿里云数加产品的?
 
佰腾科技大数据团队:
  1. 我们自建环境储存数据的代价高昂,不利于大量数据的安全存储和快速处理。 
  2. 我们自建环境和原有数据框架平台对大数据处理的速度很慢,不能适应业务需求的快速变化。 
  3. 我们原有的数据框架平台已使用多年,技术比较落后,已经不能很好的支撑新的大数据研发需求。 
  4. 阿里云在国内大数据技术方面处于领先地位,也是最早进行大数据云化的平台,我们信任阿里云数加平台的能力。 
YQ:对比云服务和自建大数据基础设施,你们是怎么衡量的? 

佰腾科技大数据团队:云服务最大的特点就是只管使用服务,不需要关心底层技术架构、安全性、可靠性、稳定性等方面的问题。自建大数据基础设施需要采购和维护大量硬件设备,部署和配置复杂的系统环境,需要耗费大量资源保证服务的持续、稳定运行,并且对于运维人员的要求会更高。 

对于我们专利大数据处理业务来讲,云服务是我们整个业务系统依赖的重要基础,能帮助我们节省大量的基础建设费用。同时,我们也会根据自身业务的需求,对云服务进行进一步的开发,形成最有利于自身业务发展的大数据分析应用平台。 

YQ:你们未来还想借助大数据实现的场景有?阿里云数加是否能满足你们的需求?如果没有,期待有哪些? 

佰腾科技大数据团队:我们希望借助阿里云数加平台打造面向专利大数据分析应用的领域性大数据平台,并利用大数据技术实现对专利信息数据价值的深度挖掘,能帮助客户及时掌握全球技术发展的动态和热点,提高企业技术创新和知识产权保护的效率和成效。 

目前我们已经将基础数据处理和部分数据挖掘的任务放在阿里云数加平台上完成,我相信数加平台会不断发展并支撑我们更多的大数据业务需求,让我们更多的大数据工作逐步实现云化。 
我们期待阿里云数加平台能在文本数据挖掘、图像数据识别、数据关联分析等方面给予更多的能力支撑,助力专利大数据分析应用领域的快速发展。 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
SQL 分布式计算 运维
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
|
3月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
95 4
|
1天前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
12 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
8天前
|
消息中间件 运维 大数据
道旅科技借助云消息队列 Kafka 版加速旅游大数据创新发展
阿里云云消息队列 Kafka 版 Serverless 系列凭借其卓越的弹性能力,为道旅科技提供了灵活高效的数据流处理解决方案。无论是应对突发流量还是规划长期资源需求,该方案均能帮助企业实现资源动态调整和成本优化,同时保障业务的高可用性和连续性。
|
2月前
|
存储 消息中间件 分布式计算
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
|
2月前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
3月前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
112 0
|
3月前
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
77 0
|
3月前
|
SQL 消息中间件 分布式计算
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
76 0
|
5月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决

相关产品

  • 云原生大数据计算服务 MaxCompute