企查查支撑8000万+企业数据的大数据平台技术选型与实现

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。
11+大数据行业应用实践请见 https://yq.aliyun.com/activity/156 ,同时这里还有流计算、机器学习、性能调优等技术实践。 此外,通过 Maxcompute及其配套产品 ,低廉的大数据分析仅需几步,详情访问 https://www.aliyun.com/product/odps ;更多精彩内容参见 云栖社区大数据频道 https://yq.aliyun.com/big-data  。

企查查是苏州朗动网络科技公司旗下的一款核心企业信息查询工具,立足于企业征信的相关信息整合,经过深度学习、特征抽取和使用图构建技术,为用户提供全面、可靠、透明的数据信息。企查查是最早一批的在线企业信息查询工具,早在2014年李克强总理说要开放国家工商大数据库的时候,企查查最早抓住了这一批数据,通过互联网技术以及通过自身的分析能力建立了大数据平台,从而为用户提供企业信息查询服务。企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。

通过企查查,用户能够实时查询企业相关的工商登记信息,年报,股东信息,投资人信息,涉诉,失信,拥有商标,知识产权,企业证书,主要人员信息,变更记录等信息。企查查用户人群囊括金融、征信、法律、行政等行业,被众多法律界和金融界人士、求职者以及政府部门高度认可和广泛使用。目前企查查登陆注册用户总数已经突破1800万,部分产品及服务已经上架阿里云数据市场,很受客户欢迎。

企查查的数据分析挑战

企查查通过构建大数据平台,提供给用户在线查询、在线分析以及全方面的企业画像功能,从而让用户方便快捷的查询企业全方位多维度的信息。企查查在业务快速发展过程中面临以下挑战:

1.数据量爆发式增长。企查查最早成立的时候采用单机的架构,使用的是SQL  Server关系型数据库,当时的数据量大概在一两千万条数据,起初SQL Server能够满足计算及查询分析的需求。后来,随着业务的快速增长,企业数据已经达到九千万条,并且企业的相关数据已经达到将近十亿条的规模,在这个情况下,原来的关系型数据库已经无法满足需要,迫切需要大数据平台的支撑。

2.大并发量、大数据量查询的快速响应能力。“在早期的时候,当用户并发量达到每秒一千的时候,数据库就直接瘫痪掉了。”企查查创始人兼CTO陈德强回忆道。作为企业信息查询服务提供商,查询能力必然是企查查的核心服务能力,因此选用高性能大数据平台的迫在眉睫。
3.“找关系”,企业与人、企业与企业之间复杂的关系分析。“企查查拥有八千多万家企业数据,每家企业有大量的股东,高管,那么怎么样通过数据分析把他们之间的关系找出来,之前企查查通过关系型数据库去逐个逐个的搜索,逐个逐个的写代码,非常复杂而且响应非常慢。” 陈德强说道。

4.数据安全不可控。企查查之前采用自建的方式搭建大数据平台,数据安全存在以下问题:依然会遇到一些数据泄露或者数据问题;使用自己的服务器、自己的机房,也会遇到一些瓶颈,如突发事件怎么去处理,那个机房、那个服务器被攻击了,安全出现问题怎么解决等;遇到大规模并发攻击时素手无策,“我们之前也遇到过大规模并发攻击:在早期的时候,我们使用的服务器不多,但是并发量在瞬间就达到了原来的50倍,那时候我们服务器直接就瘫痪掉了,由于自己的服务器、机房没办法快速扩容,我们只有干巴巴的在那里等。”陈德强描述道。

5.弹性可扩展。面对偶发性的数据量及计算量激增的情况,自建方式很难快速低成本的进行按需购买及弹性扩容。

企查查的技术选型思考

之前,企查查使用自建机房的方式搭建大数据平台,在无锡自己的机房中购买了将近20台服务器,然后搭建了整套的Hadoop环境。当时,会遇到各种各样的问题,包括扩容和计算能力不足等问题。数据量大的情况下企查查对计算性能的要求较高,但是之前遇到的一个复杂模型的计算分析,需要大量的时间,这种情况下如果在自己机房里面进行扩容,需要自行购买机器,时间成本及费用非常之高,难以承受。之后,当企查查将这块功能移到数加平台上之后,直接通过数加平台的可扩容机制,通过弹性计算很快的就把原来需要将近一个星期的计算缩短到一个小时内完成,解决了原来线下没法完成的工作。因此,自建的机房已经是很难去满足企查查的业务弹性需求,而阿里云数加平台能够满足这块的需求。

另外,阿里云数加平台作为一站式的大数据平台,还帮助企查查解决了数据仓库的问题,企查查的数据分散在各个不同数据库里面,有MySQL、SQL Server、MongoDB等,通过数加的数据汇总,将各个平台的数据全部汇总到数加的数据中心里面,之后再通过数加的业务分析功能,将这些数据根据业务模型及业务需求进行离线计算,分析出结果存入到业务数据库中。数加平台还引入了各种算法,包括人工智能的算法、图形算法等,帮助企查查进行数据分析使用。这些功能如果是自行开发的方式,需要大量的人力投入,而通过数加平台能够很快的使用提供的接口,很快就能实现这些功能,包括企业画像功能,也是使用数加的接口实现的。

企查查的大数据平台架构

企查查基于企业征信的相关信息整合,经过深度学习、特征抽取和使用图构建技术,为用户提供全面、可靠、透明的数据信息,可通过SaaS服务或API的方式提供给用户使用。企查查的大数据平台架构如下:

65ae9ab8551d3f09fe229be895e535af658da947

  • 数据源:互联网爬取数据、第三方合作数据。部分数据更新任务为用户触发。
  • 数据抓取:通过网络爬虫爬取数据并进行初步的清洗并入库,
  • 数据存储与处理:数据入库后存放在MongoDB、RDS(MySQL)中,然后数据同步到数加平台大数据计算服务MaxCompute中进行离线计算和算法处理,处理结果再同步到RDS(MySQL)中。通过开放搜索(Open Search)连接到RDS(MySQL)提供查询搜索服务。
  • 数据使用:以API的方式提供数据服务。

收益


1. 阿里云数加平台的分布式计算框架,不仅仅能够存储海量数据,还具有分析挖掘的功能,解决了企查查之前普通关系型数据库没法解决的一些技术问题。阿里云数加支持超大规模计算及存储,最大可达EB级别,企查查可以从容应对数据量的爆发式增长。


2. 使用阿里云数加平台之后,通过MaxCompute进行离线计算,同时把计算结果推送到缓存数据库,目前最大可以支撑每秒钟五千次并发,用户使用企查查时,只要输入任意一个关键字,在0.01秒之内就可以返回结果,通过数加平台帮助企查查解决了查询性能的问题。


3.“众里寻他”不再是难题,通过阿里云数加平台,仅需0.01秒就可以从8000万家企业数据中计算出企业与企业之间,企业与人之间复杂的关系,数加平台帮助企查查解决了关系分析的问题。


4. 阿里云数加平台的企业级数据安全控制,让企查查“安枕无忧”。数加平台建立在安全性在业界领先的阿里云上,并集成了最新的阿里云大数据产品,这些大数据产品的性能和安全性在阿里巴巴集团内部已经得到多年的锤炼。数加平台采用了先进的“可用不可见”的数据合作方式,并对数据所有者提供全方位的数据安全服务,数据安全体系包括:数据业务安全、数据产品安全、底层数据安全、云平台安全、接入&网络安全、运维管理安全。“很多数据行业创业公司,他们觉得数据就是企业的资产,因此不愿意把数据放到阿里云上面,因为他们觉得放到阿里云上可能没那么保险,但是我觉得对于创业公司,自建机房和阿里云比起来,阿里云还是更安全。当遇到突发的安全问题,通过阿里云能很容易解决掉,因为阿里云有一整套安全体系。”陈德强说到,“迁移到阿里云之后,当遇到大并发量攻击后出现流量暴涨的时候,我们很快就通过扩容服务器把这个问题解决掉了,对于初创公司,为了应付未来的业务的快速增长,用云平台比自己服务器要更加的可靠,更加的有发展空间。”


5. 阿里云数加平台的弹性有力的支撑了企查查业务的灵活和敏捷性。数加平台最大程度减少了运维,即开即用,避免资源浪费,并且可以最经济的对大数据资源进行调整,灵活快速的响应市场和业务需求变化。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
78993
分享
相关文章
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
43 4
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
96 3
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
64 1
阿里云ODPS:在AI浪潮之巅,铸就下一代智能数据根基
在智能爆炸时代,ODPS正从传统数据平台进化为“AI操作系统”。面对千亿参数模型与实时决策挑战,ODPS通过流批一体架构、多模态处理、智能资源调度等技术创新,大幅提升效率与智能化水平。从自动驾驶到医疗联合建模,从数字孪生到低代码AI开发,ODPS正重塑企业数据生产力,助力全球客户在算力洪流中抢占先机。
61 0
“数据会治病?”——大数据+电子健康记录,到底图啥?
“数据会治病?”——大数据+电子健康记录,到底图啥?
35 0
从数据小白到分析能手:我在 ODPS 的成长之旅
从初出茅庐到独当一面,ODPS 陪我走过了一段特别难忘的旅程。它不仅让我在技术上突飞猛进,还让我对自己更有信心。未来,我肯定还会继续用 ODPS,去挖掘数据里更多的宝藏,创造更多价值。
41 2
在数据浪潮中前行:我与ODPS的实践、思考与展望
在数据驱动决策的时代,企业如何高效处理海量数据成为数字化转型关键。本文结合作者实践,深入解析阿里云自研大数据平台 ODPS 的技术优势与应用场景,涵盖 MaxCompute、DataWorks、Hologres 等核心产品,分享从数据治理到实时分析的落地经验,并展望其在 AI 与向量数据时代的发展前景。
“脏”数据毁一生?教你用大数据清洗术,给数据洗个“澡”!
“脏”数据毁一生?教你用大数据清洗术,给数据洗个“澡”!
118 4

相关产品

  • 云原生大数据计算服务 MaxCompute
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等

    登录插画

    登录以查看您的控制台资源

    管理云资源
    状态一览
    快捷访问