企查查支撑8000万+企业数据的大数据平台技术选型与实现

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。
11+大数据行业应用实践请见 https://yq.aliyun.com/activity/156 ,同时这里还有流计算、机器学习、性能调优等技术实践。 此外,通过 Maxcompute及其配套产品 ,低廉的大数据分析仅需几步,详情访问 https://www.aliyun.com/product/odps ;更多精彩内容参见 云栖社区大数据频道 https://yq.aliyun.com/big-data  。

企查查是苏州朗动网络科技公司旗下的一款核心企业信息查询工具,立足于企业征信的相关信息整合,经过深度学习、特征抽取和使用图构建技术,为用户提供全面、可靠、透明的数据信息。企查查是最早一批的在线企业信息查询工具,早在2014年李克强总理说要开放国家工商大数据库的时候,企查查最早抓住了这一批数据,通过互联网技术以及通过自身的分析能力建立了大数据平台,从而为用户提供企业信息查询服务。企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。

通过企查查,用户能够实时查询企业相关的工商登记信息,年报,股东信息,投资人信息,涉诉,失信,拥有商标,知识产权,企业证书,主要人员信息,变更记录等信息。企查查用户人群囊括金融、征信、法律、行政等行业,被众多法律界和金融界人士、求职者以及政府部门高度认可和广泛使用。目前企查查登陆注册用户总数已经突破1800万,部分产品及服务已经上架阿里云数据市场,很受客户欢迎。

企查查的数据分析挑战

企查查通过构建大数据平台,提供给用户在线查询、在线分析以及全方面的企业画像功能,从而让用户方便快捷的查询企业全方位多维度的信息。企查查在业务快速发展过程中面临以下挑战:

1.数据量爆发式增长。企查查最早成立的时候采用单机的架构,使用的是SQL  Server关系型数据库,当时的数据量大概在一两千万条数据,起初SQL Server能够满足计算及查询分析的需求。后来,随着业务的快速增长,企业数据已经达到九千万条,并且企业的相关数据已经达到将近十亿条的规模,在这个情况下,原来的关系型数据库已经无法满足需要,迫切需要大数据平台的支撑。

2.大并发量、大数据量查询的快速响应能力。“在早期的时候,当用户并发量达到每秒一千的时候,数据库就直接瘫痪掉了。”企查查创始人兼CTO陈德强回忆道。作为企业信息查询服务提供商,查询能力必然是企查查的核心服务能力,因此选用高性能大数据平台的迫在眉睫。
3.“找关系”,企业与人、企业与企业之间复杂的关系分析。“企查查拥有八千多万家企业数据,每家企业有大量的股东,高管,那么怎么样通过数据分析把他们之间的关系找出来,之前企查查通过关系型数据库去逐个逐个的搜索,逐个逐个的写代码,非常复杂而且响应非常慢。” 陈德强说道。

4.数据安全不可控。企查查之前采用自建的方式搭建大数据平台,数据安全存在以下问题:依然会遇到一些数据泄露或者数据问题;使用自己的服务器、自己的机房,也会遇到一些瓶颈,如突发事件怎么去处理,那个机房、那个服务器被攻击了,安全出现问题怎么解决等;遇到大规模并发攻击时素手无策,“我们之前也遇到过大规模并发攻击:在早期的时候,我们使用的服务器不多,但是并发量在瞬间就达到了原来的50倍,那时候我们服务器直接就瘫痪掉了,由于自己的服务器、机房没办法快速扩容,我们只有干巴巴的在那里等。”陈德强描述道。

5.弹性可扩展。面对偶发性的数据量及计算量激增的情况,自建方式很难快速低成本的进行按需购买及弹性扩容。

企查查的技术选型思考

之前,企查查使用自建机房的方式搭建大数据平台,在无锡自己的机房中购买了将近20台服务器,然后搭建了整套的Hadoop环境。当时,会遇到各种各样的问题,包括扩容和计算能力不足等问题。数据量大的情况下企查查对计算性能的要求较高,但是之前遇到的一个复杂模型的计算分析,需要大量的时间,这种情况下如果在自己机房里面进行扩容,需要自行购买机器,时间成本及费用非常之高,难以承受。之后,当企查查将这块功能移到数加平台上之后,直接通过数加平台的可扩容机制,通过弹性计算很快的就把原来需要将近一个星期的计算缩短到一个小时内完成,解决了原来线下没法完成的工作。因此,自建的机房已经是很难去满足企查查的业务弹性需求,而阿里云数加平台能够满足这块的需求。

另外,阿里云数加平台作为一站式的大数据平台,还帮助企查查解决了数据仓库的问题,企查查的数据分散在各个不同数据库里面,有MySQL、SQL Server、MongoDB等,通过数加的数据汇总,将各个平台的数据全部汇总到数加的数据中心里面,之后再通过数加的业务分析功能,将这些数据根据业务模型及业务需求进行离线计算,分析出结果存入到业务数据库中。数加平台还引入了各种算法,包括人工智能的算法、图形算法等,帮助企查查进行数据分析使用。这些功能如果是自行开发的方式,需要大量的人力投入,而通过数加平台能够很快的使用提供的接口,很快就能实现这些功能,包括企业画像功能,也是使用数加的接口实现的。

企查查的大数据平台架构

企查查基于企业征信的相关信息整合,经过深度学习、特征抽取和使用图构建技术,为用户提供全面、可靠、透明的数据信息,可通过SaaS服务或API的方式提供给用户使用。企查查的大数据平台架构如下:

65ae9ab8551d3f09fe229be895e535af658da947

  • 数据源:互联网爬取数据、第三方合作数据。部分数据更新任务为用户触发。
  • 数据抓取:通过网络爬虫爬取数据并进行初步的清洗并入库,
  • 数据存储与处理:数据入库后存放在MongoDB、RDS(MySQL)中,然后数据同步到数加平台大数据计算服务MaxCompute中进行离线计算和算法处理,处理结果再同步到RDS(MySQL)中。通过开放搜索(Open Search)连接到RDS(MySQL)提供查询搜索服务。
  • 数据使用:以API的方式提供数据服务。

收益


1. 阿里云数加平台的分布式计算框架,不仅仅能够存储海量数据,还具有分析挖掘的功能,解决了企查查之前普通关系型数据库没法解决的一些技术问题。阿里云数加支持超大规模计算及存储,最大可达EB级别,企查查可以从容应对数据量的爆发式增长。


2. 使用阿里云数加平台之后,通过MaxCompute进行离线计算,同时把计算结果推送到缓存数据库,目前最大可以支撑每秒钟五千次并发,用户使用企查查时,只要输入任意一个关键字,在0.01秒之内就可以返回结果,通过数加平台帮助企查查解决了查询性能的问题。


3.“众里寻他”不再是难题,通过阿里云数加平台,仅需0.01秒就可以从8000万家企业数据中计算出企业与企业之间,企业与人之间复杂的关系,数加平台帮助企查查解决了关系分析的问题。


4. 阿里云数加平台的企业级数据安全控制,让企查查“安枕无忧”。数加平台建立在安全性在业界领先的阿里云上,并集成了最新的阿里云大数据产品,这些大数据产品的性能和安全性在阿里巴巴集团内部已经得到多年的锤炼。数加平台采用了先进的“可用不可见”的数据合作方式,并对数据所有者提供全方位的数据安全服务,数据安全体系包括:数据业务安全、数据产品安全、底层数据安全、云平台安全、接入&网络安全、运维管理安全。“很多数据行业创业公司,他们觉得数据就是企业的资产,因此不愿意把数据放到阿里云上面,因为他们觉得放到阿里云上可能没那么保险,但是我觉得对于创业公司,自建机房和阿里云比起来,阿里云还是更安全。当遇到突发的安全问题,通过阿里云能很容易解决掉,因为阿里云有一整套安全体系。”陈德强说到,“迁移到阿里云之后,当遇到大并发量攻击后出现流量暴涨的时候,我们很快就通过扩容服务器把这个问题解决掉了,对于初创公司,为了应付未来的业务的快速增长,用云平台比自己服务器要更加的可靠,更加的有发展空间。”


5. 阿里云数加平台的弹性有力的支撑了企查查业务的灵活和敏捷性。数加平台最大程度减少了运维,即开即用,避免资源浪费,并且可以最经济的对大数据资源进行调整,灵活快速的响应市场和业务需求变化。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
28天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
7天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
38 1
|
1天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
9 3
|
1天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
11 2
|
4天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
29 1
|
6天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
28 2
|
8天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
12天前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
33 2
|
16天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
32 0
|
22天前
|
NoSQL 大数据 测试技术
想从事大数据方向职场小白看过来, 数据方面的一些英文解释
想从事大数据方向职场小白看过来, 数据方面的一些英文解释
32 0

相关产品

  • 云原生大数据计算服务 MaxCompute