产品3周迭代一次,启信宝驾驭8000万企业征信的平台架构

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 启信宝的企业数据范围广、维度多,覆盖8000万以上的企业, 19个产业链,95个细分行业,100个以上企业数据维度,企业覆盖率达98%以上。
11+大数据行业应用实践请见 https://yq.aliyun.com/activity/156 ,同时这里还有流计算、机器学习、性能调优等技术实践。 此外,通过 Maxcompute及其配套产品 ,低廉的大数据分析仅需几步,详情访问 https://www.aliyun.com/product/odps ;更多精彩内容参见 云栖社区大数据频道 https://yq.aliyun.com/big-data  。

启信宝的核心功能包括搜索引擎、企业链图、关系族谱、企业监控、企业舆情以及企业信用报告等。启信宝目前支持APP、网页以及微信三种不同版本,另外还提供API调用方式。客户主要面向个人客户和企业客户,目前个人用户数已达到800万以上,企业客户以金融行业为主。

启信宝的大数据平台挑战

启信宝作为一家以大数据为核心竞争力的公司,借助大数据为客户降低执业风险、经营风险、投资风险和借贷风险,为客户提供数据解决方案以进行精准营销、拓客展业,为客户借贷管理、投资理财提供决策依据。主要面临的挑战为:

1.高时效性。作为一家成立时间较短的企业,为了不断满足客户新的需求以及提升客户体验,并快速确立市场领先地位,产品的迭代需要非常快速,基本上三周以内会迭代一次,而且通过每一次的迭代在数据上、挖掘上都需要有一些可以打动客户的亮点,这就要求采用的大数据平台能够满足时效性的需要。

2.低成本。作为创业公司,不仅对时效性有很高要求,成本也是重要的考量因素,需要以采用的大数据平台能够支撑快速、高效、低成本的产品迭代。

3.数据处理量巨大、对数据变化的实时性要求高。目前,启信宝仅日志数据的数据量已达到TB级别,每天会对日志数据进行几十个任务的调度处理来进行日志分析。另外,舆情方面的数据实时性要求较高,需要实时处理及更新并能够实时进行内容多维查询和统计分析。

4.可扩展性。作为一家数据公司,需要大数据平台能够应对未来极有可能发生的的数据量的爆发式增长,架构可伸缩,弹性的满足需要,避免不必要的IT费用。另外,未来启信宝将会在大数据采集和挖掘上持续发力,在企业信用信息展示的前提下,同时注重挖掘企业背后的舆情信息及商业关系,这就需要大数据平台的功能可扩展,既可以满足数据采集处理、可视化报表展示、多维分析等基本需求,也可以满足预测分析、机器学习及人工智能等方面的高阶分析需求。

5.数据融合工作的复杂性。启信宝的数据来源非常丰富,因此需要跟周边各种数据源打通。举个例子,有些大数据项目真正进行开发算法、模型的时间会很短,大概一两天左右就可以完成,但这往往仅为“冰山一角”,实际上,由于数据兼容性问题,数据准备工作异常繁杂,可能会用到一周甚至更长的时间。难怪最近纽约时报惊呼:“数据科学家把高达 80%的时间用于数据准备而不是用来发现新的商业智能”。

启信宝的大数据平台方案

启信宝作为垂直企业信息搜索平台,立足于企业征信信息的披露,基于海量大数据,为泛金融、泛投资、泛法律和商务用户提供企业信息画像、风险管理、营销决策等可量化数据服务,以客户为中心,让数据说话,让商业更真实。启信宝基于阿里云数加平台进行数据的整理和分析。
  1. 主要数据来源:互联网采集的数据以及API调用的第三方的企业数据。
  2. 数据处理分析:应用数据采集到阿里云存储容器,通过数加平台进行二次加工处理,最终同步到阿里云存储容器中进行数据展现分析。
  3. 应用层:支撑企业图谱、企业监控、深度报告、搜索引擎等不同产品形态。

方案涉及的阿里云数加平台组件有:
  1. 大数据计算服务(MaxCompute)
  2. 大数据开发套件(DataIDE)
  3. 分析型数据库(AnalyticDB)

启信宝云平台选择思考

1. 阿里云数加和基础云服务平台的敏捷性很好的支撑了启信宝产品的快速迭代。启信宝的第一个版本微信版本于2015年5月初上线,到现如今启信宝已上线APP版、Web版,同时还支持API外接,业务也做了相应扩充,分别面向个人和企业客户,通过客户需求不断的推进和拓展,期间经历了大量的小版本迭代。目前,2C的业务,客户反馈较好、活跃度较高,反映在是使用时长等各方面;2B业务,结合行业应用场景以及启信宝自身数据,正在不断提供一些更好的行业解决方案。启信宝创始人金志浩说:“从2015年开始,启信宝伴随着阿里云一起高速发展,通过阿里云产品的使用,确实能帮我们节省很多时间,要不然我们全部自己搞定,时间周期太长,自建的话时效性根本跟不上。”

2. 使用阿里云数加,成本大大降低。“阿里云数加的整个数据处理流程非常完善;其次,我觉得这一块的成本会比较便宜,而且可以节省我们大量的人力,这也是很重要的一块;另外,售后技术服务周到快速也是我们选择阿里云数加的原因之一。”创始人金志浩谈到为什么选择阿里云数加时讲到。

3. 阿里云数加的按需付费模式以及产品功能完备性,使得启信宝对未来快速发展更具信心。阿里云完全满足启信宝未来数据吞吐量和可扩展性的需要,阿里云数加包含大数据基础服务、数据分析与展现、数据应用以及人工智能的大数据全链路产品,经过阿里内部锤炼和业务验证,可以支撑EB级数据海量处理。

4. 阿里云的大数据产品生态具有完备性和开放性两大特点,打破数据融合瓶颈,大大提升了产品开发效率。阿里云提供四通八达的数据传输交互服务,让数据不再成为孤岛,加速数据融合。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
101 1
|
19天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
【赵渝强老师】基于大数据组件的平台架构
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
1月前
|
监控 API 调度
开放源代码平台Flynn的架构与实现原理
【10月更文挑战第21天】应用程序的生命周期涉及从开发到运行的复杂过程,包括源代码、构建、部署和运行阶段。
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
大厂 10Wqps智能客服平台,如何实现架构演进?
40岁老架构师尼恩,凭借深厚的架构功力,指导众多小伙伴成功转型大模型架构师,实现职业逆袭。尼恩的《LLM大模型学习圣经》系列PDF,从基础理论到实战应用,全面覆盖大模型技术,助力读者成为大模型领域的专家。该系列包括《从0到1吃透Transformer技术底座》《从0到1吃透大模型的基础实操》《从0到1吃透大模型的顶级架构》等,内容详实,适合不同水平的读者学习。此外,尼恩还分享了多个智能客服平台的实际案例,展示了大模型在不同场景中的应用,为读者提供了宝贵的实践经验。更多技术资料和指导,请关注尼恩的《技术自由圈》公众号。
大厂 10Wqps智能客服平台,如何实现架构演进?
|
2月前
|
消息中间件 缓存 Java
亿级流量电商平台微服务架构详解
【10月更文挑战第2天】构建一个能够处理亿级流量的电商平台微服务架构是一个庞大且复杂的任务,这通常涉及到多个微服务、数据库分库分表、缓存策略、消息队列、负载均衡、熔断降级、分布式事务等一系列高级技术和架构模式。
92 3
|
3月前
|
Cloud Native Java 编译器
将基于x86架构平台的应用迁移到阿里云倚天实例云服务器参考
随着云计算技术的不断发展,云服务商们不断推出高性能、高可用的云服务器实例,以满足企业日益增长的计算需求。阿里云推出的倚天实例,凭借其基于ARM架构的倚天710处理器,提供了卓越的计算能力和能效比,特别适用于云原生、高性能计算等场景。然而,有的用户需要将传统基于x86平台的应用迁移到倚天实例上,本文将介绍如何将基于x86架构平台的应用迁移到阿里云倚天实例的服务器上,帮助开发者和企业用户顺利完成迁移工作,享受更高效、更经济的云服务。
将基于x86架构平台的应用迁移到阿里云倚天实例云服务器参考
|
3月前
|
缓存 物联网 数据库
如何帮助我们改造升级原有架构——基于TDengine 平台
一、简介 TDengine 核心是一款高性能、集群开源、云原生的时序数据库(Time Series Database,TSDB),专为物联网IoT平台、工业互联网、电力、IT 运维等场景设计并优化,具有极强的弹性伸缩能力。同时它还带有内建的缓存、流式计算、数据订阅等系统功能,能大幅减少系统设计的复杂度,降低研发和运营成本,是一个高性能、分布式的物联网IoT、工业大数据平台。 二、TDengine 功能与组件 TDengine 社区版是一开源版本,采用的是 AGPL 许可证,它具备高效处理时序数据所需要的所有功能,包括: SQL 写入、无模式写入和通过第三方工具写入 S标准 SQL 查
83 13
|
3月前
|
监控 Android开发 iOS开发
深入探索安卓与iOS的系统架构差异:理解两大移动平台的技术根基在移动技术日新月异的今天,安卓和iOS作为市场上最为流行的两个操作系统,各自拥有独特的技术特性和庞大的用户基础。本文将深入探讨这两个平台的系统架构差异,揭示它们如何支撑起各自的生态系统,并影响着全球数亿用户的使用体验。
本文通过对比分析安卓和iOS的系统架构,揭示了这两个平台在设计理念、安全性、用户体验和技术生态上的根本区别。不同于常规的技术综述,本文以深入浅出的方式,带领读者理解这些差异是如何影响应用开发、用户选择和市场趋势的。通过梳理历史脉络和未来展望,本文旨在为开发者、用户以及行业分析师提供有价值的见解,帮助大家更好地把握移动技术发展的脉络。
98 6
|
3月前
|
设计模式 存储 人工智能
深度解析Unity游戏开发:从零构建可扩展与可维护的游戏架构,让你的游戏项目在模块化设计、脚本对象运用及状态模式处理中焕发新生,实现高效迭代与团队协作的完美平衡之路
【9月更文挑战第1天】游戏开发中的架构设计是项目成功的关键。良好的架构能提升开发效率并确保项目的长期可维护性和可扩展性。在使用Unity引擎时,合理的架构尤为重要。本文探讨了如何在Unity中实现可扩展且易维护的游戏架构,包括模块化设计、使用脚本对象管理数据、应用设计模式(如状态模式)及采用MVC/MVVM架构模式。通过这些方法,可以显著提高开发效率和游戏质量。例如,模块化设计将游戏拆分为独立模块。
193 3