周涛教授弟子王军与他的卧龙大数据

简介:

编者按

中生代技术年度大会荣幸的邀请到卧龙大数据CEO、电子科技大学大数据研究中心博士王军作为分享嘉宾


中生代技术小编有幸对王军做了一些访谈,如果你想了解大数据风控,那么这篇采访你不能错过,想听到更多的干货,3.18的中生代年度大会就更不能错过 

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


王总,能不能谈一下你的从业经历?

07年开始在电子科技大学读计算机科学与技术专业,本科的时候带领梦飞无线工作室做了很多商业项目。11年开始在电子科技大学硕博连读,14年开始创立卧龙大数据。

请和大家介绍下你和目前所从事的工作 ?

我来自大城市——铁岭,电子科技大学大数据研究中心博士,卧龙大数据的创始人,公司是一家以大数据和人工智能技术为核心的金融科技公司,专注于为金融行业提供风控、营销相关的数据、技术和解决方案,我目前主要负责公司的运营和管理。

王总,卧龙大数据可以说是一家比较年轻的企业了,你如何看待互联网金融时代的到来?那么卧龙大数据在其中有哪些机会?你如何看待公司在行业内所面临的机遇和挑战?

互联网金融时代的本质还是金融,所以我们做事不能脱离金融的本质。我觉得作为一家金融科技型的企业机会还是很多的,我们应该能够解决很多传统金融机构解决不了的问题,但不管怎么样最后还是要回归到金融的本质。

王总能否谈谈公司在技术选型方面是如何抉择的?你觉得什么样的技术架构可以满足业务需求?当前流行的大数据技术,比如Hadoop,Spark, Impala, redis, kafka,你们公司是怎么选择的?前端技术呢?

公司出身于技术,扎根于技术。在技术选型上依据公司业务发展线条,在每一个技术模块选择业界稳定且活跃度高的技术框架作为解决方案。数据采集团队研究国内外前沿采集技术,并按照业务需求深度定制,研究计算机网络与分布式系统,构建分布式高性能采集框架。 此外,公司研究Hadoop生态系统与Spark平台源码,依据公司实际数据业务选择模块与模块深入定制(包括HDFS,Yarn,Spark,Impala,Hive,HBase,Hue等模块),并以可视化分析平台与可视化管理平台承载数据管理,数据存储,数据分析等功能。

 

在前端业务领域,我们秉承稳定为主,适度超前的理念,并针对特定的业务场景,选用合适的语言和框架来完成业务需求。比如针对稳定性,数据安全性,访问性能要求高的消费类场景选用JAVA和大型关系型数据库,并构建分布式集群以应对高并发需求,使用redis等内存数据库保证系统毫秒级响应速度。针对偏日志分析类等要求相对不高的场景,使用Python语言开发,配以mongodb集群,在牺牲一定的准确度的情况下充分发挥非关系型数据库的高性能。针对内部信息系统的建设场景,更多基于开源系统进行深度定制开发,在满足需求的前提下最小化成本支出

互联网型的创业公司,一般提倡“天下武功,唯快不破”。请问王总,能不能介绍一下贵公司的技术团队的规模组成情况?贵公司的发布周期一般是多久?你如何评估你们团队的研发效率?

我们的技术团队大概有40人左右,我们大概是每两周就会有一次产品的迭代和更新,我们研发团队的效率在成都应该算是比较高的了,但和北上比可能还是要弱一些。

王总,大数据公司很重要的一点就是如何对待数据,对于贵公司而言,是如何对待纷繁复杂的数据,这些数据是如何采集、如何处理,能否分享一下这方面的经验呢?比如存、管、用这三个方面。

我们公司的数据是在公司还没有成立之前就在做积累,我们的数据主要是通过爬虫和API的形式获得,还有很多合作伙伴。存是一个技术层面的问题,我们有很多不同应用场景的存储方案。管和用我们做了很多限制,首先考虑的就是数据如何被安全合法的使用。

王总,贵公司的互联网金融产品在大数据风控方面如何建模?如何根据大数据评估用户信用?有效性如何保证?


卧龙自身拥有海量电商、社交等高价值大数据,并通过用户提交基本信息,用户授权运营商等获得其他多维度数据。

a、建模首先对获取的多维度的大数据进行有效打通,并清洗异常数据,然后通过卧龙独有的特征机器人进行特征挖掘、整合以及评估,最终挑选最优异的topN特征进入模型进行建模。

b、卧龙大数据建模包括反欺诈建模、还款意愿模型、还款能力模型三个子模型,并通过领先的GBDT、神经网络等复杂机器学习算法进行模型融合,产出最终的信用模型。

c、有效性从三个方面进行保证:有效的数据是基础,正确的样本是核心,精准的模型是保证。卧龙首先会对打通的数据进行严格的清洗,任何异常都会进行仔细的分析并进行清除。对于建模样本,我们会通过准入规则政策排除异常样本、观察期分析确认时间窗口、滚动率分析确定等综合确定建模好坏样本。

最终对于模型的有效性会在建模过程中层层把关, 通过建模时验证数据集测试、线上 A/B test测试 ,模型灰度发布监测,如有测试异常则重新建模。

通过层层测试后,发布上线也会通过PSI等指标对模型进行实时监控,出现异常及时修复。以此保证模型的及时有效。

王总,你觉得一个好的研发团队有那些特征?

对于一个创业公司而言研发团队最需要的特征就是学习能力和执行力,技术发展变化很快,学习能力必不可少。你刚刚也说了唯快不破,所以执行力也是很重要的

王总,你觉得一个好的TeamLeader应该具备哪些素质?

首先要有开放的胸怀才能把事情做大。其次作为一个好的TeamLeader要能够把所有人团结在一个共同的目标下,形成强大的执行力。

王总,能剧透一下你在中生代年度大会(成都站)的分享题目吗?

大数据风控

非常感谢王总,期待您在中生代年度大会的分享,3.18成都见。



王军的博士生导师是在大数据行业赫赫有名、《大数据时代》的译者、2015年中国十大科技创新人物之一的天才教授--周涛。王军是他培养的第一届创业型博士。周涛给王军开出了三个需要同时满足的毕业条件:第一、达到电子科大博士毕业生的基本条件;第二、毕业时根据最近一轮融资或上市的公允市场价值,个人身家要到1个亿;第三、要捐钱给电子科大,要回馈社会。


当问到王军,为何给公司取名叫“卧龙大数据”时,王军说道:“人们都称赞卧龙孔明可以‘未卜先知,造福国家’,其实他是通过掌握了大量领域的知识和信息,关联起来进行了预测。我们叫卧龙大数据,希望能通过更加现代化的手段将海量数据跨域关联起来,进行分析预测,从而为人们的生活提供便利。


互联网中的数据是杂乱无序的,而卧龙大数据将原本零散的海量数据跨域关联起来,以人群、地点、品牌等为中心刻画出一个个可以量化的 “数字画像”,从而帮助金融机构低成本地判断信贷风险,帮助保险公司制定个性化的保险方案,帮助品牌商根据用户偏好实施精准营销……

未来,人们可能都会享受到“数字画像”带来的个性化服务,比如晚餐时手机会自动推荐出几套完全符合当天口味且适合健康情况的方案,毕业时就已经根据学生的性格和能力匹配出最佳的几份工作职位等等。


卧龙大数据一直保持了创业初期的激情与冲劲。无论是晚上10点11点,还是周六周日,都不用担心因为锁门而进不了办公室,因为那里一定会有一批充满激情的年轻人在奋斗着,与时间赛跑、与市场赛跑。短短两年,这群年轻人已经服务了大部分征信行业、品牌行业的领军企业,预计今年能创下过千万的业务收入。最近,他们还凭借自身的飞速发展获得了2016中国财经峰会颁发的“最具成长价值奖”。




来源:中生代技术

原文链接


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
机器学习/深度学习 存储 大数据
|
机器学习/深度学习 安全 大数据