中央财经大学创新创业中心主任尚超:大数据技术在防范虚假发票中的应用

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

ZD至顶网CIO与应用频道 01月20日 北京消息: 2016年1月20日,数据猿作为独家全程直播与专访媒体,受邀参加“全球大数据峰会 Global Big Data Conference 简称为 GBDC”本届大会由世界O2O组织、全球大数据联盟GBDC、全球移动游戏联盟GMGC、光合资本主办,中国互联网协会O2O工作组、中国汽车流通协会支持。

GBDC全球大数据峰会在北京国家会议中心举办,本届大会规模逾3000人。大会从大数据改变政务管理方式、引领全球企业营销、智能交通综合服务、互联网整合营销运营、前沿科技等方面同现场嘉宾进行深入交流。通过行业大数据白皮书的分享和精彩的案例剖析,指导广大企业借助大数据发现广泛商业价值,切实有效地运用大数据的力量,帮助各行各业升级转型。 大会涉及大数据与智能政务、 汽车产业、 金融产业 、零售产业和房产行业等领域。 GBDC全球大数据峰会是迄今为止亚太地区举办的最具规模和影响力的行业盛会。

以下是“中央财经大学创新创业中心主任尚超”的发言实录:

尚超:在我讲之前想跟大家分享五个数字,昨天国家统计局发布了一些我们国民经济中很关键的数据。第一,我们的GDP,国内的生产总值达到67万亿。第二,我们社会消费品零售总额,今年突破了30万亿。第三,我们都知道,刚过去的一年,阿里巴巴这个公司取得了非常伟大的成就,它的2015年的总的天猫和淘宝销售额达到了两万亿,仅仅在双十一当天就达到了912亿。第四,关于我们的税收这块的数据,2015年我们全国总的税收的规模是达到了11万亿。第五,2015财政收入总额达到了15亿数字。我们应该关注这些方式,关注的一点就是发票。而我们每个人得到的发票很可能是有问题的,因为这个发票从诞生以来就面临很多关于造假的问题,如何防范发票造假呢,就是一个非常复杂的技术问题。今天大数据时代来临,我们能不能利用大数据防范虚假发票呢?答案肯定是的。

超市门口很多有人要你的购物小票?他们想干什么呢,我们的研究结论告诉大家,购物小票一定不能弄丢。为什么呢?我们看一些发票具体的实例,一组看起来非常真的发票,是由沃尔玛超市开出来的。正常情况下我们可能不会发现它有任何的问题。特别是我们把发票上的涂层刮开以后,在国家税务总局,北京市国税局网站上查的时候发现它是真的。而我现在告诉大家,它们统统是假的。如果这些发票是你在一些地铁站门口,或者超市门口买到的话,我可以很明确的告诉大家,它们99.99%都是假的。但是很诡异的是,它们在我们国家的官网上查询的时候,却现时的是真的。这发生的什么事情呢?这个图仔细分析会发现其中的端倪,本来我也不太清楚这个事情,但是经过一番调查发现了问题。可以很明显发现他们的日期与编号顺序前后颠倒。我想他们是不会买通国家税务总局,北京市国税局的官员帮他侵入这个系统的,这些人没有这么高超的技术。其实他们的技术很简单,那就是大数据技术。也就是说,骗子首先就拿到了大数据技术来忽悠大家。分析的结果就是他们在网上查的时候都是真的,但是实际上它肯定是假的。

在过去我们的发票造假这种现象是非常非常多的,有各种情况,有假票假开,假票真开,还有真票虚开,假票虚开。现在互联网+时代来临了,我看到了一种虚假发票+虚假业务+真实票号+互联网。传统的票验证方法分物理方法和网络查询的方法。当然这些手段已经远远不够了,当你买一些数据,你查询是真的,也付出了一些税款,但是这些都是假发票。这些钱被骗子得到之后也是不义之财。我特别想跟大家讲的是什么呢?就是我们的大数据时代,对于发票这么一件事情,它到底起到什么样的作用?其实过去我们在财政税收这些领域都有一些很重要的项目,像金财工程,金税工程,它们都属于信息化时代的产物。今天已经是DT时代了,我们可以看一下像Facebook这样的公司在做什么,它们在靠近北极圈的地方建立了一个庞大的数据中心,处理每天超过45亿次的点赞。当地有很多的冷资源,对它们冷却服务器非常有作用。

我们总体战略是在过去的金财工程和金税工程之上,引入互联网+,特别是引入大数据处理技术和云计算,使得我们每一天发生的数十亿笔的交易都能够纳入到智慧税务,智慧财政的监管之下,这是一个非常伟大的梦想。当然像阿里巴巴这样的公司已经开始做了。我们知道我们在区一些饭店吃饭的时候,可以用支付宝支付,这样可以得到5%的折扣,而我们营业税就是5%。所以阿里巴巴已经在做这样的事情。而我们财税监管部门为什么不这样做呢?

所以我们提出了几种对策:第一,注意重视大数据在发票管理中的应用。过去各个管理人员对这个问题认识的不够的,以至于我刚才所讲的发票实际上在我们的各种企事业单位,政府机关报帐过程中是很常见的,它们就躺在那里,实际上是一种虚假的存在。相应的人员如果有这个意识,我们的对这种发票防范的效果会非常的理想。

第二,以我们电子发票为代表的趋势,以我们二维码应用为代表的技术应用,它广泛的应用到我们的电商领域,还有我们其他的社会消费场景之中,将会极大的改变我们在税收监管,这种技术水平。举个例子,我们每一天中国人消费的笔数的量非常大,大概在50亿次左右。每一次理论上都应该涉及到税收的。如果我们要监管的话怎么监管呢?这很显然是一个非常复杂的问题。但是大数据,云计算的应用,它将会改变这一点。这其实也是跟在座的企业界朋友释放了一个巨大的信号,过去的二十年我们金财工程,金税工程采购总额已经超过1500亿人民币,而未来这个采购规模将突破5千亿人民币。也就是大量的服务器的需求,带宽的需求,各种工具软件的需求。

第三,我们非常需要向大家普及一个基础的知识,也就是说我们在任何地方的购物小票都不能乱丢,更不能买卖。如果买卖了会产生一个恶劣的问题。刚才的假发票为什么会出现这样的效果呢?比如你在沃尔玛花十块钱买两瓶水。他会给你开个发票,如果你不要,扔了的话,门口收小票的人,就会到沃尔玛前台开出来一个发票。他把这个发票的票号,密码记到一个数据库里,他也玩起了大数据,然后开始用打印机打印这些虚假发票。所以造成你在网上查的时候是真实的发票,而实际上它是一个赤裸裸的假发票。这个过程中他是做了一个放大的处理,就是原来里是十块钱的购买金额,当你买假发票的时候,你觉得是买的真的,你开900、1万,他都可以给你开,而他实际的交易额是10块钱。所以这块放大处理对社会危害很大的。

第四,我们企事业单位还有政府机关,财会这些人员在这块应该加强他的知识的学习。对发票管理,还有我们像一些公务卡消费,整个环节要关联到一块,只有这样的话,我们对付这种虚假发票才会有一个非常好的办法,毕竟这是一个超过15万亿的市场,里面哪怕是存在一丁点儿的虚假发票,都会对国民经济产生非常大的影响。还有我刚才说的对人员的培训都是很紧迫的问题。

最后,谢谢主办方邀请我来进行演讲,谢谢大家。

原文发布时间为:2016年1月20日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
163 2
|
2月前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
127 0
|
22天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
58 2
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
1月前
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
107 4
|
2月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
2月前
|
SQL 存储 大数据
单机顶集群的大数据技术来了
大数据时代,分布式数仓如MPP成为热门技术,但其高昂的成本让人望而却步。对于多数任务,数据量并未达到PB级,单体数据库即可胜任。然而,由于SQL语法的局限性和计算任务的复杂性,分布式解决方案显得更为必要。esProc SPL作为一种开源轻量级计算引擎,通过高效的算法和存储机制,实现了单机性能超越集群的效果,为低成本、高效能的数据处理提供了新选择。
|
2月前
|
SQL 存储 算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
|
2月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
69 3