专家观点|神州信息郝晋瑞:涉税大数据的商用探索

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

大数据在于掌握庞大的数据信息,通过专业的加工实现数据的增值。换言之,这里包含了数据积累、产品平台、有价值的数据服务三个元素。通过多年的努力,神州信息帮助税务系统在大数据业务上做出了一些成绩,也经常有人问我,我们是如何走在了前面,今天我就来和大家做个分享。

无论是获取渠道,还是技术手段,合规合法的收集、加工、应用数据是前提

开始,我先谈谈对于这三个元素的一些看法:

数据积累

对于任何大数据企业,数据积累都是必要不可或缺的元素,因为没有足够体量的数据,即谈不上大数据,更谈不上能从中形成有效的分析、加工,最终生成有价值的数据服务。而对于数据积累,就需要对行业内主要的生产数据(通常称为结构化数据)、互联网数据(非结构化数据)以及其它交换方式得到的数据(和行业有关的第三方数据)进行全面的收集。

问题一:对于行业内的数据如何获得?对于互联网数据、第三方数据又从何而来?

产品平台

今天、乃至未来,大数据平台都将基于开源的技术,通过组装提供给行业使用,这个门槛其实并不高。从行业的角度来看,大数据技术的突破会很快、很迅速,未来会有多家非常优秀的平台供其选择;而对服务商,特别是提供数据服务的服务商而言。

问题二:在相关的技术层面,服务商要掌握哪些本领?又如何体现独特价值?

有价值的数据服务

最后,也是大数据有效落地的环节,就是数据最终要呈现行业性价值。未来,我们生活在服务型社会,数据对于风险控制、企业决策、用户体验、创新发展都将起到决定性的作用。也正因此,数据价值的呈现是要经过精准的、多元的提炼,并以服务的方式提供给客户。这就要求服务商要熟悉数据、熟悉业务、数据建模、数据服务,这些能力是服务商必须掌握的本领。

问题三:如何用好大数据?

在郝晋瑞看来,针对这些问题服务商需要具备两个专业素质:

收集数据的能力

足够的数据量和数据必须是可用的、真实的,这是实现数据挖掘分析的前提。这就表示,数据积累要解决数据来源渠道窄、数据质量不高、数据利用率低这三个层面的问题。在现阶段来看,拥有税务部门以及广泛社会其它行业资源的服务商才能占据有利位置,他们才更懂得哪些数据是有价值的,这些有价值的数据为企业又该提供怎样的服务。

提供数据服务的能力

另外,服务商还需要拥有探索数据务模式可能性的能力。例如:在数据挖掘分析方法上,通过对较大范围内不同行业、不同税种、不同类型企业的税收情况,找到税收管理的薄弱环节,不断的从微观上进行纳税评估、税务稽查,提高管理措施;在数据服务探索上,可以依托C2B、O2O等网络商业模式,实现线上线下的互动,为纳税人提供更多的量身定制的服务,以达到“个性化需求个性化满足”,此外还可以通过微信、微博、QQ等平台,提供网罗天下的个性化服务。这种能力非常依赖服务商对先进技术、各种大数据平台的掌握程度,以及根据客户需要进行深度的优化或迭代开发。

理解了这两个专业素质,其实对于判断“谁才能真正做好大数据的业务”就有了一个非常清晰的答案——拥有数据、深刻理解行业及其业务需求。

一直以来,我们都在推进税务、金融、电信、农业、政务等各行业的信息化进程,这种长期且深入的接触让我们能了解数据、能深刻理解行业及其业务,并一直关注数据在解决客户困难、满足客户需求上所呈现的价值,从而才能精准的挖掘数据更好为客户业务所用。下面通过简述神州信息在税务大数据的心路历程让大家有个更好的理解与体会。

坚持积累、深挖技术、勇于尝试

1999年始,神州信息推出税收征管系统(CTAIS),从CTAIS1.0、CTAIS1.1、CTAIS2.0,逐步覆盖基层、市局、省局三级税务机构,直至2014年“金税三期”项目,该系统一直是我国唯一的、完全遵照国家税务总局所发布的税收征管业务规程开发并能及时跟踪其更新过程的、全国统一版本的税收征管应用软件,近20年来神州信息与税务局形成了最为密切的合作关系。

另外,从2009年开始,神州信息就开始积累数据处理及分析能力。在这个领域,神州信息对于数据的理解、业务的认识、技术的使用都是有积累、有先发优势的。也正因如此,我们才能中标“金税三期管理决策分析平台”项目,把总局、省局的全部内部数据进行收集、利用,从而实现准实时的、逐条明细的、多维度、多主体、生动化的税收数据价值。

“金税三期”能够达到准实时监控、实时统计,随时展现税收的总体情况包括登记户数、申报征收进展、税款入库情况、业务实时办理情况等,并通过各个信息的比对、数据的分析,掌握纳税人的生产经营信息,形成以涉税数据为基础的风险识别、等级排序、风险应对和绩效评价的闭环税务风险管理体系,使税收风险随时可控可见,进一步防范涉税风险,提高税收征收率。

同时,神州信息在银行、证券等众多领域也有许多多年的合作伙伴,我们正通过合作一步步的把散落在不通部门、不同平台的,可以开放利用的涉税数据收集起来,在和税务部门的合作中,告诉税务部门,我可以提供什么样的服务,可以帮助你应收尽收;在企业方面,通过购买税务数据服务去检查自身的纳税情况是否健康,降低企业纳税风险,切实做到征纳双方的“减负”,避免产生更严重的问题。另外,我们正积极尝试推广移动服务,借助手机APP、官方微信等平台,实现无处不在的纳税服务,充分发挥移动服务在及时性、灵活性方面无可比拟的优势。

再举一个小例子

2015年中,我们基于西安市国家税务局推行实施全国首例微信红包式有奖网络发票项目,进行了税收领域的一次大胆创新。通过多年实践的税收数据的加工、挖掘、分析及处理能力,以及利用微信红包这种用户认可的便利形式,消费者只需用微信扫码,即可知晓票面信息及开奖信息。实现了以人性化服务促进以票管税、信息管税的工作,提升了服务质量及纳税服务形象。

换言之,正是由于在税务与第三方企业之间,神州信息均有了一定得资源优势,在技术上我们能掌握各种先进技术并针对客户情况给予深度优化或个性开发,知道税务部门需要什么样的数据,企业需要什么样的涉税数据服务,我们才能开启涉税数据服务的商业探索。

谈到未来

大数据主要集中于非常多的大型企业和政府机关当中,单纯靠服务商的力量是不可能实现数据的全部积累,比如税务局,肯定非常想得到工商、海关、所有银行等的相关数据,这样才能把税务工作开展的更好,这就需要政府与企业之间达成良好的数据共享机制。但如今,整体情况依然停留在合作是否有意愿的局面,要打破这种局面,还需要国家对数据开放合作出台相关政策法规,而且,数据的共享、相互融合也不可能在一夜之间达成,还需要时间。

与此同时,今年年底,“金税三期”才会在全国推广完成,这时全国的纳税数据才真正的全面汇总起来。因“金税三期”建立起来的统一数据信息规范,才能使得信息可以对接和共享,让数据做到及时、准确。从这个层面来说,信息积累其实又进入到了一个新的起步阶段,还需要长期的时间做持续的积累。

因此,税务大数据将在未来的3-5年内出现爆发性应用,随着政府数据的逐步开放,最终我们将能从区域、行业等角度进行更为细致、深入的横向对比、分析,把数据价值的潜在效能发挥出来。

另外,就是努力的培养客户数据付费的认知。当然,在我看来,后者很大程度上是由前者决定的,随着数据的积累越来越多,我们只要能将数据的价值最大化、能按企业需求提供强有力的数据服务,数据付费也将和今天的知识付费一样得到普遍认同。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
29天前
|
存储 机器学习/深度学习 大数据
量子计算与大数据:处理海量信息的新方法
【10月更文挑战第31天】量子计算凭借其独特的量子比特和量子门技术,为大数据处理带来了革命性的变革。相比传统计算机,量子计算在计算效率、存储容量及并行处理能力上具有显著优势,能有效应对信息爆炸带来的挑战。本文探讨了量子计算如何通过量子叠加和纠缠等原理,加速数据处理过程,提升计算效率,特别是在金融、医疗和物流等领域中的具体应用案例,同时也指出了量子计算目前面临的挑战及其未来的发展方向。
|
3月前
|
存储 分布式计算 大数据
惊了!大数据时代来袭,传统数据处理OUT了?创新应用让你眼界大开,看完这篇秒变专家!
【8月更文挑战第6天】在数据爆炸的时代,高效利用大数据成为关键挑战与机遇。传统数据处理手段难以胜任现今海量数据的需求。新兴的大数据技术,如HDFS、NoSQL及MapReduce、Spark等框架,为大规模数据存储与处理提供了高效解决方案。例如,Spark能通过分布式计算极大提升处理速度。这些技术不仅革新了数据处理方式,还在金融、电商等领域催生了风险识别、市场预测及个性化推荐等创新应用。
101 1
|
4月前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之怎么使用SQL查询来获取ODPS中所有的表及字段信息
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
131 7
|
4月前
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之表被删除重建后如何查到之前的权限信息
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何查询MaxCompute项目中的所有表及其字段信息
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 大数据 数据库连接
MaxCompute操作报错合集之遇到报错信息 "SERVER_INTERNAL_ERROR" ,该怎么办
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
4月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之怎么查看表的时区信息
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
SQL DataWorks 监控
DataWorks操作报错合集之在调用数据服务API时返回的错误码是"ODPS-0410051",并且错误信息提示"Invalid credentials - accessKeyId not found",该怎么办
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
105 0
|
5月前
|
分布式计算 DataWorks 大数据
MaxCompute操作报错合集之pyodps3的报错信息里,报了程序的解析错误,是什么导致的
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
6月前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之DataWorks创建 MaxCompute 资源背景信息如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
62 5
下一篇
无影云桌面