大数据环境下的地税预算执行审计

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

看起来纷繁复杂的海量数据资料,通过分析,可以发现很多有用的信息,可以告诉我们很多隐藏在数字背后的秘密,并有效提高决策的准确性。淘宝根据购物记录可以推荐买家可能会喜欢的商品,餐厅根据用餐记录可以推荐消费者可能喜欢的菜单。大数据审计分析可以通过对相关领域长年累月形成的数据的分析,挖掘出某种群体行为的特点,提示某种社会现象的潜在规律,为政府制定政策提供关键依据,同时还可以评估政府政策的实施效果,从而帮助政府不断发现问题,改进问题。下面笔者结合自己从事的地税审计业务浅谈在大数据审计分析中的心得体会,以达抛砖引玉之目的。

一、大数据环境下面对的数据类型

我们平常所说的计算机数据分析,是对结构化数据运用SQL查询进行的分析。所谓结构化数据,即行数据,是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。结构化数据通过SQL Server、Oracle等关系型数据库系统进行存储,是我们开展地税审计工作中最常使用的数据类型。而不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

在税务部门的日常工作中,有很多信息是以非结构化数据的形式存储和使用的。比如纳税人基本资料、经营状况、办公场所情况及企业财务报表等是以图片资料或报表的形式提交至地方税务机关;某些与应纳税额相关的信息则可以在工商、房产交易等有关职能部门的公开网站上进行查询,同时百度等搜索引擎能够在互联网范围内为审计人员提供帮助。如在核查房地产企业缴税情况时,其开发楼盘的行政审批进度、楼盘属地及性质、项目完成情况及市场运行情况、售卖情况等信息是核定其应纳税额的重要参考依据,在税收征管审计过程中,审计人员可以从网络上获取这些信息,让这些以图片或网页方式存在的非结构化数据为我所用。

二、大数据环境下的地税审计技术方法

在目前的地税大数据审计分析中,审计人员以地税部门税款征收、管理、稽查等主要业务环节的内部控制为主线,通过对税款申报、征缴数据和相关外部数据等内外结构化数据的分析,结合收集到的半结构化和非结构化数据,对税收收入的真实性、合法性进行重点审计。同时,把握税收征管改革方向,关注与宏观经济发展相协调的税收政策执行情况的审计,促进强化税收执法力度,规范税收管理行为,提升税收征管质量和效率。

1、多表数据关联分析

(1)多税种分析。根据现有税收法律法规,在商品房预售过程中,营业税(销售建筑物或构筑物)、核定征收的印花税(产权转移书据)、土地增值税(未开始清算)之间的计税依据应该是一致的。审计人员通过多个数据表的关联,对(房地产)企业全年的缴税记录按照税款所属期和税种进行排序,然后分析比较同一个所属期中,企业的销售建筑物或构筑物营业税、核定征收产权转移书据印花税和未进行过清算的土地增值税之间的计税依据是否一致,如不一致,则作为疑点进行延伸了解。当然,这样的疑点可能会比较多,我们可以设定一个阈值,比如可以选择营业税应缴税费超过100万元以上企业进行分析比较。

审计分析需要注意的是,如果印花税实行查账征收(合同总金额),则其计税依据与其他税种就不具备上述每个所属期一致的特点。对于实行尾盘销售的项目,其土地增值税计税依据与其他两个税种也会不一致。

(2)网络发票开票数据与缴款数据关联分析。网络发票是指开票单位或个人通过税务部门的网络发票管理系统开具的发票。审计人员首先对发票有关的表进行分析,了解各字段含义,并统计企业全年开票总金额(开票方)超过一定阈值以上单位。然后分析开票额超过阈值以上的单位当年营业税纳税情况,比较并筛选出开票额与营业税计税依据差距较大的企业。通过“开票金额”与“营业税计税依据”相减,在差额结果中,挑选有开票金额无营业税交纳情况的单位和开票金额和营业税计税依据均存在但其差额为一定金额以上的单位。最后把得到的疑点数据推送地税部门进行分析和核实。

(3)税费数据对比分析。以娱乐业文化事业费征缴为例, 审计人员以纳税人实际交纳的娱乐业营业税为基础,测算出应交纳文化事业建设费金额,对比该纳税人实际交纳的文化事业建设费,得出疑似少交文化事业建设费的疑点数据。

2、通过趋势分析,查找企业提前或延迟入库税款情况

对税收收入构成和年度变化趋势进行分析,各税种间横向变化趋势与税种自身纵向变化趋势进行分析,各行业税收趋势进行分析,掌握税收增减变化情况,分析影响增减变化的原因,对差异较大的异常情况,则作为下一步延伸核查的内容和重点。

(1)税款异常波动情况分析。一方面通过对企业全年12个月每个月缴纳税款形成的曲线图,分析企业是否存在某一段时间突然显著降低或上升,比较某税种在持续可比的税收期间(月度、季度等)入库数额是否有较大异动,核查是否存在某部分税款少征漏征,初步判断企业是否存在延迟或提前入库税款。另一方面,通过对统计报表中分地区分税种分年度数据对比,掌握某区域税收收入增减变化趋势,了解各地之间是否有争夺税源的情况。

(2)大额整数税款分析。挑选单笔入库税款为10万(或100万)整数倍的企业进行分析,分析其真实性及合理合规性。同时,关注入库日期为6月(所属期为5月)、12月(所属期为11月)的营业税、城建税、教育费附加、地方教育附加4项合计金额整数倍或接近整数倍的企业,关注其税款入库情况。此外,印花税、土地增值税一般在各年度按当期实际的销售收入缴纳入库,因此如出现营业税及附加税费配比正常但没有预缴土地增值税和印花税的情况,则也需考虑其是否存在提前或延迟入库的现象。

(3)特征分析。通过分析缴款明细数据中税款来源为风险自查等特征数据,了解地税部门去年的关注重点,进而找到审计人员的关注重点。

3、结合外部数据,开展地税数据审计分析

(1)城建税、教育费附加和地方教育附加均是以三税(增值税、消费税、营业税)实际缴纳税额为依据,按照一定比例征缴。而增值税、消费税数据均在国税部门,因此审计部门需要通过获取国税部门的相关数据,以对企业在地税部门是否涉及少缴附加税费情况开展审计。同时,关注城建税、教育费附加和地方教育附加征收范围和地方教育附加征收标准调整后,执行落实情况,有无违规减免、有无少征漏征等。

(2)通过获取工商登记数据,查找是否存在已经在工商部门进行了注册登记,却未在税务部门办理税务登记而少缴税的企业;通过对工商股权变更数据的关联分析,关注企业、个人股权转让中个人所得税是否足额缴纳。

(3)通过获取国土部门土地出让数据,分析企业是否足额缴纳印花税。并关注土地转让过程中的契税和营业税,了解是否存在税收流失的情况。

4、通过时间等多个维度对多个税种缴款数据进行分析

(1)对房产税、城镇土地使用税的审计。通过对近两年地税部门房产税和城镇土地使用税明细数据的分析,审查近两年房、土两税变化较大的企业其税款变化是否合理;重点审查有无缴纳房产税未缴城镇土地使用税、以及缴纳城镇土地使用税未缴纳房产税的企业。

(2)对房地产公司企业所得税进行审计。以2016年开展地税部门2015年度预算执行情况审计为例。首先,计算2014年全年房地产企业入库销售建筑物或构筑物的营业税和企业所得税情况(2014年入库,所属期为2014年度); 其次,计算2015年对应房地产企业入库销售建筑物或构筑物的营业税和企业所得税情况(2015年入库,所属期为2014年度); 第三,合并前两步得到整个所属期为2014年度的入库企业所得税金额和营业税金额; 第四,以营业税金额测算得到销售收入金额,进而分别测算企业毛利润、毛利率,考虑企业相关税费等因素,因此筛选毛利率低于一定阈值的企业。同时统计各企业的企业所得税纳税申报次数及实际纳税次数。最后根据分析得到的疑点数据,了解企业所属期2014年度,企业所得税额偏少的原因以及部分企业没有按月(或季度)申报缴纳企业所得税的原因。

(3)对重点税源户的审计。分析重点税源户和纳税大户(年纳税额一定阈值以上)近两年入库税收收入变动情况。重点关注房地产企业的税收分析:通过整体分析房地产行业纳税人营业税、城市建设税及附加、企业所得税、土地增值税、印花税等之间的内在关系,审查其是否及时足额缴纳各项税收。

5、利用大数据开展稳增长等政策执行情况审计

在税务管理情况审计上,通过对涉税大数据的分析,把握税收征管改革方向,重点关注与宏观经济发展相协调的税收政策执行情况;关注对小微企业降费清税等相关税收政策的执行落实情况,促进加强纳税服务,确保相关税收政策落到实处。根据营改增税目清单,关注地税部门在营改增后如何加强税务管理、税款征收等方面的工作,分析其对地方税收的影响。关注预征土地增值税税率2014年调整后企业是否少缴等。

6、结合半结构化数据开展总体分析

(1)在税收预算执行情况审计上,首先,通过汇总整个地区税收数据,与取得的当年税收统计报表相比对,以确认该地区税收征管审计取得数据的真实完整性。其次,通过对税收征管数据的分析,结合金库报表、地税部门会统报表,审计地税部门税收预算执行情况,分析评价其组织收入的措施及能力。最后通过分税种、分地区、分级次分析税收征管数据、与地税部门会统报表进行核对等方式,了解核实前一年度收入组成及同比增长情况。

(2)根据税务稽查数据分析结果,确定审计疑点,抽审案件卷宗,关注稽查任务执行情况,审查查补税款是否及时足额入库。了解前一年土地增值税已清算房地产企业名单,审查地税部门对符合清算的是否及时进行清算,税款是否及时入库。

(3)企业所得税审计中,通过分析企业提供给税务部门的多年财务报表,并集合外部房地产销售形势,分析判断企业利润情况真实性。

7、结合非结构化数据开展地税审计

审计人员通过全国工商信息网查阅企业工商登记信息核实经营范围和开发资质,通过在房地产市场信息网查询某楼盘开发项目的信息,了解该楼盘开发总套数、销售情况以及是否为保障性住房等信息,来核实其营业税计税依据,是否享受税收减免及是否应进行土地增值税清算,最后结合结构化的税款缴款明细数据,核实该企业税款缴纳是否及时、足额。

8、开发工具开展各税统筹分析

有的时候我们用SQL查询语句无法直接实现我们希望达到的功能,而目前市面上还没有符合审计人员特定需求的审计分析工具,因此审计人员就通过有关高级编程语言编写小工具、小软件,实现我们需要的功能。

三、大数据环境下的审计取证与数据安全

大数据时代,一个微小的数据泄密,就可能使被审计单位蒙受巨大损失,并可能使得审计部门处于很被动的地位。因此,审计人员和审计机关对取证和数据安全应引起足够的重视,千里之堤,不可溃于蚁穴。必须加大投入,严格管理,保证数据安全。

1、大数据环境下的审计取证

在大数据环境下,审计证据的存在形式、内容、获取的方式等与传统纸质证据有明细的区别。一方面,各种数据管理软件(包括会计软件)的更新换代,增加了数据提取的难度。被审计单位的数据由于软件版本的更新和数据的逐年积累,数据量越来越大,也越复杂,审计人员不得不从浩如烟海的资料中收集整理相关数据,因此带来了更多的检查风险。另一方面,软件公司为了维护公司利益、保守其技术秘密和商业秘密,会采用愈来愈严格的防范与保密措施,增大了审计取证的困难。

审计人员在取证时,除了传统取证方式外,还可以采取外部调查、重新计算操作、分析等方法向有关单位和个人获取审计证据。审计人员可以根据情况采取如数据分析结果存盘、数码拍摄照片、屏幕拷贝图片等多种电子取证方式。

2、证据判断与处理处罚意见

证据的准确判断可以迅速锁定重要问题。在大数据环境下,我们必须进一步审慎对待审计分析结论,并与被审计单位充分沟通。审计组对审计发现的问题提出处理处罚意见时,除了应当关注法律法规的条款外,还应当关注行业标准和规定,在审计实施过程中还需要持续关注标准的适用性。

3、电子资料的安全保管

审计人员获取的被审计单位的数据经常涉及相关工作秘密或商业秘密等,因此审计组负有保管和保密义务。由于信息化环境下,他人只要能访问电脑,就可能对数据文件进行复制并带走,因此应对相关服务器设置高强度的密码,并定期更换。审计组应对相关计算机及移动存储设备采取必要的安全防范措施,落实专人保管,非相关的人员不允许接触,以防止不法份子盗取审计保密资料。另一方面,从被审单位采集的各类电子数据及技术资料,在审计过程中形成或取得的资料、数据、文件,未经批准,不得向外泄露或向其他人提供。电子资料管理不善,可能给审计人员和被审单位带来不可弥补的损失,甚至将审计人员自身推上被告席。同时,要注意电子资料(证据、底稿等)的备份,以防由于软硬件故障导致资料丢失而使得前面的工作毁于一旦。

审计结束,各种数据文档等,属归档范围的应及时整理归档(可以刻盘存储),不属归档范围的应定期销毁,切实消除各种不安全隐患。

四、当前开展地税大数据审计存在的制约因素

1、涉税数据大集中未形成制度化,数据共享有困难

长期以来,涉税数据分散在各个相关单位,没有进行统一的管理与分析,不利于税源控管。为了加强综合治税,实现涉税信息全覆盖管理,提高税收征管效率,促进财政收入持续稳定增长,部分地区开展综合治税工作,要求涉税数据集中共享,但一些地方仍存在一些制约因素。

(1)数据大集中未形成稳定的长效机制。目前对涉税单位缺乏可行的约束机制,导致一些涉税单位在综合治税工作中,存在迟报、缺报等现象,数据更新不及时,有的单位只是初期一次性共享一批数据(一次性数据),后期就再无更新,或者数据更新有停顿。随时间推移,这些数据已经逐步失去了时效性和使用价值。另外,参与单位年末内部人员岗位变动后经常不能及时上报有关部门更新其联系人,导致出现找不到联系人的情况。

(2)涉税数据的分析利用率有待进一步提高。涉税数据来之于全市多个部门,数据内容丰富,数据量也越来越大,含有很多有利用价值的信息,然而当前对数据利用的深度和广度有不足。据笔者了解,很多审计部门如要使用涉税大数据,经常要经过复杂的申请审批程序,而其中国税部门由于不是我们的审计对象,因此对国税的数据共享更是存在比较大的困难。

2、各部门之间的涉税数据的关联性不强,数据质量有待提高

大数据环境下开展审计,要求各个部门之间的数据一定要能够有关键字段进行关联,否则就很难达到1加1大于2的效果。

(1)部分部门的数据之间缺乏统一的数据关联标准和规范。涉税数据来源于不同的部门,涉及的机构多,信息化水平不等,最为突出的是纳税人身份识别码不统一。工商部门、供电部门、自来水公司、民政局等政府部门及社会公共事业单位都有各自的编码规则。结果同一纳税人在不同的机构、不同的系统有不同的代码,导致归集、利用这些不规范数据时效率偏低,在数据处理过程中可能会造成有效数据的遗失或数据匹配错误,影响到涉税大数据应用的成效。据笔者了解,国家目前已明确要求今后将把组织机构代码作为一个单位的唯一识别码,就有如自然人的身份证一样。但此一要求有待各部门对其信息系统的进一步升级。

(2)涉税各部门的数据质量有待提高。一是部分单位的数据中缺乏某些重要字段,使得数据不具有使用价值;二是金额单位不一致,比如土地转让数据的“转让金额”字段,有时候以元为单位,有的则又以万元为单位,导致数据不便于统计分析;三是部分数据缺乏完整的数据字典,部分单位提供的报表和数据项目,无法利用。

3、部分审计人员还未做好开展大数据审计的思想准备

常见的大数据技术有关联规则学习、分组、数据挖掘、模式识别、预测模型等。因此对审计人员来说,不仅仅要懂得看电子账和利用SQL语句进行结构化数据查询分析,还要了解非结构化数据的特点,学会利用大数据工具分析查找规律、发现线索。这就需要建立包括懂审计业务、数据分析以及熟悉常用大数据分析工具等方面的审计人才团队。因此,对审计人员开展大数据分析培训的工作任重而道远。

另外,当前开展大数据审计的思路和方法还不是很多,适合审计人员使用的大数据分析工具还比较少。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
大数据 Linux 数据安全/隐私保护
大数据快速搭建环境
大数据快速搭建环境
177 0
|
大数据 Linux 数据安全/隐私保护
基于Docker搭建大数据集群(一)Docker环境部署
基于Docker搭建大数据集群(一)Docker环境部署
|
22天前
|
SQL 机器学习/深度学习 分布式计算
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
41 1
|
18天前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
34 1
|
3月前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
123 4
大数据环境下的房地产数据分析与预测研究的设计与实现
|
4月前
|
JSON 分布式计算 大数据
MaxCompute操作报错合集之连接环境时,出现报错:TypeError: access_id and secret_access_key,该怎么解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5月前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用问题之如何同步两个环境的参数
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
缓存 运维 NoSQL
面试分享:Redis在大数据环境下的缓存策略与实践
【4月更文挑战第10天】探索Redis在大数据缓存的关键作用,本文分享面试经验及必备知识点。聚焦Redis数据结构(String、List、Set、Hash、Sorted Set)及其适用场景,缓存策略(LRU、LFU、TTL)与过期机制,集群和数据分片,以及性能优化和运维技巧。通过代码示例深入理解,助你面试成功,构建高效缓存服务。
158 4
|
6月前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之阿里云DataWorks专有云环境下,上传MaxCompute的UDF(用户自定义函数)的JAR包的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
120 0
|
SQL 安全 Java
开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?
开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?