一 前言
随着社会发展,人类的生产、生活越来越离不开信息。谁拥有了更多更有效的信息,谁就将在竞争中处于有利地位。信息产业正在成为一个国家的支柱。数据作为信息的载体,其管理工具棗数据库对于信息技术的重要性,正日益得到人们的重视。只有拥有了先进的数据库技术,才能有效地管理好浩如烟海的数据,并从中提取出对自己有用的信息来加以利用。
税务部门作为一个特殊的政府机构,现正逐步向业务规范化,为纳税人提供优质服务的方向转变。新的环境向税务系统提出了新的需求,税务系统除了要加强自身内部管理外,还需要利用高新科学技术,以计算机、网络为辅助工具,实现高效的、全面的税务电子化,为纳税人提供多渠道、优质的服务,提高税务人员的办公效率,内部信息传递更加迅速,还要为业务骨干以及中高层领导提供准确的辅助决策信息。
增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰,是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难。通过应用数据仓库技术,对税收部门的内部和外部数据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。数据仓库技术之所以能够查出漏税者,其基本思想是通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与其实际纳税金额进行对比,从而查出可能的偷漏税者。
二 解决方案
1. 体系结构
税收分析系统(TAS)的体系结构图如下:
上图是从单一的角度来看整个系统的体系结构。下面将详细介绍这种体系结构的每一个单独的环节。
1) 数据来源
数据来源可能是操作型数据库(Operational Database)、历史性数据(通常存档在磁带上),外部的数据(例如:来自工商局或统计局的数据)。数据来源既可能是来自应用程序的关系型数据库,比如表格或者电子数据表;也可能包含非结构化的信息,比如纯文本文件或者图片和其它多媒体信息。
2) ETL过程
ETL过程包括了:数据抽取、数据清洗、数据转换、数据加载等环节。
◇数据抽取
数据的抽取是从数据源,也就是各种业务系统将用于分析的数据抽取出来。一般可以通过ODBC数据源或是文本文件进行数据的抽取。
通过ODBC方式抽取数据的优点是可简化抽取过程,缺点是抽取速度较慢;通过文本导出数据文件的方式优点是速度较快,而缺点是中间过程较多,不利于自动化处理。
因为数据的抽取过程可能会对业务系统造成一定的影响,所以这部分工作大部分是在业务系统不繁忙的晚上进行处理。
◇数据清洗
由于业务的变化、误操作、输入错误等原因,将会造成业务系统数据的不规范,不一致,甚至错误。为了保证数据仓库中用于分析的数据的正确性,必须在数据进入数据仓库之前对其进行清洗和规范。
◇数据加载
数据加载就是将经过清洗、规范的数据加载到目标数据仓库中来。数据加载分为两种:
A、增量加载(将增量数据加载到数据仓库的表中);
B、更新加载(将物理表完全更新进行加载)。
3) 物理数据库模型
物理数据模型包括关系型数据库和多维的数据模型两种。这两种数据库体系结构都可以被选择用来产生数据集市,但它们存取数据库中数据的方式是不一样的。
◇存取来自关系数据中的数据,其通用的存取方式是使用SQL或者中间产品,如ODBC。
◇多维数据库需要特殊的API函数来存取通常所拥有的数据库体系结构。
4) 逻辑数据库模型
最通常使用的逻辑数据模型就是星型(Star-Join)模式。Star-Join模式由两个部分组成:
◇实表——“我们在测量什么?”它包含了处理商业交易的基本信息,主要是对某一特定的应用程序感兴趣。例如:在入库税款分析中,指的就是基本的纳税数据处理。事实表格是很大的,它经常拥有上百万行的数据,并且主要是有关数字的数据。
◇维表——“我们是使用什么在测量?”它包含了描述性的信息,并且与事实表相比要小得多。例如:在入库税款分析中,一个典型的维表格包括时间、税务机关、税种等。
5) 元数据
元数据(Metadata)就是“有关数据的数据”,用来为数据仓库中相关的数据提供信息。该信息确定了进入数据仓库的数据范围,以及与数据有关的规定。由于数据仓库是面向主题的,元数据的建模可能跨越数个功能性商业区域。
数据仓库管理人员对元数据的看法是,它是在数据仓库中所有的内容和所有的处理过程的一个全面的仓库和文件。然而,从最终用户的观点来看,元数据是数据仓库中所有信息的路标。
6) 呈现和分析
从最终用户的观点来看,展示层是最重要的部件,包括:呈现(Presentation)和分析(Analysis)工具。
不同的用户类型需要不同的前端工具,但所有的用户都能访问相同的数据仓库结构。同样,不同级别需要对结果进行不同程度的可视化处理。例如:图像用于高层次的展示,而表格用于进一步的分析。
2. 系统特点
系统特点分为技术特点和功能特点两方面。
1) 技术特点
在技术方面,税收分析系统(TAS)具有以下主要的特点:
◇支持B/S模式多层体系结构。
◇集成性,与业务系统高度集成。
◇灵活性,能多角度分析,且呈现多样。
◇可重复性,多维模型可重复利用。
◇可扩展性,支持新的业务需求。
◇高可靠性,保证数据完整、可靠。
◇维护量少,维护时简单、方便。
2) 功能特点
在功能方面,税收分析系统(TAS)具有以下主要的特点:
◇与税收征管系统高度集成,可执行复杂查询。
◇数据的集中性,可将多种数据来源集中在数据仓库中进行分析。
◇多种图表呈现方式,结果直观,界面友好。
◇对基础税收数据进行统计、分析、预测,为决策者提供依据。
3. 系统功能
税收分析系统(TAS)具有强大的分析功能,主要体现在以下几方面:
1) 对纳税人进行分析
税收分析系统(TAS)能够统计大量的纳税人信息,并支持对纳税人进行多维的特征分析。每个纳税人的属性描述包括纳税人类别、隶属关系、重点户类型、注册类型、征管行业等多个字段。系统能够支持对这样多维的组合性的分析,可以快速给出符合分析条件的纳税人名单和数量。
2) 对税款进行分析
税收分析系统(TAS)能够分析复杂的税收数据,对每个纳税人的纳税情况进行分析。通过这些分析,可以得到:一、应税未报者和瞒税漏税者,并对其进行跟踪;二、税收的比较及分布情况;三、对不同行业、地区和税种应收税款进行预测,制定有效的征收计划。
3) 与其他数据的比较分析
系统提供与其他外部数据的比较分析。如税收收入与GDP的比较;人均税收分析、人均GDP的分析等。
4) 可进行数据挖掘
税收分析系统(TAS)能够进行融合了人工智能的数据挖掘。客户信息的录入和储存方式是数据(data),但是,对于决策者来讲,独立的单个的数据的意义并不大,更重要的是信息(information)和知识(knowledge)。现有的数据挖掘方法已经能够支持进行按照内置逻辑语言进行归纳和演绎。
4. 数据层次
税收分析系统(TAS)基于统一的税收分析数据库(数据仓库),数据库(数据仓库)中的数据划分有层次。对数据进行分层,优点在于:
◇可减少系统数据冗余;
◇能保持数据的一致性及完整性;
◇可提高数据的重复利用率。
在税收分析系统(TAS)的数据仓库中,数据的层次结构图如下:
上图中,操作数据是指操作型环境 (数据来源) 中的数据,不存放在TAS数据仓库中。而虚线框内的各部分数据,则存储在数据仓库中。
1) 操作数据
操作数据指各个数据源中的数据。进入数据仓库的数据全部来自于这些数据源,这些操作数据不是数据仓库本身的组成部分。
例子:XX市的XX纳税户在2000年5月1日缴纳的企业所得税为10000元。
2) 原子数据
原子数据是数据仓库的最底层数据,所有的功能都是以原子数据或从原子数据的派生数据开始的。原子数据通常带有时间维。在这一层中,由来自各种数据源的操作数据导入数据仓库。
例子:XX市的XX纳税户缴纳的营业税,5月1号为900元、4月1号为850元、3月2号为700元等。
3) 汇总数据
操作数据导入数据仓库后,进行汇总计算,得到最终的汇总数据。通常一个分析主题有一张汇总对应。因为不同的主题,分析维的粒度不同。
例子:XX市的税收收入,5月为1000万元、6月为2000万元、7月为5000万元。
4) 历史数据
数据仓库中集中了各种数据源的数据,随着时间的延续,数据的压力将越来越大。因此需要定期的把历史数据转移到历史表中。数据分割是数据仓库中必不可少的。
5) 元数据
元数据就是“有关数据的数据”,它确定了进入数据仓库的数据范围,以及与数据有关的规定。
5. 数据流程
税收分析系统(TAS)中数据的流程如下:
从上图中可以看出,系统的数据流程分为数据迁移、数据汇总和数据分割三个步骤。
1) 数据迁移
数据迁移是指把各种数据源中的数据“转移”到TAS数据仓库中,产生原子数据、及元数据。
转移的过程依次包括:
◇抽取(extract),即从各种数据源中抽取相关数据,以便将数据放到数据仓库中。
◇转换(transform),即必须将数据转换成数据仓库的数据库结构和内部格式。
◇清洗(cleanse),即确保数据有足够的品质为其所用于的决策服务。
◇加载(load),即将净化后的数据加载到数据仓库数据库中。
2) 数据汇总
数据汇总(summaries)是指根据某种需要(如时间粒度不同),把数据仓库中的原子数据作综合计算,预先计算出总额、平均数以及类似的经常使用的数据。这些汇总数据存贮到数据仓库的汇总表中。数据汇总的方式与业务流程紧密相关。
3) 数据分割
数据分割有多种标准。例如,按:
◇时间
◇商业线
◇地理位置
◇组织单位
◇所有上述标准
数据分割的标准严格由开发人员来选择。然而,在数据仓库中,按日期来划分历史数据几乎总是数据分割标准中的一个必然组成部分。
三 业务功能
系统中的每项业务功能,通常都对应于一个分析主题。在税收分析系统(TAS)中,主要的业务功能(分析主题)包括:
1. 纳税户分类分析
即从各种角度对纳税户数进行分类统计。
分析角度有:时间、税务机关、纳税人类别、隶属关系、重点户类型、注册类型,征管行业、登记状态等。
纳税户的分类可以快速有效的对纳税户数进行统计分析,得到纳税户的分布情况图表。通过纳税户分类分析,能够分析出:在某个地区、某个时间内、各种分析角度的纳税户总数,还可进行不同地区、不同时间的对比分析,最终得出纳税户的分布情况图及增长情况图。
2. 文书情况分析
即从各种分析角度对文书数量进行统计分析。
分析角度有:税务机关、时间、注册类型、纳税人类别、重点户类型、隶属关系、征管行业、文书类型等。
通过从各种分析角度对文书的分析,可清楚的了解某个税务机关在某个时间段内处理了多少文书,还可对这些文书进行分类统计,得到各种宏观比较图。
3. 票证情况分析
即从各种分析角度对票证数量进行统计分析。
分析角度有:税务机关、时间、用票人类型、票证状态、票证种类、记帐凭证种类等。
从以上分析角度可以分析出税务机关在某个时间段内处理了多少票证,还可对票证进行分类统计,得到各种宏观比较图。
4. 发票情况分析
即从各种分析角度对发票数量、发票金额进行统计分析。
分析角度有:税务机关、时间、发票种类、发票状态、供票期限等。
从以上分析角度可以分析出税务机关在某个时间段内分发出了多少发票及发票的金额,还可分析出纳税人在某个时间段内领用的发票的总金额。根据从各种分析角度进行的分析,可得到各种宏观比较图。
5. 入库税款分析
即从各种分析角度对入库税款进行统计分析。
分析角度有:税务机关、时间、税种、预算级次、重点户类型、隶属关系、征管行业等。
从以上分析角度可分析出税务机关在某个时间段内有多少入库税款,以及和上期入库税款的同期比。入库税款各种分析角度所占比例图表也可随时得出。
6. 应征税款分析
即从各种分析角度对应征税款进行统计分析。
分析角度有:税务机关、时间、税种、预算级次、重点户类型、隶属关系、征管行业等。
从以上分析角度可分析出税务机关在某个时间段内应该征收多少税款,以及和上期应征税款的同期比。应征税款的各种分析角度所占比例图表也可随时得出。
7. 已缴税款分析
即从各种分析角度对已缴税款进行统计分析。
分析角度有:税务机关、时间、税种、预算级次、重点户类型、隶属关系、征管行业等。
从以上分析角度可分析出税务机关在某个时间段内已经征收了多少税款,以及和上期已缴税款的同期比。已缴税款各种分析角度所占比例图表也可随时得出。
8. 延期税款分析
即从各种分析角度对延期税款进行统计分析。
分析角度有:税务机关、时间、税种、预算级次、重点户类型、隶属关系、征管行业等。
从以上分析角度可分析出税务机关在某个时间段有多少延期了的税款,以及和上期延期税款的同期比。延期税款的各种分析角度所占比例图表也可随时得出。
9. 提退税款分析
即从各种分析角度对提退税款进行统计分析。
分析角度有:税务机关、时间、税种、预算级次、重点户类型、隶属关系、征管行业、提退明细等。
从以上分析角度可分析出税务机关在某个时间段内提退了多少税款,以及和上期的提退税款的同期比。提退税款的各种分析角度所占比例图表也可随时经过分析得出。
10. 减免税款分析
即从各种分析角度对见面减免税款进行统计分析。
分析角度有:税务机关、时间、税种、预算级次、重点户类型、隶属关系、征管行业、减免类型等。
从以上分析角度可分析出税务机关在某个时间段内减免了多少税款,以及和上期的减免税款的同期比。已缴税款的各种分析角度所占比例图表也可随时经分析得出。
11. 欠税税款分析
即从各种分析角度对欠税税款进行统计分析。
分析角度有:税务机关、时间、税种、预算级次、重点户类型、隶属关系、征管行业、欠税状态等。
从以上分析角度可分析出税务机关在某个时间段内存在有多少欠税税款,以及和上期欠税税款的同期对比值。欠税税款的各种分析角度所占比例图表也可随时经分析得出。
12. 税收收入宏观分析
即从各种分析角度对税收收入进行各种宏观分析。
分析角度有:税务机关、时间、税种、注册类型(经济类型)、征管行业等。
可与一些外部数据(如GDP值)进行对比分析。可进行税收收入与GDP的对比分析,得到税收的增长速度、GDP的增长速度,人均GDP值,人均税收收入,税收收入的各种分析角度所占比例等。
四 数据描述
1. 税收征管业务分析
税收征管业务指的是税局现在正在运行的业务系统。
征管业务系统和TAS系统的结合点从源数据整合开始,我们首先需要了解税务,然后才能量身定做适合于用户的系统。
我们需要了解和确认的问题归纳如下:
1) 税局的现有业务流程是怎样的?
2) 征管业务系统中有哪些数据?
3) 数据源是什么?
4) 关键任务是什么?
5) 哪些部门使用TAS系统?
6) 需要支持哪些访问类型?
7) 是否为了替代早期系统而设计?
8) 什么时候加载数据?
9) 按什么原则删除数据?
10) 是否能得到决策层支持?
11) 需要如何培训?
12) 多长时间发布第一个应用?
以上是为了具体实施TAS系统所做的必要准备。针对我们设计方案的具体功能,基于征管业务系统,需税局提供的数据主要包括:
1) 国际标准代码。如:纳税人类别、注册类型、征收项目等。
2) 纳税人基本情况。如:纳税人编码、纳税人工商登记统一代码、纳税人名称、纳税人地址、邮政编码、联系电话等。
3) 纳税核定。根据具体的征管流程来定,有些地区的征管系统中没有纳税核定这一环节。纳税核定中的数据包括:征收方式、税种、品目、核定期限、扣税税率、计税金额等。
4) 纳税申报。如:序号、申报期限、纳税期限、品目、计税金额等。
5) 税款征收。税款征收包括应征、已缴、入库等各种税款。
6) 文书情况。如:文书受理号、文书处理动作、经办部门、经办意见等。
7) 票证情况。如:用票人类型、票证摘要、票证种类、票证状态等。
8) 发票领用及使用情况。如:发票状态、发票种类、年号、发票号码(起、止)等。
9) 其他外部数据。如某个地区的GDP值、人口数量等。
2. 库表分类
在TAS数据仓库中,数据库表分为以下几大类:
1) 国际标准代码表
2) 业务数据表
3) 历史数据表
4) 汇总表
五 软件配置
1. ETL工具
系统提供相应的工具软件,也可以选择其它的ETL工具,如:
1) Ascential公司的DataStage;
2) IBM公司的Warehouse Manager;
3) Microsoft公司的DTS等。
2. 报表查询工具
系统提供相应的报表查询系统;也可以选择其它的报表查询工具,如:
1) IBM/Arbor公司的Hyperion Analyzer;
2) BO公司的BO(Business Object);
3) Brio公司的Brio.Report;
4) Microsoft公司的EXCEL等。
3. 在线分析工具
在线分析(OLAP)工具/软件可以选择:
1) IBM/Arbor公司的Essbase/DB2 OLAP Server;
2) Microsoft公司的SQL Server 2000等。
4. 数据挖掘工具
数据挖掘工具/软件可以选择:
1) IBM公司的智能挖掘器(IntelligentMiner);
2) Microsoft公司的SQL Server 2000;
3) BO公司的商务挖掘器(BusinessMiner)等。
5. 数据库
数据仓库中的数据库可以选择以下任何一种或几种:
1) DB2/UDB;
2) Oracle;
3) Sybase;
4) Informix;
5) SQL Server等。
六 后续
税收是国家财政收入的重要来源,税收工作的好坏直接关系到国家经济的发展。加强税收工作的监管,提高整个税收工作的效率和决策水平,为高层领导提供可靠的决策依据是促进国民经济发展之必然。TAS系统将有效加大对税收的监管力度。