一、“大数据”时代的数据挖掘的应用与方法
数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。所以它所得到的信息应具有未知,有效和实用三个特征。因此数据挖掘技术从一开始就是面向应用的,目前数据挖掘技术在企业市场营销中得到了比较普遍的应用。它包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等。审计部门的数据挖掘以往偏重于对大金额数据的分析,来确实是否存在问题,以及问题在数据中的表现,而随着绩效审计的兴起,审计部门也需要通过数据来对被审计单位的各类行为做出审计评价,这些也都需要数据的支撑。
数据挖掘的方法有很多,它们分别从不同的角度对数据进行挖掘。其中绝大部分都可以用于审计工作中。1.数据概化。数据库中通常存放着大量的细节数据,
通过数据概化可将大量与任务相关的数据集从较低的概念层抽象到较高的概念层。数据概化可应用于审计数据分析中的描述式挖掘,
审计人员可从不同的粒度和不同的角度描述数据集,从而了解某类数据的概貌。大量研究证实,与正常的财务报告相比,
虚假财务报告常具有某种结构上的特征。审计人员可以采用概念描述技术对存储在被审计数据库中的数据实施数据挖掘,
通过使用属性概化、属性相关分析等数据概化技术将详细的财务数据在较高层次上表达出来,以得到财务报告的一般属性特征描述,
从而为审计人员判断虚假财务报告提供依据。2.统计分析。它是基于模型的方法,包括回归分析、因子分析和判别分析等,
用此方法可对数据进行分类和预测。通过分类挖掘对被审计数据库中的各类数据挖掘出其数据的描述或模型,
或者审计人员通过建立的统计模型对被审计单位的大量财务或业务历史数据进行预测分析,根据分析的预测值和审计值进行比较,都能帮助审计人员从中发现审计疑点,
从而将其列为审计重点。3.聚类分析。聚类分析是把一组个体按照相似性归成若干类别,目的是使得同一类别的个体之间的距离尽可能地小,
而不同类别的个体间的距离尽可能地大,该方法可为不同的信息用户提供不同类别的信息集。如审计人员可运用该方法识别密集和稀疏的区域,从而发现被审计数据的分布模式,
以及数据属性间的关系,以进一步确定重点审计领域。企业的财务报表数据会随着企业经营业务的变化而变化,一般来说,
真实的财务报表中主要项目的数据变动具有一定的规律性,如果其变动表现异常,表明数据中的异常点可能隐藏了重要的信息,
反映了被审计报表项目数据可能存在虚假成分。4.关联分析。它通过利用关联规则可以从操作数据库的所有细节或事务中抽取频繁出现的模式,
其目的是挖掘隐藏在数据间的相互关系。利用关联分析,审计人员可通过对被审计数据库中的数据利用关联规则进行挖掘分析,找出被审计数据库中不同数据项之间的联系,
从而发现存在异常联系的数据项,在此基础上通过进一步分析,发现审计疑点。
二、应对“大数据”时代,审计分析应做出的调整
从以上分析过程中,我们不难看出“大数据”时代的数据存贮、处理、分析以及挖掘的各个方面虽然与传统方式相比,在技术层面上有了较大的改变,但是在基本的原理方面并没有显著的改变,原有的审计分析模式没有必要因为“大数据”时代的来临而急于做出相应的改变。然而“大数据”时代在给审计分析带来机遇的同时,还是给我们带给了相当大的冲击,对此我们有必要引起相当的重视,并在日后的信息化建设过程做出相应的调整。
1、数据的存贮与处理。大数据分析应用需求正在影响着数据存储基础设施的发展。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。基于块和文件的存储系统的架构设计需要进行调整以适应这些新的要求。审计部门在选择相应的存贮系统的时候,要对非结构化数据有足够的重视,做好采集的相关准备。同时随着采集数据的单位和年份越来越多,数据量必然是会有大规模的增长。即使是海量数据存储系统也一定要有相应等级的扩展能力。存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。同时,为了提高数据的处理能力,解决I/O的瓶颈问题,可以考虑各种模式的固态存储设备,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储都是可以考虑使用的设备。
2、非结构化的数据处理。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
3、可视化的分析。数据分析的使用者有数据分析专家,同时还有普通用户,但是他们二者对于数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
“一个平台、两个中心”建设,是审计署目前信息化建设的重要内容。通过数据中心的建设,可以在相当程度上解决数据存储与处理的问题;而数据式审计分析平台,同样可以在一定程度上实行可视化分析的相当一部分功能,但是对于越来越庞大的非结构化数据的存储和处理,将会是审计部门接下来所面临的最大的挑战。