熱線電話:13121318867

登錄
首頁精彩閱讀數據挖掘技術在稅務系統中的深度應用
數據挖掘技術在稅務系統中的深度應用
2017-06-08
收藏

數據挖掘技術在稅務系統中的深度應用

隨著計算機技術的發展和數據挖掘應用的逐漸成熟,數據挖掘技術引起了越來越多的行業的重視。在國外,政府應用數據挖掘技術發現欺詐行為已經有了30多年的歷史,如今,中國的各類政府機關在信息化的進程中也都不約而同的將數據挖掘應用提到了議事日程上來。稅務征管需要以更新、更便捷、更有效的方法,對大量的征管數據進行分析、提取、挖掘其隱藏信息數據中的潛能。本文著重介紹了通過數據挖掘技術如何實現納稅評估選案,從而降低征管成本,提高管理效果。

一、稅務征管發展基本狀況

我國和許多起他國家一樣每年都會因為納稅人的偷漏稅問題而損失大量的財政收入,有關稅務部門一直以來都致力于解決這方面的問題。但是在沒有引進計算機工具和數據挖掘工具技術之前,這方面的工作在很大程度上,是依賴專業的人員根據以往的工作經驗和某些直覺上的判斷來圈定那些不法納稅人的特征,雖然這在初期可能會有很大的幫助,但是隨著稅務體制的改革,經濟的發展,自然而然的引起的稅源的增加,稅種的增加,這時,政府的稅務管理部門在使用以往總結的憑經驗和直覺判斷的方法,去區分判斷那些違法的納稅人,勢必會導致產生以下問題:征管人員的增加,引起征管成本增大;選案的不科學性,引起征管效率低下;同時,對于個案檢查過程中,由于沒有證據來源,所以增加了個案的時間成本,而且往往是效果也不是十分明顯。 以上種種問題表明,僅僅依賴定性的研究來輔助政府稅務管理部門如何加大監管的工作力度已經出現了很多弊端,借鑒國外的成功經驗,使用數據挖掘,對稅務管理部門所轄的納稅戶進行納稅評估選案的工作,將會大大提高監管工作的效率和工作的效果。當各個稅收征管部門把稅務信息化作為急待解決的問題時,而數據挖掘是實現信息化的必由之路。金稅三期展開前后,稅務部門都比較關注稅務數據的深度利用和數據挖掘問題。

  二、對數據挖掘深度利用的理解
  數據挖掘(Data Mining)是一種知識發現的過程,它主要基于統計學、人工智能、機器學習等技術,高度自動化地分析數據,做出歸納性的推理,從中挖掘出潛在的模式,并對未來情況進行分析、預測,以輔助管理者、決策者評估風險、做出正確的決策。同時,數據挖掘也包含了一系列旨在從數據集中發現有用而尚未發現的模式(Pattern)的技術。確切地說,從大量的數據中抽取出潛在的、不為人知的有用信息、模式和趨勢,是一種更深層次的數據分析。
  數據是形成知識的源泉,原始數據可以是結構化的,如關系數據庫中的數據;也可以是半結構化的,如文本、圖形和圖像數據;甚至是分布在網絡上的異構型數據。方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用于信息管理,查詢優化,決策支持和過程控制,還可以用于數據自身的應用維護。因此,數據挖掘技術是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識、提供管理和決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術和并行計算等方面的學者和工程技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。
  在實際應用中,數據挖掘主要采用關聯規則與時間序列、分類與聚類、Web頁挖掘等幾種分析中進行發現:
 ?。ㄒ唬?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關聯規則與時間序列分析
  關聯規則挖掘就是發現大量數據中項集之間有趣的關聯或相關聯系。根據所處理值的類型分為布爾關聯規則與量化關聯規則;根據涉及的屬性維數分為單維關聯規則或多維關聯規則。這方面比較有影響的算法有Apriori算法等。時間序列分析關聯規則分析類似,目的也是為了挖掘出數據之間的聯系,但時間序列分析更加側重于數據在時間先后上的因果關系。
 ?。ǘ┓诸惻c聚類分析
  分類在數據挖掘中是一項非常重要的任務。分類的目的是通過統計方法、機器學習方法(包括決策樹法和規則歸納法)、神經網絡方法等構造一個分類模型,然后把數據庫中的數據映射到給定類別中的某一個中去。分類分析首先為每一個觀測賦予一個標記,然后檢查這些被標記的觀測,描述出這些觀測的特征。這種描述可以是一個數學公式或者模型,利用它可以分類新的觀測。常用的幾種典型的分類模型有線性回歸模型、決策樹模型、基于規則模型和神經網絡模型等。聚類分析是把一組未標定的記錄或個體按照相似性歸成若干類型,即"物以類聚".它的目的是根據一定的規則,使同一類別之內的相似性盡可能大,而類別之間的相似性盡可能小,合理地劃分記錄集合。知識外化過程的下一層次包含了更為強大的搜索工具和文件管理系統,它們對貯存的知識進行分類,并能識別出各信息源之間的相似之處?;诖?,可用聚類的方法找出知識庫中各知識結構間隱含的關系或聯系。
 ?。ㄈ¦eb 頁挖掘分析
  隨著Internet的迅速發展,使得網絡上的信息量無比豐富,通過對Web 的挖掘,可以利用其上的海量數據進行分析,根據分析結果找出企業管理過程中出現的各種問題,對這些信息進行分析和處理,以便識別、分析、獲取、存儲、傳遞信息,并將其轉化為知識。
長期以來,稅收工作中數據利用比較常見的形式有:報表瀏覽、簡單查詢、復雜查詢、稅源分析、稅負分析、收入預測、過程監控等,多數專家認為,目前稅務數據應用的一般特征是基于匯總、分類、簡單計算基礎之上的原始稅收數據的“復制式”展現和對稅收現象的“陳列式”描述。
  隨著經濟、社會的發展,稅收數據的一般利用已經不能滿足稅收信息化深化和稅收管理現代化的內在需求,為了加強稅收征管、規范稅收秩序,國務院于1994年開始實施“金稅工程”?!敖鸲惞こ獭背跗谝浴霸鲋刀惐O管”為主要目標;二期時,內容已拓寬為增值稅防偽稅控開票系統、防偽稅控認證系統、增值稅計算機交叉稽核系統、發票協查信息管理系統的四個系統;到了三期,其目標已經成為:在二期基礎上,建立七個子系統(管理子系統、征收子系統、稽查子系統、處罰子系統、執行子系統、救濟子系統、監控子系統),35個模塊。依據美國學者Richard.L-Nolan的理論(對于任何行業,信息化大體要經歷初始、蔓延、控制、集成、數據管理和成熟這樣幾個發展階段,這是信息化發展的般規律。)和Mische的補充(他認為集成和數據管理是密不可分的,因此信息化發展的必然路徑是起步、增長、成熟和更新四個階段),目前,稅務信息化的發展階段已開始向成熟階段過渡。于是稅收數據的深度利用便提上日程。我們可以從稅收管理戰略和稅收政策分析兩方面來看這種需求的提出。
  從稅務管理戰略來看,在納稅前如何綜合評價簡化管理制度(法律)及照章納稅宣傳的相對效果;在納稅中如何核算稅收結構和管理程度的實際資源成本(管理、照章納稅、效率、逃稅),以及納稅后對稅收差距的衡量(包括潛在稅收與申報稅收的差距、申報稅收與實收稅收的差距、實收稅收與送達國庫稅收的差距),都涉及到稅收數據的深度利用問題。
  從稅收政策分析的角度來看,稅收經濟的和諧發展度量、稅制改革方案分析、稅收減免和優惠的成本和政策收益、稅收政策的經濟影響等等也涉及到稅收數據的深度利用和挖掘問題。
  這些問題都從以下兩方面引發了我們對稅務數據深度利用的理解和思考:一方面提出了我們需要全面檢視擁有的稅務數據信息的需求。在各國稅務數據信息深度利用的經驗當中,提出過一些全面檢視的標準,例如按照稅基到稅收收入的實現途徑,可以檢視:稅基的規模,包括真實稅基和潛在稅基;稅收管理資源使用方向的詳細分類;管理資源使用的效用;稅收管理的效果,例如收到稅款的多少,處理案件的數量等。
  另一方面,更為關鍵的是,提出了如何科學利用、深度利用的問題??偨Y以上兩方面,我們認為稅收數據的深度利用是指:在數據集中和系統整合的基礎上,建立全面的稅務數據信息,既包括稅務系統內部數據,也包括其他政府部門、企業、居民等外部數據,并且進一步在各種模型的幫助下,發現數據的內在規律。就目前而言,重點任務是在稅務管理方面提出適用中國實踐的模型并且應用,同時初步探索在稅收經濟方面能夠刻畫符合我國國情的模型。
  三、構建模型是數據深度利用的切入口
  如前所述,稅務數據深度利用和挖掘的關鍵在于模型的應用,下面我們就來討論模型是什么?我們為什么需要模型?我們需要什么樣的模型?就稅收數據深度利用的模型而言,大致可以分為兩類:以科學化管理、定量化管理、精細化管理為內在思想的管理工具和手段所形成的模型;以研究稅收經濟關系協調發展為目的的稅收經濟模型。
  在基本認識了稅務數據深度利用中的模型是什么之后,雖然我們達成了一種共識,我們需要模型,但是如果我們思考過為什么需要模型?顯然會對模型應用更能得心應手。我們認為模型所發揮的作用無外乎以下三種:
  首先,刻畫稅收經濟關系。一般而言,我們經常提到的是模型在刻畫稅收經濟關系當中所起的作用,即采用代數形式的定量分析將稅收經濟理論模型化,然后適當根據實踐情況把理論模型予以修正,并將相關數據應用到修正模型中,對模型結果進行經驗分析。這種利用的過程是階段性的,是從初級到高級的過程,是一個水平不斷提高、效果不斷改進的發展過程。
  其次,歸納稅收管理實踐。模型起到的作用是將復雜的稅收征納活動通過數字化的形式總結歸納,將稅收征納的每一個過程精細化、每一個結果數據化,并且建立起投入到產出之間的對應關系。最后,數據組織的導向性作用。這種導向性作用的發揮是通過模型應用過程當中對各類數據提出的要求實現的,通過該作用,隨著時間的發展,數據集中的有效性與目的性不斷加強,反之,模型應用空間不斷擴展。在這一方面,美國個人所得稅模型應用為我們提供了很好的啟迪。
  結合目前的稅務數據基礎及其發展趨勢來看,金稅三期將成為稅收數據深度利用的良好契機,構建相應模型是我們形成稅務數據深度利用良好局面的切入口。
  對于“我們需要什么樣的模型”的回答,是一個不斷結合實際進行摸索的過程,但是就現階段而言,從可操作性的角度出發,我們還是需要給所應用的模型框定一個邊界:數據可利用性,如果沒有數據的支持,模型應用將無從談起;可計算性,模型應用迅速發展的基石之一就是現代計算技術的發展,沒有計算工具的支持,具有龐大計算量的各種稅收模型的完成無法想象,支持稅收模型應用的計算工具包括硬件具備的計算能力和軟件具有的算法能力兩種。
  四、數據深度利用平臺建設的體制
  數據深度利用和挖掘最終必須落實到具體計算平臺上,否則縱然有大量的數據積累,仍然擺脫不了研究與實踐部門脫節的窘態。雖然目前我們擁有大量的計算軟件平臺,然而,總感覺到這些應用平臺離我們的實際需要有一定距離。

從目前應用平臺的構建來看,有幾點體會:首先,平臺的構建必須結合具體的研究問題展開。通用性的平臺雖然很好,但是由于前面所提到的數據可利用性和可計算性的原因,加上實際工作的緊迫性需求,往往使得通用性平臺的規劃會落空,甚至于進一步影響數據深度利用工作本身。

其次,考慮針對具體問題研究的通用性拓展。雖然實用為先,然而要做到持續性的數據利用,必然要考慮拓展的問題。在這個問題上,我們的平臺通過稅制表示方法、稅收政策分析模型描述語言中國稅收政策分析模型支持系統等方法進行嘗試。

  更為重要的是,對適合中國國情的稅收經濟模型的提出。由于長期以來的數據缺少原因,在我國模型建設方面沒有進一步的探索。這種缺陷在海量的數據突然呈現在我們面前的時候更加突出。我們正在嘗試提出適用干中國的稅收經濟模型,雖然肯定會比較艱難,但是這是一條必經之路。

最后,平臺的研究必須以應用為導向。將平臺應用到實際部門,可以最終檢驗平臺的正確性,帶來數據深度利用平臺的可持續發展空間,體現出促進稅收工作的真實效用,避免科研部門“孤芳自賞”的局面。

當然,在數據深度利用和挖掘過程當中,我們也碰到了其它一些問題,例如模型應用的技術性問題,包括數據調整、不同模型的評估和模型應用的不確定性等,還有如數據積累和維護體系、模型使用反饋機制、結果使用反饋機制等等問題。這些問題都需要我們在數據深度利用過程中加以關注和解決。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢