
作者:小伍哥
來源:小伍哥聊風控
大家好,我是小伍哥,今天給大家分享一個好像有用,好像又沒啥用的奇奇怪怪的知識,風控嘛,就是玩兒。
〇、“本福特定律”是什么?
“本福特定律”(Benford's law),也稱“本福特法則”,它說明一堆從實際生活得出的數據中,以1為首位數字的數(如12、135、1083首位數字均為1)的出現概率約為總數的三成,接近人們主觀直覺得出的期望值1/9的3倍。
推廣來說,越大的數,以它為首位數字甚至是首幾位數字出現的概率就越低。在十進制首位數字的出現概率中,1最高(30.1%),逐漸遞減,9最低(4.6%)。
在美國大選中,有人就使用了該定律質疑拜登選票異常,在統計了特朗普和拜登在威斯康星州密爾沃基縣470多個選區的得票數首位數字后發現,特朗普的這一曲線較為符合“本福特定律”的曲線,而拜登的曲線形狀則出現異常。拜登在包括威斯康星州密爾沃基、伊利諾伊州芝加哥和賓夕法尼亞州阿勒格尼的曲線均不滿足“本福特定律”,而與此同時,特朗普在多個地區的曲線卻又正好滿足或基本滿足該定律。
一、基本概念
本福特定律(也稱為第一位數法或本福特分布)是一種概率分布,許多統計學的(但不是全部)數據集的第一個數字符合。例如,
15435 首位是 156 首位是 59001 首位是 9199 首位是 19 首位是 9
本福特定律通??捎米髌墼p性數據的指標,并可協助審計會計數據。本福特的分布是一種不均勻的分布,較小的數字比較大的數字有更大的出現j可能。
二、數位分布概率第1位數字出現概率10.30120.17630.12540.09750.07960.06770.05880.05190.046
三、本福特分布圖
四、本福特分布公式
六、本福特定律適用于哪類數據?
需要注意的是,“本福特定律”也有一定的使用條件。首先,數據樣本需要盡可能的多,至少要在3000個以上;其次,數據樣本跨度要大,比如人的身高就不滿足“本福特定律”,因為大多數人身高在1米至2米這一區間;最后,數據樣本應是自然的,不能有人為操控,例如手機號碼和郵政編碼不滿足“本福特定律”,因為這些都是1開頭或特定數字開頭。
也正是因為有特定使用條件,“本福特定律”可用于檢查各項數據是否存在造假行為,因為若有人為因素影響數據,所得首位數字的概率及概率曲線圖將不符合“本福特定律”。
在大部分情況下,本福特定律可以適用于具有以下特征的數據:
雖然有以上的限制,但實際上在會計中,符合上述特征的數據非常普遍。
七、會計欺詐檢測與取證分析
應收賬款,應付賬款,銷售和費用數據均基于兩種類型的變量相乘的值,即價格和數量。單獨,價格和數量不太可能符合本福特定律,但很可能會成倍增加。這種會計數據也可能是正確的。大公司的交易級會計數據幾乎總是會有大量的觀察結果。
如果某些會計數據預計符合本福特定律但不符合,則并不一定意味著數據是欺詐性的。然而,這將為進一步調查提供充分的理由。
以下是如何對會計數據執行本福特分布分析的一些示例。
1)大型企業的應付賬款數據
分析顯示,大型企業的應付幾款的數據的數字第一位數字中有很大比例的1。經過仔細檢查后發現,與上一個會計期間相比,還有更多的支付支票略高于1000美元。前一期的大部分支票金額低于100美元。
在一起財務調查中,負責的財務官隨后受到質疑,他們回答稱他們決定匯總金額以試圖減少支票。低數字金額的合并是偏離本福特定律的常見解釋,使財務官的解釋變得合情合理。
經過進一步調查,據透露,該官員正在向他們創建的虛假殼公司寫支票。
2)本福特的分析應用于組織的費用數據
最初的本福特分析顯示,數據的第一位數字中“非常大”的比例非常大。經過仔細檢查,特定費用的許多條目達到45美元。發現費用對于運營組織至關重要,必須經常支付。調查了這筆特殊費用,然后被認為是合法的。
然后將Benford的分析應用于費用數據的副本,但省略了特定的頻繁費用。發現排除該特定費用的數據與本福特的分布非常接近。
超越第一個數字推廣本福特定律通過查看第一個數字以外的數字,可以增強Benford的分析。
八、廣義本福特的分布表
本表的作用是表示分布規則還可以作用在不同的數位上。比如,0出現在第2位的概率是 11.97%,要高于平均值10%。
注意:由以上數據可以看出,在廣義分布中,數字的出現概率要比第一個數字更加均勻。
九、一般分布公式
根據上面的數據,我們可以得到一般的分布公式
十、上市公司年報凈利潤數據驗證本福特定律
我們用上市公司的利潤數據來驗證下本福特定律。
我們采用tushare接口獲取2019、2020年年報(第4季度)數據,取其中的凈利潤數據,然后我們只考慮凈利潤為正的情況。
xxxxxxxxxxbr
# 驗證本福特定律import tushare as ts # 股票數據獲取的一個包import mathimport matplotlib.pyplot as pltimport pandas as pdfrom functools import reducefrom pylab import *# 這一句讓pyplot支持中文顯示mpl.rcParams['font.sans-serif'] = ['SimHei']# 獲取首位的函數def firstDigital(x): x= round(x) while x >= 10: x //= 10 return x# 首位概率累加def addDigit(lst, digit): lst[digit-1]+=1 return lst# 理論值:每位概率理論值用于對比th_freq=[math.log((x+1)/x, 10) for x in range(1,10)]#分別獲得2019,2020年報數據df= ts.get_report_data(2019, 4)# 只取凈利潤>0的數據,首先進行次數統計freq= reduce(addDigit, map(firstDigital, filter(lambda x:x>0, df['net_profits'])), [0]*9)# 再計算實際概率pr_freq= [x/sum(freq) for x in freq]print(th_freq)print(pr_freq)# 作圖plt.title('用上市公司2019年報凈利潤數據驗證本福特定律')plt.xlabel("首位數字")plt.ylabel("概率")plt.xticks(range(9), range(1,10))plt.plot(pr_freq,"r-",linewidth=2, label= '實際值')plt.plot(pr_freq, "go", markersize=5)plt.plot(th_freq,"b-",linewidth=1, label= '理論值')plt.grid(True)plt.legend()plt.show()
xxxxxxxxxxbr # 驗證本福特定律brimport tushare as ts # 股票數據獲取的一個包brimport mathbrimport matplotlib.pyplot as pltbrimport pandas as pdbrfrom functools import reducebrfrom pylab import *br# 這一句讓pyplot支持中文顯示brmpl.rcParams['font.sans-serif'] = ['SimHei']br# 獲取首位的函數brdef firstDigital(x):br x= round(x)br while x >= 10:br x //= 10br return xbr# 首位概率累加brdef addDigit(lst, digit):br lst[digit-1]+=1br return lstbr# 理論值:每位概率理論值用于對比brth_freq=[math.log((x+1)/x, 10) for x in range(1,10)]br#分別獲得2019,2020年報數據brdf= ts.get_report_data(2019, 4)br# 只取凈利潤>0的數據,首先進行次數統計brfreq= reduce(addDigit, map(firstDigital, filter(lambda x:x>0, df['net_profits'])), [0]*9)br# 再計算實際概率brpr_freq= [x/sum(freq) for x in freq]brprint(th_freq)brprint(pr_freq)br# 作圖brplt.title('用上市公司2019年報凈利潤數據驗證本福特定律')brplt.xlabel("首位數字")brplt.ylabel("概率")brplt.xticks(range(9), range(1,10))brplt.plot(pr_freq,"r-",linewidth=2, label= '實際值')brplt.plot(pr_freq, "go", markersize=5)brplt.plot(th_freq,"b-",linewidth=1, label= '理論值')brplt.grid(True)brplt.legend()brplt.show()
xxxxxxxxxxbr br
從圖形上看,兩者擬合度還是比較高的。據說有些上市公司數據造假就是被用本福特定律查出來的。所以不認真學習的話,造假都造不好。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24