
作者 | Marric Stephens
編譯 | CDA數據科學研究院
上世紀中葉奠定了機器學習的基礎。但是,正如Marric Stephens所發現的那樣,功能日益強大的計算機(采用了過去十年改進的算法)正在推動從醫學物理到材料的各種應用的爆炸式增長。
當您的銀行打電話來詢問在奇怪的時候用您的信用卡進行的一筆可疑的大筆交易時,好心的職員不太可能親自梳理您的帳戶。取而代之的是,一臺機器很可能已經學會了與犯罪活動相關的某種行為,并且在您的陳述中發現了意想不到的東西。銀行的計算機一直在無聲高效地使用算法來監視您的帳戶中是否存在盜竊跡象。
以這種方式監視信用卡是“機器學習”的一個示例,即在給定的一組示例中接受訓練的計算機系統通過該過程來靈活,自主地執行任務的過程。作為更廣泛的人工智能(AI)領域的子集,機器學習技術可以應用在可以挖掘大量復雜數據集以用于輸入和輸出之間關聯的任何地方。對于您的銀行,該算法將分析大量合法和非法交易,以根據給定輸入(“凌晨3點的高價訂單”)產生輸出(“可疑欺詐”)。
但是機器學習不僅僅用于金融領域。從醫療保健和交通運輸到刑事司法系統,它也被廣泛應用于其他領域。王剛(George Wang)是美國倫斯勒理工學院(Rensselaer Polytechnic Institute)的生物醫學工程師,他是醫學成像技術的先驅者之一。他相信,在機器學習方面,我們正處于革命的風口浪尖。
內幕故事
Wang的研究涉及從對人類患者的掃描(輸入)中獲取不完整的數據,并“重建”真實的圖像(輸出)。圖像重建本質上是機器學習算法更普遍的應用的反面,機器學習算法通過訓練計算機來發現和分類現有圖像。例如,您的智能手機可能會使用這些算法來識別您的筆跡,而自動駕駛汽車會使用它們來識別車輛和道路上的其他潛在危險。
圖像重建不僅是一種醫療技術,它還可以在港口和機場中找到,在那里,安全人員可以使用X射線對密封的容器進行窺視。它在建筑和材料行業中也很有價值,在這些行業中,3D超聲圖像可以在結構失效之前很久就揭示出危險的缺陷。但是對于Wang來說,他的目標是克服基于不完善和不完整的醫學物理數據重建對象(例如患者心臟)的體積圖像時出現的噪音和偽像。
越少越好:快速進行MRI掃描可以避免捕獲內部器官的不必要運動,但會導致圖像受損。但是,機器學習可以基于不完整的數據重建改進的圖像。
有充分的理由來處理盡可能少的數據。例如,在磁共振成像(MRI)中,快速進行掃描可以避免患者心臟和肺部不必要的運動,否則這些運動會給所生成的圖片造成不可接受的污點。同時,在X射線計算機斷層掃描(CT)中,您希望最大程度地減少對患者的輻射劑量,這意味著僅捕獲足夠的數據以生成圖像即可,而無需再進行其他操作。
傳統的“分析”重建方法通過組合從患者周圍各個角度獲得的測量結果來生成圖像,這很困難,因為這意味著要獲取完整的數據集。盡管近年來開發的“迭代重建”算法更能容忍數據中的差異,但它們需要大量的計算機功能。這是因為這些算法會產生多個候選圖像,每個圖像都必須與“正確”數據進行比較,以便逐漸達到最終的重建效果。
在短期內,Wang設想使用機器學習技術來代替重建過程中的特定單個組件。這些技術將基于“人工神經網絡”(請參見下面的方框),該網絡近似模擬生物大腦的工作,每個輸入都由一個或多個“隱藏”的人工神經元層處理。加權各層之間的相互作用,以使過程為非線性,并且這些參數隨系統的學習而變化,從而相應地修改輸出。所謂的“深度學習”方法是在存在許多隱藏層時利用“深度”網絡的方法。
首先,Wang認為,改進將是微不足道的,而不是革命性的。例如,在迭代重建中,使用神經網絡基于大數據集對圖像進行初始“猜測”,只會使整個過程更高效。另一種替代方法是,神經網絡負責確定何時執行了足夠的迭代以產生足夠的輸出。
然而,從長遠來看,Wang的野心更大。他呼吁建立一個完全集成的系統,在該系統中,機器學習算法(使用原始成像數據作為輸入)將重建圖像,然后提取和分類癌癥和神經疾病等病理特征。這樣的系統甚至可以擴展到涵蓋治療計劃,從而使從數據采集到治療的整個過程自動化。
Wang說,盡管取得了成就和希望,深度學習仍缺乏一個體面的總體理論,這意味著該技術的矛盾之處仍然是神秘的。通過更改一個小像素的值,人工神經網絡可以返回奇怪的結果。這并不總是正確的。因此,未來的目標是開發更容易解釋,更易于解釋的AI,打開黑匣子,Wang開玩笑說,“仍然是一個灰匣子”。
量子問題
機器學習也可能對量子物理學產生深遠的影響,尤其是解決“量子多體問題”。當您有一組相互作用的對象時,只有考慮到它們的量子性質,才能理解這些問題?!斑@些問題的共同點是,從原理上講,研究它們的特性需要對多體波函數有充分的了解,” 美國西蒙斯基金會的Flatiron研究所的物理學家Giuseppe Carleo說。
用Carleo的話說,多體波函數是“一個怪物,它的復雜性與成分的數量成指數關系”。例如,想像一個粒子系統,每個粒子系統都可以順時針或逆時針旋轉。對于兩個粒子,您有四個可能的狀態。具有三個粒子,八個狀態,這仍然是可管理的。但是,走得更遠,事情很快就會失控。
解決量子多體問題的同樣困難也出現在“量子態層析成像”中。就像層析成像可以通過不進行任何測量來重建對象的內部一樣,量子態層析成像可以通過對系統更易接近的部分進行的少量測量來確定系統的量子態。與量子多體問題一樣,波動函數中編碼的信息隨系統中組件的數量呈指數增長。
描述量子態的一種方式是糾纏量子計算機中的量子位,這使量子態斷層掃描對于理解這種計算機如何應對噪聲和相干性損失至關重要。問題是,任何值得擁有的量子計算機都將包含數十或數百個量子位,因此用蠻力方法確定其量子狀態將是不夠的。正是在那里,人工神經網絡才得以解救,卡爾雷發現了這一點,從而有可能有效地重建包括100個量子比特的量子計算機的狀態。相反,標準方法僅限于大約8個量子位。
新的學習方式:人工神經網絡近似模擬真實生物大腦的工作,每個輸入都由一個或多個“隱藏”的人工神經元層處理。
還有更多。機器學習方法僅在最近才應用于該領域,這意味著研究人員使用的技術仍處于原理驗證階段。確實,Carleo及其同事演示的方法通常涉及僅具有一或兩個隱藏層的神經網絡,而更成熟的商業應用程序(例如Google和Facebook之類的應用程序)可以采用更深層次的體系結構,并在專用硬件上運行已經針對這項工作進行了優化。
不幸的是,量子物理學臭名昭著的怪異性意味著這些更復雜的神經網絡不能簡單地直接轉換為量子態。Carleo和其他人幾乎不得不從頭開始重寫算法,并且還無法與機器學習應用程序最前沿看到的復雜性相提并論。趕上那些成熟的系統將使人工神經網絡能夠解決更復雜的量子問題?!拔艺J為在接下來的幾年中,這種方法和技術上的差距將會越來越小,導致我們現在無法想象的應用,” Carleo說。
未來幾年,人工神經網絡將能夠解決更復雜的量子問題
尋找新材料
人工神經網絡通常必須先輸送大量數據,然后才能產生有用的結果,而在美國弗吉尼亞大學,Prasanna Balachandran所使用的工具并不那么耗數據。他的研究的目的是從廣闊的多維空間中識別出能夠產生具有良好性能的材料的相對較少的配方。通過反復試驗來探索這樣的空間將花費太長時間,并且映射的區域(對應于其特性已知的材料)在整體中只占很小的一部分。
從谷殼中選出小麥:統計學習可用于將大量可能的物質結構篩選為可管理的數量以進行實驗。
Balachandran用于解決此問題的方法是一種特殊的機器學習形式,稱為統計學習。通過假設數據中的模式遵循嚴格的統計規則,這種方法可以滿足對大型訓練集的需求。他解釋說:“我們訓練機器學習模型來了解我們已經知道的事情,然后將這些模型應用于預測我們不知道的事情?!?/span>
在這種情況下,我們知道某些材料組合的行為,而我們本質上希望預測的是其他所有可能配方的特性。但是,可以預測給定材料的屬性的置信度取決于對周圍鄰域的了解程度,因此-對于每次預測-Balachandran也會量化與每個預期值相關的誤差線。
因此,可以識別缺乏知識的區域,并且系統可以建議接下來要進行的最有利可圖的實驗。這是一種新穎的方法。Balachandran說:“通常,在材料科學中,進行實驗的方式因進行實驗的科學家的直覺而有偏差?!?/span>
美國和中國的Balachandran及其同事最近通過從將近一百萬種可能的成分中發現了一套高性能的“形狀記憶合金”,證明了這種方法的有效性。這樣的材料是有用的,因為它們在加熱或冷卻時隨著相變而變形。相變的溫度取決于轉變的方向,這種差異(熱滯后)決定了合金適合的應用。Balachandran的小組特別熱衷于使用具有盡可能小的熱滯現象的材料,并且發現,根據機器的預測,他們合成的幾十種合金中,幾乎有一半的合金是迄今為止最好的樣品。
探索材料特性的無限空間可能是歐內斯特·盧瑟福(Ernest Rutherford)嘲笑為僅僅是“郵票收集”的活動之一,但這可能是發現新物理學的關鍵。Balachandran說:“在接下來的五到十年中,我們希望超越關聯,開始考慮因果關系?!?“您需要使用正確的數據來探討因果關系本身的概念。在我看來,我們已經解決了難題的這一部分,而且我們知道如何快速找到針對我們感興趣的任何給定問題的代表性樣本?!?/span>
統計,統計,統計
雖然機器學習技術已經在醫學,量子和材料物理領域取得了具體的成果和見解,而在其他方面則是不可能的,但統計物理領域的進展卻不那么明顯?!拔覀內栽诘却粋€偉大的榜樣,即社區會同意沒有機器學習就不會做的事情,” 在法國巴黎薩克萊大學研究機器學習理論的LenkaZdeborová承認。
當然,統計物理學已經有了令人鼓舞的發展,但是Zdeborová說,到目前為止,這些技術尚未在該領域的前沿部署。她指出了數十篇使用神經網絡研究諸如2D Ising模型之類的論文的模型,該模型描述了2D晶格上旋轉的粒子之間的相互作用,但到目前為止,還沒有任何一篇告訴我們任何根本上的新知識。
令人失望的是,機器學習尚未推動統計物理學的進步,但是知識和見識肯定正在以另一種方式流動。例如,想象一下識別圖像所需的神經網絡。每個圖像將包含大量數據(像素)并且嘈雜(因為任何給定圖像都將被大量不相關的特征掩蓋);并且網絡中不同權重之間也會存在相關性。
令人高興的是,自上世紀中葉以來,多維,嘈雜和相關的問題就是統計物理學家一直在學習的方法。茲德伯羅瓦(Zdeborová)說:“只需考慮物理學在無序系統中發展的理論,”他的背景是一種特殊的無序磁體,即自旋玻璃。這樣的系統具有很多粒子(即很多尺寸),一個有限的溫度(即熱噪聲)和許多粒子間的相互作用(即很多相關性)。實際上,在某些情況下,描述機器學習模型的方程與用于處理統計物理學中系統的方程完全相同。
這種見解可能是發展全面理論的關鍵,該理論解釋了為什么這些方法如此有效。機器學習的進步可能比幾十年前的普遍預期要高,但是它的成功仍然主要來自經驗的試錯法。Zdeborová總結道:“我們希望能夠預測最佳架構,如何設置參數以及算法是什么?!?“目前,我們不知道如何在不付出巨大努力的情況下得到那些?!?/span>
機器學習術語
人工智能(AI)
機器表現出的智能行為。但是智能的定義是有爭議的,因此最能滿足AI要求的更籠統的描述是:一個系統的行為,該行為根據其環境和先前的經驗來適應其行為。
作為為機器賦予人工智能的一組方法,機器學習本身就是一門廣泛的類別。從本質上講,這是系統從培訓集中學習的過程,以便系統可以自動對新數據做出適當的響應。
人工神經網絡
機器學習的子集,其中,學習機制是根據生物大腦的行為建模的。輸入信號經過神經元的網絡層之前會被修改,然后再作為輸出出現。通過改變網絡中神經元之間的交互強度來編碼經驗。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25在當今數字化時代,數據分析師的重要性與日俱增。但許多人在踏上這條職業道路時,往往充滿疑惑: 如何成為一名數據分析師?成為 ...
2025-04-24以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《劉靜:10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda ...
2025-04-23