熱線電話:13121318867

登錄
首頁精彩閱讀干貨收藏 | 文科小姐姐也能讀懂的AI指南
干貨收藏 | 文科小姐姐也能讀懂的AI指南
2019-07-15
收藏
干貨收藏 | 文科小姐姐也能讀懂的AI指南

作者 | 讀芯術

根據麥肯錫的數據,從現在到2030年這十幾年間,人工智能將會為美國新創造大約13萬億美元的國內生產總值。相比之下,2017年整個美國的國內生產總值約為19萬億美元。

吳恩達等主要的人工智能科學家將人工智能描述為第四次工業革命或“新電力”。人工智能無疑是數字轉型的核心,它在整個行業的應用將極大地改變世界和業務方式。

許多人想參加這場人工智能革命,但人工智能的技術復雜性使他們不堪重負。他們不知道人工智能的功能,更不用說如何將人工智能運用于公司了。

這正是本文所要解決的問題:讓沒有技術背景的人更理解人工智能,這樣他們自己就能夠評估人工智能在自己工作中的可能性。


目錄

  • 對人工智能的誤解
  • 什么是機器學習?
  • 人工智能術語
  • 什么是數據?
  • 如何獲取數據?
  • 數據濫用


1. 對人工智能的誤解

干貨收藏 | 文科小姐姐也能讀懂的AI指南

人工智能有很多不必要的炒作,這主要是由于許多人都有一種常見的誤解。人工智能可以分為兩部分或存在兩種內容:

  • 弱人工智能(ANI)

這指人工智能擅長某一特定任務,它們是針對這一任務訓練和開發的。例如,它可以是一個基于歷史數據預測房價的人工智能系統,或者是向你推薦YouTube視頻的算法。還比如是預測性維護、質量控制等。

弱人工智能是一個非常強大的工具,它將在未來幾年為社會增加許多附加價值。近年來看到的所有成就,以及在新聞中經常聽到的內容,都發生在弱人工智能領域。這些吸引人眼球的新聞讓人們錯誤地認為科學在人工綜合智能方面取得了很大的進展,但實際上只在弱人工智能方面取得了進步。

  • 通用人工智能(AGI)

人工智能的最終目標是一個跟人類一樣只能甚至比人類更智能的計算機系統。任一人工綜合智能都可成功地完成任何人可以完成的智力任務。這也是人工智能中最引起人們恐懼的部分。他們想象出一個計算機比人類聰明得多的世界,在這個世界里幾乎每一項工作都是自動化的,甚至是像《終結者》一樣的場景。這就是不必要的炒作。它引起了對人類未來的非理性恐懼,而實際上,要想達到真正的通用人工綜智能水平,還需作出許多技術上的突破。


2. 什么是機器學習?

機器學習是人工智能的中堅技術。它利用統計技術使計算機程序能夠從數據中學習(例如逐步提高其處理特定任務中的能力),而無需進行明確的編程。

機器學習是人工智能的工具,它引起了所有的過度關注,并使幾乎所有通過人工智能系統創造的價值都得以實現。它也可以分為不同的部分,但只有一個部分涵蓋80%通過機器學習創造的價值。那便是有監督學習。

有監督學習算法只需通過學習大量數據中的關系來學習輸入(A)到輸出(B)映射。想象一下建立一個系統,將電子郵件分為垃圾郵件和非垃圾郵件。需要收集大量電子郵件“被貼標簽”的案例。這意味著每封電子郵件都有一個標簽用來指示它是否是垃圾郵件。人們需要收集數千封帶有標簽的電子郵件,然后將這些數據輸入到一個受監督的機器學習算法中。

在訓練過程中,該算法將分析所有輸入的電子郵件,并迭代地提高對垃圾郵件與非垃圾郵件間區別原因的理解。在本例中,系統必須將電子郵件(a)映射到一個標簽,該標簽要能指示郵件是否是垃圾郵件(b)。

可以通過輸入上千封貼有標簽的電子郵件來訓練算法。基于該數據進行算法訓練后,可以輸入一封全新的電子郵件(該算法以前從未見過),該算法將顯示它是否認為該電子郵件是垃圾郵件。

比如在線廣告,其中輸入的是關于用戶的信息(A),而系統輸出是一個標簽,這個標簽顯示用戶是否要單擊一個添加項(B)。又比如是語音識別,輸入是音頻文件(A),輸出是音頻文件中所述內容文本(B)。

再比如輸入一個鋼板的圖像(A)進算法,它會判斷是否存在缺陷(B)。乍一看,這似乎是一種相當有限的技術,但如果正確應用,它將非常強大。它是人工智能為社會創造附加價值的唯一主要原因。這種技術似乎有無窮無盡的不同案例,并且人們每天還會發現新的案例。


3. 人工智能術語

干貨收藏 | 文科小姐姐也能讀懂的AI指南

人工智能是一個非常復雜的領域,許多術語在開始時可能會使人非?;靵y。你可能聽說過神經網絡、深度學習或數據科學。我們將研究一些有關人工智能最重要的術語,并揭示其含義,以便你能夠與其他人討論人工智能,并思考如何在業務中應用人工智能。

現在為你提供最常用的人工智能術語的定義,但請注意,人工智能是一個非?;逎y懂的領域,許多術語可以互換使用,但有時卻不可以。

  • 人工智能

人工智能是計算機科學的一個領域,它強調創造像人類一樣工作和反應的智能機器。正如之前所提到的,當人們談論人工智能時,他們大多是指通用人工智能(AGI)。應該把人工智能視為整個智能領域,把機器學習深度學習視為使計算機智能化的技術。

機器學習是人工智能的一個分支領域。不過,正是這個研究領域使計算機能夠在沒有明確編程的情況下從數據中學習。因此,通過機器學習,基本上可以制作程序來執行特定任務。因此,機器學習經常會運行人工智能系統,從基本上來看,這個系統是一個軟件。

機器學習項目事例:假設一家有許多關于房子的數據的房地產公司,它和一家機器學習公司合作建立一個機器學習系統來預測未來房價。這樣的系統可以讓人更好地決定投資哪棟房子,并找出合適的時間來清算投資。

深度學習機器學習的一個組成部分,它包攬了人們近年來看到的,并且今天仍然看到的,所有的媒體炒作和人工狹義智能的大部分突破,這與機器學習基本上是一樣的:給算法貼上帶有標簽的數據,它就會學會預測標簽。與機器學習不同的是,深度學習使用了更現代和更復雜的算法,稱為神經網絡。相反,在機器學習中使用的則是更為簡單的傳統算法。

由于它們的復雜性,新的技術發現以及足夠的數據支持和計算能力,深度學習算法能夠打破許多任務的先前基準,甚至在其中一些任務上超過人類(例如:組織病理學圖像分析,或者在Netflix上推薦電影)。

盡管神經網絡(例如深度學習算法)幾乎總是比傳統算法表現更好,但它們具有某些缺點。

更多信息傳送門:神經網絡的優缺點(https://towardsdatascience.com/hype-disadvantages-of-neural-networks-6af04904ba5b)

你可能經常聽說神經網絡的構建方式與人類大腦相似或受其啟發,但實際上,它們幾乎沒有關系。的確,它們最初受到大腦的啟發,但工作方式的細節與人類生物大腦的工作方式完全無關。

請注意,許多人可以互換地使用深度學習神經網絡這兩個術語。

深度學習項目示例:高級視圖中審視它時,深度學習的項目與機器學習項目沒有太大差別,只需要更多數據,更多計算能力和高技能工程師。

  • 數據科學

數據科學項目的輸出通常是一系列可幫助你做出更好的業務決策的見解,例如決定是否投資某些東西,是否應該購買某些設備,或者是否應重新構建你的網站??梢哉f,數據科學是通過統計方法、可視化等分析數據來提取數據知識和洞察力的科學。輸出通常是演示文稿或幻燈片,它們為高管、領導者和產品團隊做出某些決總結結論,以作出某些決策。

數據科學項目示例:

想象一下,你從事在線廣告業。通過分析所在公司的銷售數據,數據科學家發現旅游行業的公司不會從你那里購買很多產品。因此,你可以將銷售團隊的重心轉移到旅游行業的公司。

另一個例子:

想象一下,你正在經營電子商務,并且聘請了一些數據科學家以獲得更多與業務相關的見解。該項目的結果可能是一個幻燈片,介紹如何修改定價的計劃,以便提高整體銷售額或關于如何更有效地營銷特定產品的見解。

有人說人工智能是數據科學的一個子集,有些人說它是另一種方式。所以,這取決于你與誰交談,但數據科學是一個跨學科領域,涉及人工智能、機器學習深度學習的許多工的,但它也有自己獨立的工具。其目標主要是提升商業洞察力。

你可能還聽說過其他流行語,如強化學習、生成對抗網絡(GANs)等。這些只是使人工智能系統更智能化的其他工具,換句話說,機器學習有時也是數據科學。

現在已經了解了人工智能、機器學習、數據科學和深度學習(例如神經網絡)。希望這能讓你了解人工智能中最常用的術語,并且可以開始考慮這些事情如何應用到業務當中。


4. 什么是數據?

數據可以采用多種形式:電子表格、圖像、音頻、傳感器數據等。這些可分為兩大類:結構化和非結構化數據。

  • 結構化數據(“生活在巨型電子表格中的數據”)

結構化數據,就像它的名稱所暗示的那樣,是按照預定義模式以結構化格式存儲的數據。它指的是駐留在記錄或文件中的固定字段中的任何數據,可以是文本的也可以是非文本的。

下面是著名的泰坦尼克號數據集中的結構化數據示例。它包含坦尼克號每位乘客的信息。

干貨收藏 | 文科小姐姐也能讀懂的AI指南
  • 非結構化數據

非結構化數據本質上是未通過預定義模型構建的其他所有內容。它可以是文本的或非文本的,但當人們談論非結構化數據時,它們主要是指圖像、視頻、音頻文件、文檔等。

我們已經解釋了什么是監督學習。由于監督學習是最常用的機器學習類型,當人們說“數據”時,它們主要是指標記數據。示例:有一個數據集,其中包含100,000只狗和貓的照片,其中每張照片都有一個標簽,“貓”或者“狗”。

另一個例子是包含房價信息的數據集。在這里,你將獲得有關房屋的信息(如面積,臥室數量,位置等)以及作為標簽的價格。


5. 如何獲得數據?

可以在互聯網上找到許多問題的數據集(一些是免費的,一些要花點錢),但大多數時候需要創建自己的數據集。

獲取數據有三種主要方式:

  • 手動標簽

想象一下建立一個分類器,可以檢測給定圖片上是否有男人或女人。要訓練這樣的分類器,需要創造或獲得許多男女形象。然后,你需要為每個圖像指定一個標簽:男人(標簽1)或女人(標簽2)。你也可以向人們付費為你做標簽工作(例如:亞馬遜機械土耳其人:mturk.com)。

  • 觀察行為

想象一下,你在經營一家電子商務公司并希望預測客戶何時會進行購買,從而使你能夠更好地管理股票等。你可以通過觀察用戶在網站上的行為以及購買情況來創建數據集。這將有助于創建描述每個用戶的操作的數據集(由某些變量描述,例如:一天中的時間,他們點擊的位置等),以及標簽:購買(標簽1)或不購買(標簽2)。

另一個例子是觀察機器的行為,這可以使你預測它何時需要維護等。

  • 使用免費數據源,購買數據或從合作伙伴處獲取數據

像Kaggle這樣的數據集有許多免費資源。還可以使用Google數據搜索,其功能類似于Google,但僅適用于數據集。如果沒有找到任何內容,可以在數據市場上查找數據集或從合作伙伴處獲取數據集。


6. 濫用數據

干貨收藏 | 文科小姐姐也能讀懂的AI指南

乍一看,獲取數據似乎很簡單,但可能出現的問題很多。在人工智能和機器學習中,我們說:“垃圾中的垃圾”,這意味著你在培訓期間將人工智能質量從人工智能系統中提取出來。

想象一下,你想創建一個特定的人工智能應用程序并開始獲取數據。你的計劃是用兩年實踐累積數據,然后構建人工智能系統。這是非常糟糕的做法。在這種情況下,正確的方法是獲取你能夠獲得的數據并盡快將其提供給人工智能專家。經過一些評估后,他可以告訴你,哪些部分是有用的,哪些部分是完全無用的,以及你應該添加哪些數據。為了節省金錢和時間:與專家一起快速評估數據質量。

另一個大問題是標簽不正確。示例:貓的形象標記成狗而狗被標記成貓等等。這可以防止你的算法學習真正將貓與狗分開的東西然后完全混淆它們。好消息是,數據總數越多,標簽不正確的問題就變得越來越不重要了。如果你有一個巨大的數據集,有超過200萬個標記的貓和狗圖像,一些不正確的標簽不會影響其性能。

還有一個問題,有些人認為,因為他們的公司擁有大量數據,并且這些數據很有用,或者人工智能團隊可以讓它們變得有用。那完全錯了。雖然更多的數據通常更好,但你可以擁有數十億的數據條目,即使是世界上最好的人工智能工程師也無法從沒有價值的東西中創造價值。因此,請不要把數據丟給人工智能團隊,并假設它在某種程度上是有價值的。你可能認為這很稀松平常,但由于對數據和AI的誤解,很多創業公司認為他們擁有有用的數據,而事實上他們沒有。還有其他問題是價值缺失,多種類型的數據(可以解決 - 但成本高昂)等等。

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢