熱線電話:13121318867

登錄
首頁精彩閱讀R 語言數據分析師養成計劃——從零開始的 14 個任務
R 語言數據分析師養成計劃——從零開始的 14 個任務
2017-09-25
收藏

R 語言數據分析師養成計劃——從零開始的 14 個任務

1992年,肉絲(Ross Ihaka)和蘿卜特(Robert Gentleman)兩個人在S語言(貝爾實驗室開發的一種統計用編程語言)的基礎上開始構思一種新的用于統計學分析的開源語言,直到1995年第一個版本正式發布(和各位年齡相仿)。因為他們名字的第一個字母都是R,所以這門語言就被叫做R。這兩個人都是統計學教授出身,再加上R語言的生父S語言,所以R語言在統計學方面有著純正的血統!

如果你平時的工作會涉及到統計學,那么接觸R語言實在是太正常不過了。因為R語言本身為統計而生,所以你能想到的所有統計相關的工作,R都可以非常簡潔的用幾行命令(甚至1行命令)幫你完成。

在R官網有這樣幾句介紹:“R provides a wide variety of statistical (linear andnonlinear modelling, classical statistical tests, time-series analysis,classification, clustering, …) and graphical techniques, and is highlyextensible.  One of R's strengths is the ease with whichwell-designed publication-quality plots can be produced, including mathematicalsymbols and formulae where needed.”

* R高度的可擴展性正是體現在它那1萬多個包上,你想做的幾乎所有事情都可以用現有的R包來輔助完成(當然,有些工作即便能完成但也不適合)。

* R另一個殺手锏就是其強大的繪圖功能,正如上面的英文介紹所言,R可以畫圖,畫各種各樣的圖,畫各種各樣高逼格的圖,畫各種各樣高逼格可以直接出版的圖。

* 完善的統計學功能再加上強大的繪圖功能,就是你學習的最大理由。

C君推薦:扎扎實實的養成R語言數據分析師!

R語言數據分析師養成計劃——從零開始的14個任務

本課程主要是面向小白人士,課程將回答為什么要學習數據分析?如何學習數據分析?并且從R語言安裝、數據結構探索、R基本語句以及數據可視化、決策樹等內容重點剖析14個任務的操作,并在課后有相應作業的布置、修改,使零基礎的學員完全掌握R語言,完成數據分析師計劃的學習。

10月8日前,掃碼回復“R語言”咨詢報名前20名,贈送價值69元的《用商業案例學R語言數據挖掘》一本,帶你走上R語言進階之路。

大  綱

引言——關于數據分析學習的3個問題

(1)為什么要學習數據分析

(2)如何學習數據分析

(3)如何理解我們的課程大綱

任務1 走進R語言與Rstudio

任務1是整個課程的開篇,主要介紹R的下載與安裝、R包的管理,幫助學員快速掌握編程界面。

任務2 R的數據結構探析

任務2中,我們主要學習向量、矩陣、列表、數據框、因子等數據類型,學習數據類型的相互轉換。

任務3 熟悉R的基本語句

任務3中,循環、條件、自定義函數是我們的主要學習內容,這里我們會用到while, for, if, function等命令,這些命令將讓我們處理數據變得游刃有余。

任務4 數據可視化——R的基本作圖

可視化是數據分析的核心之一,畢竟大多數人沒有數據分析基礎,也很難從海量數據中直接提煉信息,這時我們就需要運用散點圖、直方圖、餅圖等可視化工具來幫助我們發現數據規律,展示模型結果。

任務5 數據可視化——R的可視化進階

地理信息可視化,簡單的說就是在地圖上做數據展示,我們將用Remap等功能包,讓你的可視化效果變得十分酷炫。

任務6 多元線性回歸——上市企業盈率的影響因素分析

多元線性回歸是所有數據分析模型的入門級模型,它能有效的幫助我們對進行影響因素分析,客戶價值評估等工作。這一任務中,我們將用盡可能通俗的語言來闡述原理,并以案例的方式進行模型實踐。

案例摘要:市盈率往往是評價上市企業的重要指標,但市盈率=每股市價/每股收益,股價在很大程度上由投資者和市場決定,有投機的因素存在,時常偏離這支股票的內在價值,對企業來說,通過改善每股收益來改善市盈率更為實際。因此,我們的案例將選擇把每股收益作為被解釋變量進行分析。

任務7 主成分分析——上市公司財務數據的主成分分析

主成分分析的作用有很多,其中最常用的就是降維、處理多重共線性、構造指標排名。在這一任務中,我們將結合主成分的基本原理來闡述和實踐。

案例摘要:為了分析財務狀況是如何影響企業市盈率的變化,我們整理了128 家該板塊的公司財務報表,但由于財務數據眾多,而且存在多重共線性問題,所以我們運用主成分方法,將各種財務比率變量降維,再建立回歸模型進行研究。

任務8 聚類分析——基于能力指標的基金經理人分類

物以類聚,人以群分。在互聯網2.0時代深耕細分市場是大多企業的共識。那么如何進行有效的分類才能在這一講中我們將講述聚類的基本方法,其中包括均值聚類和密度聚類。

案例摘要:我們對基金經理人能力指標數據進行了整理,我們在案例中將對經理人按照其能力指標進行分類,給投資者提供參考。

任務9 邏輯回歸——網貸平臺信用風險影響因素與識別

邏輯回歸是最常用的分類模型之一,它最大的優勢在于不但能夠分類,而且等給出屬于哪個分類的概率,其影響因素可以分別進行單調性分析。

案例摘要:本案例以國內85家P2P平臺為研究樣本(已屏蔽平臺名稱),從運營時間(月),平均年化收益率,注冊資金(萬元),平臺高管人數,高管信息詳細比例等來評價影響P2P平臺出現問題的原因,并對平臺進行風險識別。

任務10 決策樹 —— 銀行貸款風險識別

決策樹是最為直觀的決策模型,在這一節中,我們將介紹信息熵,信息增益等概念來幫助大家快速理解決策樹。在案例方面,我們將介紹主流的CART和C5.0模型的應用。

案例摘要:貸款違約風險是銀行面對的主要風險之一,一筆正常的貸款,銀行的利潤是10%左右的利息,但是一筆違約的貸款,銀行則需要付出100%的本金。在我們的案例中,我們將給出如何應用決策樹來進行風險識別的解決方案。

任務11 支持向量機SVM)——智能投顧方案設計

支持向量機SVM,Support vector machines)技術是以數學和統計這兩門學科為基礎支持的學習算法。在業務場景下,SVM通常被用來進行目標識別,樣本分類和回歸分析。在機器學習領域,“機”(machine)表示算法的意思。雖然同屬監督學習算法,但與神經網絡、決策樹不同,支持向量機有著明顯的數學運算和優化技術的基因。

案例摘要:對于股票投資者,選股是基于自身對于市場情況判斷等人為因素來篩選市場中的優質股票,即在當下買入這些優質股持有一定的時間段中,也就是說在選擇時找出自己未來看漲的股票。用SVM來選股的核心在于設計樣本股票的指標,為了能夠綜合不同證券分析方法,本案例SVM模型的特征選擇會從各個角度選取股票樣本的輸入變量。

任務12 關聯分析——互聯網投資標的的智能推薦

關聯分析的一個典型例子是購物籃分析。該過程通過發現顧客放入其購物籃中的不同商品之間的聯系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基于購買模式的顧客劃分。進入互聯網時代,關聯分析的應用已經被各類平臺發揮得淋漓盡致,其主要應用場景包括:

網購商品的智能推薦。(互聯網零售)

電信產品的捆綁銷售。(電信運營商)

互聯網投資標的的智能推薦。(互聯網投資平臺)

音、視頻節目的智能推薦。(音、視頻平臺)

案例摘要:隨著互聯網金融的飛速發展,在互聯網金融平臺上尋找投資標的,進行資產投資,已經成為了越來越多投資者的選擇。然而,在互聯網金融平臺上進行投資通常需要面對以下三方面特征(以P2P網貸為例):(1)一個標的(一筆借款)需要多個投資人(出借人)投標才能滿足;(2)投資人通常不具備專業知識;(3)互聯網金融市場的單個標的金額較小,通常一個標的(一筆借款)金額都被限定在1萬元-10萬元之間,而每個投資人都投資每個標的的一部分,那么投資人就需要完成多個的投標行為才能達成自己的投資需求。因此在互聯網金融平臺上,投資人的決策成本較高。

那么從平臺的角度,除了強化風險管理和提高信息透明度以外,還有那些工作可以吸引投資者,降低投資者決策成本,提高平臺效率呢?投資標的的智能推薦就是一個不錯的選擇,下面我們就基于關聯算法來介紹一個投資標的的智能推薦案例。


任務13 神經網絡—— P2P網貸的逾期風險識別

神經網絡是目前最為熱門的模型,它是通往深度學習的基石,這里我們將詳細介紹神經網絡的基礎知識,為大家的進一步學習后期的深度學習打下堅實的基礎。

案例摘要:在互聯網金融蓬勃發展的環境下,P2P 網貸在我國迅速發展起來。P2P網貸是指通過借助專業網絡平臺幫助借貸雙方確立借貸關系并完成相關交易手續的網絡借貸,是一種將小額度的資金聚集起來借貸給有資金需求人群的商業模型。對P2P信用風險進行識別是一個十分有意義的研究主題,它能夠幫助P2P網貸投資者降低投資風險,也在一定程度上促進P2P行業的發展。本案例就將基于神經網絡對P2P網貸中的信用風險進行識別。

任務14 樸素貝葉斯與文本分析—— 散戶投資者情緒識別

樸素貝葉斯分類方法是一種十分簡單的分類算法。之所以這個方法叫做樸素貝葉斯分類方法,是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎可以簡單的表述為:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬于哪個類別。

案例摘要:投資者情緒識別是業界和學界共同關心的話題。我們認為,當投資者表現出樂觀(正面)情緒,這種情緒將轉化為做多行為,這有助于股票價格上漲;反之,當投資者表現出悲觀(負面)情緒,這種情緒將轉化為做空行為,這有助于股票價格下跌(相關的文獻對于這方面觀點仍有各自的表述)。在這個案例中,我們并不研究情緒與股價的關系,而是希望通過模型來識別論壇中的評論情緒類型。這項工作是后期各種基于情緒指標的交易策略的前提和基礎。

任務15 總結

(1)對所有學習的模型進行綜述

(2)對后期學習給出建議


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢