寫量化策略時常用的技巧-CDA數據分析師官網

熱線電話：13121318867

登錄

首頁精彩閱讀寫量化策略時常用的技巧

寫量化策略時常用的技巧

2018-05-15

收藏

寫量化策略時常用的技巧

1.善用panel保存數據
說明：pandas有三種數據結構，分別是Series（一維），DataFrame（二維），panel（三維）
例子：滬深300成分股所有股票[stock list]在某些特征指標如成交量、收盤價[indicator list]上的某時間區間內的歷史序列[time series]，
[stock list] * [indicator list] * [time series]=3維
Q:如何通過Windpy接口來形成我們的三維面板數據呢？
A：按個股循環，獲取每只股票的序列數據（二維）；再把300只個股合并成三維。
例代碼1：獲取面板原始數據（daily），后期再在這張大的面板數據上計算月度的情況，再排序形成組合。再形成一個新的面板?！舅悸罚嚎?分-總】
ps1：缺點就是從總表中拆開按每個因子形成月度收益再concat合并，這個過程很麻煩，不如一開始就按因子分開處理好，再合并形成面板數據。

ps2：wind API每天12000條左右的記錄限制，意味著300只股票，每天只能他爸爸的獲取30天的數據，10年的數據（120個月）得花120天來下載，這很坑啊。。?？隙ㄊ且硗庀朕k法的，平時寫策略主要目的是訓練思路和練手，對數據質量要求不太高，目前看來，聚寬是最好的選擇，策略編寫平臺類似jupyter notebook，也支持python的所有package。
import pandas as pd
import copy
from WindPy import w
import datetime
w.start()

## 函數getAsharePanels(),獲取A股歷史面板數據
def getAsharePanels(stockcodes,start_date,end_date):

    append_data=pd.DataFrame(columns=['trade_date','stock_code','open','high','low','close','volume']) #產生一個輔助數據集，幫助后面循環時匯總
    individual_data=pd.DataFrame() #存放個股交易信息的數據集
    result={} #result是一個三維的字典
    for individual_stockcode in stockcodes:

        # 依次生成個股數據集（變量包括：日期、代碼、開盤價、最高價、最低價、收盤價、成交量）
        stock=w.wsd(individual_stockcode, "trade_code,open,high,low,close,volume",start_date,end_date)
        individual_data['trade_date']=stock.Times
        individual_data['stock_code']=stock.Data[0]
        individual_data['open']=stock.Data[1]
        individual_data['high']=stock.Data[2]
        individual_data['low']=stock.Data[3]
        individual_data['close']=stock.Data[4]
        individual_data['volume']=stock.Data[5]

        # 通過300次迭代，把300只股票的df格式的individual_data數據放到result里，形成3維的字典
        result[+1]=individual_data
    rawdata = pd.Panel(result) #獲取的滬深300成分股的3維數據保存在rawdata中

    return rawdata

## 調用函數getAsharePanels(),獲取A股歷史面板數據
todayDate=datetime.datetime.strftime(datetime.date.today(),"%Y%m%d")
wsetdata=w.wset('SectorConstituent','date='+todayDate+';sectorId=1000000090000000;field=wind_code') #通過wset獲取滬深300成分股代碼
stockcodes=list(wsetdata.Data[0])
start_date='20120101'      #樣本數據起始日期
end_date='20171231'        #樣本數據結束日期
rawdata_panel=getAsharePanels(stockcodes,start_date,end_date)
例代碼2：
【先分后合】
step1：
一維：先寫好一系列函數，分開處理好各因子的歷史序列數據（如：月度收益、排序形成portfolio等）
step2：寫個兩層的循環，把一維變成二維，再變成三維
二維（內層循環）：再把一維按照因子類別作為二維的dataframe的列，以此思路來形成二維表，如：df[‘PE’]=seriesXXX
三維（外層循環）：按monthly的時間來循環，把二維的截面數據加上時間維度，變成三維的，形成一張panel

Q:分開處理好數據以后，如何形成我們的三維面板數據呢？
A：最外層循環：按時間（換倉頻率一般是月度）
最內層循環：調用windpy接口獲取每只股票的所有因子的截面數據，按股票代碼循環（成交等、價格等）

## 函數1：計算組合的月度收益率
def caculate_port_monthly_return(port,startdate,enddate,nextdate,CMV):
    close1 = get_price(port, startdate, enddate, 'daily', ['close']) #三維面板數據 pandas.core.panel.panel'="">
    close2 = get_price(port, enddate, nextdate, 'daily',['close']) #面板數據 pandas.core.panel.panel'="">
    weighted_m_return = ((close2['close'].ix[0,:]/close1['close'].ix[0,:]-1)).mean() #等權加權
    return weighted_m_return
## 函數2：計算benchmark組合的月度收益
def caculate_benchmark_monthly_return(startdate,enddate,nextdate):
    close1 = get_price(['000001.XSHG'],startdate,enddate,'daily',['close'])['close']
#二維
    close2 = get_price(['000001.XSHG'],enddate, nextdate, 'daily',['close'])['close']
    benchmark_return = (close2.ix[0,:]/close1.ix[0,:]-1).sum()
    print close1
    return benchmark_return

## 核心策略：構建因子組合并計算每月換倉時不同組合的月收益率
# 得到結果monthly_return為panel數據，儲存所有因子，在7×12個月內5個組合及benchmark的月收益率
factors = ['B/M','EPS','PEG','ROE','ROA','GP/R','P/R','L/A','FAP','CMV']
#因為研究模塊取fundmental數據默認date為研究日期的前一天。所以要自備時間序列。按月取
year = ['2011','2012','2013','2014','2015','2016','2017']
month = ['01','02','03','04','05','06','07','08','09','10','11','12']
result = {}

for i in range(7*12):
    startdate = year[i/12] + '-' + month[i%12] + '-01'
    try:
        enddate = year[(i+1)/12] + '-' + month[(i+1)%12] + '-01'
    except IndexError:
        enddate = '2016-01-01'
    try:
        nextdate = year[(i+2)/12] + '-' + month[(i+2)%12] + '-01'
    except IndexError:
        if enddate == '2018-01-01':
            nextdate = '2018-02-01'
        else:
            nextdate = '2018-01-01'
    #print 'time %s'%startdate
    fdf = get_factors(startdate,factors)
    CMV = fdf['CMV']
    #5個組合，10個因子
    df = DataFrame(np.zeros(6*10).reshape(6,10),index = ['port1','port2','port3','port4','port5','benchmark'],columns = factors)
    for fac in factors:
        score = fdf[fac].order()
        port1 = list(score.index)[: len(score)/5]
        port2 = list(score.index)[ len(score)/5+1: 2*len(score)/5]
        port3 = list(score.index)[ 2*len(score)/5+1: -2*len(score)/5]
        port4 = list(score.index)[ -2*len(score)/5+1: -len(score)/5]
        port5 = list(score.index)[ -len(score)/5+1: ]
        df.ix['port1',fac] = caculate_port_monthly_return(port1,startdate,enddate,nextdate,CMV)
        df.ix['port2',fac] = caculate_port_monthly_return(port2,startdate,enddate,nextdate,CMV)
        df.ix['port3',fac] = caculate_port_monthly_return(port3,startdate,enddate,nextdate,CMV)
        df.ix['port4',fac] = caculate_port_monthly_return(port4,startdate,enddate,nextdate,CMV)
        df.ix['port5',fac] = caculate_port_monthly_return(port5,startdate,enddate,nextdate,CMV)
        df.ix['benchmark',fac] = caculate_benchmark_monthly_return(startdate,enddate,nextdate)
        #print 'factor %s'%faesult[i+1]=df
monthly_return = pd.Panel(result)

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

pandas DataFrame 特征 Series python

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇某券商自營部量化策略崗的面試題

下一篇R 和 Python 聯姻！本年度最?！吧缃弧?

數據分析師考試動態

考試介紹
考試大綱
考試內容
考試地點

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

更多

Copyright © 2015-2021, www.ruiqisteel.com All Rights Reserved. CDA數據分析師(北京國富如荷網絡科技有限公司) 版權所有京ICP備11001960號-9

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

OK

免費資料
免費試聽
訂制課程
職業規劃
認證考試

客服在線

日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊