
寫量化策略時常用的技巧
1.善用panel保存數據
說明:pandas有三種數據結構,分別是Series(一維),DataFrame(二維),panel(三維)
例子:滬深300成分股所有股票[stock list]在某些特征指標如成交量、收盤價[indicator list]上的某時間區間內的歷史序列[time series],
[stock list] * [indicator list] * [time series]=3維
Q:如何通過Windpy接口來形成我們的三維面板數據呢?
A:按個股循環,獲取每只股票的序列數據(二維);再把300只個股合并成三維。
例代碼1:獲取面板原始數據(daily),后期再在這張大的面板數據上計算月度的情況,再排序形成組合。再形成一個新的面板?!舅悸罚嚎?分-總】
ps1:缺點就是從總表中拆開按每個因子形成月度收益再concat合并,這個過程很麻煩,不如一開始就按因子分開處理好,再合并形成面板數據。
ps2:wind API每天12000條左右的記錄限制,意味著300只股票,每天只能他爸爸的獲取30天的數據,10年的數據(120個月)得花120天來下載,這很坑啊。。??隙ㄊ且硗庀朕k法的,平時寫策略主要目的是訓練思路和練手,對數據質量要求不太高,目前看來,聚寬是最好的選擇,策略編寫平臺類似jupyter notebook,也支持python的所有package。
import pandas as pd
import copy
from WindPy import w
import datetime
w.start()
## 函數getAsharePanels(),獲取A股歷史面板數據
def getAsharePanels(stockcodes,start_date,end_date):
append_data=pd.DataFrame(columns=['trade_date','stock_code','open','high','low','close','volume']) #產生一個輔助數據集,幫助后面循環時匯總
individual_data=pd.DataFrame() #存放個股交易信息的數據集
result={} #result是一個三維的字典
for individual_stockcode in stockcodes:
# 依次生成個股數據集(變量包括:日期、代碼、開盤價、最高價、最低價、收盤價、成交量)
stock=w.wsd(individual_stockcode, "trade_code,open,high,low,close,volume",start_date,end_date)
individual_data['trade_date']=stock.Times
individual_data['stock_code']=stock.Data[0]
individual_data['open']=stock.Data[1]
individual_data['high']=stock.Data[2]
individual_data['low']=stock.Data[3]
individual_data['close']=stock.Data[4]
individual_data['volume']=stock.Data[5]
# 通過300次迭代,把300只股票的df格式的individual_data數據放到result里,形成3維的字典
result[+1]=individual_data
rawdata = pd.Panel(result) #獲取的滬深300成分股的3維數據保存在rawdata中
return rawdata
## 調用函數getAsharePanels(),獲取A股歷史面板數據
todayDate=datetime.datetime.strftime(datetime.date.today(),"%Y%m%d")
wsetdata=w.wset('SectorConstituent','date='+todayDate+';sectorId=1000000090000000;field=wind_code') #通過wset獲取滬深300成分股代碼
stockcodes=list(wsetdata.Data[0])
start_date='20120101' #樣本數據起始日期
end_date='20171231' #樣本數據結束日期
rawdata_panel=getAsharePanels(stockcodes,start_date,end_date)
例代碼2:
【先分后合】
step1:
一維:先寫好一系列函數,分開處理好各因子的歷史序列數據(如:月度收益、排序形成portfolio等)
step2:寫個兩層的循環,把一維變成二維,再變成三維
二維(內層循環):再把一維按照因子類別作為二維的dataframe的列,以此思路來形成二維表,如:df[‘PE’]=seriesXXX
三維(外層循環):按monthly的時間來循環,把二維的截面數據加上時間維度,變成三維的,形成一張panel
Q:分開處理好數據以后,如何形成我們的三維面板數據呢?
A:最外層循環:按時間(換倉頻率一般是月度)
最內層循環:調用windpy接口獲取每只股票的所有因子的截面數據,按股票代碼循環(成交等、價格等)
## 函數1:計算組合的月度收益率
def caculate_port_monthly_return(port,startdate,enddate,nextdate,CMV):
close1 = get_price(port, startdate, enddate, 'daily', ['close']) #三維面板數據
close2 = get_price(port, enddate, nextdate, 'daily',['close']) #面板數據
weighted_m_return = ((close2['close'].ix[0,:]/close1['close'].ix[0,:]-1)).mean() #等權加權
return weighted_m_return
## 函數2:計算benchmark組合的月度收益
def caculate_benchmark_monthly_return(startdate,enddate,nextdate):
close1 = get_price(['000001.XSHG'],startdate,enddate,'daily',['close'])['close']
#二維
close2 = get_price(['000001.XSHG'],enddate, nextdate, 'daily',['close'])['close']
benchmark_return = (close2.ix[0,:]/close1.ix[0,:]-1).sum()
print close1
return benchmark_return
## 核心策略:構建因子組合并計算每月換倉時不同組合的月收益率
# 得到結果monthly_return為panel數據,儲存所有因子,在7×12個月內5個組合及benchmark的月收益率
factors = ['B/M','EPS','PEG','ROE','ROA','GP/R','P/R','L/A','FAP','CMV']
#因為研究模塊取fundmental數據默認date為研究日期的前一天。所以要自備時間序列。按月取
year = ['2011','2012','2013','2014','2015','2016','2017']
month = ['01','02','03','04','05','06','07','08','09','10','11','12']
result = {}
for i in range(7*12):
startdate = year[i/12] + '-' + month[i%12] + '-01'
try:
enddate = year[(i+1)/12] + '-' + month[(i+1)%12] + '-01'
except IndexError:
enddate = '2016-01-01'
try:
nextdate = year[(i+2)/12] + '-' + month[(i+2)%12] + '-01'
except IndexError:
if enddate == '2018-01-01':
nextdate = '2018-02-01'
else:
nextdate = '2018-01-01'
#print 'time %s'%startdate
fdf = get_factors(startdate,factors)
CMV = fdf['CMV']
#5個組合,10個因子
df = DataFrame(np.zeros(6*10).reshape(6,10),index = ['port1','port2','port3','port4','port5','benchmark'],columns = factors)
for fac in factors:
score = fdf[fac].order()
port1 = list(score.index)[: len(score)/5]
port2 = list(score.index)[ len(score)/5+1: 2*len(score)/5]
port3 = list(score.index)[ 2*len(score)/5+1: -2*len(score)/5]
port4 = list(score.index)[ -2*len(score)/5+1: -len(score)/5]
port5 = list(score.index)[ -len(score)/5+1: ]
df.ix['port1',fac] = caculate_port_monthly_return(port1,startdate,enddate,nextdate,CMV)
df.ix['port2',fac] = caculate_port_monthly_return(port2,startdate,enddate,nextdate,CMV)
df.ix['port3',fac] = caculate_port_monthly_return(port3,startdate,enddate,nextdate,CMV)
df.ix['port4',fac] = caculate_port_monthly_return(port4,startdate,enddate,nextdate,CMV)
df.ix['port5',fac] = caculate_port_monthly_return(port5,startdate,enddate,nextdate,CMV)
df.ix['benchmark',fac] = caculate_benchmark_monthly_return(startdate,enddate,nextdate)
#print 'factor %s'%faesult[i+1]=df
monthly_return = pd.Panel(result)
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25