
作者 | 吹牛Z
來源 | 數據不吹牛
據某數據來源統計,學習了Pandas的同學,有超過60%仍然投向了Excel的懷抱,之所以做此下策,多半是因為剛開始用Python處理數據時,選擇想要的行和列實在太痛苦,完全沒有Excel想要哪里點哪里的快感。
初識Pandas最基礎的列向索引在這里就不多加介紹了,今天我們給大家介紹的是,結合場景詳細介紹兩種常用的索引方式:
首先,簡單介紹一下練習的案例數據:
和第一篇數據集一樣,記錄著不同流量來源下,各渠道來源明細所對應的訪客數、支付轉化率和客單價。數據集雖然簡短(復雜的案例數據集在基礎篇完結后會如約而至),但是有足夠的代表性,下面開始我們索引的表演。
01 基于位置(數字)的索引
先看一下索引的操作方式:
我們需要根據實際情況,填入對應的行參數和列參數。
場景一(行選?。?/span>
目標:選擇“流量來源”等于“一級”的所有行。
思路:手指戳屏幕數一數,一級的渠道,是從第1行到第13行,對應行索引是0-12,但Python切片默認是含首不含尾的,要想選取0-12的索引行,我們得輸入“0:13”,列想要全部選取,則輸入冒號“:”即可。
場景二(列選?。?/span>
目標:我們想要把所有渠道的流量來源和客單價單拎出來看一看。
思路:所有流量渠道,也就是所有行,在第一個行參數的位置我們輸入“:”;再看列,流量來源是第1列,客單價是第5列,對應的列索引分別是0和4:
值得注意的是,如果我們要跨列選取,得先把位置參數構造成列表形式,這里就是[0,4],如果是連續選取,則無需構造成列表,直接輸入0:5(選取索引為0的列到索引為4的列)就好。
場景三(行列交叉選?。?/span>
目標:我們想要看一看二級、三級流量來源、來源明細對應的訪客和支付轉化率
思路:先看行,二級三級渠道對應行索引是13:17,再次強調索引含首不含尾的原則,我們傳入的行參數是13:18;列的話我們需要流量來源、來源明細、訪客和轉化,也就是前4列,傳入參數0:4。
02 基于名稱(標簽)的索引
為了建立起橫向對比的體感,我們依然沿用上面三個場景。
場景一:選擇一級渠道的所有行。
思路:這次我們不用一個個數位置了,要篩選流量渠道為"一級"的所有行,只需做一個判斷,判斷流量來源這一列,哪些值等于"一級"。
返回的結果由True和False(布爾型)構成,在這個例子中分別代表結果等于一級和非一級。在loc方法中,我們可以把這一列判斷得到的值傳入行參數位置,Pandas會默認返回結果為True的行(這里是索引從0到12的行),而丟掉結果為False的行,直接上例子:
場景二:我們想要把所有渠道的流量來源和客單價單拎出來看一看。
思路:所有渠道等于所有行,我們在行參數位置直接輸入“:”,要提取流量來源和客單價列,直接輸入名稱到列參數位置,由于這里涉及到兩列,所以得用列表包起來:
場景三:我們想要提取二級、三級流量來源、來源明細對應的訪客和支付轉化率。
思路:行提取用判斷,列提取輸入具體名稱參數。
此處插播一條isin函數的廣告,這個函數能夠幫助我們快速判斷源數據中某一列(Series)的值是否等于列表中的值。拿案例來說,df['流量來源'].isin(['二級','三級']),判斷的是流量來源這一列的值,是否等于“二級”或者“三級”,如果等于(等于任意一個)就返回True,否則返回False。我們再把這個布爾型判斷結果傳入行參數,就能夠很容易的得到流量來源等于二級或者三級的渠道。
既然loc的應用場景更加廣泛,應該給他加個雞腿,再來個接地氣的場景練練手。
插入場景之前,我們先花30秒的時間捋一捋Pandas中列(Series)向求值的用法,具體操作如下:
只需要加個尾巴,均值、標準差等統計數值就出來了,了解完這個,下面正式進入場景四。
場景四:對于流量渠道數據,我們真正應該關注的是優質渠道,假如這里我們定義訪客數、轉化率、客單價都高于平均值渠道是優質渠道,那怎么找到這些渠道呢?
思路:優質渠道,得同時滿足訪客、轉化、客單高于平均值這三個條件,這是解題的關鍵。
先看看均值各是多少:
再判斷各指標列是否大于均值:
要三個條件同時滿足,他們之間是一個“且”的關系(同時滿足),在pandas中,要表示同時滿足,各條件之間要用"&"符號連接,條件內部最好用括號區分;如果是“或”的關系(滿足一個即可),則用“|”符號連接:
這樣連接之后,返回True則表示該渠道同時滿足訪客、轉化率、客單價都高于均值的條件,接下來我們只需要把這些值傳入到行參數的位置。
到這一步,我們直接篩選出了4條關鍵指標都高于均值的優質渠道。
這兩種索引方式,分別是基于位置(數字)的索引和基于名稱(標簽)的索引,關鍵在于把腦海中想要選取的行和列,映射到對應的行參數與列參數中去。
只要稍加練習,我們就能夠隨心所欲的用pandas處理和分析數據,邁過了這一步之后,你會發現和Excel相比,Python是如此的美艷動人。
這是Python數據分析實戰基礎的第一篇內容,主要是和Pandas來個簡單的邂逅。已經熟練掌握Pandas的同學,可以加快手速滑動瀏覽或者直接略過本文。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25