
MYSQL、 Sas EG、 TOAD、 SAS EM
數據導入 txt導入mysql 數據導出 mysql導出為txt txt導入SasEG SAS數據格式修改 頻數統計 相關分析 相關系數 相關系數矩陣 RFM模型 聚類分析 關聯規則 數據挖掘 頻數統計
根據中國互聯網絡信息中心發布第36次《中國互聯網絡發展狀況統計報告》顯示,截至2015年6月,我國網民規模達6.68億,互聯網普及率為48.8%。我國互聯網的高速發展普及為互聯網企業帶來了巨大的發展機遇。
相對于傳統的工業領域,互聯網領域的入門門檻較低,這一特點有利于更多的企業加入互聯網浪潮,以便為人民生活提供更好的服務,但也正是互聯網企業的服務模式易于拷貝的原因,導致了同質化競爭激烈的互聯網企業發展格局。
為了解決這一問題,通過對網站用戶行為進行數據分析,有利于互聯網企業準確把握網站發展的實際情況以及網站用戶心理需求和心理習慣,從而更有效地利用企業資源,以便在激烈的同質化競爭中找到屬于自己的服務特點,獲得比較優勢,最終贏得競爭。
此案例所用數據集來自于一個互聯網企業,屬于論壇性質。共有三個數據集。member.txt、tiezi.txt 、bankui.txt分別是會員個人信息表(包括會員的一些屬性:出生日期,專長,關注領域等)、瀏覽帖子信息表(四個字段,第一個是會員id,第二個是會員瀏覽時間,第三個是會員瀏覽帖子的鏈接代碼,第四個變量為瀏覽的為該帖子的第幾頁),瀏覽板塊信息表(三個字段,第一個是會員id,第二個是會員瀏覽時間,第三個是會員瀏覽板塊的鏈接代碼)。數據缺陷無法提供板塊和帖子的對應情況。其中member.txt數據集中共包含106745條記錄,bankuai.txt數據集中共包含765015條記錄,tiezi.txt數據集中共包含3832002條記錄。
各知識點介紹如下:
第1個知識點介紹的是如何借助于第三方數據庫管理軟件toad把三個txt數據文件導入到MYSQL數據庫中。
第2個知識點介紹的是如何借助于第三方數據庫管理軟件toad把三個txt數據數從MySQL數據庫forum中導出為三個txt文件,將導出的三個txt文件保存為member.txt,tiezi.txt,bankuai.txt,然后在這個基礎之上對本章后面的小節進行操作。
第3個知識點是將三個txt文件導入到SAS-EG中,保存為sas格式的數據集放在建立的邏輯庫test中,并且對日期時間變量進行輸出格式的修改,使其顯示為正確的日期時間格式。三個sas數據文件分別為member.sas4bdat,bankuai.sas7bdat,tiezi.sas7bdat。
第4個知識點是對論壇數據進行一些描述性分析,在tiezi.sas7bdat基礎之上尋找到最火的帖子。
第5個知識點是對論壇數據進行一些描述性分析,是在member.sas7bdat基礎之上對論壇用戶的男女比例進行描述性分析。
第6個知識點是在tiezi.sas7bdat基礎之上通過生成查詢生成器的方式計算每個人瀏覽的帖子總數,并且進行用戶名字的去重。然后將查詢結果和member.sas7bdat數據集進行橫向合并,從而將用戶年齡和瀏覽貼子數放在了一個表中。然后進行兩個變量的相關性分析。
第7個知識點是在tiezi.sas7bdat數據集的基礎之上進行進一步的計算,然后用RFM模型對客戶進行畫像分析,從而找到最有價值的客戶。
第8個知識點在bankuai.sas7bdat數據集的基礎之上用sasEM模塊對數據進行板塊的關聯規則分析,從而可以發現一些推薦規則。
第9個知識點是在member.sas7bdat基礎之上用SasEM模塊的文本挖掘部分對關注領域字段進行關鍵詞頻數分析,從而找到關注度最高的關鍵詞。
? 安裝Toad for MySQL編輯器,成功設置權限;
? 在邏輯庫下選擇forum數據庫,界面如下圖所示;
? 單擊工具欄中的“Tools”選項,執行“Import”,“Import Wizard”命令,如圖4.21,彈出數據導入向導窗口,如下圖所示,點擊Next。
導入數據
? 點擊“Next”,如下圖,繼續進行;
導入數據
? 點擊“Add File”,選擇文件所在位置添加文件,如下圖;
導入數據
? 選擇“Comma”(即以逗號為分隔符),選擇“Column names as head”(即將原文件中的第一行作為列名)及Empty files are n(即將缺失的數據也插入新表中),點擊“Next”繼續進行,如下圖;
導入數據
? 再次點擊“Next”繼續進行,在數據導入向導窗口的Select Target步驟中,選擇“A single new table”(即新建一個表),在Schema下拉列表中選擇創建的數據庫forum,在“Table name”中輸入新表的名稱“member”,根據事先對數據的大致了解,將field6、field7、lingyu的數值類型改為VARCHAR(200),將zhuanchang的數值類型改為VARCHAR(500),同時選中memberid,將光標定位在memberid前面,點擊“Set Primary Key”,即將memberid設置為主鍵,如下圖所示,點擊Next按鈕。
圖 導入數據
? 再次點擊Next,Finish按鈕,等待一段時間后會出現如下圖的窗口,可以看到讀取數據行數為106745行,導入數據行數也為106745行,因此數據全部導入。
圖數據導入結果匯總
? 點擊OK,在Viewer Table forum.member窗口下點擊Data選項,數據如下圖,可以看到中文字符也完全顯示出來。
圖 數據導入成功
在MySQL命令窗口下,執行下列語句同樣可實現上述操作:
create table forum.member
(
gender int(11),
birthyearm int(11),
constellation varchar(255),
zodiac varchar(255),
resideprovince varchar(255),
field6 varchar(255),
field7 varchar(255),
lingyu varchar(255),
zhuanchang varchar(255),
readad int(11),
viptype int(11),
memberid int(20),
count int(11),
PRIMARY KEY(memberid)
)engine=innodb charset=utf8;
上述代碼將新建一個名為forum.membe的新表,包含13個字段及其屬性,定義memberid為主鍵,engine=innodb為指定數據引擎,charset=utf8為編碼格式,int表示數據格式為整型,varchar表示數據為可變字符型。
? 重復上述操作步驟同樣可以將bankuai.txt和tiezi.txt導入至數據庫。
其中tiezi.txt在讀入時,采用默認設置讀入,發現并未讀取全部記錄,原因是time的字段類型為int不合適,time字段的一些取值超過了int類型所涵蓋的范圍,需要在導入時將該字段類型改為bigint。這樣就可以將全部記錄導入。由于tiezi的數據量(行數)非常龐大,我們將processing row count改為10000以加快讀取速度。如下圖所示。最終在圖4.30中顯示讀取數據為3832002條,導入條數也為3832002條。
圖 導入數據
圖數據導入結果匯總
這個知識點操作結束之后,在你的電腦的mysql的forum數據庫中將會存在三張表。
數據庫管理員的其中一個工作就是將各種形式的數據錄入或者導入到mysql數據庫中,注意toad和mysql的版本要相互配合。
知識點素材(包括數據):一個mysql數據庫forum,并且該數據庫下有三張表member、tiezi、bankuai。
? 打開論壇的數據庫forum1,打開tables,可以看到有三個表分別是member、tiezi、bankuai。Member中記錄的是用戶的id和個人信息。tiezi里面記錄的是會員瀏覽帖子的記錄。Bankuai里面記錄的是會員瀏覽板塊的記錄。
打開其中的一個表。比如member,然后在右側數據瀏覽窗口中點擊“export”,選擇導出的形式,我們選擇“導出所有記錄”,然后選擇“txt文件”,點擊“Next”,選擇保存路徑,然后點擊“Next”,點擊“Next”,然后勾選“include column titles”,繼續點擊“Next”,然后點擊“start”。等進度條完成之后,數據就成功導出了。點擊“close”即可。我們依據同樣的方法把三個表都導出為txt格式,分別為member.txt 、tiezi.txt 、bankuai.txt。
將上面導出的數據存為member.txt 、tiezi.txt 、bankuai.txt,以備后續使用。
通常從數據庫中導出數據可以保存為好幾種文本文件和excel文件,你可以根據需要進行選擇,如果數據量較大的話建議保存為txt文件。
? 打開excel文件,查看數據是否符合SAS要求的格式;
? 啟動sas eg
? 點擊“工具”,“分配項目邏輯庫”,可以新建一個邏輯庫,邏輯庫命名為test,注意指定合適的文件夾路徑作為邏輯庫放數據的地方。
? 執行“文件”,“導入數據”,找到member.txt文件,點擊“打開”按鈕,指定test邏輯庫,打開窗口左下角的服務器列表——本地——邏輯庫可以看到邏輯庫test已經生成。如果沒有發現這個邏輯庫就刷新一下便可以看到了。導入數據時指定文本編碼為默認編碼,即GB2312。導入完成之后在邏輯庫test及保存路徑下便生成bankuai.sas7bdat,tiezi.sas7bdat及member.sas7dbat三個數據文件。若在邏輯庫下沒有顯示所導入的數據,刷新一下即可。
我們看一下tiezi數據集里面的數據,結果見下圖。
圖 tiezi數據窗口
從上圖可以看到,time字段顯示的格式是數值格式,如何將其變為時間格式。
將tiezi數據拖動右側雙口后雙擊time字段的任意觀測值,這時會彈出一個“數據具有保護,是否切換至更新模式”的對話框,注意:所做的更改將直接應用于數據。在此選擇“yes”。這樣數據就變成可編輯模式了。選中需要編輯的變量列,點擊右鍵選擇“屬性”,在“常規選項卡”里,把組改為日期格式。在“輸出格式”選項卡里,類別選擇“日期/時間”。輸出格式選擇DATETIMEw.d,總寬度設定為20。從下圖中可以看到修改后的樣式。修改完樣式之后將數據集保存。同樣,數據集bankuai里面的time字段也進行同樣的設置并保存。
圖 tiezi數據窗口
將上面生成的sas數據文件保存在文件夾中存為bankuai.sas7bdat,tiezi.sas7bdat及member.sas7dbat,以備后續使用。
想把txt格式數據導入到saseg中,先要將txt數據格式整理成比較標準的格式才不容易出錯,如果txt文件是從數據庫中導出的通常格式比較正常。
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如test),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
? 把左側下方的邏輯庫test下面的tiezi數據集拖入右側的大窗口中。即可看到帖子數據集作為一個對象出現在右側窗口中。如果想查看這個數據集里面的內容,雙擊過程流中TIEZI數據集的圖標 ,即可查看里面的數據。
? 在tiezi窗口,點擊查詢生成器。把t1下面的tid變量拉入右側數據框,見下圖。
圖 查詢生成器窗口
? 點擊”添加新的計算列”,進入“1/4選擇類型”頁界面,勾選”匯總列”,點擊下一步進入“2/4選擇列”頁面;在“2/4選擇列”頁面,選擇 “選擇數據列”下面的tid變量。點擊下一步,進入“3/4修改其他選項”頁面;在“3/4修改其他選項”頁面,將“標識符”和“列名”均改為total_number,“匯總”項選擇count,其他項保持默認。點擊下一步進入“4/4屬性匯總”頁面;在“4/4屬性匯總”頁面點擊“完成”回到“選擇數據”選項卡頁面,見下圖。
圖 查詢生成器窗口
? 點擊“對數據進行排序”進入“對數據進行排序”選項卡頁面。將左側“計算列”下面的total_number變量拉入數據框,排序方向選擇降序,見下圖。
圖 查詢生成器窗口
? 然后點擊運行,見下圖。
圖查詢生成結果
從上圖中就可以看到,最受關注的帖子的代碼是397905,被瀏覽的次數為36754次。
該知識點可以不用對數據集進行保存。
如果你是論壇工作人員,根據這個帖子代碼,你就能知道對應的帖子鏈接。原來這個帖子是關于增加論壇幣方法的介紹,難怪有這么多人都要看。
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如test),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
? 把左側下方的邏輯庫test下面的member數據集拖入右側的大窗口中??梢钥吹綌祿鳛橐粋€對象出現在右側窗口中。如果想查看這個數據集里面的內容,雙擊過程流中member數據集的圖標 ,即可查看里面的數據。
? 執行“描述”“單因子頻數”。在“數據”選項下,把“gender”拖入“分析變量”,在“統計量”選項下,缺失值的“顯示頻數”和“包含在計算中”前面打勾。點擊“運行”按鈕,輸出結果見下圖。
圖單因子頻數結果
結果分析:可以看到絕大多數人并沒有對性別進行填寫,填寫性別的人當中男生占了大多數,大概是女生的3倍。由于沒有填寫信息的人對分析沒有意義,故需要計算填寫性別的人當中男女的比例,然后繪制餅形圖。
? 回到member數據集窗口,執行選擇“圖形”,“餅圖”,雙擊“簡單餅圖”即可得到結果,點開“數據”選項卡,將gender拉入右側要繪圖的列。然后點擊運行。
圖性別分布餅圖
操作結果:
該知識點可以不用對數據集進行保存。
對于分類變量,可以通過單因子頻數的方式對其進行描述,也可以通過餅形圖對其進行描述。
知識點素材(包括數據):tiezi.sas7bdat member.sas7bdat
啟動SAS EG,在SAS EG中執行“文件”,“新建項目”。 點擊“工具”,“分配項目邏輯庫”,可以新建一個邏輯庫,邏輯庫命名為test,注意指定合適的文件夾路徑(和上面一節的文件路徑保持一致)作為邏輯庫放數據的地方。
? 把左側下方的邏輯庫test下面的tiezi數據集拖入右側的大窗口中。即可看到帖子數據集作為一個對象出現在右側窗口中。打開tiezi數據集,點擊“查詢生成器”。將“查詢名稱”改為計算每個人的瀏覽帖子數,輸出名稱為test.tiezishu。點擊“選項”,在彈出的窗口的“結果”中,將輸出數據集的標簽改為tiezishu。然后點擊確定返回“選擇數據”選項卡頁面。將memberid字段選入“選擇數據”框里。設定之后見下圖。
圖查詢生成器窗口
? 點擊”添加新的計算列”,進入“1/4選擇類型”頁界面,勾選”匯總列”,點擊下一步進入“2/4選擇列”頁面;在“2/4選擇列”頁面,選擇 “選擇數據列”下面的memberid變量。點擊下一步,進入“3/4修改其他選項”頁面;在“3/4修改其他選項”頁面,將“標識符”和“列名”均改為tiezishu,“匯總”項選擇count,其他項保持默認。點擊下一步進入“4/4屬性匯總”頁面;在“4/4屬性匯總”頁面點擊“完成”回到“選擇數據”選項卡頁面。
? 在“選擇數據”選項卡頁面。勾選“僅選擇非重復行”,匯總組選項下取消自動選擇組的勾選,設定組為t1.memberid。見下圖。
圖查詢生成器窗口
? 點擊“對數據進行排序”選項卡。把tiezishu拉入右側窗口,排序方向選擇降序。
圖 查詢生成器窗口
? 點擊運行按鈕。輸出結果見下圖。
圖 查詢生成結果
? 把member數據集拉入右側的過程流里面。雙擊Member數據集將其打開,點擊“查詢生成器“,點擊“添加表”,選擇tiezishu數據集,點擊“打開”。
? 點擊“連接表”,可以看到兩個表有共同的Memberid可以連接起來,然后點擊“關閉”。將tiezishu數據集里面的memberid、tiezishu選入“選擇數據框”,把member數據集里面的birthyear數據選入“選擇數據框”。
? 將查詢名稱改為“將年齡和帖子數放在一個表中”,輸出名稱為test.q1。點擊選項,將輸出數據集的標簽改為q1。
? 計算年齡:點擊”添加新的計算列”,進入“1/4選擇類型”頁界面,勾選”高級表達式”,點擊下一步進入“2/4生成高級表達式”頁面;在“2/4生成高級表達式”頁面,在輸入表達式框中寫入公式:2015-t1.birthyear,點擊下一步,進入“3/4修改其他選項”頁面;在“3/4修改其他選項”頁面,將“標識符”和“列名”均改為age,“匯總”項選擇None,其他項保持默認。點擊下一步進入“4/4屬性匯總”頁面;在“4/4屬性匯總”頁面點擊“完成”回到“選擇數據”選項卡頁面。見下圖。
圖 查詢生成器窗口
? 點擊“過濾數據”,進入“過濾數據”選項卡頁面。由于birthyear變量大量缺失,以0表示的,因此在分析數據之前要對這部分數據進行過濾,將birthyear拉入過濾數據里面,單擊“過濾”,運算符選擇不等于,值寫0,點擊“確定”按鈕。見下圖。
圖 查詢生成器窗口
? 然后點擊“運行”。查詢結果就出來了,我們在這個查詢結果中可以進行分析,來分析瀏覽帖子數和年齡的關系。查詢結果見下圖。
圖 查詢生成結果
? 在q1窗口中做散點圖:執行“圖形”,“散點圖”,“二維散點圖”,橫軸為age,縱軸為tiezishu。結果見下圖。
圖 散點圖
結果分析:從散點圖中可以看到有很多異常值,縱軸上的異常值都是真實值,之所以異常,是因為管理員的帖子瀏覽量性對于普通會員來講非常多,因此分析的時候我們應該去掉,我們定義大于6000的為管理員。年齡軸上的異常值主要是因為注冊的時候是隨意填寫導致的結果。分析時把年齡為16以下或者80以上的過濾掉。
? 我們回到過程流頁面,雙擊打開數據q1對象,點擊“查詢生成器”。將查詢名稱改為對年齡和帖子數進行再過濾,輸出名稱改為test.q2。點擊選項,將輸出數據集的標簽改為q2。在選擇數據選項卡下面,將tiezishu和age拉入數據框。見下圖。
圖 查詢生成器窗口
? 點擊過濾數據選項卡。點擊“新建過濾器”,選擇基本過濾器,點擊“下一步”按鈕,選擇tiezishu,點擊“下一步”,運算符選擇介于,起始值寫 200,結束值寫 6000,點擊“下一步”,點擊“完成”。點擊“新建過濾器”,選擇“基本過濾器”,點擊“下一步”,選擇age,點擊“下一步”按鈕,運算符選擇“介于”,不要誤選為在范圍內,起始值寫 16,結束值寫 80,點擊“下一步”。點擊完成。見下圖。
圖 查詢生成器窗口
? 點擊“運行”按鈕。輸出結果見下圖。
圖 查詢生成結果
? 在q2的窗口中中畫age和tiezishu的散點圖,操作不再贅述。散點圖結果見下圖。
圖 散點圖
結果分析:從散點圖中可以看到兩者沒有明顯的正線性相關或者負線性相關的關系,但是仍然可以看到一些結論,瀏覽帖子比較多的人的年齡主要是20-40之間。40以上瀏覽帖子的數目基本在1500以內。
? 在q2數據窗口中,點擊“分析”,“多元”“相關分析”,把tiezishu和age拉入“分析變量”,然后點擊“運行”按鈕。結果見下圖。
圖 相關分析結果
結果分析:從散點圖上雖然看不出什么,相關系數矩陣中兩者的相關系數也比較小,但是在10%顯著性水平下是顯著正相關的。
? 為了避免每次重新打開sasEG后,都要把建立邏輯庫,打開數據等操作重新做一遍,我們可以把關電腦前在sas EG中進行的操作保存,保存為一個項目:點擊“文件”—“保存項目”,為帖子瀏覽數與年齡關系分析命名,比如項目12.4,點擊“保存”即可。這樣在你的電腦上就會生成一個文件項目帖子瀏覽數與年齡關系分析.egp。為了避免死機,最好經常執行一些保存操作,“文件”—“保存項目帖子瀏覽數與年齡關系分析”。下次用到該項目時重新打開即可。
? 該項目的整體過程流圖見下圖。
圖 EG項目流程圖
把該知識點的操作產生新的數據集q1.sas7dbat,q2.sas7bdat,tiezishu.sas7bdat保存到路徑下,以備后續使用。
相關系數大小的判別標準在不同行業中是不同的,這里計算的相關系數僅僅是兩兩相關系數,不考慮其他變量。
RFM模型是Bult and Wansbeek于1995年提出來的,認為客戶行為三要素 Recency (R)、Frequency (F) 與 Monetary (M)構成了客戶購買潛力價值的核心組成部分。該模型經常應用于 CRM 框架下的客戶行為分析。
? 啟動sas eg
? ?新建項目邏輯庫。執行“工具”—“分配項目邏輯庫”—輸入8個字符以內的英文名稱(比如test),點擊“下一步”按鈕;
? 在電腦中選擇一個文件夾,將其路徑作為邏輯庫的路徑(保證該路徑下面有tiezi.sas7bdat這個文件),單擊“下一步”按鈕;
? 把左側下方的邏輯庫test下面的tiezi數據集拖入右側的大窗口中。即可看到帖子數據集作為一個對象出現在右側窗口中。打開tiezi數據集,點擊“查詢生成器”。
? 在tiezi中計算一列日期變量date,該變量是從time變量里面提取,格式為年月日。打開tiezi數據集,生成查詢器aa1,生成變量date,這個變量等于datepart(time)。計算每個人登陸論壇當天瀏覽的帖子量生成size變量。具體步驟如下:將查詢名稱改為aa1,將輸出名稱改為“test.aa1 ”(即將輸出的數據保存在邏輯庫test中),把左邊的t1表里面的memberid變量拉入右邊。如下圖所示。
圖 查詢生成器窗口
? 點擊“添加新的計算列”,“高級表達式”,點擊“下一步”。在“輸入表達式框”中輸入表達式datepart(t1.time)。點擊下一步。設定列名和標識符均為date,更改變量格式為DATE7.。點擊下一步。點擊完成回到選擇數據選項卡頁面。見下圖。
圖 查詢生成器窗口
? 點擊“計算列”,“新建”,“匯總列”,點擊“下一步”,隨意選擇一個變量,比如time,然后點擊“下一步”,變量名為size,匯總部分選擇“count”,點擊“下一步”,點擊“完成”。點擊完成回到選擇數據選項卡頁面。勾選“僅選擇非重復行”,匯總組選項下取消自動選擇組的勾選,設定組為memberid date。見下圖。
圖 查詢生成器窗口
? 生成一個過濾器,將date等于3653的行去掉,因為此觀測值屬于異常值。見下圖。
圖 查詢生成器窗口
? 打開“對數據排序”選項卡,把memberid和date選入,兩個均為升序。見下圖。
圖 查詢生成器窗口
? 然后點擊“運行”按鈕。 輸出結果見下圖。
圖 查詢生成結果
這樣數據集aa1中每個人每天就只有一條記錄了。
u 計算y1
新建一個程序文件,程序文件的名字定為“生成y1”。內容如下:
? 生成新變量。根據第一個關鍵詞分組,生成變量x1,組內取值為1,2,3….。需要建立一個程序運行下面的語句。輸出數據集aa2到邏輯庫test里面。
圖 程序
程序中by的意思是對數據根據memberiid和date兩個變量進行升序排序。
輸出結果如下圖所示
圖 數據集aa2輸出結果1
定義數據為面板數據,橫截面為memberid,時間為lag_date??蛻魹g覽帖子時距離上一次瀏覽帖子的間隔天數y1,即date的一階差分。
圖 程序
輸出結果如下圖所示:
圖 數據集aa2輸出結果2
u 計算y2
新建一個程序文件,程序文件的名字定為“生成y2”。內容如下:
計算會員瀏覽帖子時論壇的累積登陸天數y2,先生成一個變量,為count,取值為1。然后求這個變量的時間累計值就是y2。然后把數據集保存為aa3放在邏輯庫test下面。
圖 程序
圖 數據集aa3窗口
u 計算y3
新建一個程序文件,程序文件的名字定為“生成y3”。內容如下:計算會員瀏覽帖子時論壇的累積瀏覽帖子數y3,就是變量size的累計值。
圖 程序
圖 數據集aa4窗口
u 數據進一步過濾
? 點開數據集aa4,點擊“查詢生成器”,查詢生成器名字為aa5,輸出的數據集名字為aa5。將數據集aa4里面的變量全部拉入數據框。
? 點擊“生成新列”maxdate,選擇“匯總列”,選擇“最大值”,點擊“完成”,回到主界面設定分組變量為Memberid。見下圖。
圖 查詢生成器窗口
? 建立過濾器,設定過濾器為maxdate=date。這個目的是每個用戶僅留最新的瀏覽日期,這樣做是為了利于提升聚類的效果。不適合將一個人的多天瀏覽放在一起聚
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25