
網站用戶行為數據收集和分析方法
隨著In ternet 的不斷發展, 各種各樣的網站如雨后春筍般成倍增長, 各個商業網站之間的競爭越來越激烈, 隨之而來的是, 網站的建設不可避免的出現了很多問題。從最近一次國外對15 個大型網站進行統計分析表明, 用戶在尋找自己所需要的信息時, 只有42% 的概率可以找到, 而在大部分的時間里用戶都無法找到自己所需要的信息, 這使得用戶在瀏覽網站時經常遭遇挫折, 嚴重影響了用戶對網站的興趣和信任。正如 J acob N ielsen 所指出的“如果你想通過網站找到某些信息, 那么在一般情況下很難找到, 就算能夠找到, 也要經過一番周折。從以往的經驗可以得知, 除非項目管理團隊在整個網站設計過程中就特別考慮網站的可用性, 否則結果往往令人失望”。針對網站的特點, 目前國內外提出了很多依靠計算機輔助來自動收集和分析用戶行為數據的方法, 本文以下部分將重點介紹基于服務器日志收集和分析用戶行為數據的方法和從客戶端收集和分析用戶行為數據的方法, 并對根據不同的方法所開發出的一些工具進行了介紹。
1 基于服務器日志收集和分析用戶行為數據的方法
目前, 對于網站來說, 自動獲得用戶行為數據最流行的方法之一是基于服務器日志的方法(Server log) ,就是通過從w eb 服務器所產生的日志文件來獲取有用的數據。服務器日志文件就是用來記錄w eb 服務器的活動, 提供了詳細的客戶和服務器的交互活動日志, 其中包括客戶的請求和服務器的響應。通過日志文件收集到的數據形式依賴于具體的w eb 服務器類型, 不同的w eb 服務器產生的信息是不一樣的。
1. 1 基于服務器日志方法的優點通過日志文件可以獲得很有價值的網站使用情況的數據。 ① 日志文件是由w eb 服務器自動生成, 所以花費比較小。 ② 與人為建造的可用性實驗室環境相比, 通過日志文件獲得的數據更能夠反映真實環境下用戶的真實情況。 ③ 與只對幾個用戶在幾小時內進行的測試所獲得的數據相比, 通過日志文件獲得的是大量的用戶在相當長一段時間內的行為數據, 這對分析用戶的行為是十分有利的, 可以利用數據挖掘等技術對用戶進行分析。 ④ 開發基于日志文件的數據分析工具相對比較容易, 花費也不是太大。
1. 2 基于服務器日志方法的缺點基于日志的方法對于網站的可用性研究來說還存在著很多不足之處, 由于日志文件就是被設計用來產生站點級的性能統計數據, 因此不可避免的是, 日志文件所提供的數據與用來分析網站可用性所需的大量數據相比會有所不足, 對于研究潛在的可用性問題只能提供少量的數據甚至還可能提供一些誤導性的數據。這是因為一旦w eb 服務器把用戶請求的頁面發送出去之后, 如果用戶不發出請求, 則頁面和用戶之間發生了什么w eb 服務器并不記錄。下面是一些從日志文件中獲取的數據不足或有誤導性數據的例子。
① 誰正在訪問網站。如果想知道誰正在訪問網站, 要求日志文件必須包含一個個人ID 或者登錄到服務器的登錄標示, 但是目前的網站一般不需要用戶登錄, 大多情況下由日志文件提供的客戶端信息是客戶的IP 地址, 而這些IP 地址很多情況下是由In ternet 提供商提供的動態IP。并且有時用通過代理服務器來訪問In ternet (例如, 學校的校園網) , 這樣就不能正確得知是哪個用戶在訪問網站。
② 用戶訪問網站的路徑。如果日志文件能夠記下用戶所瀏覽的每個頁面, 那么自然可以清楚的記錄用戶的訪問路徑, 然而, 當把用戶的瀏覽器設置為可使用緩存(cache) 時(通常是缺省設置) , 用戶所瀏覽的一些頁面就不能被w eb 服務器所記錄, 例如, 使用Back 按鈕瀏覽的頁面就不能被記錄。而且, 如果同一頁面中提供了多個選擇可鏈接到同一個頁面的話, 用戶到底是使用哪一個鏈接過去, 這一信息從log 文件中也難以獲得, 但是這一信息對改善網站的可用性也是很重要的。如果是通過圖片鏈接,w eb 服務器可能會記下用戶單擊的坐標位置, 從而可以獲得用戶的確切信息, 如果沒有使用這種技術的話, 就很難捕獲這一信息。而且, 當用戶通過鍵入U RL 地址, 或通過書簽來訪問頁面時,w eb 服務器也不能記錄這一信息。
③ 用戶在每頁的停留時間。日志文件記錄的是數據開始傳輸的時間, 而不是傳輸完成的時間。而且也不清楚, 在頁面下載的過程中, 用戶到底在什么時間開始瀏覽頁面。除非在頁面顯示的時候, 用戶因有事離開了, 不然可以通過比較用戶的當前請求和下一次請求之間的時間來粗略計算用戶在此頁面停留的大概時間 (通過后一次的請求時間減去第一次的請求時間得到, 但對于從cache 中獲取的頁面來說就出現很大偏差)。
④ 用戶離開站點的位置。日志文件記錄了在用戶會話期間所發送的最后一頁, 但是這可能并不是用戶所看到的最后一頁。其中有兩個原因: 第一, 用戶所看到的最后一頁可能是從cache 中得到。第二, 用戶可能已經有事離開了很長時間, 而這段時間已經超過了 w eb 服務器所定義的用戶會話時間。
⑤ 用戶是否成功完成自己想要做的事情。這是最根本的可用性問題, 只是通過單獨的日志文件統計是很難回答的, 如果是“用戶是否完成了交易? 用戶是否成功地下載了文件?”之類的問題, 答案還是很容易推斷。然而, 如果要回答“用戶是否找到了所需要的信息?”類似這樣的問題, 僅通過日志文件就很難回答了。
1. 3 基于服務器日志文件方法獲取數據的輔助工具 Click T races A nalyzer 是分析網站用戶行為的一套工具, 為進一步了解用戶的瀏覽行為提供了強大的功能, 它把大量的復雜數據用非常簡單的方法表達出來, 使可用性人員在分析用戶行為時一目了然。
2 客戶端收集和分析用戶行為數據的方法
由于通過日志文件獲得的信息會出現失真的情況, 而且有很多重要的數據只通過日志文件很難獲得, 這些信息對研究網站的可用性問題卻很重要, 因此為了進一步獲得更多的有價值的可用性數據, 發現更多的網站可用性問題, 逐漸產生了很多技術用于從客戶端(page- side) 直接獲得用戶與網站的交互情況。由于是直接從客戶端獲得數據, 所以, 能夠獲得大量的難以從服務器端獲得的用戶行為數據, 這對進一步分析用戶瀏覽網站行為, 改善潛在的網站可用性問題提供了更大的幫助。
2. 1 客戶端收集用戶行為數據的優點
① 由于用戶是在真實的環境下所進行的操作(如在家里或辦公室) , 減少了人為地干擾因素, 因此獲得的數據更加真實。
② 與基于日志文件的方法相比, 從客戶端收集到的數據更加精確, 能夠克服如上描述的很多問題。
●不受動態分配IP 地址或代理服務器的影響: 通過使用客戶端跟蹤技術(如由w eb 服務器對每個訪問站點的客戶機自動分配ID 并將其記錄在客戶端的 Cook ies 中, 每次用戶瀏覽網站,w eb 服務器可通過訪問客戶端的Cook ies 就知道此客戶機是否訪問過本網站)。
●正確的用戶瀏覽路徑: 由于是在客戶端記錄用戶行為, 因此客戶端代碼可自動跟蹤用戶的瀏覽路徑, 不管是否通過本機緩存或通過代理服務器。例如, 用戶的實際瀏覽路徑是從AB, 點擊Back 鈕,AC, 但是從log 文件中得到的路徑是AB` C。頁面瀏覽時間: 舉例如圖1 (頁面是由cgi 腳本產生的動態文件)。這是使用Click st ream 收集工具與基于服務器的日志文件產生的數據比較, 日志文件丟失了很多重要數據。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25