站點路徑優化可以分為兩類:用戶群訪問模式挖掘的路徑優化和個性化挖掘的路徑優化。一般訪問模式挖掘的路徑優化通過分析在特定時間點的特定用戶群的訪問記錄來了解用戶的瀏覽模式和傾向,以改進站點的組織結構;而個性化挖掘的路徑優化則傾向于分析個別用戶的偏好,其目的是根據用戶的訪問模式,為其提供定制服務。
3.3.1個性化的瀏覽路徑優化。Web站點的鏈接結構是Web設計者根據一定的策略建立起來的,可能與用戶期望的鏈接結構之間存在一定的差距。如圖3.1所示,目標頁面X放在頁面B1下,但是用戶瀏覽路徑是F→A2→B2,因此用戶期望頁面X的位置在A2或B2下。如果事先能了解用戶的期望位置,從而在A2(或B2)和頁面X之間建立導航鏈接,自然就方便了用戶,提高了網站的訪問效率[1]。
(1)發現用戶期望位置。
設{P1,P2,...,Pn}為用戶訪問過的頁面,Pn是一個目標頁面,B=Ф;∥B為回溯點的集合;
圖3 用戶訪問站點路徑
For(i=2;i<=n-2;i++)
{if(Pi-1=Pi+1) or (no link from Pi to Pi+1) add Pi to B} ∥Pi是一個回溯點;
If (B not empty) add n,B,Pn-1> to table;
通過該算法,就可以找到用戶的返回點,這個位置可能是期望位置,也可能是目標頁面,但可以通過確定時間閾值來解決這個問題。當用戶在返回點停留的時間較長,超過指定的閾值,則認為該頁面是目標頁面,否則可以認為該頁面是期望位置。通常用戶在瀏覽Web站點時,在第一期望位置找不到目標頁面,就會在第二期望位置找,如果還找不到,會在第三期望位置找……,其中最受關心的是第一期望位置,而且是那些被第一期望且發生頻率高于系統設計者指定值的所有頁面。因此,尋找第一期望位置便成了我們關注的焦點[12]。
(2)目標位置和期望位置的判定。設Ei表示第一期望位置,算法如下:先以用戶的ID為主關鍵字,時間為次關鍵字,對Web日志文件建立索引,掃描Web日志索引文件,對每一個用戶ID,摘取出頁面序列。
For (I=1;I<=1;I++)∥n為Web日志中的記錄數
{統計Ei中所有頁面支持數;
Sort page by support;
If support(P)>=SI ∥SI為Web設計者制定的閾值;
則P為被第一期望且發生頻率高于系統設計者指定值的頁面}
經過提取目標頁面與期望位置之后,將形成如表1的目標頁面與期望位置匹配集[13]。
(3)調整站點結構。根據該算法的挖掘結果,很多內容頁面(目標頁面)的實際位置與用戶所期望的位置不一致,可以考慮依據這些目標頁面的用戶期望位置來調整目標頁面的實際位置。第一期望位置、第二期望位置……這些頁面從某種角度看是圍繞同一主題展開的,訪問了其中部分頁面的用戶往往也會訪問其他頁面,因此可以在這些頁面之間設置推薦鏈接。
3.3.2 用戶群訪問模式的路徑優化。對用戶群訪問模式的問題,采用挖掘頻繁訪問的最大序列的方法可以挖掘出更有普遍意義的模式,算法包括有Apriori算法,最大向前序列法,參考長度法和樹形拓撲結構法等。它們先將日志中的用戶瀏覽歷史記錄轉換成一個瀏覽子序列集:最大向前序列法根據用戶折返的特性形成若干瀏覽子序列;參考長度法根據用戶在網頁上停留的時間形成若干個瀏覽子序列;樹形拓撲結構法則把整個日志當作瀏覽子序列。然后利用關聯規則法對瀏覽子序列進行挖掘找出頻繁訪問路徑。頻繁瀏覽路徑就是指按照一定順序組成的網頁序列集,用戶依照此序列訪問網站的頻度很高。
根據頻繁訪問路徑算法得到頻繁訪問路徑FP,對應記錄為X(fp,np),其中fp表示URL組成的序列,np表示瀏覽路徑集合中FP出現的次數[14]。
for all X∈FP
for all Y∈FP and Y≠X
if X. fp∈Y. fp. sub then X.np=X.np-Y.np
∥ 檢查X. fp是否為另一記錄Y. fp的子序列
If X. np > n
∥ n為預先設定的次數閾值
set Suplnik( X . fp)
∥設計新的從X. fp起點指向終點的超鏈。
該方法可以用于重構Web站點的頁面之間的鏈接關系,及重構Web站點的拓撲結構、發現相似的客戶群體,開展個性化的信息服務和有針對性的電子商務活動,應用信息推拉技術構建智能化Web站點。
4 結 語
站點路徑優化就是通過Web挖掘技術來收集和統計用戶訪問過的歷史數據,挖掘當前用戶頻繁訪問的頁面序列,對個體用戶獲取其興趣模型,以便在用戶以后的訪問過程中根據興趣模型自動向用戶推薦內容,指導用戶的瀏覽行為,提高瀏覽信息效率。對群體用戶獲取其訪問路徑規則與模式,通過增加超鏈改進站點結構,將頁面加入緩存提高訪問速度,提高用戶對站點訪問的滿意度[15]。訪問規律的獲取對算法提出了較高的要求,可以借鑒現有模式發現算法實現瀏覽結構的優化。
[參考文獻]
[1] 程舒通,徐從富,但紅衛. 基于改進頻繁模式聚類算法的網站結構優化[J]. 計算機應用研究,2008(4):268—269.
[2] 陽小華,周龍鑲. 基于用戶訪問模式的WWW瀏覽路徑優化[J]. 軟件學報,2001(6):847—850.
[3] 繆 勇. 匿名用戶瀏覽路徑挖掘研究與實現[D].南京理工大學,2006.
[4] 阮備軍. Web使用挖掘若干關鍵問題研究[D]. 復旦大學,2004.
[5] 張素蘭,楊炳儒,范艷梅. 一種基于圖結構挖掘WEB用戶訪問模式的方法[J]. 計算機工程與應用,2004(12):37—39.
[6] 易 明,張 揚. 基于全信息的“點擊流”信息資源開發利用研究[J].情報科學,2007(12):198—203.
[7] 杜文華. 基于點擊流技術的個性化信息服務研究[J]. 情報雜志,2006(10):22—23.
[8] 余軼軍. Web訪問信息挖掘若干關鍵技術的研究[D]. 浙江大學,2006.
[9] 易 明,張金隆. “點擊流”信息資源開發方法研究[J]. 圖書情報工作,2006(7):85—88.
[10] 王 勇,張 偉,陳 軍. 基于模糊聚類的Web瀏覽路徑分析方法[J]. 計算機工程與設計,2007(6):1484—1486.
[11] 楊清蓮. Web日志中序列模式挖掘及其應用[D]. 南京工業大學,2005.
[12] 陳 娟. 構建基于關聯規則的網絡行為挖掘系統[J]. 科學技術與工程,2007(13):250—253.
[13] 易 明,鄧衛華,曹高輝. 基于“點擊流”數據的站點信息組織優化[J]. 現代圖書情報技術,2006(1):51—54.
[14] Ming—Syan Chen,Jong Soo Park,P.S. Yu,Data mining for path traversal patterns in a web environment,16th IEEE International Conference on Distributed Computing Systems (ICDCS 96):385.
[15] 陸 云. 聚類分析數據挖掘方法的研究與應用[D]. 安徽大學,2007.
史老師