日韩欧美视频一区-日韩欧美三区-日韩欧美群交P内射捆绑-日韩欧美精品有码在线播放免费-成人免费一区二区无码视频-成人免费一级毛片在线播放视频

SCI期刊 | 網站地圖 周一至周日 8:00-22:30
你的位置:首頁 >  計算機 ? 正文

基于web日志挖掘的用戶興趣度分析

2021-4-9 | 計算機

摘  要:對用戶訪問興趣的分析在當今信息時代越來越顯重要,如何對分析用戶訪問興趣度是web日志挖掘中的一個非常重要的研究課題。概述了web日志挖掘的過程和在日志挖掘各個階段進行分析了解用戶對訪問頁面的興趣度。
關鍵詞:web日志挖掘;用戶行為;興趣度
    一、引言
    隨著互聯網的快速發展,海量信息充斥在我們的周圍,在這些信息中必然有很多對我們而言是沒用的,作為人們獲取信息的一個重要途徑web服務器得到廣泛應用,客戶訪問站點時可能是從不同的地方進行的,與用戶直接交流了解其興趣是不能的,所以就要求我們能夠根據web服務器自動保存下來的用戶訪問的日志,挖掘發現用戶訪問的web界面瀏覽模式,從而進一步分析和研究這些日志中隱含的規律,以期改進web站點的性能和組織結構,給用戶瀏覽提供更方便的服務,即從大量的web資源中發現隱含的、未知的、對決策有價值的知識和信息中搜尋出有價值的線索,揭示出用戶對訪問頁面的興趣度,從而改進系統和網站的結構,為用戶提供個性化服務。
    通過對web日志挖掘,能充分探究到用戶訪問web行為,是因為web日志具有以下特點:1)web日志記錄了大量的用戶訪問信息,并且隨著時間和用戶訪問的增加,改數據庫里的數據也在不斷增多。2)web日志包含大量有用的信息,對于網站設計者抓住用戶吸引更多用戶有重要作用。3)web日志是一種數據化結構,比較便于處理。基于以上這些特點,我們對它進行挖掘可以發現用戶訪問站點行為的特點,揭示出用戶對頁面的興趣度。
    2.Web日志挖掘的過程
    Web日志挖掘的過程大體分為數據預處理、模式發現和模式分析三個階段。
    二、預處理階段
    數據預處理是web日志挖掘中關鍵技術之一。數據預處理是在將原始web日志文件轉化為合適進行數據挖掘的可靠的精確數據格式。預處理的結果是客戶會話集合,包含了訪問web的客戶、請求頁面序列、訪問時間等信息。這個過程主要包括四個階段:數據清洗、識別用戶、識別用戶會話和路徑補充。數據預處理過程是保證web日志挖掘質量的關鍵。
    如曲奇日志,cookie是由web服務器產生的用于自動標記和跟蹤站點的訪問者的記號,cookie由客戶端持有,服務器方可采用cookie方式跟蹤單個客戶。[1]
    (1)數據清理
    數據清理是指刪除web日志中與挖掘對象不相關的數據,包括刪除或合并某些記錄,處理客戶請求頁面發生錯誤的記錄等內容。按照不同的挖掘目的定義不同的規則庫來幫助刪除記錄。通常web日志中與數據挖掘相關的一般有用戶IP地址、用戶ID、請求的URL、訪問時間及日期等信息,與挖掘無關的可以忽略刪除。我們的挖掘目的是找出用戶感興趣的方面并總結成用戶感興趣的訪問模式,可以把日志文件中文件后綴為gif、jpg等與用戶興趣無關的記錄刪除,還有要刪除一些腳本文件,但對于主要包含圖形音頻及視頻的站點,這些可能是用戶搜索改站點的目的網頁承載著用戶的需求應給予保留不能做簡單的刪除處理。[2]刪除無關的信息,減少對無用信息的識別,可以提高在用戶識別及后面的過程中對信息的提取的速度,提高前期數據挖掘速度和效率,減少不必要時間的開支。
    (2)用戶識別
    用戶是指通過瀏覽器訪問一個或多個站點的個體。用戶識別是從數據清理過程得到的數據中識別每一個用戶。考慮本地緩存、代理服務器和防火墻的存在等因素,本文采用日志和站點結合的方法,簡化用戶的識別:(1)如果客戶的IP地址不同,則認為是不同的客戶;(2)如果IP地址相同但瀏覽器版本或操作系統不同,則認為是不同的客戶;(3)如果客戶所請求的頁面和以前訪問的所有頁面不存在直接超鏈接關系,則認為具有相同的IP地址的客戶是不同的客戶。[3]
    (3)識別用戶會話
    用戶會話是指客戶對服務器的一次有效訪問,是客戶在一段時間內訪問的一組連續的頁面訪問的序列。一個會話就是用戶從進入該站點到離開站點的一系列瀏覽請求,單個客戶在web頁面上瀏覽的點擊流,通過點擊流,可以獲得該用戶在網站中的訪問行為,并可以通過分析這些行為得出用戶訪問興趣。
    (4)事務識別
    事務識別就是對用戶會話進行語義分組。在本文中把用戶真正感興趣的頁面序列成為事務。這樣做的原因,是因為如果單純考慮頁面是內容頁還是索引頁,僅僅依據網頁的屬性,并不能代表該頁面就是用戶感興趣的頁面。去掉了索引網頁和用戶不感興趣的頁面,排除了可能是誤點擊進入的可能性,有效的提高了準確性。通過對事務定義和事務識別去掉了這些對用戶興趣度分析沒有意義的內容大大提高了web挖掘速度。
    (5)路徑補充
    由于存在著客戶端緩存,瀏覽器也有一個后退功能,用戶在使用時可能會需要后退到之前瀏覽的界面就可能用到后退功能,因此需要根據用戶訪問路徑的前后頁面進行推理,將用戶訪問路徑補充完整。通過這種方法將遺漏的頁面請求添加到用戶的會話文件中,使得用戶的請求變得更加完整,這樣更有利于對用戶興趣度進行更準確的分析。
    經過對web日志的預處理,形成相應的事務集,就可以對這些信息進行挖掘,找出內部的聯系和前后順序的特點。從而能夠得到web用戶的在過去瀏覽的規律和模式,以及用戶對某些頁面的興趣度,并且能夠延伸出用戶接下來的可能瀏覽網頁或站點。預處理這些過程為接下來的模式發現和模式分析提供了基礎。
    2.2 模式發現
    運用各種算法對預處理后的數據進行數據挖掘,從web日志數據集中挖掘出有意義的、創新的、隱含的及用戶可能感興趣的信息和知識。通過web日志挖掘的模式發現,可以挖掘出用戶訪問頁面的特征及規律等知識,即用戶訪問模式。它們反映了用戶訪問web站點的興趣、行為。對web日志挖掘模式發現的研究主要是針對不同挖掘任務研究各種模式發現算法。如最大向前序列法,根據用戶的折返特性,形成了若干瀏覽子序列;參考長度法,根據用戶在網頁的停留時間,形成若干個瀏覽子序列;序列模式挖掘算法來發現web日志的用戶訪問行為,得到有意義的用戶訪問行為等。

Top
主站蜘蛛池模板: 91成品视频| 精品国产成人a区在线观看 精品国产成人AV在线看 | 最近最新的日本字幕MV | 毛片手机在线看 | 男人桶女人j的视频在线观看 | 被公疯狂玩弄的漂亮人妻 | 暖暖日本免费播放 | 午夜A级理论片左线播放 | 天堂tv免费tv在线tv香蕉 | 无限资源在线观看完整版免费下载 | 狠狠色狠狠色狠狠五月ady | 国产一区二区在线免费观看 | 2018高清国产一区二区三区 | 欧美夜夜噜2017最新 | 午夜伦理伦理片在线观 | 美女被爆插 | 嫩草影院成人 | 精品人妻伦一二三区久久AAA片 | 男生脱美女内裤内衣动态图 | 久爱精品亚洲电影午夜 | 67194成在线观看免费 | 小SAO货边洗澡边CAO你动漫 | 国产精品99久久久久久WWW | 被窝伦理午夜电影网 | 快穿之诱受双性被灌满h | 成品片a免人看免费 | 乱奷XXXXXHD| 色狠狠色狠狠综合天天 | 曰本少妇高潮久久久久久 | 翁公咬着小娇乳H边走边欢A | 亚洲国产成人精品无码区APP | 久久91精品国产91久 | FREECHINESE东北群交 | 国产一区二区不卡老阿姨 | 九九九色成人网 | 国产免费啪嗒啪嗒视频看看 | 99久久e免费热视频百度 | 玉娇龙续集春雪瓶txt免费阅读 | qovd电影 | 亚洲国产欧美在线人成aaaa20 | 777米奇色狠狠俺去啦 |