昊天SEO

基于SEO的用户信息需求挖掘

从一次query可以映射用户多维度的信息需求,比如“iphone”,横向扩展“苹果手机”“苹果iphone”“apple手机”,纵向扩展“手机型号”–“手机介绍”–“手机参数”等。

基于query words需求挖掘

基于query words需求挖掘

横向需求

1. 关键词含义相同,说白了就是近义词,比如“苹果inphone”和“苹果手机”;“大雨”和“大规模降雨”;“谷歌浏览器”和“chrome”;“便宜”和“价格低廉”

2. 内容深度在同一层级,比如手机参数:CPU型号、屏幕尺寸、网络类型等,虽然意思不同,但都归处于“手机参数”这一层级

近义词数据来源:字典、其他网站

同层级数据来源:产品介绍、关键词挖掘、其他网站

纵向需求

从宏观到细节的体现,比如“iphone4S–iphone4S测评–iphone4S照相测评”,内容是逐层递进逐步分类细化的过程。

纵向数据来源:关键词挖掘、站内搜索、query words

基于web visit的多维度需求挖掘

基于web visit的多维度需求挖掘中最重要的步骤是对页面主题的提取,其大致过程如下:首先提取用户站内浏览的URL并进行处理,主要是排除视频、flash、公司介绍、公司合作等无效URL,然后提取URL对应页面的信息内容(TDK、正文分词),对内容进行分析过滤获取页面主题。如果页面主题明显,可直接忽略。

浏览行为分析

浏览行为分析

用户浏览行为一定程度反映了用户对页面内容的需求程度,“有益”的行为越多,需求越大

1.页面停留时间

2.页面跳出率

3.滚动条拉动次数

4. …..

因此,L(url评分)=X+Y+Z…

X,Y,Z为“有益”行为的分值

需求加权

visit page的主题内容代表着用户信息需求,所以研究用户需求前提是有效提取页面主题内容点。Web页面并不像数据库一样具备数值的表示和计算能力的数据结构,Web页面多半是半结构化甚至是无结构的文本。

在数据挖掘的矢量空间中,页面被组合成由词组为元素的矢量,类似于<北京,房价,,走势>的格式,转化之前必须将Web文本进行分词,然后根据“TD-IDF”计算词组的权重,很多词组再整篇文章中只出现一次,对内容的影响几乎可以忽略,计算之后我们只需要保留反应页面主题内容的词组,一般权值越高对内容影响越大,根据情况用权值>N%来代表页面主题

800 (1)

 

本文地址官网    新乡网站建设,seo

分享到:更多 ()
a