您的当前位置:首页正文

论坛社区用户时空特征建模与挖掘

来源:帮我找美食网
计算机研究与发展ISSN1000一1239lCNll一1777/TPJournalofCbmputerResearchandL随vefopnlent44(Suppl.):7一12,2007论坛社区用户时空特征建模与挖掘郑佳谦徐隽姚静牛军枉(复旦大学计算机科学与工程系上海200433)(jqzheng@fudan.edu.cn)UserModelMiningBasedonSPatiotemPoralFeatureinCommunityZhengji明ian,Xujun,Yaojing,nadNiujunyu(D叻口trmentof肠,puterscineceandE刀9之rening,uFdanUni,ity,hSa刀创刁ai200433)AbstraCtUser咖delingisabasictaskinbuildingperosnalizedservicesystems.ByaPPlyingdataminingalgorithmincommunicationcommunity,actionsofonlinesPeecharemodeledintodata一setandthe“spatiotemporalfeaturebasedusermodel,,withitsexpressionandminingalgorithmiscarriedout.Differentfromtraditionaltext一featurebasedmodeltheSFBUMtriestoProvideaquantitivemethodtofeaturedescriptionontemporalandspecia1dimension,andwiththeexPerimentresultitisProvedthatthemodelevaluatorapproachestoahighstabilityandenhancementofthetaskofusercIassification.K盯wordsusermodeling;sPatiotemPoralfeature;datamining;community摘要用户建模是提供个性化服务的基础工作.结合数据挖掘在论坛社区系统中的运用,把言论行为建模为数据记录,提出基于时空特征属性的用户模型(spatiotemporalfeaturebasedusermodel)表示和挖掘算法.不同于传统的基于文本特征的用户模型,SFBUM提供了量化的用户在时间和空间维度上行为特征的描述,并通过实验表明该模型的稳定性以及在社区用户角色分类上的运用.关键词用户建模;时空特征;挖掘;社区中图法分类号TP391随着互联网研究的日趋深人,科技服务更注重都沿用了主题提取,关键字向量〔5〕等纯文本特征的以人为本的思想,其中有代表性的工作就是用户行挖掘算法.然而由于论坛环境的特殊性,传统的基为建模川(use:modeling).用户模型的研究对建立推于文本特征的用户模型存在以下问题:荐系统[]2以及构建个性化检索服务[]3(碑r阳nali翻)1论坛社区的言论相对简明,大量使用的缩esarch)都有着重要意义.写、生造词汇和情态符号,使得传统文本特征模型表个性化服务的形式多种多样,包括个性化推荐示法不够准确〔6].服务、个性化检索服务、个性化网站服务等.但无论)2论坛的结构并不表现为纯文本集合的形式,何种形式,都需要首先建立对用户的描述.因此,用每篇文档都存在时间和地点两个非空属性,不加以户模型在个性化服务中发挥着基础和核心作用[]4。利用会影响挖掘算法的结果.以往成熟用户模型的研究主要针对搜索引擎的)3使用文本特征描述的用户模型没有对言论用户查询偏好,或者是WebBlog文本中用户兴趣主行为进行建模,只考虑了言论内容;不能回答如“用题的挖掘.自然地,对于BBS中的用户模型描述大户偏好在哪个版面哪个时间段发表言论”等问题.收稿日期:2007一07一05荃金项目:国家自然科学基金项目(60305006)所以现在不少新的研究工作结合论坛社区的特点,从新的角度对基于文本特征类的用户模型提出补充,这些新的方法包括社会网络川、虚拟社区行为研究【“1、用户行为特征提取等.本文从上述第2个不足点着手,改进传统的用户模型,在建模时融入用户时空特征的因素,如下表示:新社区用户模型二{文本特征十时空特征},其中“时空特征”就是下文提出的SFBUM.本文的主要贡献包括:)1论坛用户言论行为在时间维度和空间维度上的定量描述;2)基于时空特征的用户角色识别;)3提出不同用户群之间言论行为时空相似度的概念,来达到差异度检测的目的.需要说明的是,SFBUM并不是对文本特征模型的改进,而是从新的角度对言论行为进行特征描述;新社区用户模型的建立和完善对社区舆论的监督、异常言论行为的检测将起到重要作用.1相关工作用户模型表示了用户信息需求的倾向.传统的用户建模指从用户有关兴趣和行为信息(如浏览内容、浏览行为、背景知识等)中归纳出可计算的用户模型的过程川.它的传统形式是用户配置文件(userproflie),它的表现结构有多种.在文章推荐系统中一般使用基于主题或兴趣点的表现方式,如[]9:UM‘=(w‘;,二‘:,…,w。),其中w。为用户U‘对兴趣点j的权重,1镇1簇}U},j为兴趣点的下标.兴趣点可以理解为某个主题或某篇文章.其近似地认为用户认的兴趣点可表示为单词集合另一种较为流行的方法采用TF一IDF技术〔‘〕.的形式:w二,其中w、一又:。。w;)xl。:月龚早二.D为用户认的所有言论文章集合,】D}标识文档的总数量.tdf(玛)是词频(TermFrequency),表示单词玛在文档d中出现的次数八心公(wj)表示单词玛的逆向文档频率(inversedocumentfrequency),表示在集合D中出现包含单词wj的文档量.逆向文档频率越高,玛在区分文档中的作用越小.计算机研究与发展2007,44(增刊)一些改进的工作如社区结构的研究〔‘”〕,其中就借用了社会网络〔川的建模方法等.把成员2‘对乙的回贴作为模型的一部分,这样就可以得出一个联系矩阵.利用CM以田mpute-rnl司iatedcmnTounictaion)建构网络互动的表达方式,可以运用在信息过滤和用户分类的工作中.之前的工作都简化了社区论坛的表现形式,忽略两个比较重要的信息量:用户发表言论的时间点和所处的版面,这两者统称为时空因素.对于单独的时空维度挖掘算法已有一些研究〔’2〕,运用于特征描述的工作如文献【311可以在时空维度上挖掘出用户的主题漂移.本文把时空挖掘的方法运用在论坛社区用户建模领域中.2论坛社区用户行为分析下文中谈到的论坛社区概念主要针对BBS,但不限于此(只要满足下文的形式化描述).BuletinoB也是最常见的虚拟社区之一仁ardsystem是Internet上一种重要的服务项目,‘41.我们首先对该虚拟社区进行形式化描述.BBS通常为一个站点,由多个主题相关的版面组成,下面用B代表所有版面的集合.每个版面由主贴和从贴两种形式的言论文章组成,都用a表示.每个主贴可以有多个从贴,从贴也可以有属于自己的从贴.无论主贴还是从贴都有两个惟一的时空属性,用如下的形式存放在数据表中:a(t‘,戈,‘xet),其中t‘=T,jbeB,t‘为发表言论的时间戳,句为言论所在的版面,奴:为文字内容.对于主贴和它所有的从贴(间接或直接)集合,它们在版面中由回贴关系组成一棵树的形式.其次,如何描述用户发贴特征的问题.如果仅从数量上说,日发贴量最多的用户就是版上最活跃的用户,这个结论不够全面;因为从时间分布上,该用户可能只是某一天发表了比较多的言论,并不代表这个用户长期稳定的行为特征;从空间分布上,该用户可能在其他的版面上也热衷发言,并不能认定他最活跃于该版面.所以需要明确用户发贴行为的整体特征.定义1.用户以言论行为特征表示为概率分布:E组ture(1)=艺1尸(t,占}u‘)},任:.。。。,(1)其中t,占,u、>0P(tblu、)二1.扩(}ul习上式中行为模式被定义为用户1在时刻t版面郑佳谦等:论坛社区用户时空特征建模与挖掘b发表言论的概论分布.其中B为所有论坛版面的集合,T为可度量的全部时间点.需要说明,T是连续的时间量,t为其离散的采集点,设其时间采集的间隔为占,T表示为T=U[t,,t*+占),其含义是用户在k个占间隔内的全部时间点集合.有了整体的特征描述,就可以从统计上分析论坛社区用户的言论行为;当用户U‘在不同的时间段和不同的版面都会发表很多的言论,就可以认为该用户是“洪水”类型的发贴人;如果用户A相比之下常光顾版面b,且时间分布均匀,就可以猜测他可能是b的管理员;如果用户B不太发言,而突然间在短时间内多个版面上发表言论,就可认为他有较为异常的行为特征.上述的分析结果都只停留在定性的猜测,为此下文提出SFB模型建立定量的评价指标.3时空特性SFB建模设在间隔「t*,t。+剑内全站的发贴总量为从,用户Ui发贴数为n认,共采样。个时间段,k<。;则近似估计该用户在该段时间内的发贴概率为a认二娜/从.对于定义1,求其对于时间t的边缘概率分布并展开为向量的形式:习而‘ure(*)==,簇旧艺1(尸(tl,乞1。‘),尸(:2,jblu、),‘e负.,P(t。,乞Iu‘))=(尸(‘,,习乌}u‘),尸(:2,习乞J(旧}!。*),…,尸(‘。,习1《旧1jb}u*)>=<尸(t:,B}u‘),P(tZ,B}u‘),…,尸(te,B}u、)>=,其中。二=。洲习,成心a。.类似地,如果我们对式(1)的空间维度进行展开.已知版面b。在全部时间T内的发贴总量为从,用户U‘的发贴量为n二,则近似认为该用户在该版面的发贴概率为风:二n‘口从;同样可以推导出:定义3.用户以在论坛社区的空间特性表示为:练ace-Faeture(i,T,)B二<此,雌,…,瓜,…,川。。),.定义4.根定义2和定义3,用户认的时空特征模型被表述为:SF归UM(1,T,B)={,T*,、ture,Ispa沈一aeFture}󰀀上述定义中,并没有使用到言论的文本信息,因为SFBUM只针对言论行为的时间和空间属性进行建模,所以它和文本特征模型之间是相互独立的;关于两者模型协同方面的工作超出了本文讨论的范畴.4SFB模型的挖掘根据引言部分的论述,改进后的用户模型除了文本特征模型以外,还加人了SFB模型.在应用该模型之前,首先需要讨论它的稳定性.建模过程是把客观规律以数学化的形式表现出来,如果一个模型的评价指标随着具体应用对象的不同而显著变化,那么我们就要怀疑它所表现的规律是否客观存在.因此建模过程的合理性需要通过稳定性来加以证明.而在SFB模型中,如果用户在某一固定时间经常访问固定的版面,我们可以认为他的这种行为特征是稳定的,在将来的一段时间内也将持续.因为稳定成熟的论坛拥有足够数量的固定参与者,他们之间通过发表自己的见解来达到信息交流的目的〔’51.文献[7,01」证明这种网友共同参与讨论的趋同性可以形成社区网络的关系(social一network).在这样一种网络关系中,每个用户与他人之间存在着信息流的通路,并且他们之间的这种信息流关系在时间和空间上相对稳定.为此,SFBUM先作假设.假设1.SFB模型中的时空特征在统计数据上具有稳定性.也就是说,用户将来的行为特征更趋向于在符合过去行为习惯的时间段和版面发表言论.如统计得用户A大都在周末发贴,可能的原因是工作日太忙,只能在周末上网.那么SFB模型认为A在将来的一段时间内,工作日仍然会保持忙碌,仍然大都在周末上网发表言论.用户B时常去考研版,是因为他将来有考研的打算,那么有理由相信B在将来的一段时间内也将持续关注考研的信息.为了检验假设1先给出相似度的概念.从统计上讲,每个站点的用户群都存在自己的言论行为特征分布;有时需要比较某两类特征之间的相似程度,进而评估两者间的差异;为此SFB给出以下指标:其中每一维元素都已归一化评测1.目标用户Utra的特征与基准用户Ubaes特征之间相似度定义为VDeh二(tar,abse,T,B)二iTm-e凡ature(‘ar,T,石),ITime一陌tute(俪T,。))-PSac卜Featute(tar,T,B),IsPace-Faetur(eba,,T.。))_上式中相似度的含义即前后两者分别在时间和空间特征单位向量上的余弦距离.其中tar为目标用户,abse为用于比较的基准时空特征,T和B分别表示模型采样的时空边界;当base设定为用户Utra自己在另一个时间段内的时空特征,就可以验证用户行为建模的稳定性.结合定义1一4中的符号含义,评测指标vDelat的挖掘算法如下表示:Input:U,(T;,5;),U碱(TZ,52);where}Tl卜}TZ卜24xnhour}5;1=!52}二mboardProc:set占=lhour;gettfl=time一feature(tar,TI,51);Zft=time一feature(base,T:,52);lfs=。pace一feature(tar,Tl,5,);ZfS=space一feature(bas‘,T:,52);erpresenttlfa,cevtor(a;,a:,…,a24,);ge:tf犷=习(。lx*,。2、*,…,。24x。>;gett刀(thesameastf厂);Output:[tf犷]24,〔呢]24,[sfl]m,[sZf]mtoCalculateVnelta.上述挖掘算法对用户时间特征以一天为边界,每小时为单位,进行了折叠累加,最后的Time-Feature特征是一个24维的向量.最后的实验部分将通过上述算法的结果,检验假设1的正确性.有了稳定性的解释,SFB模型便可以定义参数化的指标,并认定这些指标在统计意义上的合理性.评测2.用户Ui在时间维度上的特性值表示为vT(1)=1/〔J二-emFaetu。(‘)󰀀了干。-em、ture(,)]一1.评测3.用户认在空间维度上的特性值表示为:vs(1)=1/[1、ace-Faeture(:)󰀀1系cae-、ure(‘)〕一1󰀀上式中,时间和空间特征表示为各自特征向量点积后从【1,oc)到【0,oc)上的区间调整.对于每个用户U,用vT值作为横轴,vs作为纵轴,把它们的时空特性表现在模拟的图1中.计算机研究与发展2007,44(增刊)空间特性八图1用户时空特性的分布分析图1,当vT值越大时表示1印-ecaFaetuer每一维上的数值相对接近,用户的发贴行为在时间上较为稳定,反之表示发贴时间段较为集中;同样地,当vs值越大时表示用户的发贴范围越广,在各个版面发贴比较平均。我们在坐标系中分隔出4类用户,分别用SMIF表示,如表1所示.5型用户的发贴时间段比较集中,发贴的版面也相对单一,因此他在网上的行为不太活跃;与他相对应的是F型用户,在多个版面、多个时间段有言论行为;而M型用户的行为特征表现为长时间专注于特定版面,因此他属于该版面管理员的可能型较高;而1型用户的言论行为在时间维度上爆发性较强,表现出较为强烈的意图性.表1基于时空挖掘的用户分类4类用户首字母含义用户类型说明【BI]SilecneSPeaker金口型发贴用户Mallagespeaker管理型发贴用户IntentionalSPeaker意图型发贴用户Flcx记ingspeaker洪水型发贴用户需要指出的是,该特征并不能独立地作为分类依据,因为用户行为特征都是从统计上得出的模式概率;但通过后文的实验可以证明,行为特征对用户角色的分类提供正向的依据.实验与评测为了保证结果的通用性,实验选取了3个较大的国内高校公共BBs站点〔’6]作为数据源,按照顺序分别把它们用SiteA,SiteB和SiteC表示;采集的时间范围为2007年第1季度(共90天,用DTI一DTg。表示).采集对象为热门版面(共173个),网页抓取按照贴为单位存放在derby〔‘7〕数据库中(共140多篇),然后对采集时间段缺损的版面记录进行清洗,表2是清洗后的统计信息.5郑佳谦等:论坛社区用户时空特征建模与挖掘表2实验数据集说明站点选取版面(个)文章数(贴)用户ID(个)SiteA』3R611515SiteB11O~八548511SiteC亡」7245878清洗过程中去除采集时间不完整的版面,且只取“发贴人1D’,、“发贴版面”、“发贴时间”三维信息.同时还有另一张数据表存储版面URL,所属的站点名称以及版面管理员的ID.首先检验模型的稳定性.用户的言论行为并不是杂乱无章的,在总体特征上体现出一定规律性,如图2所示,它表现了用户群体在一天内的总体行为特征,即艺IT;me一*atuer(,,T,:,etN).n甘,几n}侧妇00一匕时间段(h)图2各站点用户的总体时间特征图2中3个站点的时间特征分布相对接近.如果SFBUM是稳定的,即个体用户在不同时间段,时空特征同样也将表现出一致性.为验证此假设(即假设1),采用评测1中的挖掘算法,输人参数取值为Tl=[DT,,DTZ:];TZ=[DT6:,DTg。〕;5;,52为目标站点所有采集到的版面.为了去除数据噪音,作为挖掘算法输人的用户需满足在T,和TZ时间段内言论总数大于5贴的约束.最后整理得数据表3.表3CFB模型稳定性评估差异指标版主普通站友。(标,1价)0.258SiteAc(标.1班)0.483:(了l,t,场)0。5390.293SiteB。(,汀,,标)0.9010,6280.27551化Cc(1价,1心)0.409。(1川,场)0.8220.626。(珠、叨,珠、川)0.235。(vra、j,orV、刃)0.131表3中:(lnt,如)和。(与;,场)对应向量v图at中第1维和第2维值.表中最后两行借用了SiteC的用户规模,采用随机数发生器模拟了无特征规律的言论行为,作为和真实用户数据的比对.通过数据可以发现,版主类用户的言论行为在时间和空间特征上的稳定度要高出普通用户两倍以上,这很好地解释了M型用户所担任的管理型角色(持续地关注某个版面).在Tl和T:时间段上,相比于无规律的言论行为,SFBUM表现出良好的空间特征一致性(平均高出4.5倍),而时间特征一致性显得相对不足(高出46%).分析理由是T:时间段处在期末而TZ处在开学,时期的不同对时间特征的影响相对较大,对空间特征的影响相对较小.上述数据中已经可以看出版主与普通用户在SFBUM特征一致性上的区别,下面的实验就针对表1中的M型用户与其他类型用户之间的可分类性做单独的讨论(对于5,F,1的分类由于客观评估指标的缺乏,定量的分析较为困难).取T为DTI一DTg。全部时间点,使用户肠,。aeFture构成一个90维时间特征向量,通过评测式(2)计算得vT;由全部版面构成IsPac-eFaetur。空间特征向量计算得Vs,按照不同用户不同站点挖掘得表4.表4M型用户可区分度特征分布版主站友区分度(%)22.036.15112.7SiteAVsl.001.4033.3VTZI.906.84104.8SiteBVso.760.8612.3VT14.867.6164.5SiteCVsl.101219.5对表4分析后不难发现,M型用户在时间特征上与普通站友有很高的区分度,而空间特征区分性显得相对不足(但仍有区分度可言);这正好与表3的结果互补.合理的解释是版主自身的言论空间也相对广泛,并不会因为参与了某个版面的管理工作而只把自己的言论行为限制于该版面,其本身亦可能表现出F型用户的行为特征.6结论与将来的工作本文在基于文本特征的传统用户模型定义中,添人了时空特征模型SFBUM的表述.由于在论坛社区环境下大量简略语、表情符号导致的文本特征l2描述的不精确,SFB避免了直接使用文本信息,而对时间和空间两个论坛社区中的重要属性进行了建模,补足了文本特征模型的不足.并通过实验证明,该模型达到了稳定性、提高可分类性的改进目标.实验又同时反映了这样的情况:当论坛经历某个事件(如前文分析所提的假期等)时,SFBUM所反映的时空特征会出现波动.这说明统计意义上的行为特征在面向单一用户群体(学生)的论坛中有部分的局限性;如果将该模型运用于成熟的大型论坛上,相信稳定性和可区分度会有相对的提高.将来的工作是怎样结合文本特征与时空特征,统一地描述用户的言论行为;本文并没有涉及模型统一方面的工作;如果在这两者特征之上建立统一的模型,将可对用户将来的发贴行为进行预测,同时消除上段所述的部分局限性;对论坛社区的管理和研究有重要的价值.参考文献【JI吴丽花,刘鲁.个性化推荐系统用户建模技术综述.情报学报,2006,25(1):55一62[2]Xiaodan,眼,BelleLTSeng,Ching一Yu雌Lin,etalPer,OnalizedrecornrOelldation面venybinfo确ationlowSIGIR,Setatle,Washingon,2006[3]FTanudj可a,LMui.Pernosa:Acontextual让edandPerosnalizedwebsaerch.The35八力nualHaawiilnt’IConfonSystemsciences,IslandofHawaii.Biglsland,2002〔14载美钧.面向个性化服务的用户建模相关问题研究.情报杂志,2006,(3)〔JS寇苏玲,蔡庆生.应用于用户兴趣建模的多文本关键词抽取研究.计算机仿真,2007,24(2):103一105【6〕刘昌饪,唐常杰,于中华,等.基于潜在语义分析的BPS文档肠yes鉴别器.计算机学报,2004,27(4):566一572[7]Swaesrant,K凡uts.SocialNetworkAnalysi,:Meth司sandAPPlicatlsno.Cambridge:CambridgeUniversityPres,1994计算机研究与发展2007,44(增刊)【81孙颖,毛波.基于数据挖掘技术的虚拟社区成员行为研究.计算机应用,2003,25(1)【9〕赵鹏,蔡庆生,王清毅.一种用于文章推荐系统中的用户模型表示方法.计算机技术与发展,2007,17(1):4-6-【10〕宫辉,徐渝.高校BBS社群结构与信息传播的影响因素西安交通大学学报,2007,27(1):93一97[11]RDAlllore.Expertiseconuunitydetection,The27thAnnualInt’IACMSIGIR(知nfonReaescrhandDevelPomentinInfonllationRetrieavl,Shefifeld,oSuthyorkshire,UK,2004〔12〕GE冶5,KLin,HMannila.R己edlsoove不yfronltimesirees.In:Prcofothe4thlnt’IConfonofKno创e龙eDiscoveryandDataMini飞.MenloPard,CA:AAAIPres,1998.16一22[131QiazohuMei,ChaoLiu,Hallgsu,etal.AprobabilisticapproachtosPtaiotem印ralthemePattemmini吧onweblgos.WWW,Edinburgh,段。tlalld,2006【14]王康,吴中福.BBS电子公告牌及使用.计算机应用,1997,17(2):61一63[151LGartno,CHaythornthwaite,Bwellman.Studyi昭onlinecos访Inetworks.JournalofComputer一MediatedC冶mmunication,1997,3(1)〔16]论坛社区.http:/lbbs.sjtu.edu.cn,thtp://bbs.fudan.edu.cn,http://bbs.句uedu.Cn,2007一01一01[17]开源数据库DBMshttp:/ldb.apache.orgZderby,2006一12一19郑佳谦男,1984年生,硕士研究生,主要研究方向为文本挖掘与信息检索.徐隽男,1983年生,硕士研究生,主要研究方向为文本特征挖掘与垃圾邮件分类.姚静女,9184年生,硕士研究生,主要研究方向为专家检索牛军钮女,1973年生,博士,副教授,主要研究方向为文本挖掘与信息检索(jyniu@fudan.edu.cn).

因篇幅问题不能全部显示,请点此查看更多更全内容

Top