文件名称:
基于内容分析的微博转发行为研究.pdf
开发工具:
文件大小: 1mb
下载次数: 0
上传时间: 2019-09-07
详细说明:摘 要:【目的/意义】微博转发行为反映了微博用户对所感兴趣微博的一种行为表现,对微博转发行为的研究有助
于微博的深度挖掘工作。【方法/过程】本文从内容分析的角度,对微博转发行为进行了预测。量化分析了微博内容
中一组低水平特征和高水平特征,采用逻辑回归模型对微博转发概率进行预测,并在微博数据集中进行了训练和
验证。【结果/结论】基于模型中的参数学习,证实这些内容特征对于微博转发有着密切的联系,据此进一步推断微
博用户主要的兴趣点。
关键字:微博;转发;内容分析;情感理论研究
情报科学
第36卷第4期2018年4月
悲伤
找正面和负面词语。有研究发现微博中带有情感色彩的
生气
词语对于社交气动会有影响,因此我们猜想止面和负面词语
曾恨
在使微博有趣或无趣中发挥了作用。
直接信息:直接信息是指那些直接发送给某些用户的信
按照前面带有感叹号的语句促进微博转发的思路,具有
息(某人)如图1。这些信息一般以收信人的用户名开始。强烈情感色彩(正面或负面)的词语同样可能促进用户对于
而其他的用户仍然可以看到这些消息,它不同于发送私信微博的转发。
(只有发送者和接收者可见)。直接信息很像公开谈话,而不
表情符号。表情符号或符号是表达情感的短字符序
是般的信息广播。鉴于直接信息主要是为了引赳某些用列。解析微博发现,微博中有两类表情符号:正面表情符号
户的注意,我们认为这种信息被转发的几率较小。因此,微如J和负面表情符号如L,设定这两类表情符号为二进制。
博是否是直接信息将成为预测微博是否被转发的重要特征。微博现在推出了一系列有意思的表情符号供用户使用,图3
给出了较常用的进行了分类的表情符号
上海小
秒前宋自微博 weibo con
已经发现情感表达会影响微博用户间的互动,表情符号
妹合Tmo新午灯吗
则是微博中兴趣度的指标。除了传递情感,它们也可以用来
L转
表达笑话、有趣地点评或讽刺。徵博中的这类信息有被转发
图1直接信息示例
或传递的倾向,先前有学者对邮件转发行为的研究中巳发现
URLs、用户名和#标签。这些都是微博中特定存在的符这种情况
号。它们是链接地址、提及用户名和关注某个话题的特定符
。用户名在微博文本中主要用于直接指定其他用户,或者
回e②“忠
与他直接谈话。#标签则更简单,用于标记特定主题。它们
可以放在微博文本中也可以在微博文本后进行追加。URIA
醅粤豳甾晒励回曾駟
被普遍用于表示止在谈论的完整文本和视频的链接地址
铆韶潘凹咿导
在微博中,用户名和#标签可以使用模式用户名和#标签
龉s巡凸园。
进行识别。微博中识别URLs如图2所示。这些用三个二进
器里画齿鲁醪题
制特征表示。
想
相关研究已经认识到LRLs、用户名和#在微博转发行为
图3微博中的表情符号
中的影响。由于这些是纯粹的基于内容的特征,本文将这些
凊感。很多微博是个人的情感表达。为了检测徵博中
因素也考虑到设置当中
的情感表达。我们采用前期的研究成果-基于情感本休的
关艺滚国物
微博情感分析。该研究中使用了基于知网的模糊情感本
3月15E2025来自 iPhone7Pus
又见好朋,作为乐别专业的接纸,我北常动我们叫国膏乐又要新的大
体库,构建的模糊情感词本体总共包含2090个词条,其中
作。下月初我要去看她演的音乐剧。阿尔兹记忆维
属于八种基本情感类(期待,高兴,喜爱,惊讶,焦虑,悲伤,生
新爱间医生V
气和憎恨)的词条数分别为170,395,39,65,271,20,201,
月15日1720来自可医生
母女同的什48岁的李女士怀改了,是二胎,还是双胞,更罕见的是,她
429。本研究中采用八类情感类捕捉微博中的情感,能够比
女儿也怀上了二。喜悦之后李女士开始大眠,担心孩子以后的育问题,亲反
简单地进行止面和负面情感分析来得夏为细致和深入。
论,经济玉力,高龄产妇怀二胎易失眠虑,家人千万不要忽观孕妇的心理状
考虑稈度词、否定词和文本影响力等因素的影响,最终
高.如问游第二孩妈妈信点共眼呢?48岁国崇2多岁女儿两怀二胎产下双
微博y中情感值计算如式(1)
拍
1)value.: Sensibility(km)
图2URIs,用户名和#标签示例
e=10,
ikn∈e(1)
感叹号和问号。将微博结尾处出现的感叹号和问号当
其中1≤i≤8
作二元特征。感叹号一般用于个人交流中标记强烈和潜在
Sensibility(k)表示情感词汇k的情感值(即情感类的隶
情感的表达。问号在各种文本中表示疑问。由于两种符号属度)0≤Snii(k)≤1,n表示窗口出现的否定词个
的多种用途,不能在所有情况下轻易地判断问号是否真的表数,m表示同条微博中出现的属于同一情惑类词语的个数
示疑问或者感叹号表示强烈陈述。尽管如此,在微博信息结alue表示程度词取值,w,表示微博y的影响因子,最终每条
尾处定位这内种符号作为一种特征指标还是合适的
微博帖子可以用y=1/2的这个特征
表2列出了使用逻辑回归得到的不同特征的权重,权重
时,具有更高的转发概率。
正值表示对微博被转发正面的贡献,负值表示对微博被转发
负面的贡献。通过逻辑回归得到的二进制特征i(其值为O
4评价和结果讨论
1)的权重w;可以解释为县有这个特社的微博的对数概率
通过训练逻辑回归模型,获得了影响微博被转发概率的
p(retuceel, /, =1)
lr
(4)
特征权重。观察这些权重,我们就可以了解微博中的转发行
p(retuceel 5=0)
为,最终可以推断出关于微博用户兴趣话题的假设。通过计
从获得的特征权重中,可以做些有趣的观察:
算一条新微博的特征并应用公式(3)中定义的函数,得到这
(1)直接信息的权重为比较大的负值,表示这类信息不
条微博被转发的概率。计算出的概率有两方面的应用:作为太可能被转发。这个发现比较符合我们的直觉,因为私人信
预测一条微博是否被转发的衡量,也可以成为微博兴趣度的息在大互联环境下別人不会感兴趣。
指标。
(2)信息如果包含#、用户名和URL等比较可能被转
发。但从图4这些特征的转发预测准确率可以发现,它们不
4.1准确率预测
能单独地用于转发预测,需要将它们跟其它特征结合起来进
为了验证学习得到的模型参数,对微博转发预测的准确行应用。
率进行测量。基于微博时间戳将微博集分成两组,一组用于
(3)微博中的情感在微博的转发行为中也扮演着重要角
训练,一组用于测试。其中训练集由最低时间戳值的微博组色。从表2中可以发现8类情感特征权重中有一半是正值一
成,包含了70%的有效数据集。剩下的30%的数据作为测试半是负值,这里要说明一点,负的权重值并不表示对转发行
集用于对预测质量的评估。如上节所述,我们将在训练和测为起到负面影响,相反一个负的权重表示特征负值对转发概
试集中计算微博中所有的特征。最后运用得到的权重在测率的增加,而正的权重表示特征正值对转发概率的增加。因
试集中计算微博被转发的概率。
此,如果微博中“期待”、“高兴”、喜爱”和¨惊讶”等情感为负
30
21994-2018ChinaAcademicJournalElectronicPublishingHouse.alLrightsreservedhttp://www.cnki.net
理论研究
情报科学
第36卷第4期2018年4月
值,则这条微博较易被转发,同样的,如果微博中“焦虑”、“悲
接下来的研究工作中,我们将完善已有方法,考虑更多
伤”、¨生气”和¨憎恨”等情感为止值则微博更易被转发。
的内容特征,比如不同主题对于微博转发行为的影响。微博
(4)另外,正面表情符号会降低转发概率,而在微博中增中的情感分析对于转发行为的更深人的影响也值得进一步
加负面表情符号则会提高被转发的概率,这与上面提到的不研究。还有将兴趣性作为微博信息检索中的考虑指标等
同情感对转发行为的影响相似。
(5)正面和负面词语都能使微博更易被转发,其中正面
参考文献
词语的影响效果更强。这说眀在微博中极端和强硬的话语1M,cha.H. Haddadi,F. Beneyenut,andK.P.Gum-
更能激发用户的转发行为。
d i. Measuring user influence in 'Twitter: the mil
(6)徵博如果以“!”结尾不太容易被转发,而以“?”结尾
lion follower fallacy[C]// Proc. Int. Conf. on We-
则更易被转发。这是一个有意思的发现,微博用户可能对疑
blogs and Social Media, Menlo Park, Califo
orila
问式的话语更感兴趣,急于找到专业的回答而进行转发
USA: AAAI Press 2010: 10-17
(⑦)词语概率是微博被转发的一个重要指标。如图42H.Kwak,C.Lee,H.Park.andS.Moon. What is
中所示这个内容对于微博信息被转发的概率有很强的影响
Witter, a social network or a news media cl// proc.
效果
Int World widc wcb ont. 2010: 591-600
表2通过逻辑回归获得的特征权重
3李志清.基于LDA主题特征的微博转发预测凹.情报杂
权重w
志,2015,34(9):158-162
直援信息
-118.21
4李英乐,于洪涛,刘力雄.基于SVM的微博转发规模预测
包括用广名
方法计算机应用研究,2013,30(9):259
包括科枟签
35.16
马晓峰,王磊,陈观淡.基于混合特征学习的微博转发
包括URL
198.56
12.89
预测方法叮.计算机应用与软件,2016,33(11):2494
18.36
正面词语
1153
6赖胜强。影响用户微博信息转发的因素研究.图书馆工
负面词语
作与研究,2015,(8):31-37
正面表情符号
29.32
7刘玮,贺敏,王丽宏,等,基于用户行为特征的徵博转
负面表情符号
11.65
词语概率
发预测研究.汁算机学报,2016,39(10):1992-2006.
1653
常数
罗知杕,陈挺,蔡皖东.一个基于随机森林的微博转发
期待
19.36
预测算法门计算机科学,
2014,41(4):62-74
高以
9 B. Suh, L. Hong, P. Pirolli, and E.h. Chi. Want t
喜爱
20.21
be retweeted? large scale analytics on factors impact
惊讶
16.62
ing rctwcct in Twitter nctwork[C]// Proc. Int. Conf
焦虑
on Social Computing, Minnesota, USA: ACM, 2010
悲伤
1891
177-184
生气
憎恨
15,21
10 L. Hong, O. Dan, and B. D. Davison. Predicting popular
messages in twitter[C// www(Companion Volume
5结语
Hydcrabad. India: ACM, 2011: 57-58
11史伟,王洪伟,何绍义.基于知网的模糊情感本建硏
本文介绍和评价了一种确定微博信息兴趣性的方法,根
究情报学报,2012,31(6:595-602
12 S. Petrovi'c M. Osborne and V. lavrenko. The edinburgh
据我们的方法将微博转发的概率作为衡量信息兴趣性的标
志。为了克服语境偏见,比如微博用户的社交网络或使用时
Twitter corpus(C)// Proc. Workshop on Computational
间等,采用了一种基于纯内容特征的学习方法进行信息被转
Linguistics in a World of Social Media, Michiga USA,
发概率的预测。为∫获取内容,我们既利用低水平特征
2010:25-26
URs、#、用户名、?、!表情符号、正面和鱼面词语,也运用高13史伟,王洪伟,何绍义.基于微博平台的公众情感分析
水平特征如情感等。并得到了关于微博用户转发行为的相
情报学报,2012,3311:1171-1178
关结论:作为一般规则,当微博的话题是关于公共的话题而
14 M. F. Porter. An algorithm for suffix stripping]. Readings
不是个人的话题时更易被转发,比如·条直接微博信息不太
in Information Retrieval, 1980, 1403): 130-137.
15 D. W. IIc
可能被转发。进一步有趣的发现是微博中坏消息传播的速
nd S. Lemeshow. Applied logistic regres
sion[M. US John Wiley and Sons, 2000: 130
度更快些。
责任编辑:毛秀梅)
31
21994-2018ChinaAcademicJournalElectronicPublishingHouse.alLrightsreservedhttp://www.cnki.net
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.