文件名称:
新闻情感方向判断方法、电子设备及计算机可读存储介质.pdf
开发工具:
文件大小: 634kb
下载次数: 0
上传时间: 2019-07-12
详细说明:使用深度学习和模型的方法,判断非结构化文本的情绪倾向CN107688651A
权利要求书
2/2页
若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且没有
识别岀与所述第二文件中的事件正则表达式符合的内容,则将所述预定的机器学习算法获
取的该待预测新闻的情感分数作为该待预测新闻的最终评分。
8.如权利要求7所述的新闻情感方向判断方法,其特征在于,所述调整所述预定的机器
学习算法获取的该待狈测新闻的情感分数还包括:
若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合
的内容,且该事件正则表达式在所述第二文件中对应的情感分数与所述预定的机器学习算
法获取的情感分数不在同一分档内,则以该事件正则表达式在所述第二文件中对应的情感
分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加
权分数作为该待预测新闻的最终评分
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器,所述存储器上存储
有可在所述处理器上运行的新闻情感方向判断系统,所述新闻情感方向判断系统被所述处
理器执行时,所述处理器执行如权利要求1-8中任一项所述的新闻情感方向判断方法的步
骤
10.一种计算机可读存储介质,所述计算机可读存储介质存储有新闻情感方向判断系
统,所述新闻情感方向判断系统可被至少一个处理器执行,以使所述至少一个处理器执行
如权利要求1-8中任一项所述的新闻情感方向判断方法的步骤。
CN107688651A
说明书
1/12页
新闻情感方向判断方法、电子设备及计算机可读存储介质
技术领域
[0001]本发明涉及计算机信息技术领域,尤其涉及一种新闻情感方向判断方法、电子设
备及计算机可读存储介质。
背景技术
[0002]在进行新闻语义解析的同时,往往需要关注新闻的情感方向是正面还是负面,以
及正负面的程度如何。现有方法通常釆用机器学习方法(比如随机森林等算法)对新闻进行
分数计算,根据所得分数判断新闻的正负面,这样的结果可能准确度不高、导致不好的客户
休验。故,现有技术中的新闻情感方向判断方法设计不够合理,亟需改进。
发明内容
[000]有鉴于此,本发明提出一种新闻情感方向判断方法、电子没备及计算机可读存储
介质,通过预设的事件标签命中规则(包括事件关键字或事件正则表达式),对机器学习算
法获取的新闻情感分数进行调整,有效提升了新闻情感方向判断的准确率。
[0004]首先,为实现上述目的,本发明提出一种新闻情感方向判断方法,该方法应用于电
子设备,所述方法包括:
[0005]通过预定的杋器学习算法,针对待预测新闻进行语义评分,获取该待预洌新闻的
情感分数
[000勺根据预设的事件标签-事件关键词规则,调整所述预定的机器学习算法获取的该
待预测新闻的情感分数;及
[00o刁]根据调整得到的该待预测新闻的情感分数,确定该待预测浙闻的情感方向
[008↓优选地,所述事件标签-事件关键词规则设置为第一文件,该第一文件包括用于区
分事件类别的事件标签、事件关键词、及每个事件关键词对应的情感分数。
[00Q优选地,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数包
括
[0010]遍历该待预测新闻的标题和止文
[0011]1若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,则将该
识別出的事件关键词在所述第一文件中对应的情感分数作为该待预测新闻的最终评分,并
将该识別出的事件关键词对应的事件标签作为该待预测新闻的主要经营事件;及
[0012]若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,则
将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评
分
[0013]优选地,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包
括
[0014]若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,且该识
別出的事件关键词在所述第一文件中对应的情感分数与所述预定的机器学习算法获取的
CN107688651A
说明书
2/12
页
情感分数不在同一分档内,则以该识别出的事件关键词在所述第一文件中对应的情感分数
为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分
数作为该待预测新闻的最终评分。
[0015]优选地,所述加权计算包括
[0016]将该识别出的事件关键词在所述第一文件中对应的情感分数乘以第一预设比例,
将所述预定的机器学习算法获取的情感分数乘以第二预设比例;及
[0017]将两者的乘积相加得到一个加权分数作为该待预测新闻的最终评分,其中,所述
第一预设比例大于第二预设比例,且所述第一预设比例与第二预设比例之和为1
[0018]优选地,该方法还包括:
[0019]根据预设的事件标签-事件正则表达式规则,调整所述预定的杋器学习算法获取
的该待预测新闻的情感分数,其中,所述事件标签一事件正则表达式规则设置为第二文件,
该第二文件包括用于区分事件类别的事件标签、事件止则表达式、及每个事件止则表达式
对应的情感分数。
[0020]优选地,所述调整所述预定的杋器学习算法获取的该待预测新闻的情感分数包
括:
[0021]若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式
符合的内容,则将该事件正则表达式在所述第二文件中对应的情感分数作为该待预测新闻
的最终评分,并将该事件正则表达式对应的事件标签作为该待预测新闻的主要经营事件;
及
[0022]若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且
没有识别出与所述第二文件中的事件正则表达式符合的内容,则将所述预定的机器学习算
法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分
[0023]优选地,所述调整所述预定的机器学习算法荻取的该待预测新闻的情感分数还包
括:
[0024]若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式
符合的内容,且该事件止则表达式在所述第二文件中对应的情感分数与所述预定的机器学
习算法获取的情感分数不在同一分档内,则以该事件正则表达式在所述第二文件中对应的
情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到
个加权分数作为该待预测新闻的最终评分。
[0025]此外,为实现上述目的,本发明还提供一种电子设备,所述电子设备包括存储器
处理器,所述存储器上存储有可在所述处理器上运行的新闻情感方向判断系统,所述新闻
情感方向判断系统被所述处理器执行时,所述处理器执行如上所述的新闻情感方向判断方
法的步骡
[0026]进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机
可读存储介质存储有新闻情感方向判断系统,所述新闻情感方向判断系统可被至少一个处
理器执行,以使所述至少一个处理器执行如上述的新闻情感方向判断方法的步骤
[0027]相较于现有技术,本发明所提出的电子设备、新闻情感方向判断方法及计算机可
读存储介质,通过预设的事件标签命中规则(包括事件关键字或事件正则表达式),对机器
学习算法(如随杋森林算法)获取的新闻情感分数进行调整,相较于传统的只采用随机森林
CN107688651A
说明书
3/12页
等机器学习算法的新闻情感方向判断方法而言,本发明评分计算的结果准确度更高,覆盖
面更广,客户休验更佳。
附图说明
[0028]图1是本发明电子设备一可选的硬件架构的示意图;
[0029]图2是本发明电子设备中新闻情感方向判断系统一实施例的程序模块示意图:
[0030]图3为本发眀新闻情感方向判断方法一实施例的实施流程示意图。
[003们附图标记
电子设备
2]存储器
处理器
22
网终接口
新闻情感方向判断系统
20
评分模块
201
[0033]
调整模块
202
判断模块
203
流程步驟
S31-S33
[0034]本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明
具体实施方式
[0035]为∫使本发明的日的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不
用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前
提下所获得的所有其他实施例,都属于木发明保扩的范围。
[0036]需要说明的是,在本发明中涉及“第”、“第二”等的描述仅用于描述目的,而不能
理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第
“第二”的特征可以明小或者隐含地包括至少一个该特征。另外,各个实施例之间的技
术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的
结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求
的保护范围之内
[0037]进一步需要说明的是,在木文中,术语“包括”、“包含”或者其任何其他变休意在涵
盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要
CN107688651A
说明书
4/12页
素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置
所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在
包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0038]首先,本发明提出一种电子设备2。
[0039]参阅图1所示,是本发明电子设备2一可选的使件架构的示意图。本实施例中,所述
电子设备2可包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网终接口
23。需要指出的是,图1仅示出了具有组件21-23的电子设备2,但是应理解的是,并不要求实
施所有示出的组件,可以替代的实施更多或者更少的组件。
[0040]其中,所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式
服务器等计算设备,该电子设备2可以是独立的服务器,也可以是多个服务器所组成的服务
器集群。
[0041]所述存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存
哽盘、多媒体卡、卡型存储器(例如,SD或Ⅸ存储器等)、随机访问存储器(RAM、静态随机访
问存储器(SRAM)、只读存储器(RO、电可擦除可编程只读存储器( EPROM、可编程只读存
储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子设
备2的内部存储单元,例如该电子设备2的硬盘或内存。在另一些实施例中,所述存储器21也
可以是所述电子设备2的外部存储设备,例如该电子设备2上配备的插接式硬盘,智能存储
下 Smart Media card,SM),安全数字( Secure Digital,SD)卡,闪存卡( Flash card)等
当然,所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。
本实施例中,所述存储器21通常用于存储安装于所述电子设备2的操作系统和各类应用软
件,例如所述新闻情感方向判断系统20的程序代码等。此外,所述存储器21还可以用于暂时
地存储已经输出或者将要输出的各类数据
[0042]所述处理器22在一些实施例中可以是中央处理器( Central Processing Unit,
CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器2通常用于控制所述电
了设备2的总体操作,例如执行与所述屯子设备2进行数据交互或者通信相关的控制和处里
等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例
如运行所述的新闻情感方向判断系统20等
[0043]所述网络接口23可包括无线网络接口或有线网终接口,该网终接口23通常用于在
所述电子设备2与其他电子设备之间建立通信连接。例如,所述网络接口23用于通过网络将
所述电子设备2与外部数据平台相连,在所述电子设备2与外部数据平台之间的建立数据传
输通道和通信连接。所述网络可以是企业内部网( Intranet)、互联网( Internet)、全球移动
通讯系统 (Global System of Mobile communication,GSM)、宽带码分多址( Wideband
Code division Mulliple access, WCDMA)、4G网络、5G网络、监牙( Blue tooth)、Wi-Fi等无
线或有线网络。
[0044]至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功
能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例
[0045]参阅图2所示,是本发明电子设备2中新闻情感方向判断系统20一实施例的程序模
块图。木实施例中,所述的新闻情感方向判断系统20可以被分割成一个或多个程序模块,所
述一个或者多个程序模块被存储于所述存储器21中,并由一个或多个处理器(本实施例中
7
CN107688651A
说明书
5/12页
为所述处理器22)所执行,以完成本发明。例如,在图2中,所述的新闻情感方向判断系统20
可以被分割成评分模块20Ⅰ、调整模块202、以及判断模块203。木发明所称的程序模块是指
能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述新闻情感方向判
断系统20在所述电子设备2中的执行过程以下将就各程序模块201-203的功能进行详细描
述
[0046]所述评分模块201,用于通过预定的机器学习算法,针对待预测新闻进行语义评
分,获取该待预测新闻的情感分数
[0047]优选地,在本实施例中,所述预定的机器学习算法可以采用随机森林算法(如开源
包veka),其语义评分包括如下步骤:
[α048](1)先人工选择随杋森林模型训练集,其中,正面、负面新闻数据內容为每篇新闻
的标题
[0049](2)获取训练集(训练模型)所需中文词向量库(向量库请料可以是廾源的维基新
闻内容),通过对训练集中的训练样本进行 Hanlp分词,并川词向量代替分词,对每条训练集
数据进行标准化处理;
[0050](3)通过 bagging算法选取训练集元组,并经过 Radomtree算法训练随机森林模型
中的每棵决策树,重复M次,得到Ⅵ个基分类器;
[0051](4)预测:对于待预测新闻的标题进行向量转换,用上述训练好的基分类器进行预
测投票,预测数量最多的类别作为该新闻的类别(如正面类别和负面类别),将预测的指定
类别(如类别1)的数量除以决策树的总数量,即为判断的该指定类别(如类别1)的概率p,其
中,概率p的取值范围为[0,1],用公式p-2*p-1换算成取值范围为[-1,1],换算后的数值作
为该待预测新闻的情感分数
[0052]举例而言,假设待预测新闻A,经过训练模型(假设训练模型有1000棵决策树)预
[0053]若其中520棵树预测为类别0(代表负面类别),480棵树预测为类别I(代表正面类
别),则此种情形下该待预测新闻A的类别是0,对应的情感分数为 score=2*(480/1000)-1
0.01
[0054]若其中520棵树预测为类别1,480株树预测为类别0,则此种情形下该待预测新闻A
的类别是1,对应的情感分数为 score=2*(520/1000)-1-0.04
[0055]所述调整模块202,用于根据预设的事件标签-事件关键词规则,调整所述预定的
机器学习算法获取的该待预测新闻的情感分数。其中,所述事件标签-事件关键词规则可以
设置为第一文件(如第一动态词典),即将所述事件标签-事件关键词规则的具体内容用文
件的形式(本实施例为第·文件)进行记录。在本实施例中,该第一文件可以包括如下内容:
事件标签(用于区分事件的类别,如发展调整等)、事件关键词(如转型、升级等)、及每个事
件关键词对应的情感分数(评分)。
[0056]举例而言,所述第一文件可以设置为如下文件A格式:
8
CN107688651A
说明书
6/12页
[0057]
事件标签
事件关键词
评分
转型,升级,整改,补短板,去杠杆,市场出清,放招,
发展调整
0.2
加码,购买资产
[0058]在上述文件A中,若从新闻标题中识别到第一行任意一个事件关键词(如“转型”),
则该篇新闻的主要经营事件为对应的事件标签(“发展调整”),该篇新闻的情感分数为0.2
[0059]优选地,在本实施例中,可以将事件关键词对应的评分范围设置为[-1,1。进一步
地,可以将该评分范围继续分成若十档的子区间,例如,分成如下四档的子区间:[-1,
0.75),[-0.75,-0.5),[-0.5,-0.04),[-0.01,1],其中,子区间[-1,-0.75)和[-0.75,-0.5)
代表重大负面新闻,-0.5,-0.04)代表一般负面新闻,L-0.04,1代表正面新闻。同理,所述
预定的机器学习算法(如随机森林算法)获取的情感分数范围[-1,1也可以分成上述四档
的子区间。
[0060]具休而言,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数包
括如下步骤:
[0061]遍历该待预测新闻的标题和正文:
[0062]若从该待预测新闻的标题和忙文中识别出所述第一文件中的事件关键词,则将该
识别出的事件关键词在所述第一文件中对应的情感分数作为该待预测新闻的最终评分,并
将该识别出的事件关键词对应的事件标签作为该待预测新闻的主要经耆事件
[0063]若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,则
将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评
分
[0064]优选地,在其它实施例中,所述调整所述预定的机器学习算法获取的该待预测新
闻的情感分数还包括如下步骤:
[0065]若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,且该识
别出的事件关键词在所述第一文件中对应的情感分数与所述预定的机器学习算法获取的
情感分数不在同一分档内(即同一分档对应的子区间内,如[-0.04,1]),则以该识別出的事
件关键词在所述第一文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取
的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分
[0066]具体而言,所述加权计算包括:将该识别出的事件关键词在所述第·文件中对应
的情感分数乘以第一预设比例(如60%),将所述预定的机器学习算法获取的情感分数乘以
第二预设比例(如40%),然后将两者的乘积相加得到一个加权分数作为该待预测新闻的最
终评分。其中,所述第一预设比例人于第二预设比例,且所述第一预设比例与第二预设比例
之和为1。
[0067]举例而言,若该识别出的事件关键词在所述第一文件中对应的情感分数为0.2(位
于分档子区间[0.04,1]),而所述预定的机器学习算法获取的情感分数为-0.2(位于分档
子区间[-0.5,-0.04)),两者显然不在同分档内,则本发明以0.2评分为主要权重去调整
CN107688651A
说明书
7/12页
评分。
[0068]优选地,在其亡实施例中,所述调整模块202还用于:
[006σ]根据预设的事件标签-事件正则表达式规则,调整所述预定的机器学习算法获取
的该待预测新闻的情感分数。其中,所述事件标签一事件正则表达式规则可以设置为第二文
件(如第二动态词典),即将所述事件标签-事件正则表达式规则的具体内容川文件的形式
(本实施例为第二文件)进行记录。在本实施例中,该第二文件可以包括如下内容:事件标签
(用于区分事件的类别,如业绩预増等)、事件正则表达式(根捃不同业务经验和相关逻辑进
行设定,如下文件B所示)、及每个事件正则表达式对应的情感分数(评分)。
[0070]举例而言,所述第二文件可以设置为如下文件B的格式:
[0071]
事件标签
事件正则表达式
评分
(?:预告顶报预计预公告){0,10}(?业绩净利利
业绩预增
04
润)⑨,10}(增嗝翻倍增长翻倍|上升大增倍增)
[0072]在上述文件B中,若从新闻标题中识别出与第一行事件正则表达式符合的内容,则
该篇新闻的主要经营事件为对应的事廾标签(如“业绩预增”),该篇新闻的情感分数为0.4
[0073]优选地,可以将事件正则表达式对应的评分范围设置为L-1,1。进一步地,可以将
该评分范围继续分成若干档的子区间,例如,分成如下四档的子区问:[-1,-0.75),
0.75,0.5),[-0.5,0.04),[_0.04,1,其中,子区间[-1,0.75)和[_0.75,-0.5)代表重大
负面新闻,[-0.5,-0.04)代表一般负面新闻,[-0.04,1代表正面新闻。
[0074]进一步地,此种情形下,所述调整所述预定的机器学习算法获取的该待预测新闻
的情感分数还包括如下步骤
[0075]若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式
符合的内容,则将该事件正则表达式在所述第二文件中对应的情感分数作为该待预测新闻
的最终评分,并将该事件正则表达式对应的事件标签作为该待预测新闻的主要经营事件
[0076]进一步地,此种情形下,所述调整所述预定的机器学习算法获取的该待预测新闻
的情感分数还包括如下步骤:
[007若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且
没有识别出与所述第二文件中的事件止则表达式符合的内容,则将所述预定的机器学习算
法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。
[0078]进一步地,此种情形下,所述调整所述预定的机器学刁算法获取的该待预测新闻
的情感分数还包括如下步骤:
[0079]若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式
符合的内容,且该事件正则表达式在所述第二文件中对应的情感分数与所述预定的机器学
习算法获取的情感分数不在同一分档内(即同一分档对应的子区间内,如_0.04,1]),则以
该事件止则表达式在所述第二文件中对应的情感分数为主要权重,与所述预定的机器学习
算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。
10
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.