新闻情感方向判断方法、电子设备及计算机可读存储介质.pdf使用深度学习和模型的方法，判断非结构化文本

文件名称: 新闻情感方向判断方法、电子设备及计算机可读存储介质.pdf

所属分类: 机器学习

开发工具:

文件大小: 634kb

下载次数: 0

上传时间: 2019-07-12

提供者: lanhao*******

下载 (634kb)

不能下载？报告错误

详细说明：使用深度学习和模型的方法，判断非结构化文本的情绪倾向CN107688651A 权利要求书 2/2页若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且没有识别岀与所述第二文件中的事件正则表达式符合的内容,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。 8.如权利要求7所述的新闻情感方向判断方法,其特征在于,所述调整所述预定的机器学习算法获取的该待狈测新闻的情感分数还包括: 若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,且该事件正则表达式在所述第二文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内,则以该事件正则表达式在所述第二文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分 9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的新闻情感方向判断系统,所述新闻情感方向判断系统被所述处理器执行时,所述处理器执行如权利要求1-8中任一项所述的新闻情感方向判断方法的步骤 10.一种计算机可读存储介质,所述计算机可读存储介质存储有新闻情感方向判断系统,所述新闻情感方向判断系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-8中任一项所述的新闻情感方向判断方法的步骤。 CN107688651A 说明书 1/12页新闻情感方向判断方法、电子设备及计算机可读存储介质技术领域 [0001]本发明涉及计算机信息技术领域,尤其涉及一种新闻情感方向判断方法、电子设备及计算机可读存储介质。背景技术 [0002]在进行新闻语义解析的同时,往往需要关注新闻的情感方向是正面还是负面,以及正负面的程度如何。现有方法通常釆用机器学习方法(比如随机森林等算法)对新闻进行分数计算,根据所得分数判断新闻的正负面,这样的结果可能准确度不高、导致不好的客户休验。故,现有技术中的新闻情感方向判断方法设计不够合理,亟需改进。发明内容 [000]有鉴于此,本发明提出一种新闻情感方向判断方法、电子没备及计算机可读存储介质,通过预设的事件标签命中规则(包括事件关键字或事件正则表达式),对机器学习算法获取的新闻情感分数进行调整,有效提升了新闻情感方向判断的准确率。 [0004]首先,为实现上述目的,本发明提出一种新闻情感方向判断方法,该方法应用于电子设备,所述方法包括: [0005]通过预定的杋器学习算法,针对待预测新闻进行语义评分,获取该待预洌新闻的情感分数 [000勺根据预设的事件标签-事件关键词规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数;及 [00o刁]根据调整得到的该待预测新闻的情感分数,确定该待预测浙闻的情感方向 [008↓优选地,所述事件标签-事件关键词规则设置为第一文件,该第一文件包括用于区分事件类别的事件标签、事件关键词、及每个事件关键词对应的情感分数。 [00Q优选地,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数包括 [0010]遍历该待预测新闻的标题和止文 [0011]1若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,则将该识別出的事件关键词在所述第一文件中对应的情感分数作为该待预测新闻的最终评分,并将该识別出的事件关键词对应的事件标签作为该待预测新闻的主要经营事件;及 [0012]若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分 [0013]优选地,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括 [0014]若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,且该识別出的事件关键词在所述第一文件中对应的情感分数与所述预定的机器学习算法获取的 CN107688651A 说明书 2/12 页情感分数不在同一分档内,则以该识别出的事件关键词在所述第一文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。 [0015]优选地,所述加权计算包括 [0016]将该识别出的事件关键词在所述第一文件中对应的情感分数乘以第一预设比例, 将所述预定的机器学习算法获取的情感分数乘以第二预设比例;及 [0017]将两者的乘积相加得到一个加权分数作为该待预测新闻的最终评分,其中,所述第一预设比例大于第二预设比例,且所述第一预设比例与第二预设比例之和为1 [0018]优选地,该方法还包括: [0019]根据预设的事件标签-事件正则表达式规则,调整所述预定的杋器学习算法获取的该待预测新闻的情感分数,其中,所述事件标签一事件正则表达式规则设置为第二文件, 该第二文件包括用于区分事件类别的事件标签、事件止则表达式、及每个事件止则表达式对应的情感分数。 [0020]优选地,所述调整所述预定的杋器学习算法获取的该待预测新闻的情感分数包括: [0021]若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,则将该事件正则表达式在所述第二文件中对应的情感分数作为该待预测新闻的最终评分,并将该事件正则表达式对应的事件标签作为该待预测新闻的主要经营事件; 及 [0022]若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且没有识别出与所述第二文件中的事件正则表达式符合的内容,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分 [0023]优选地,所述调整所述预定的机器学习算法荻取的该待预测新闻的情感分数还包括: [0024]若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,且该事件止则表达式在所述第二文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内,则以该事件正则表达式在所述第二文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到个加权分数作为该待预测新闻的最终评分。 [0025]此外,为实现上述目的,本发明还提供一种电子设备,所述电子设备包括存储器处理器,所述存储器上存储有可在所述处理器上运行的新闻情感方向判断系统,所述新闻情感方向判断系统被所述处理器执行时,所述处理器执行如上所述的新闻情感方向判断方法的步骡 [0026]进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有新闻情感方向判断系统,所述新闻情感方向判断系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的新闻情感方向判断方法的步骤 [0027]相较于现有技术,本发明所提出的电子设备、新闻情感方向判断方法及计算机可读存储介质,通过预设的事件标签命中规则(包括事件关键字或事件正则表达式),对机器学习算法(如随杋森林算法)获取的新闻情感分数进行调整,相较于传统的只采用随机森林 CN107688651A 说明书 3/12页等机器学习算法的新闻情感方向判断方法而言,本发明评分计算的结果准确度更高,覆盖面更广,客户休验更佳。附图说明 [0028]图1是本发明电子设备一可选的硬件架构的示意图; [0029]图2是本发明电子设备中新闻情感方向判断系统一实施例的程序模块示意图: [0030]图3为本发眀新闻情感方向判断方法一实施例的实施流程示意图。 [003们附图标记电子设备 2]存储器处理器 22 网终接口新闻情感方向判断系统 20 评分模块 201 [0033] 调整模块 202 判断模块 203 流程步驟 S31-S33 [0034]本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明具体实施方式 [0035]为∫使本发明的日的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于木发明保扩的范围。 [0036]需要说明的是,在本发明中涉及“第”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第 “第二”的特征可以明小或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内 [0037]进一步需要说明的是,在木文中,术语“包括”、“包含”或者其任何其他变休意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要 CN107688651A 说明书 4/12页素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。 [0038]首先,本发明提出一种电子设备2。 [0039]参阅图1所示,是本发明电子设备2一可选的使件架构的示意图。本实施例中,所述电子设备2可包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网终接口 23。需要指出的是,图1仅示出了具有组件21-23的电子设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。 [0040]其中,所述电子设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该电子设备2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。 [0041]所述存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存哽盘、多媒体卡、卡型存储器(例如,SD或Ⅸ存储器等)、随机访问存储器(RAM、静态随机访问存储器(SRAM)、只读存储器(RO、电可擦除可编程只读存储器( EPROM、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子设备2的内部存储单元,例如该电子设备2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子设备2的外部存储设备,例如该电子设备2上配备的插接式硬盘,智能存储下 Smart Media card,SM),安全数字( Secure Digital,SD)卡,闪存卡( Flash card)等当然,所述存储器21还可以既包括所述电子设备2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子设备2的操作系统和各类应用软件,例如所述新闻情感方向判断系统20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据 [0042]所述处理器22在一些实施例中可以是中央处理器( Central Processing Unit, CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器2通常用于控制所述电了设备2的总体操作,例如执行与所述屯子设备2进行数据交互或者通信相关的控制和处里等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的新闻情感方向判断系统20等 [0043]所述网络接口23可包括无线网络接口或有线网终接口,该网终接口23通常用于在所述电子设备2与其他电子设备之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子设备2与外部数据平台相连,在所述电子设备2与外部数据平台之间的建立数据传输通道和通信连接。所述网络可以是企业内部网( Intranet)、互联网( Internet)、全球移动通讯系统 (Global System of Mobile communication,GSM)、宽带码分多址( Wideband Code division Mulliple access, WCDMA)、4G网络、5G网络、监牙( Blue tooth)、Wi-Fi等无线或有线网络。 [0044]至此,己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面,将基于上述应用环境和相关设备,提出本发明的各个实施例 [0045]参阅图2所示,是本发明电子设备2中新闻情感方向判断系统20一实施例的程序模块图。木实施例中,所述的新闻情感方向判断系统20可以被分割成一个或多个程序模块,所述一个或者多个程序模块被存储于所述存储器21中,并由一个或多个处理器(本实施例中 7 CN107688651A 说明书 5/12页为所述处理器22)所执行,以完成本发明。例如,在图2中,所述的新闻情感方向判断系统20 可以被分割成评分模块20Ⅰ、调整模块202、以及判断模块203。木发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述新闻情感方向判断系统20在所述电子设备2中的执行过程以下将就各程序模块201-203的功能进行详细描述 [0046]所述评分模块201,用于通过预定的机器学习算法,针对待预测新闻进行语义评分,获取该待预测新闻的情感分数 [0047]优选地,在本实施例中,所述预定的机器学习算法可以采用随机森林算法(如开源包veka),其语义评分包括如下步骤: [α048](1)先人工选择随杋森林模型训练集,其中,正面、负面新闻数据內容为每篇新闻的标题 [0049](2)获取训练集(训练模型)所需中文词向量库(向量库请料可以是廾源的维基新闻内容),通过对训练集中的训练样本进行 Hanlp分词,并川词向量代替分词,对每条训练集数据进行标准化处理; [0050](3)通过 bagging算法选取训练集元组,并经过 Radomtree算法训练随机森林模型中的每棵决策树,重复M次,得到Ⅵ个基分类器; [0051](4)预测:对于待预测新闻的标题进行向量转换,用上述训练好的基分类器进行预测投票,预测数量最多的类别作为该新闻的类别(如正面类别和负面类别),将预测的指定类别(如类别1)的数量除以决策树的总数量,即为判断的该指定类别(如类别1)的概率p,其中,概率p的取值范围为[0,1],用公式p-2*p-1换算成取值范围为[-1,1],换算后的数值作为该待预测新闻的情感分数 [0052]举例而言,假设待预测新闻A,经过训练模型(假设训练模型有1000棵决策树)预 [0053]若其中520棵树预测为类别0(代表负面类别),480棵树预测为类别I(代表正面类别),则此种情形下该待预测新闻A的类别是0,对应的情感分数为 score=2*(480/1000)-1 0.01 [0054]若其中520棵树预测为类别1,480株树预测为类别0,则此种情形下该待预测新闻A 的类别是1,对应的情感分数为 score=2*(520/1000)-1-0.04 [0055]所述调整模块202,用于根据预设的事件标签-事件关键词规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数。其中,所述事件标签-事件关键词规则可以设置为第一文件(如第一动态词典),即将所述事件标签-事件关键词规则的具体内容用文件的形式(本实施例为第·文件)进行记录。在本实施例中,该第一文件可以包括如下内容: 事件标签(用于区分事件的类别,如发展调整等)、事件关键词(如转型、升级等)、及每个事件关键词对应的情感分数(评分)。 [0056]举例而言,所述第一文件可以设置为如下文件A格式: 8 CN107688651A 说明书 6/12页 [0057] 事件标签事件关键词评分转型,升级,整改,补短板,去杠杆,市场出清,放招, 发展调整 0.2 加码,购买资产 [0058]在上述文件A中,若从新闻标题中识别到第一行任意一个事件关键词(如“转型”), 则该篇新闻的主要经营事件为对应的事件标签(“发展调整”),该篇新闻的情感分数为0.2 [0059]优选地,在本实施例中,可以将事件关键词对应的评分范围设置为[-1,1。进一步地,可以将该评分范围继续分成若十档的子区间,例如,分成如下四档的子区间:[-1, 0.75),[-0.75,-0.5),[-0.5,-0.04),[-0.01,1],其中,子区间[-1,-0.75)和[-0.75,-0.5) 代表重大负面新闻,-0.5,-0.04)代表一般负面新闻,L-0.04,1代表正面新闻。同理,所述预定的机器学习算法(如随机森林算法)获取的情感分数范围[-1,1也可以分成上述四档的子区间。 [0060]具休而言,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数包括如下步骤: [0061]遍历该待预测新闻的标题和正文: [0062]若从该待预测新闻的标题和忙文中识别出所述第一文件中的事件关键词,则将该识别出的事件关键词在所述第一文件中对应的情感分数作为该待预测新闻的最终评分,并将该识别出的事件关键词对应的事件标签作为该待预测新闻的主要经耆事件 [0063]若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分 [0064]优选地,在其它实施例中,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤: [0065]若从该待预测新闻的标题和正文中识别出所述第一文件中的事件关键词,且该识别出的事件关键词在所述第一文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内(即同一分档对应的子区间内,如[-0.04,1]),则以该识別出的事件关键词在所述第一文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分 [0066]具体而言,所述加权计算包括:将该识别出的事件关键词在所述第·文件中对应的情感分数乘以第一预设比例(如60%),将所述预定的机器学习算法获取的情感分数乘以第二预设比例(如40%),然后将两者的乘积相加得到一个加权分数作为该待预测新闻的最终评分。其中,所述第一预设比例人于第二预设比例,且所述第一预设比例与第二预设比例之和为1。 [0067]举例而言,若该识别出的事件关键词在所述第一文件中对应的情感分数为0.2(位于分档子区间[0.04,1]),而所述预定的机器学习算法获取的情感分数为-0.2(位于分档子区间[-0.5,-0.04)),两者显然不在同分档内,则本发明以0.2评分为主要权重去调整 CN107688651A 说明书 7/12页评分。 [0068]优选地,在其亡实施例中,所述调整模块202还用于: [006σ]根据预设的事件标签-事件正则表达式规则,调整所述预定的机器学习算法获取的该待预测新闻的情感分数。其中,所述事件标签一事件正则表达式规则可以设置为第二文件(如第二动态词典),即将所述事件标签-事件正则表达式规则的具体内容川文件的形式 (本实施例为第二文件)进行记录。在本实施例中,该第二文件可以包括如下内容:事件标签 (用于区分事件的类别,如业绩预増等)、事件正则表达式(根捃不同业务经验和相关逻辑进行设定,如下文件B所示)、及每个事件正则表达式对应的情感分数(评分)。 [0070]举例而言,所述第二文件可以设置为如下文件B的格式: [0071] 事件标签事件正则表达式评分 (?:预告顶报预计预公告){0,10}(?业绩净利利业绩预增 04 润)⑨,10}(增嗝翻倍增长翻倍|上升大增倍增) [0072]在上述文件B中,若从新闻标题中识别出与第一行事件正则表达式符合的内容,则该篇新闻的主要经营事件为对应的事廾标签(如“业绩预增”),该篇新闻的情感分数为0.4 [0073]优选地,可以将事件正则表达式对应的评分范围设置为L-1,1。进一步地,可以将该评分范围继续分成若干档的子区间,例如,分成如下四档的子区问:[-1,-0.75), 0.75,0.5),[-0.5,0.04),[_0.04,1,其中,子区间[-1,0.75)和[_0.75,-0.5)代表重大负面新闻,[-0.5,-0.04)代表一般负面新闻,[-0.04,1代表正面新闻。 [0074]进一步地,此种情形下,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤 [0075]若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,则将该事件正则表达式在所述第二文件中对应的情感分数作为该待预测新闻的最终评分,并将该事件正则表达式对应的事件标签作为该待预测新闻的主要经营事件 [0076]进一步地,此种情形下,所述调整所述预定的机器学习算法获取的该待预测新闻的情感分数还包括如下步骤: [007若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且没有识别出与所述第二文件中的事件止则表达式符合的内容,则将所述预定的机器学习算法获取的该待预测新闻的情感分数作为该待预测新闻的最终评分。 [0078]进一步地,此种情形下,所述调整所述预定的机器学刁算法获取的该待预测新闻的情感分数还包括如下步骤: [0079]若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则表达式符合的内容,且该事件正则表达式在所述第二文件中对应的情感分数与所述预定的机器学习算法获取的情感分数不在同一分档内(即同一分档对应的子区间内,如_0.04,1]),则以该事件止则表达式在所述第二文件中对应的情感分数为主要权重,与所述预定的机器学习算法获取的情感分数进行加权计算,得到一个加权分数作为该待预测新闻的最终评分。 10

(系统自动生成,下载前可以参看下载内容)