盾
一个以文本类算法为基础,结合场景的风险防控系统。
简介
风险控制系统有很多应用场景,某些反垃圾邮件,新闻风控,广告反作弊等等,此处引入从文本角度入手,介绍一些风控系统的常用方法
文本预先
将文本分割为首要
分词
标准化
去掉标点符号,可以使用正则表达式,全角转半角等
长度过小的词,某些单字
全部转换为小写字母
去掉终止词
简单的名词替换
词性标注
分词的同时可以进行词性标注的工作,某些场景下可能只需要保留动词或者名词,形容词可能就没那么重要。
可以使用一些现有的语法表进行替换,后续可以使用W