中文命名实体识别
数据集
本项目尝试使用了多种不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM + CRF)来解决中文命名实体识别问题,数据集用的是论文ACL 2018 中收集的简历数据,数据的格式如下,它的每个行由一个字及其对应的标注组成,标注集采用BIOES,句子之间用一个空行替换。
美 B-LOC
国 E-LOC
的 O
华 B-PER
莱 I-PER
士 E-PER
我 O
跟 O
他 O
谈 O
笑 O
风 O
生 O
该数据集就位于项目目录下的ResumeNER文件夹里