该数据集是用于命名实体识别训练模型的数据集,该数据集中包含6中标签,分别是人名、地名、时间、组织机构名、公司名、产品名。遵循BIO编码。里面有三个文件,分别是训练集,测试集,验证集。样例如下:
以 O
及 O
以 O
康 B-COMPANY_NAME
宽 I-COMPANY_NAME
为 O
代 O
表 O
的 O
国 O
外 O
专 O
利 O
产 O
品 O
低 O
毒 O
杀 O
虫 O
剂 O
吡 B-PRODUCT_NAME
虫 I-PRODUCT_NAME
啉 I-PRODUCT_N
中文命名实体识别
数据集
本项目尝试使用了多种不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM + CRF)来解决中文命名实体识别问题,数据集用的是论文ACL 2018 中收集的简历数据,数据的格式如下,它的每个行由一个字及其对应的标注组成,标注集采用BIOES,句子之间用一个空行替换。
美 B-LOC
国 E-LOC
的 O
华 B-PER
莱 I-PER
士 E-PER
我 O
跟 O
他 O
谈 O
笑 O
风 O
生 O
该数据集就位于项目目录下的ResumeNER文件夹里