摘要:最常见的词嵌入方法是从大规模文本的上下文信息中学习词向量表示。 但是,中文单词通常由字符,子字符和笔画组成,并且每个部分都包含丰富的语义信息。 中文单词向量的质量与预测的准确性有关。 因此,为了获得高质量的汉字嵌入,我们提出了一种持续增强的词嵌入模型。 该模型从细粒度笔划和相邻笔划信息开始,并通过组合笔划之间的关系矢量表示来增强子字符嵌入。 同样,我们结合子字符关系向量和字符关系向量来学习基于增强子字符嵌入的汉字嵌入。 我们构造了基础笔画n-gram和相邻笔画n-gram,并提取了用于增强