百度的何中军在《神经网络机器翻译技术及应用》中提到的5篇论文 五篇论文分别是: 1.第一个挑战就是漏译,我们今年有一篇论文从数据方面去分析。我们发现漏译与词语的熵成正相关关系,这个词的熵越大,漏译的可能性越大。它所对应的目标语言词越多,概率越分散(熵越大),越有可能被漏译。 Addressing the Under-translation Problem from the Entropy Perspective To appear in AAAI-2019 2.第二个挑战就是数据稀疏。 多语言
"哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha
基本功能:
精确模式,将句子切成最合理的词。
全模式,所有的可能词都被切成词,不消除歧义。
搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。
备选路径,可生成最好的多条切词路径,可在此