文字准备
Textprep是并行和非并行语料库及其下游自然语言处理和机器翻译任务的分析工具。它是专门为中文和日语等逻辑语言设计的,可以帮助您执行以下操作:
将字符分解为表意文字和笔触。 (感谢项目和项目)
绘制离线plot.ly图,显示两种语言之间的共享类型和令牌之间的关系。
将翻译语料库采样到给定的令牌共享率。
要求
numpy==1.16.0
tqdm==4.29.1
plotly==3.5.0
用法
python textprep.py {decomp,draw,sample} ...
详