多语言翻译数据
要求
python3.7已安装
pip install pandas numpy tqdm
用法
在这里,我们将演示如何处理数据集的数据。首先,我们在一个玩具示例中执行此操作,然后在完整数据集上执行操作。
玩具实例
该程序的目标是采用两个纯文本文件的形式来获取语言对-对中的每种语言都使用一个文本对-并输出包含完整的估算数据集的csd文件。我在下面描述每个术语的意思。
语言对是两个文本文件,它们是彼此的逐行翻译。通常,文件的格式必须为.-.。例如,对于EUbookshop数据集的“