数据库中的快速语义重复检测技术今天，数据库中的语义重复项代表着一项重要的数据质量挑战，这会导致错误的

文件名称: 数据库中的快速语义重复检测技术

所属分类: 其它

开发工具:

文件大小: 472kb

下载次数: 0

上传时间: 2020-06-04

提供者: weixin_********

下载 (472kb)

不能下载？报告错误

详细说明：今天，数据库中的语义重复项代表着一项重要的数据质量挑战，这会导致错误的决策。在大型数据库中，有时我们发现自己有成千上万的重复项，因此需要进行自动重复数据删除。为此，有必要使用一种相当可靠的方法来检测重复项，以找到尽可能多的重复项，并且其功能足以在合理的时间内运行。本文提出并比较了基于真实数据的有效重复检测方法，该方法可基于名称（使用法语文本或英语文本以及非洲或西方国家或地区的人名）自动对文件进行重复数据删除。在对语义重复项进行比常规分类更完全的分类后，我们介绍了几种检测平均重复性小于O（2n）的重复项的方法。通过一个简单的模型，我们将准确率和召回率结合在一起，突出显示了整体疗效。我们提出了记录之间的新度量距离，以及自动重复检测的规则。在包含中非主管部门实际数据的数据库以及包含美国餐馆名称的已知标准数据库上进行的分析显示出比已知方法更好的结果，且复杂度较低。

(系统自动生成,下载前可以参看下载内容)