Deep Web蕴藏着海量信息,现有的搜索引擎很难挖掘到其中的内容。如何充分地获取Deep Web中有价值的信息成为一个难题。提出了基于语义相似度计算的Deep Web数据查询方法,该方法通过语义相似度计算作为中间件,计算出关键词和数据库属性词典对应列的相似度,从而将关键词的搜索范围限制在一个(或多个)相关领域,最后生成相应的SQL查询语句。试验证明,该方法能够有效地提高基于Deep Web的数据查询效率。
PIDRILA-码头工人
面向Python交互式Deepweb的快速智能链接分析器的Docker映像
概述
PIDRILA:P ython我nteractive d eepweb为本[R APID我ntelligent大号墨nalyzer实在是快异步通过BrightSearch团队为所有的道德netstalkers开发的网络路径扫描仪的原型。
PIDRILA-Docker是根据MIT许可证发布的PIDRILA的Docker文件,请注意,根据GNU通用公共许可证版本2发布的PIDRILA its
针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web 新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web 数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源。在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响。该策略提高了新数据爬取的效率,实验结果表明,在