标准通用标记语言下的一个应用HTML标准自1999年12月发布的HTML4.01后,后继的HTML5和其它标准被束之高阁,为了推动Web标准化运动的发展,一些公司联合起来,成立了一个叫做 Web Hypertext Application Technology Working Group (Web超文本应用技术工作组 -WHATWG) 的组织。
提出一种基于页面敏感特征的金融类钓鱼网页检测方法,通过获取网页超文本标记语言特定标签中的文本信息,利用适合中文的多模式匹配算法(AC_SC, AC suitable for Chinese)匹配出敏感文本条数,计算出敏感文本特征值;定位截取网页的logo图像,采用PCA-SIFT算法提取图像特征,并与预先建立的网页logo图像库进行匹配,计算出logo图像相似度;基于文本特征值和图像相似度实现对金融类钓鱼网页的判定。实验结果表明,该方法具有很强的针对性和时效性,并能取得不低于97%的召回率。