|
|
|
基于Simhash的压缩文档相似性检索研究
摘要:随着云文档存储服务平台的快速发展和普及,大量文档存储在云平台上,为用户提供便利的服务。为了节约存储空间,降低传输开销,这些文档在云平台上以压缩形式存储。然而,这样的存储方式为文件的检索服务带来了困难,为了检索这些文档,需要对文档进行解压缩后才能根据其关键字构建索引,耗费了大量的时间并恶化服务体验。因此,本文提出了一种基于压缩文档SIMHASH的快速相似性文档检索框架,通过特征向量降维降低了相似度的计算复杂度,基于文档的检索减少了对于关键字选取的依赖,以达到无需对文档进行全部解压缩即可对其进行快速索引的目的。经过试验验证,本框架相对于直接解压缩然后构建索引的方法,时间开销减少了将近44.26%,检索效率大大提升。
关键词:simhash,压缩算法,相似性检索,云平台
|