Smart Similarity Search Based on Simhash over Compressed Data in Cloud Computing

张斌  邹学强  刘庆云  张鹏  杨嵘 



基于Simhash的压缩文档相似性检索研究

摘要:随着云文档存储服务平台的快速发展和普及,大量文档存储在云平台上,为用户提供便利的服务。为了节约存储空间,降低传输开销,这些文档在云平台上以压缩形式存储。然而,这样的存储方式为文件的检索服务带来了困难,为了检索这些文档,需要对文档进行解压缩后才能根据其关键字构建索引,耗费了大量的时间并恶化服务体验。因此,本文提出了一种基于压缩文档SIMHASH的快速相似性文档检索框架,通过特征向量降维降低了相似度的计算复杂度,基于文档的检索减少了对于关键字选取的依赖,以达到无需对文档进行全部解压缩即可对其进行快速索引的目的。经过试验验证,本框架相对于直接解压缩然后构建索引的方法,时间开销减少了将近44.26%,检索效率大大提升。

关键词:simhash,压缩算法,相似性检索,云平台





首页
团队介绍
发展历史
组织结构
MESA大事记
新闻中心
通知
组内动态
科研成果
专利
论文
项目
获奖
软著
人才培养
MESA毕业生
MESA在读生
MESA员工
招贤纳士
走进MESA
学长分享
招聘通知
招生宣传
知识库
文章
地址:北京市朝阳区华严北里甲22号楼五层 | 邮编:100029
邮箱:nelist@iie.ac.cn
京ICP备15019404号-1