二进制码的数据如何搜索-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

二进制码的数据如何搜索

2016-02-12 13:26:32 2158 1

数据格式如下
"10101010001001101100100011000100100100001011100001000010010101000101010101000101".....共计256位
就是除了1就是0的唯一标示符256位的跟64位的还有1024位的
这种标示符
目前我已经有256位的跟64位的了,目前数据我已经生成了800w条,陆续生成中

字符串1="10101101001010010111010101100001011101000101010010001000111001101010010101"...
字符串2="10101001001011010111010101000001011101000101110010001001111001101010010101"....
求这两个字符串的相似度 顺序比较 以下为相似度 计算
3333
得到相似度
搜索要求为
从数据库中读取出跟 "字符串s" 相似度>0.9的,目前数据采用mysql储存,属于个人瞎胡闹搞得东西,不会采用商业数据库储存买不起,可以采用nosql储存,memcache储存,主要程序语言PHP,javascript算是预处理,我就会这两种!

取消 提交回答
全部回答(1)
  • 蛮大人123
    2019-07-17 18:41:17

    第一个,是你逐位判断的代码里面,只要$count大于$len的10%就不用循环下去了,相似度必然小于0.9。
    第二个,既然数据是自己生成的,那可以在生成时一并储存拆分值的十六进制数。
    举个例子,比如1024位的字符串,每16位为一个单位,共拆分为64个单位,每个单位的16位二进制数转换成4位16进制数,和这个1024位的字符串一并储存起来。
    每次比较时,先逐个比较这64个单位的数值是否相同,如果有58个相同,那相似度就有0.9以上。
    如果只有57个相同呢?剩下不同的7个4位16进制数,一共有4*7=28位十六进制数字,然后进行逐个比较。
    有a个相同,则1024位转化成256位的十六进制数的数字上的相似度等于((574)+a) / (644) ,他要大于0.9。也就是说,在逐个比较时,a大于等于0.9644 - 57*4 就不用判断了,相似度大于0.9。
    如果只有a-1个相同呢?把不同的28-(a-1)位转化为2进制,按上面的方法,逐个比较。
    有b个一样,相似度为((5716)+(a-1)4+b) / 1024,他要大于0.9,即b大于等于0.91024 - 5716 - (a-1)*4时,相似度大于0.9。
    把上面的57和a-1换成任意的x y就是实际情况了。虽然计算量还是很大,不过相比逐个比较小了很多了。
    另外,计算出每两个16位二进制数的单位的相似度的时候可以缓存起来,留给256位和64位比较时用。

    0 0
相关问答

1

回答

数据仓库系统的数据质量应该如何去保证呢?

2021-12-12 20:23:47 399浏览量 回答数 1

1

回答

如何显示所有的数据库呢?

2021-10-22 18:47:54 296浏览量 回答数 1

0

回答

函数计算FC 如何返回二进制数据呢

2021-10-14 15:16:12 226浏览量 回答数 0

1

回答

如何在日志数据中搜索IP地址?

2020-03-26 23:13:57 253浏览量 回答数 1

1

回答

如何将备份的数据恢复到新建的数据库中

2018-05-07 16:12:36 775浏览量 回答数 1

0

回答

如何检索数据

2017-10-24 17:23:03 1998浏览量 回答数 0

1

回答

BI中新建的数据源

2016-12-20 09:02:56 1551浏览量 回答数 1

1

回答

网站的站内搜索如何实现?

2016-02-27 15:57:30 2391浏览量 回答数 1

1

回答

一千万数据非实时搜索但要求快速开发怎么做

2016-02-11 16:37:19 1968浏览量 回答数 1

12

回答

两台服务器搭建负载均衡,如何实现数据同步

2012-11-10 13:40:37 10846浏览量 回答数 12
+关注
蛮大人123
我说我不帅他们就打我,还说我虚伪
文章
问答
问答排行榜
最热
最新
相关电子书
更多
《开放搜索查询分析服务架构分享》
立即下载
基于 Elasticsearch 电商搜索
立即下载
《开放搜索统一召回引擎实践》
立即下载