postgresql RUM计算相似度问题-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

postgresql RUM计算相似度问题

2017-02-22 17:59:59 3233 1

数据库存储为tsvector字段类型,
insert into rum_test(content) values(to_tsvector('simple', '11320272,11254479,11122893,11122893,11188686'));
插入结果:
'11122893':3,4 '11188686':5 '11254479':2 '11320272':1

现在,我用相同的数据去查询,并按相似度排序,结果是这样?不是100%?
select id, content <=> to_tsquery('11320272,11254479,11122893,11122893,11188686') as rank from rum_test
结果:
{"id":10,"rank":3.28987}

取消 提交回答
全部回答(1)
  • 德哥
    2019-07-17 20:49:46

    HI,tsvector,tsquery 的相似度计算用到的这个函数。

    Datum
    rum_ts_distance_tt(PG_FUNCTION_ARGS)
    {
        TSVector    txt = PG_GETARG_TSVECTOR(0);
        TSQuery        query = PG_GETARG_TSQUERY(1);
        float4        res;
    
        res = calc_score(weights, txt, query, DEF_NORM_METHOD);
    
        PG_FREE_IF_COPY(txt, 0);
        PG_FREE_IF_COPY(query, 1);
        if (res == 0)
            PG_RETURN_FLOAT4(get_float4_infinity());
        else
            PG_RETURN_FLOAT4(1.0 / res);
    }
    
    static float4
    calc_score(float4 *arrdata, TSVector txt, TSQuery query, int method)
    {
        DocRepresentation *doc;
        uint32        len,
                    doclen = 0;
        double        Wdoc = 0.0;
        QueryRepresentation qr;
    
        qr.query = query;
        qr.map_item_operand = NULL;
        qr.operandexist = (bool *) palloc0(sizeof(bool) * query->size);
        qr.lenght = query->size;
    
        doc = get_docrep(txt, &qr, &doclen);
        if (!doc)
        {
            pfree(qr.operandexist);
            return 0.0;
        }
    
        Wdoc = calc_score_docr(arrdata, doc, doclen, &qr, method);
    
        if ((method & RANK_NORM_LOGLENGTH) && txt->size > 0)
            Wdoc /= log((double) (count_length(txt) + 1));
    
        if (method & RANK_NORM_LENGTH)
        {
            len = count_length(txt);
            if (len > 0)
                Wdoc /= (double) len;
        }
    
        if ((method & RANK_NORM_UNIQ) && txt->size > 0)
            Wdoc /= (double) (txt->size);
    
        if ((method & RANK_NORM_LOGUNIQ) && txt->size > 0)
            Wdoc /= log((double) (txt->size + 1)) / log(2.0);
    
        pfree(doc);
        pfree(qr.operandexist);
    
        return (float4) Wdoc;
    }
    0 0
相关问答

18

回答

【大咖问答】对话PostgreSQL 中国社区发起人之一,阿里云数据库高级专家 德哥

阿里ACE 彭飞 2019-07-10 09:36:10 1040969浏览量 回答数 18

145

回答

【新手入门】云服务器linux使用手册

fanyue88888 2012-11-26 17:14:18 157710浏览量 回答数 145

8

回答

OceanBase 使用动画(持续更新)

mq4096 2019-02-20 17:16:36 337029浏览量 回答数 8

110

回答

OSS存储服务-客户端工具

newegg11 2012-05-17 15:37:18 295580浏览量 回答数 110

22

回答

爬虫数据管理【问答合集】

我是管理员 2018-08-10 16:37:41 147252浏览量 回答数 22

2

回答

mySQL数据库报错You have an error in your SQL syntax

落地花开啦 2016-02-14 16:09:24 128953浏览量 回答数 2

38

回答

安全组详解,新手必看教程

我的中国 2017-11-30 15:23:46 259853浏览量 回答数 38

21

回答

请教一下数据量有100万条左右要什么配置?

易网网络 2013-03-27 15:18:02 192647浏览量 回答数 21

249

回答

阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本

云代维 2014-02-14 15:26:06 305648浏览量 回答数 249

2

回答

区域选择帮助

fanyue88888 2012-12-07 15:54:30 204400浏览量 回答数 2
+关注
0
文章
1
问答
问答排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载