文档备案控制台

开发者社区问答正文

PhpSDK的搜索如何操作？（16）

添加distinct排序信息

例如：检索关键词“手机”共获得10个结果，分别为：doc1，doc2，doc3，doc4，doc5，doc6， doc7，doc8，doc9，doc10。其中前三个属于用户A，doc4-doc6属于用户B，剩余四个属于用户C。
如果前端每页仅展示5个商品，则用户C将没有展示的机会。但是如果按照user_id进行抽取，每轮抽
取1个，抽取2次，并保留抽取剩余的结果，则可以获得以下文档排列顺序：doc1、doc4、doc7、
doc2、doc5、doc8、doc3、doc6、doc9、doc10。可以看出，通过distinct排序，各个用户的
商品都得到了展示机会，结果排序更趋于合理。
更多说明请参见 API distinct子句

请求参数

参数名称	类型	描述
key	string	为用户用于做distinct抽取的字段，该字段要求建立Attribute索引。
distCount	int	为一次抽取的document数量，默认值为1。
distTimes	int	为抽取的次数，默认值为1。
reserved	string	为是否保留抽取之后剩余的结果，true为保留，false则丢弃，丢弃时totalHits的个数会减去被distinct而丢弃的个数，但这个结果不一定准确，默认为true。
distFilter	string	为过滤条件，被过滤的doc不参与distinct，只在后面的排序中，这些被过滤的doc将和被distinct出来的第一组doc一起参与排序。默认是全部参与distinct。
updateTotalHit	string	当reserved为false时，设置update_total_hit为true，则最终total_hit会减去被distinct丢弃的的数目（不一定准确），为false则不减；默认为false。
maxItemCount	int	设置计算distinct时最多保留的doc数目。
grade	number	指定档位划分阈值。

函数定义

function addDistinct($key, $distCount = 0, $distTimes = 0,$reserved = '', $distFilter = '', $updateTotalHit = '',$maxItemCount = 0, $grade = '')

使用示例

//每次抽取3条文档，抽取4次，丢掉抽取之后的结果，并且更新搜索结果中总文档的个数$search_obj->addDistinct($key, 3, 4, 'false', '', 'true');

展开

收起

轩墨 2017-10-25 13:33:03 1734 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在阿里云的OpenSearch服务中，为了实现如您所描述的更合理的搜索结果排序，确保不同用户的商品都能获得展示机会，可以利用distinct子句来优化检索逻辑。您的示例代码片段展示了如何在搜索请求中添加distinct功能，以实现分批次、按用户或其他指定字段进行去重抽取，进而平衡不同来源数据的展示机会。

解释参数含义：

key: 这是用于执行distinct操作的字段名，比如用户ID(user_id)，要求此字段已建立Attribute索引。
distCount: 指定每次抽取的文档数量。例如，设置为3意味着每轮抽取3个不同的结果。
distTimes: 抽取的轮次。如果设为4，则会按照规则抽取4轮。
reserved: 是否保留经过distinct处理后剩余的结果。设为false表示丢弃未被抽取到的结果，设为true则保留。
distFilter: 用于过滤的条件，被过滤的文档不参与distinct过程，但会在最终排序时与第一组distinct出的文档一起排序。
updateTotalHit: 当reserved为false且此参数为true时，会更新返回的总命中数（totalHits），减去因distinct而丢弃的文档数。
maxItemCount: 在计算distinct时最多考虑的文档数目，有助于控制内存使用。
grade: 指定档位划分阈值，用于更复杂的排序或分组需求。

使用示例解析：

$search_obj->addDistinct($key, 3, 4, 'false', '', 'true');

这段代码的意思是：针对某个查询（比如关键词“手机”），从搜索结果中，按照$key字段（假设为user_id）进行去重抽取。每次抽取3个不同的文档（distCount=3），总共抽取4轮（distTimes=4）。抽取过程中，不保留剩余未被抽取到的文档（reserved='false'），并且会更新总的搜索结果计数，减去因distinct操作而排除的文档数量（updateTotalHit='true'）。

这样的策略能够有效提升搜索结果的多样性和公平性，特别是在需要平衡多个卖家或来源展示机会的场景下非常有用。通过精细调整这些参数，可以根据实际业务需求定制化搜索结果排序逻辑。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

前端开发 API 索引

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

84949

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

4312

2

0

【阿里云运维部署工具AppDeploy详细教程】之4：应用部署

39437

6

0

重启Docker后报错：Error response from daemon

2718

0

0

阿里云服务器续费后一直处于启动中状态，服务器打不开了怎么解决？？？

36077

6

0

this xml file does not appear to have any style in

52522

10

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

61412

32

0

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

128823

14

0

如何加速中国访问美国云的服务器访问速度

31636

8

0

OSS的endpoint如何查看

37815

6

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

通义灵码提示格式问题

API inference endpoint都变成待机态了

notebook启动安全验证一直失败

阿里云百炼和通义大模型有什么区别？

MacBook端Clion编辑器的通义灵码代码自动补全功能失效

相关文章

淘宝数据API：竞争对手分析，战略调整！

深度拆解：从 RAG 检索逻辑看 GEO 优化——如何通过技术手段影响 LLM 召回权重？

阿里云服务器最新租用价格：2核4G、2核8G、4核8G、4核16G不同实例与带宽活动价格参考

Playwright 测试覆盖率详解：收集与报告代码覆盖率的方法

还有其他疑问?