我在试用StructBERT文本相似度-中文-通用-base这个模型,感觉效果还不错。我在1台8c32G(无gpu)的机器上搭建了一个docker的model scope环境(cpu版本),并对接http服务。完成一次相似度匹配的时间大概在800ms,cpu会占用到130%~150%。我想请问如果我想提升响应时间,比如缩短到400ms以内,应该使用什么配置的机器比较合适。1qps大概需要什么样的配置,谢谢!
有一些建议您可以参考: 1. 缩短sequence_length 2. 减小batchsize(如果是batch推理的话) 机器配置需要您自行测试一下,我们这里也并没有缩短到400ms以内的可靠数据