自建 DeepSeek 时代已来,联网搜索如何高效实现

简介: 随着 DeepSeek 等高质量开源大模型的涌现,企业自建智能问答系统的成本已降低 90% 以上。基于 7B/13B 参数量的模型在常规 GPU 服务器上即可获得商业级响应效果,配合 Higress 开源 AI 网关的增强能力,开发者可快速构建具备实时联网搜索能力的智能问答系统。

作者:张添翼(澄潭)


01 开源 LLM 的新纪元:DeepSeek 带来的技术平权


随着 DeepSeek 等高质量开源大模型的涌现,企业自建智能问答系统的成本已降低 90% 以上。基于 7B/13B 参数量的模型在常规 GPU 服务器上即可获得商业级响应效果,配合 Higress 开源 AI 网关的增强能力,开发者可快速构建具备实时联网搜索能力的智能问答系统。

02

02 Higress:零代码增强 LLM 的瑞士军刀


Higress 作为云原生 API 网关,通过 wasm 插件提供开箱即用的 AI 增强能力:

image.png

主要能力矩阵:

  • 联网搜索:实时接入互联网最新信息
  • 智能路由:多模型负载均衡与自动兜底
  • 安全防护:敏感词过滤与注入攻击防御
  • 效能优化:请求缓存+token 配额管理
  • 可观测性:全链路监控与审计日志


03 联网搜索的技术实现与场景价值


Higress AI 搜索增强插件代码已经开源,可以点击此处查看插件文档和代码。


核心架构解析

image.png

关键技术特性

1. 多引擎智能分流

  • 公共搜索(Google/Bing/Quark)获取实时资讯
  • 学术搜索(Arxiv)对接科研场景
  • 私有搜索(Elasticsearch)连接企业/个人知识库

2. 搜索增强核心思路

  • LLM 重写 Query:基于 LLM 识别用户意图,生成搜索命令,可以大幅提升搜索增强效果
  • 关键词提炼:针对不同的引擎,需要生成不同的提示词,例如 Arxiv 里英文论文居多,关键词需要用英文
  • 领域识别:仍以 Arxiv 举例,Arxiv 划分了计算机科学/物理学/数学/生物学等等不同学科下的细分领域,指定领域进行搜索,可以提升搜索准确度
  • 长查询拆分:长查询可以拆分为多个短查询,提高搜索效率
  • 高质量数据:Google/Bing/Arxiv 搜索都只能输出文章摘要,而基于阿里云信息检索对接 Quark 搜索,可以获取全文,可以提高 LLM 生成内容的质量


典型应用场景效果展示

金融资讯问答

image.png

前沿技术探索

image.png

image.png

医疗问题解答

image.png

image.png


04 从开源到落地:三步构建智能问答系统


1. 基础部署


# 一行命令安装并启动Higress网关
curl -sS  https://higress.cn/ai-gateway/install.sh | bash

# 用vllm部署DeepSeek-R1-Distill-Qwen-7B示意
python3 -m vllm.entrypoints.openai.api_server --model=deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --dtype=half --tensor-parallel-size=4 --enforce-eager


2. 插件配置

可以通过 http://127.0.0.1:8001 访问 higress 控制台,给 ai-search 插件做如下配置。


plugins:
searchFrom:
- type: quark
  apiKey: "your-aliyun-ak"
  keySecret: "your-aliyun-sk"
  serviceName: "aliyun-svc.dns"
  servicePort: 443
- type: google
  apiKey: "your-google-api-key"
  cx: "search-engine-id"
  serviceName: "google-svc.dns"
  servicePort: 443
- type: bing
  apiKey: "bing-key"
  serviceName: "bing-svc.dns"
  servicePort: 443
- type: arxiv
  serviceName: "arxiv-svc.dns" 
  servicePort: 443
searchRewrite:
  llmServiceName: "llm-svc.dns"
  llmServicePort: 443
  llmApiKey: "your-llm-api-key"
  llmUrl: "https://api.example.com/v1/chat/completions"
  llmModelName: "deepseek-chat"
  timeoutMillisecond: 15000


3. 对接 SDK 或前端

使用这个 OpenAI 协议 BaseUrl:http://127.0.0.1:8080/v1,就可以使用 ChatBox/LobeChat 等支持 OpenAI 协议的对话工具进行对话。


也可以直接使用 OpenAI 的 SDK 对接,如下所示:


import json
from openai import OpenAI

client = OpenAI(
    api_key="none",
    base_url="http://localhost:8080/v1",
)

completion = client.chat.completions.create(
    model="deepseek-r1",
    messages=[
        {"role": "user", "content": "分析一下国际金价走势"}
    ],
    stream=False
)

print(completion.choices[0].message.content)


通过 Higress+DeepSeek 的开源组合,企业可在 24 小时内完成从零到生产级的智能问答系统部署,使 LLM 真正成为业务增长的智能引擎。

相关文章
|
监控 Linux C++
【实战指南】4步实现C++插件化编程,轻松实现功能定制与扩展(2)
本文是《4步实现C++插件化编程》的延伸,重点介绍了新增的插件“热拔插”功能。通过`inotify`接口监控指定路径下的文件变动,结合`epoll`实现非阻塞监听,动态加载或卸载插件。核心设计包括`SprDirWatch`工具类封装`inotify`,以及`PluginManager`管理插件生命周期。验证部分展示了插件加载与卸载的日志及模块状态,确保功能稳定可靠。优化过程中解决了动态链接库句柄泄露问题,强调了采纳用户建议的重要性。
523 103
【实战指南】4步实现C++插件化编程,轻松实现功能定制与扩展(2)
|
存储 人工智能 开发框架
Spring AI Alibaba 应用框架挑战赛圆满落幕,恭喜获奖选手
第二届开放原子大赛 Spring AI Alibaba 应用框架挑战赛决赛于 2 月 23 日在北京圆满落幕。
503 90
|
存储 安全 Linux
【实战指南】7个设置/获取接口了解Linux时间管理
本文系统介绍了Linux时间管理中的7个关键设置/获取接口,涵盖时间获取(如`time`、`gettimeofday`、`clock_gettime`)、时间设置(如`stime`、`settimeofday`、`clock_settime`)以及时间转换和格式化等内容。文章详细解析了绝对时间和相对时间的概念,包括GMT、UTC及本地时间的区别,并通过实例测试展示了各接口的使用方法与特性。此外,还探讨了时区设置对时间计算的影响,强调在实际开发中推荐使用UTC作为基准时间以避免时区变化带来的问题。总结部分结合项目经验,提醒开发者注意时间服务的重要性及潜在风险,例如时间跳跃可能引发的应用故障。
895 120
【实战指南】7个设置/获取接口了解Linux时间管理
|
运维 Kubernetes 监控
Log/Trace/Metric 完成 APIServer 可观测覆盖
12 月 11 日,OpenAI 出现了全球范围的故障,影响了 ChatGPT/API/Sora/Playground/Labs 等服务,持续时间超过四个小时。究其背后原因,主要是新部署的服务产生大量的对 K8s APIServer 的请求,导致 APIServer 负载升高,最终导致 DNS 解析不能工作,影响了数据面业务的功能。面对 APIServer 这类公用基础组件,如何通过 Log/Trace/Metric 完成一套立体的覆盖体系,快速预警、定位根因,降低不可用时间变得非常重要。
507 96
Log/Trace/Metric 完成 APIServer 可观测覆盖
|
11月前
|
人工智能 供应链 安全
MCP Server的五种主流架构与Nacos的选择
本文深入探讨了Model Context Protocol (MCP) 在企业级环境中的部署与管理挑战,详细解析了五种主流MCP架构模式(直连远程、代理连接远程、直连本地、本地代理连接本地、混合模式)的优缺点及适用场景,并结合Nacos服务治理框架,提供了实用的企业级MCP部署指南。通过Nacos MCP Router,实现MCP服务的统一管理和智能路由,助力金融、互联网、制造等行业根据数据安全、性能需求和扩展性要求选择合适架构。文章还展望了MCP在企业落地的关键方向,包括中心化注册、软件供应链控制和安全访问等完整解决方案。
4092 167
MCP Server的五种主流架构与Nacos的选择
|
网络协议 Unix Linux
# 2个类轻松构建高效Socket通信库
本文介绍了一种通过两个类`EpollEventHandler`和`IEpollEvent`构建高效Socket通信库的方法。该库支持TCP、UDP和Unix域套接字,采用I/O多路复用技术(如epoll),提升并发处理能力。通过抽象基类和具体事件类的设计,简化了API使用,便于开发者快速上手。文章还提供了服务端与客户端的实例代码,展示其在实际项目中的应用效果。此Socket库适应嵌入式环境,功能定制性强,有助于减少外部依赖并提升维护效率。
361 95
# 2个类轻松构建高效Socket通信库
|
人工智能 程序员 C++
【实战经验】C/C++右移高位补0还是1?
本文探讨了C/C++中右移运算时高位补0还是补1的问题。通过示例代码分析,揭示了右移规则:无符号类型高位补0;有符号类型根据正负决定(正数补0,负数补1)。文中列举了可能导致错误的场景,并提供了两种规避措施——使用无符号类型和掩码校正,确保结果符合预期。最后总结指出,右移运算虽常见,但若处理不当易引发隐晦Bug,需谨慎对待。
730 90
|
11月前
|
人工智能 安全 应用服务中间件
阿里巴巴 MCP 分布式落地实践:快速转换 HSF 到 MCP server
本文分享了阿里巴巴内部将大规模HSF服务快速转换为MCP Server的实践经验,通过Higress网关实现MCP协议卸载,无需修改代码即可接入MCP生态。文章分析了MCP生态面临的挑战,如协议快速迭代和SDK不稳定性,并详细介绍了操作步骤及组件功能。强调MCP虽非终极解决方案,但作为AI业务工程化的起点具有重要意义。最后总结指出,MCP只是AI原生应用发展的第一步,未来还有更多可能性值得探索。
1557 49
|
人工智能
热门活动速递丨AI 原生应用开发实战营·杭州站
了解 AI 原生应用开发的前沿趋势和核心产品技术,全面 get 典型应用场景及硬核实战经验,快速上手一键部署 DeepSeek 系列模型,现场完成实操,颁发专属证书与精美礼品。
386 84
|
消息中间件 存储 数据采集
4步实现状态机驱动的MQTT客户端,快速接入OneNet (1)
本文介绍了基于状态机驱动的MQTT客户端快速接入OneNet平台的实现方法,通过4步完成模块设计。文章以开源项目`Sparrow`为基础,引入`OneNetMqtt`业务模块,采用事件驱动模型和双层状态机设计,实现设备状态管理、消息处理及定时任务等功能。模块分为三层:`OneNetManager`负责核心逻辑,`OneNetDevice`管理设备信息,`OneNetDriver`处理Socket与MQTT通信。验证结果显示设备连接、数据上报及下线功能正常,稳定性良好。该设计简化了复杂条件判断,增强了系统灵活性与可扩展性,适用于实际项目参考。文末提供源码获取方式,助力读者实践与学习。
736 121

热门文章

最新文章