客户说|宝宝树选用AnalyticDB RAG引擎,共创智能母婴生活新范式

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 宝宝树与阿里云深度合作,利用大数据和AI技术,推出了一系列智能化产品,如AI解读B超单、AI起名等,覆盖备孕、孕期、产后等场景,提升了用户体验,推动了商业化进程。通过技术架构的优化,宝宝树在内容生产和搜索精度上取得了显著成效,未来将继续深化“AI+母婴”战略,为用户提供更全面、个性化的服务。

如今人工智能已成为驱动创新的强大引擎。与阿里云在技术架构、大模型与应用产品层面的深入合作,让宝宝树在母婴家庭生活服务方面的创新工作,有了更专业的技术保障。同时,借助阿里云的大数据计算能力,结合宝宝树17年来的数据积累,我们将持续为年轻家庭用户提供更全面、个性化、智能化的服务。

—— 宝宝树集团 CTO 王禹


业务背景

随着AI不断深入用户场景,“人工智能+”在千行百业中持续发展壮大,“垂直行业模型+APP”的模式正成为当前AI应用层发展的一种主要模式,目前已在电商、母婴、搜索、教育等行业初步落地。


宝宝树作为国内互联网母婴领域头部企业,携手通义千问和阿里云瑶池旗下的云原生数据仓库 AnalyticDB for PostgreSQL RAG引擎能社区运营与管理,推出 AI 解读B超单、AI彩超预测长相、AI起名 、AI客服、AI写真等一系列智能化产品。


目前,宝宝树已于四大终端(宝宝树孕育App、小时光App、宝宝树小程序矩阵、米卡育儿大屏版)推出10余款AI产品,深深根植于宝宝树孕育APP平台内升级用户的育儿体验,现已经覆盖备孕、孕期、产后等几大养育阶段的重点细分场景。同时,在满足用户升级体验的基础上,宝宝树正加速商业化推进中。

image.png


总体架构

宝宝树结合阿里云技术在技术架构上大致分为四层,分别是算力存储层、数据底座层、智能基座层和应用层。在应用层,根据不同角色需求宝宝树App组合各AI原子能力构建场景化能力,通过对应渠道对用户提供个性化、智能化的服务。


▶︎ 算力存储层

由阿里云AnalyticDB for PostgreSQL RAG引擎,OSS等一系列产品构建宝宝树的 AI 内核,为上层AI原子能力的构建以及对客服务提供了产品能力和技术保障。


▶︎ 数据底座层

基于自身累积17年的优质语料(站内最佳回答、孕育词典、科普文章、达人专家发帖),宝宝树在 AnalyticDB for PostgreSQL RAG 引擎之上搭建了母婴垂直领域的知识库,包括家庭存量知识库、线上实时增量知识,经过知识萃取以及结合全网语料获取。


▶︎ 智能基座层

基于宝宝树17年来在母婴领域积累的丰富优质语料数据进行训练,经过宝宝树平台专业内容团队的严格审核与校验,宝宝推出母婴行业垂域模型——Mika-Brain,相比通用大模型,自研模型对母婴类问答、拟人化的响应、知识检索效率上有很大的提升。


在智能基座层还提供一些列能力如数据标注、对比择优、自动化评测等,结合母婴知识库确保了其在母婴垂域内容生成方面的专业性和准确度。


▶︎ 应用层

宝宝树将场景泛化为通用能力,根据不同场景将原子组合后快速落地场景化应用。比如,在前台与C端的交互中,宝宝树陆续推出了包括AI彩超预测宝宝长相、AI看懂B超单、AI写真、AI彩超预测长相、AI起名等用户服务,精准切中新生代母婴用户在孕育过程的特定细分需求,打造“更便捷”“更好玩”的孕育体验。


在B端,宝宝树继续以用户需求为出发点,提炼出“专业服务力”与“参与感”两大需求,并最终落地AI客服与AI内容生成与这两大产品的商业化试水。在家庭消费服务中,AI客服凭借“熟读”产品参数以及累积的科普知识,能够为用户更准确的介绍产品、解答疑虑,甚至是产品测评分析等,成为主打专业、科技品牌们的心头好。


围绕住家生活、亲子出游等线下家庭高频生活场景,宝宝树基于自研模型还推出了Mika-inCar带娃出行智能解决方案,以及AI-MIKA-inHome布局智能大屏领域。

image.png

技术实践

宝宝树采用 AnalyticDB for PostgreSQL RAG 引擎支撑海量母婴数据的实时数据入库以及转换成向量数据,针对不同场景提供高并发低延时的响应。采用标签过滤+向量检索+全文检索融合以及结合精排能力,同时保障响度速度及召回精准度。

image.png

▶︎ 知识处理

宝宝树除了大量的结构化数据外,还有非结构化文档、图片知识。在进行向量入库前对这些数据进行预处理,包括文档/图片解析、切块;预处理会质量会对问答召回和准确率有非常大的影响。


数据类型丰富、复杂度高,复杂度不仅体现在文件格式上,也体现在内容上。拿最常见的PDF文件来说,有图文并茂文档、带表格的文件、中英结合的文献等。在数据的预处理阶段,会根据不同的资料类型,提供多种文件解析方式和切片策略选择。


▶︎ 向量存储

通过大模型的 Embedding 算法对预处理后的数据块进行向量化后存储到 RAG 引擎中,同时产生结构化标签,如角色、领域、分类等结构化信息作为 Meta 信息存入同一张表的标量列,在后续做检索时那能够帮助提供召回的精准度。


由于知识库中涉及不同类型的知识,宝宝树结合阿里云成熟的模型经过训练和微调实现了支持多模的 Embedding 算法。


在日常运行中,结合RAG引擎的事务能力和实时写入能力,实现知识的增量入库和实时更新。


▶︎ 检索召回

根据不同场景不同角色的提问,模型首先会做用户识别和意图识别,结合标签作为结构化条件过滤进行权限和范围的限定。然后将用户的问题进行向量化后在向量数据库中进行向量检索和近似度计算,同时包含结构化信息、向量检索和全文检索在 AnalyticDB for PostgreSQL RAG 引擎中称为融合查询。AnalyticDB for PostgreSQL 在执行引擎层对融合查询作了优化,根据筛选率自动选择最高效的执行计划,同时利用 MPP 架构的分布式计算能力大大提升检索的效率。


大模型对接用户问题和融合查询召回的结果进行精排最终返回最接近问题的答案。

业务效果

通过上述的技术建设,宝宝树在内容生产提质以及搜索精度提升两个方面取得了比较大的成果。在内容生产提质方面,问答平均点赞率高达88%,好评率最高提升至150%,问答二次互动率显著提升,单内容浏览停留时长平均增长7.6s。在搜索精度上搜索点击率环比提升26.3%,TOP 5 CTR环比提升53.64%。

未来展望

云原生数仓AnalyticDB for PostgreSQL将与阿里云AI产品家族持续赋能宝宝树“AI+母婴”战略的发展和落地,从软件产品、居家生活到出行“第三空间”等方面,持续推进 AI 在越来越多生儿、育儿生活场景中实现落地,为千家万户带来更科学和便捷的服务。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
客户说|保险极客引入阿里云AnalyticDB,多业务场景效率大幅提升
“通过引入AnalyticDB,我们在复杂数据查询和实时同步方面取得了显著突破,其分布式、弹性与云计算的优势得以充分体现,帮助企业快速响应业务变化,实现降本增效。AnalyticDB的卓越表现保障了保险极客数据服务的品质和效率。”
拉卡拉 x Apache Doris:统一金融场景 OLAP 引擎,查询提速 15 倍,资源直降 52%
拉卡拉早期基于 Lambda 架构构建数据系统面临存储成本高、实时写入性能差、复杂查询耗时久、组件维护复杂等问题。为此,拉卡拉选择使用 Apache Doris 替换 Elasticsearch、Hive、Hbase、TiDB、Oracle / MySQL 等组件,实现了 OLAP 引擎的统一、查询性能提升 15 倍、资源减少 52% 的显著成效。
拉卡拉 x Apache Doris:统一金融场景 OLAP 引擎,查询提速 15 倍,资源直降 52%
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
114 0
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
「拥抱Data+AI」系列文章由阿里云瑶池数据库推出,基于真实客户案例,展示Data+AI行业解决方案。本文通过钉钉AI助理的实际应用,探讨如何利用阿里云Data+AI解决方案实现智能问数服务,使每个人都能拥有专属数据分析师,显著提升数据查询和分析效率。点击阅读详情。
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
云原生数据仓库AnalyticDB:深度智能化的数据分析洞察
云原生数据仓库AnalyticDB(ADB)是一款深度智能化的数据分析工具,支持大规模数据处理与实时分析。其架构演进包括存算分离、弹性伸缩及性能优化,提供zero-ETL和APS等数据融合功能。ADB通过多层隔离保障负载安全,托管Spark性能提升7倍,并引入AI预测能力。案例中,易点天下借助ADB优化广告营销业务,实现了30%的任务耗时降低和20%的成本节省,展示了云原生数据库对出海企业的数字化赋能。
171 3
DataWorks on EMR StarRocks,打造标准湖仓新范式
本文整理自阿里云计算平台产品专家周硕(簌篱)在阿里云DataWorks on EMR StarRocks解决方案介绍中的分享。介绍了阿里云DataWorks与EMR Serverless StarRocks的结合使用,详细阐述了在数据同步、数据消费、数据治理三大场景中的核心能力。DataWorks作为大数据开发治理平台,提供了从数据建模、数据集成、数据开发到数据治理的全链路解决方案,结合StarRocks的高性能分析能力,帮助企业实现OLAP分析、湖仓一体开发及数据综合治理,满足复杂业务场景下的需求,提升数据处理和分析效率。
Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速
本文介绍了流利说与阿里云合作,利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司,通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点,采用EMR Serverless Spark后,实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力,支持多种接入方式与高效调度。迁移后任务耗时减少40%,失败率降低80%,成本下降30%。未来将深化合作,探索更多行业解决方案。

热门文章

最新文章

相关产品

  • 云原生数据仓库AnalyticDB MySQL版
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等

    登录插画

    登录以查看您的控制台资源

    管理云资源
    状态一览
    快捷访问