如今人工智能已成为驱动创新的强大引擎。与阿里云在技术架构、大模型与应用产品层面的深入合作,让宝宝树在母婴家庭生活服务方面的创新工作,有了更专业的技术保障。同时,借助阿里云的大数据计算能力,结合宝宝树17年来的数据积累,我们将持续为年轻家庭用户提供更全面、个性化、智能化的服务。
—— 宝宝树集团 CTO 王禹
业务背景
随着AI不断深入用户场景,“人工智能+”在千行百业中持续发展壮大,“垂直行业模型+APP”的模式正成为当前AI应用层发展的一种主要模式,目前已在电商、母婴、搜索、教育等行业初步落地。
宝宝树作为国内互联网母婴领域头部企业,携手通义千问和阿里云瑶池旗下的云原生数据仓库 AnalyticDB for PostgreSQL RAG引擎赋能社区运营与管理,推出 AI 解读B超单、AI彩超预测长相、AI起名 、AI客服、AI写真等一系列智能化产品。
目前,宝宝树已于四大终端(宝宝树孕育App、小时光App、宝宝树小程序矩阵、米卡育儿大屏版)推出10余款AI产品,深深根植于宝宝树孕育APP平台内升级用户的育儿体验,现已经覆盖备孕、孕期、产后等几大养育阶段的重点细分场景。同时,在满足用户升级体验的基础上,宝宝树正加速商业化推进中。
总体架构
宝宝树结合阿里云技术在技术架构上大致分为四层,分别是算力存储层、数据底座层、智能基座层和应用层。在应用层,根据不同角色需求宝宝树App组合各AI原子能力构建场景化能力,通过对应渠道对用户提供个性化、智能化的服务。
▶︎ 算力存储层
由阿里云AnalyticDB for PostgreSQL RAG引擎,OSS等一系列产品构建宝宝树的 AI 内核,为上层AI原子能力的构建以及对客服务提供了产品能力和技术保障。
▶︎ 数据底座层
基于自身累积17年的优质语料(站内最佳回答、孕育词典、科普文章、达人专家发帖),宝宝树在 AnalyticDB for PostgreSQL RAG 引擎之上搭建了母婴垂直领域的知识库,包括家庭存量知识库、线上实时增量知识,经过知识萃取以及结合全网语料获取。
▶︎ 智能基座层
基于宝宝树17年来在母婴领域积累的丰富优质语料数据进行训练,经过宝宝树平台专业内容团队的严格审核与校验,宝宝推出母婴行业垂域模型——Mika-Brain,相比通用大模型,自研模型对母婴类问答、拟人化的响应、知识检索效率上有很大的提升。
在智能基座层还提供一些列能力如数据标注、对比择优、自动化评测等,结合母婴知识库确保了其在母婴垂域内容生成方面的专业性和准确度。
▶︎ 应用层
宝宝树将场景泛化为通用能力,根据不同场景将原子组合后快速落地场景化应用。比如,在前台与C端的交互中,宝宝树陆续推出了包括AI彩超预测宝宝长相、AI看懂B超单、AI写真、AI彩超预测长相、AI起名等用户服务,精准切中新生代母婴用户在孕育过程的特定细分需求,打造“更便捷”“更好玩”的孕育体验。
在B端,宝宝树继续以用户需求为出发点,提炼出“专业服务力”与“参与感”两大需求,并最终落地AI客服与AI内容生成与这两大产品的商业化试水。在家庭消费服务中,AI客服凭借“熟读”产品参数以及累积的科普知识,能够为用户更准确的介绍产品、解答疑虑,甚至是产品测评分析等,成为主打专业、科技品牌们的心头好。
围绕住家生活、亲子出游等线下家庭高频生活场景,宝宝树基于自研模型还推出了Mika-inCar带娃出行智能解决方案,以及AI-MIKA-inHome布局智能大屏领域。
技术实践
宝宝树采用 AnalyticDB for PostgreSQL RAG 引擎支撑海量母婴数据的实时数据入库以及转换成向量数据,针对不同场景提供高并发低延时的响应。采用标签过滤+向量检索+全文检索融合以及结合精排能力,同时保障响度速度及召回精准度。
▶︎ 知识处理
宝宝树除了大量的结构化数据外,还有非结构化文档、图片知识。在进行向量入库前对这些数据进行预处理,包括文档/图片解析、切块;预处理会质量会对问答召回和准确率有非常大的影响。
数据类型丰富、复杂度高,复杂度不仅体现在文件格式上,也体现在内容上。拿最常见的PDF文件来说,有图文并茂文档、带表格的文件、中英结合的文献等。在数据的预处理阶段,会根据不同的资料类型,提供多种文件解析方式和切片策略选择。
▶︎ 向量存储
通过大模型的 Embedding 算法对预处理后的数据块进行向量化后存储到 RAG 引擎中,同时产生结构化标签,如角色、领域、分类等结构化信息作为 Meta 信息存入同一张表的标量列,在后续做检索时那能够帮助提供召回的精准度。
由于知识库中涉及不同类型的知识,宝宝树结合阿里云成熟的模型经过训练和微调实现了支持多模的 Embedding 算法。
在日常运行中,结合RAG引擎的事务能力和实时写入能力,实现知识的增量入库和实时更新。
▶︎ 检索召回
根据不同场景不同角色的提问,模型首先会做用户识别和意图识别,结合标签作为结构化条件过滤进行权限和范围的限定。然后将用户的问题进行向量化后在向量数据库中进行向量检索和近似度计算,同时包含结构化信息、向量检索和全文检索在 AnalyticDB for PostgreSQL RAG 引擎中称为融合查询。AnalyticDB for PostgreSQL 在执行引擎层对融合查询作了优化,根据筛选率自动选择最高效的执行计划,同时利用 MPP 架构的分布式计算能力大大提升检索的效率。
大模型对接用户问题和融合查询召回的结果进行精排最终返回最接近问题的答案。
业务效果
通过上述的技术建设,宝宝树在内容生产提质以及搜索精度提升两个方面取得了比较大的成果。在内容生产提质方面,问答平均点赞率高达88%,好评率最高提升至150%,问答二次互动率显著提升,单内容浏览停留时长平均增长7.6s。在搜索精度上搜索点击率环比提升26.3%,TOP 5 CTR环比提升53.64%。
未来展望
云原生数仓AnalyticDB for PostgreSQL将与阿里云AI产品家族持续赋能宝宝树“AI+母婴”战略的发展和落地,从软件产品、居家生活到出行“第三空间”等方面,持续推进 AI 在越来越多生儿、育儿生活场景中实现落地,为千家万户带来更科学和便捷的服务。