客户说|哔哩哔哩基于阿里云PolarDB与千问大模型构建全域内容洞察新框架

简介: 哔哩哔哩联合阿里云 PolarDB for AI,构建“大模型+小模型”协同的全域内容洞察体系,基于去标识化公开互动数据,实现视频、评论等内容的结构化分析,精准识别品牌、类目、用户反馈属性,助力营销效果量化与策略优化。

通过阿里云 PolarDB 数据库,我们首次实现了对平台全域公开互动数据的高效结构化处理。在严格遵循隐私保护原则、所有数据均经过去标识化、匿名化处理的前提下,系统可对群体层面的反馈趋势进行分析,辅助品牌更科学地评估内容传播效果,并为营销策略优化提供数据支撑,提升商业决策的确定性。

——强朔 哔哩哔哩资深数据科学家

一、客户背景

哔哩哔哩(B站是国内领先的文化社区和视频平台。平台内容生态高度多元化,涵盖视频、图文、直播、音频、互动内容、搜索、动态等多种体裁。作为以“内容种草”为核心心智的平台,B站已成为品牌营销的重要阵地,尤其在汽车、3C数码、美妆、快消、教育培训、游戏等行业具备显著影响力。

二、业务场景与核心痛点

与传统电商平台不同,B站用户的消费决策往往源于内容互动所形成的品牌认知与兴趣积累,而非站内直接转化。这一特点对营销效果评估提出了更高要求。为此,平台基于经过去标识化、匿名化处理的海量公开互动数据,开展群体层面的数据趋势分析,以支持内容生态优化与商业服务能力的持续提升。例如,通过分析洞察辅助评估品牌内容的传播广度与用户反馈方向,为广告主提供更科学的效果参考。

配图1.png

B站内容平台营销商业化路径

B站商业化团队在服务品牌客户过程中,面临三大核心挑战:

1. 营销效果难以量化:品牌在B站投放内容(如UP主种草视频)后,缺乏有效手段衡量用户群体是否被“种草”。例如,某汽车品牌发布新车测评视频后,需从去标识化的互动内容中识别用户群体对续航、外观、价格等属性的评价,以评估内容传播效果。

2. 内容资产难以结构化:B站内容体裁丰富、语义复杂,视频中包含大量视觉、语音、文本信息,互动区则充斥高信息密度的长文本。传统关键词匹配或规则引擎难以准确提取商业实体(如品牌、类目、SPU)及其关联语义。

3. 营销策略缺乏数据支撑:品牌希望基于B站真实讨论内容,反向指导新品定义、传播策略与创意方向。例如,某美妆品牌需了解用户群体在讨论粉底液时最关注“持妆度”“遮瑕力”还是“肤感”,但缺乏系统性内容洞察工具。

为解决上述问题,B站商业化数据科学团队联合阿里云,构建了一套面向全域内容的结构化洞察框架,实现从“内容感知”到“商业洞察”的数据闭环。


三、解决方案:“大模型+小模型”协同的全域内容洞察新框架

PolarDB for AI 是阿里云瑶池旗下云原生数据库PolarDB内部的分布式机器学习组件,支持在数据不出库的前提下,高效调用轻量化小模型进行实时推理,同时可联动千问等大模型处理复杂语义任务,实现大模型与小模型协同一体化架构。

PolarDB for AI一站式方案


  • PolarDB for AI 可以通过调用千问大模型,对经过去标识化、匿名化处理的用户互动内容进行批量分析,辅助洞察群体层面的兴趣趋势与反馈倾向,为产品优化与内容策略提供数据支持。
  • PolarDB for AI通过定制化的电商领域大模型,结合阿里电商领域的商品知识图谱,大大提升B站对类目、品牌、SPU等多个标签的识别能力,实现品牌高精准匹配,促进内容资产结构化。

B站全域内容洞察矩阵

B站采用“大模型+小模型”融合的技术路径,依托DeepSeek、阿里千问(Qwen)系列大模型、B站自研的Index模型与PolarDB for AI能力,构建覆盖M×N矩阵的全域内容洞察体系——M为商业化标签维度,N为内容体裁维度。


整体技术架构分为三层:

  • AI基建层:基于阿里云百炼平台、PAI、GPU资源及B站自研Agent平台,提供模型训练、推理与调度能力。
  • 数据与模型层:结合通用大模型(如Qwen、Qwen-VL、Qwen-Audio)与PolarDB for AI提供的领域小模型(经SFT、强化学习微调),实现高效、低成本的内容洞察。
  • 应用服务层:通过PolarDB for AI节点,提供模型算子能力,实现“数据不出库”的高效挂靠与推理,且提供稳定独享的模型实时在线服务能力。

该方案兼顾效果与成本:通用大模型用于标签体系挖掘与复杂语义分析,领域小模型则在特定任务(如实体抽取)上实现更高精度与更低延迟。

四、关键技术实现与难点突破

1. 视频稿件内容提取:从非结构化到结构化

视频内容提取过程

视频是B站核心内容载体,但其信息分散于画面、语音与字幕中。B站采用多模态融合策略:

  • 中间层构建:通过ASR(语音转文本)与关键帧OCR(图像文字识别)提取原始文本,再利用Qwen-VL、Qwen-Audio等多模态大模型生成语义中间表示。
  • CPV体系构建:基于大模型挖掘与行业维护,建立“类目-属性-属性值”体系。例如,识别出视频中“相机”类目下的“防抖技术”属性及其值“IBIS”。
  • 实体三元组抽取与挂靠:通过大模型抽取<类目, 品牌, SPU>三元组,但原始抽取结果存在与标准产品库里的命名不一致的问题(如“尼康Z5” vs “尼康Z5微单相机”)。


技术难点:如何将非标准化抽取结果精准挂靠至标准产品库?

解决方案:B站与阿里云PolarDB团队合作,在PolarDB for AI节点中部署定制化挂靠模型。通过SQL,在数据库内直接调用精调后的大模型进行实体对齐。例如,我们来预测一个稿件的类目。执行如下SQL:

/*polar4ai*/ 
SELECT * FROM PREDICT(
  MODEL _polar4ai_cpv_agent,   
  SELECT '{"商品名称":"尼康Z5","品牌名称":"尼康","类目属性模板":{"类目":""},"类目属性限定":{"类目":["数码-摄影摄像-传统相机-相机","数码-数码配件",...]}}'
) WITH ();

得到{"类目":"数码-摄影摄像-传统相机-相机"}

该方案实现“数据不出库”的高并发挂靠,解决抽取结果与标准产品命名的一致性问题,既保障数据安全,又显著降低工程复杂度。同时,结合BGE+RoBERTa等NLP模型进行匹配,进一步提升挂靠准确率。

2. 互动内容分析:从海量数据中挖掘高价值线索

互动内容分析过程

B站评论区信息密度很高,但90%以上为非商业化内容。直接使用大模型全量处理成本高昂。


技术难点:如何在成本可控的前提下,利用匿名化互动数据实现多实体群体反馈的细粒度分析,支撑内容与商业服务的持续优化?

解决方案:采用“过滤-分析-挖掘”三级流水线:

  • 第一级:商业化过滤:使用轻量级NLP模型,如BGE+BiLSTM模型快速筛除无关内容,仅保留可能涉及品牌、产品讨论的内容。
  • 第二级:实体与予以关联分析:对过滤后文本,利用PolarDB for AI提供的商品大模型识别类目、品牌、SPU,并建立不同实体间的语义关联关系。
  • 第三级:意图与属性挖掘:进一步识别“种草”“购买意愿”等高阶语义,并提取用户群体关注的具体属性(如“续航达成率高”“价格贵”),形成结构化洞察。

五、总结

通过与阿里千问大模型及PolarDB for AI的深度协同,B站成功构建了一套高效、可扩展的全域内容洞察体系。该体系不仅解决了品牌营销效果度量难、内容资产结构化难等核心痛点,更将B站独特的社区公开互动数据转化为可行动的商业洞察,显著提升了广告主的投放确定性与ROI。目前,该全域内容洞察体系已应用于B站的哔哩指数、花火平台AI选UP主、哔哩必达洞察报告、引力计划爆文投放、经营号线索挖掘及品牌广告搜索词包等商业化场景,实现从内容洞察到营销转化的全链路提效。未来,B站将持续优化模型能力,拓展至更多内容体裁与商业场景,进一步释放内容平台的营销价值。


了解原生数据库PolarDB:https://www.aliyun.com/product/polardb

相关文章
|
16天前
|
SQL 运维 NoSQL
智能数据库运维大脑 DAS Agent 邀您开启 AI 驱动的数据库自治之旅!
DAS Agent 是阿里云基于大模型与10万+工单经验打造的智能数据库运维大脑,支持 MySQL、PostgreSQL、Redis 等主流引擎,提供异常诊断、SQL 优化、运维日报等 AI-Native 能力,助力企业实现 7×24 小时自治运维。
|
1月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
20528 106
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
本文系统剖析面向智能体推理的 KVCache 技术演进,针对传统机制在长上下文、多轮决策与多智能体协同中的状态膨胀、持久化缺失和缓存孤立三大瓶颈,介绍阿里云 Tair KVCache 团队联合 SGLang 社区推出的 HiCache 分层缓存体系。该方案通过显存-内存-3FS 多级卸载与全局共享,实现缓存命中率提升至80%,TTFT 降低56%,推理 QPS 翻倍,支撑智能体时代的大模型高效推理。
|
3月前
|
SQL 运维 关系型数据库
智能数据库运维大脑 DAS Agent 使用全攻略
智能数据库运维大脑 DAS Agent 使用全攻略
|
4月前
|
存储 人工智能 关系型数据库
钉钉ONE选用阿里云PolarDB数据库,实现百亿级数据的高效向量检索
阿里云瑶池PolarDB PostgreSQL版作为钉钉ONE的底层数据库,凭借分布式架构与向量检索能力,支撑百亿级数据、高并发与AI智能推荐,助力钉钉实现“事找人”的办公新范式。
|
2月前
|
存储 缓存 算法
SGLang Hierarchical Sparse Attention 技术深度解析
阿里云 Tair 联合 SGLang 推出分层稀疏化框架,通过“稀疏+分层”协同优化,将 KVCache 从 GPU 显存扩展至 CPU 与远端存储,实现计算与存储效率双突破,为百万级超长上下文推理提供新路径。
|
人工智能 关系型数据库 分布式数据库
PolarDB一站式记忆管理重磅上线:让记忆成为数据库最有温度的力量
PolarDB-PG 推出一站式长记忆管理系统,融合图+向量记忆库、开放记忆引擎与模型算子,支持跨会话/跨应用持续记忆用户偏好与历史交互,解决大模型“失忆”痛点,实现个性化、高可靠 AI 体验。
|
2月前
|
人工智能 运维 前端开发
从极速复制“死了么”APP,看AI编程时代的技术选型
本文以爆款 App“死了么”为例,讲述在AI时代如何通过 Supabase 等 BaaS 服务实现极简全栈开发。借助AI编程工具与无服务器架构,开发者可快速完成从创意到上线的全流程,降低后端复杂度,聚焦核心业务逻辑,实现低成本、高效率的 MVP 落地。
|
3月前
|
运维 数据库 数据安全/隐私保护
DAS Agent、MCP Server 与 Dify 集成,实现跨账号数据库智能运维!
针对多账号管理难题,通过DAS Agent、MCP Server 与 Dify 集成,实现跨阿里云账号数据库实例的统一智能运维。主账号可纳管其他账号的DAS Agent,集中生成运维日报并推送至钉钉,提升集团级数据库管理效率。