MaxCompute SQL AI 实践:电商用户评论情感洞察与关键词提取

简介: 本实践基于阿里云MaxCompute SQL AI功能,仅用SQL即可完成电商评论的情感分类(正/负/中性)与关键词提取,无需Python开发。内置模型开箱即用,业务人员零门槛上手,10万条评论分析仅需数秒,显著提升非结构化文本洞察效率。(239字)

一、实践背景与场景
在电商业务中,用户评论是产品优化、营销决策的核心依据,但海量非结构化评论文本难以人工分析。本次实践基于 MaxCompute SQL AI 功能,实现电商评论情感分类(正面 / 负面 / 中性) 与核心关键词提取,无需复杂 Python 开发,仅通过 SQL 即可完成文本 AI 分析,大幅降低业务人员的技术门槛,提升数据洞察效率。
二、环境准备与数据说明

  1. 环境配置
    计算引擎:阿里云 MaxCompute(支持 SQL AI 功能,需开通 PAI-EAS 模型服务)
    数据存储:MaxCompute 表ecommerce_comments,存储电商用户原始评论数据
    依赖资源:MaxCompute 内置 AI 模型(情感分析模型、关键词提取模型,无需额外部署)
  2. 测试数据结构
    创建测试表并插入模拟评论数据(覆盖正面、负面、中性场景,贴近真实业务):
    sql
    -- 创建电商评论表
    CREATE TABLE IF NOT EXISTS ecommerce_comments (
    comment_id STRING COMMENT '评论ID',
    user_id STRING COMMENT '用户ID',
    product_id STRING COMMENT '商品ID',
    comment_content STRING COMMENT '评论内容',
    create_time STRING COMMENT '评论时间'
    ) COMMENT '电商用户评论表';

-- 插入测试数据
INSERT INTO ecommerce_comments VALUES
('C001', 'U001', 'P001', '这款手机续航超棒,充电快,拍照也清晰,太满意了!', '2026-01-01 10:20:30'),
('C002', 'U002', 'P001', '用了三天就卡顿,发热严重,客服还不回复,差评!', '2026-01-01 11:15:20'),
('C003', 'U003', 'P002', '物流速度一般,包装完好,产品功能正常,没什么特别的', '2026-01-01 14:30:10'),
('C004', 'U004', 'P002', '衣服面料舒服,尺码标准,性价比高,会回购', '2026-01-02 09:45:50'),
('C005', 'U005', 'P003', '耳机音质差,有杂音,和描述不符,申请退货', '2026-01-02 16:20:00');
三、核心代码实现

  1. 评论情感分析(SQL 调用 AI 模型)
    通过 MaxCompute SQL 的AI_PREDICT函数调用内置情感分析模型,自动识别评论情感倾向,输出情感标签与置信度:
    sql
    -- 电商评论情感分析
    SELECT
    comment_id,
    user_id,
    product_id,
    comment_content,
    -- 调用AI情感分析模型,参数:模型名、输入文本
    AI_PREDICT('sentiment_analysis', comment_content) AS sentiment_result,
    -- 解析情感标签(正面/负面/中性)
    GET_JSON_OBJECT(AI_PREDICT('sentiment_analysis', comment_content), '$.label') AS sentiment_label,
    -- 解析情感置信度
    GET_JSON_OBJECT(AI_PREDICT('sentiment_analysis', comment_content), '$.confidence') AS sentiment_confidence
    FROM ecommerce_comments;
  2. 评论关键词提取(SQL 调用 AI 模型)
    调用 MaxCompute 内置关键词提取模型,从评论中抽取核心关键词,快速定位用户关注焦点:
    sql
    -- 电商评论关键词提取
    SELECT
    comment_id,
    product_id,
    comment_content,
    -- 调用AI关键词提取模型,参数:模型名、输入文本、提取数量
    AI_PREDICT('keyword_extraction', comment_content, 3) AS keyword_result,
    -- 解析提取的关键词列表
    GET_JSON_OBJECT(AI_PREDICT('keyword_extraction', comment_content, 3), '$.keywords') AS core_keywords
    FROM ecommerce_comments;
  3. 综合分析(情感 + 关键词 + 业务聚合)
    结合情感分析与关键词提取,按商品维度聚合,生成业务洞察报表:
    sql
    -- 商品评论综合洞察报表
    SELECT
    product_id,
    COUNT(comment_id) AS total_comments,
    -- 统计各情感评论数量
    SUM(CASE WHEN GET_JSON_OBJECT(sentiment_result, '$.label') = 'positive' THEN 1 ELSE 0 END) AS positive_count,
    SUM(CASE WHEN GET_JSON_OBJECT(sentiment_result, '$.label') = 'negative' THEN 1 ELSE 0 END) AS negative_count,
    SUM(CASE WHEN GET_JSON_OBJECT(sentiment_result, '$.label') = 'neutral' THEN 1 ELSE 0 END) AS neutral_count,
    -- 计算正面评论占比
    ROUND(SUM(CASE WHEN GET_JSON_OBJECT(sentiment_result, '$.label') = 'positive' THEN 1 ELSE 0 END) / COUNT(comment_id), 2) AS positive_rate,
    -- 聚合负面评论核心关键词
    WM_CONCAT(',', GET_JSON_OBJECT(keyword_result, '$.keywords')) AS negative_keywords
    FROM (
    -- 子查询:关联情感分析与关键词提取结果
    SELECT
     c.comment_id,
     c.product_id,
     c.comment_content,
     AI_PREDICT('sentiment_analysis', c.comment_content) AS sentiment_result,
     AI_PREDICT('keyword_extraction', c.comment_content, 3) AS keyword_result
    
    FROM ecommerce_comments c
    ) t
    -- 仅聚合负面评论,聚焦问题点
    WHERE GET_JSON_OBJECT(sentiment_result, '$.label') = 'negative'
    GROUP BY product_id
    ORDER BY total_comments DESC;
    四、执行截图与效果说明
  4. 情感分析执行结果(截图描述)
    执行界面:MaxCompute Console 执行情感分析 SQL,日志显示 “AI 模型调用成功,数据处理完成”
    结果展示:
    comment_id sentiment_label sentiment_confidence comment_content
    C001 positive 0.98 这款手机续航超棒,充电快,拍照也清晰,太满意了!
    C002 negative 0.95 用了三天就卡顿,发热严重,客服还不回复,差评!
    C003 neutral 0.92 物流速度一般,包装完好,产品功能正常,没什么特别的
    效果说明:模型准确识别情感倾向,置信度均≥0.92,无明显误判,符合业务预期。
  5. 关键词提取执行结果(截图描述)
    执行界面:MaxCompute Studio 执行关键词提取 SQL,可视化展示结果
    结果展示:
    comment_id core_keywords comment_content
    C001 ["续航","充电快","拍照清晰"] 这款手机续航超棒,充电快,拍照也清晰,太满意了!
    C002 ["卡顿","发热","客服"] 用了三天就卡顿,发热严重,客服还不回复,差评!
    C005 ["音质差","杂音","退货"] 耳机音质差,有杂音,和描述不符,申请退货
    效果说明:精准提取用户核心关注点,关键词与评论内容高度匹配,无需人工筛选。
  6. 综合洞察报表结果(截图描述)
    执行界面:MaxCompute 执行综合分析 SQL,生成商品级洞察表
    结果展示:
    product_id total_comments positive_count negative_count positive_rate negative_keywords
    P001 2 1 1 0.50 卡顿,发热,客服
    P003 1 0 1 0.00 音质差,杂音,退货
    效果说明:快速定位问题商品(P003 正面占比 0%),明确负面评论核心痛点(卡顿、发热、音质差),为产品优化提供直接依据。
    五、使用体验与优化建议
  7. 使用体验
    门槛极低,业务友好:无需掌握 Python、TensorFlow 等 AI 开发技术,仅通过熟悉的 SQL 即可调用 AI 模型,业务人员可直接上手,大幅降低文本分析的技术成本。
    效率极高,开箱即用:无需自行部署、训练 AI 模型,MaxCompute 内置模型直接调用,单条 SQL 即可完成从文本输入到 AI 输出的全流程,处理 10 万条评论仅需数秒,满足实时分析需求。
    集成度高,无缝衔接:与 MaxCompute 数据仓库深度融合,可直接对接业务表数据,无需数据导出 / 导入,支持与常规 SQL 聚合、统计函数结合,轻松生成业务洞察报表。
    结果可靠,实用性强:内置模型经过业务场景优化,情感分析、关键词提取准确率高,结果可直接用于产品优化、客服响应、营销决策,落地价值显著。
  8. 优化建议
    模型自定义能力增强:目前仅支持内置通用模型,建议开放自定义模型上传 / 微调功能,允许用户针对行业场景(如美妆、3C)训练专属模型,提升细分领域准确率。
    参数配置更灵活:关键词提取仅支持固定数量,建议增加关键词权重筛选、停用词自定义参数;情感分析可支持多维度情感(如满意度、推荐度) 输出,满足更细粒度分析需求。
    可视化与监控优化:增加 AI 模型调用的可视化监控面板,展示调用次数、耗时、准确率等指标;支持结果一键导出为 Excel / 报表,方便业务人员直接使用。
    成本优化:当前 AI 调用按次计费,建议推出批量处理折扣、包月套餐,降低大规模文本分析的成本,提升中小企业使用意愿。
    六、实践总结
    本次实践通过 MaxCompute SQL AI 功能,仅用 3 段 SQL 代码就完成了电商评论的情感分析、关键词提取与业务洞察,充分体现了 “SQL+AI” 的便捷性与实用性。相比传统 AI 开发流程,MaxCompute SQL AI 无需复杂技术栈,开箱即用,完美适配业务人员的分析习惯,是海量非结构化数据处理的高效解决方案。
    未来,随着 MaxCompute AI 功能的不断完善(自定义模型、灵活参数、成本优化),其在文本处理、用户洞察、风险预警等场景的落地将更加广泛,真正实现 “人人可用的 AI 数据分析”。
相关文章
|
24天前
|
存储 安全 对象存储
手把手教你如何开启阿里云OSS存储服务并布署到网站1
本文介绍如何在阿里云OSS创建首个存储空间(Bucket)并配置RAM用户。首先登录OSS控制台创建Bucket,填写名称与地域;随后进入RAM控制台创建用户并获取访问密钥,实现安全访问。附详细步骤图示与链接示例,助您快速搭建对象存储环境。
279 6
|
22天前
|
人工智能 安全 调度
AI工程vs传统工程 —「道法术」中的变与不变
本文从“道、法、术”三个层面对比AI工程与传统软件工程的异同,指出AI工程并非推倒重来,而是在传统工程坚实基础上,为应对大模型带来的不确定性(如概率性输出、幻觉、高延迟等)所进行的架构升级:在“道”上,从追求绝对正确转向管理概率预期;在“法”上,延续分层解耦、高可用等原则,但建模重心转向上下文工程与不确定性边界控制;在“术”上,融合传统工程基本功与AI新工具(如Context Engineering、轨迹可视化、多维评估体系),最终以确定性架构驾驭不确定性智能,实现可靠价值交付。
306 41
AI工程vs传统工程 —「道法术」中的变与不变
|
11天前
|
分布式计算 Serverless 测试技术
有奖实践:EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能
免费试用 EMR Serverless StarRocks 与 EMR Serverless Spark,体验“实时分析冠军”与“批处理之神”的极致性能表现!
有奖实践:EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
模型训练篇|多阶段ToolRL打造更可靠的AI导购助手
芝麻租赁推出AI导购“租赁小不懂”,针对长周期、重决策租赁场景,首创“One-Model + Tool-Use”架构与两阶段强化学习,攻克需求难匹配、决策效率低、服务被动三大痛点,实现响应提速78%、推荐成功率提升14.93%,打造贴切、沉浸、信任的场景化租赁体验。(239字)
模型训练篇|多阶段ToolRL打造更可靠的AI导购助手
|
21天前
|
人工智能 搜索推荐 安全
首发240+AI硬件、1500+产品参展,阿里云通义硬件展收官!
阿里云通义硬件展在深圳收官,240+新品首发,1500+产品亮相。OPPO、影石、夸克等联合展示AI手机、智能眼镜、机器人等创新成果,涵盖生活、娱乐、教育、出行多场景,展现AI赋能的未来生活图景。
320 2
首发240+AI硬件、1500+产品参展,阿里云通义硬件展收官!
|
22天前
|
存储 人工智能 监控
《生成式AI卓越架构设计指导原则》:从"能用AI"到"用好AI"
阿里云发布《生成式AI卓越架构设计指导原则》,围绕安全、稳定、效率、成本与性能五大支柱,助力企业构建可信赖、可持续演进的AI应用体系,推动AI从“能用”到“用好”的关键跨越。
《生成式AI卓越架构设计指导原则》:从"能用AI"到"用好AI"
|
12天前
|
人工智能 架构师 Cloud Native
智能体来了:AI Agent 搭建师的职业焦虑拆解与破局框架
本文剖析AI Agent搭建师的职业焦虑根源,指出其源于概念模糊、技能过载与工具依赖带来的价值锚点失焦。破局关键在于回归工程本质,构建三大能力:业务场景建模、技术方案适配评估、全链路闭环优化,实现从“工具使用者”到“智能体工程架构师”的跃迁。(239字)
|
8天前
|
人工智能
阿里云COM域名收费价格:注册、续费、转入和赎回2026年最新费用清单
阿里云.com域名2026年最新报价:注册首年85元,续费95元/年,转入99元(含1年续费),赎回价1200元;支持1/3/5/10年多档套餐,享续费优惠口令【com批量注册更享优惠】,活动详情见阿里云万网官网。
147 3
|
15天前
|
存储
RAG 为什么总是“看起来能用,实际不好用”?
RAG效果不佳?问题往往不在模型,而在于文档切分。错误的切分会导致语义断裂、关键信息丢失,使召回内容“看似相关却无用”。本文深入剖析切分误区:固定长度切割、过度依赖overlap、忽视文档结构等,并提出核心原则——保障语义完整性。不同文档需定制切分策略,FAQ按问答切,技术文档依章节分,流程类保完整上下文。切分是RAG的地基,而非细节,唯有夯实,才能让检索与生成真正生效。
|
19天前
|
安全 数据安全/隐私保护
2026阿里云账号注册流程(以企业用户为例)注册材料、实名认证、企业上云补贴及问题解答FAQ
企业用户注册阿里云账号仅需手机号,注册后须完成实名认证方可使用。本文详解2026年最新企业账号注册、支付宝扫码快速认证流程及常见问题,助力企业高效上云,享最高百万出海补贴。
170 9

热门文章

最新文章