《中国人工智能学会通讯》——1.22 如何评价智能问答系统

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第1章,第1.22节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

1.22 如何评价智能问答系统

长期以来,人工智能界乃至计算机界梦寐以求,希望让计算机拥有人类的智能,能够像人类一样进行高度自主的认知、学习、推理。这一梦想推动了过去五六十年来人工智能研究和开发的巨大进步。

如何验证计算机已经具有了“人类”的智能?图灵在 1950 年写了一篇论文《计算机器与智能》,提出了如下的判断原则:测试者在与被试(包括人和机器)隔开的情况下,通过键盘等装置向被试随意提问。经过一段时间,如果测试者不能确认所收到的答复来自人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。类似地,美国认知心理学家 G. M.Ulson 认为,判别计算机理解自然语言的四个标准是问答系统、文摘、复述和机器翻译。计算机只要达到以上标准之一,就认为它理解了自然语言。总而言之,问答是衡量人工智能水平的重要手段,问答系统的性能反映了人工智能系统的水平,因此问答技术的研究开发对于人工智能的发展有重要意义。

另一方面,人们自然而然就能想到,如何衡量智能问答的技术水平?哪些测试指标常用来评价问答系统?如今的智能回答能达到怎样的技术水准?接下来,本文将主要从评测和答题两个角度,对智能问答的评价方法加以介绍。需要说明的是,由于篇幅有限,本文所介绍的评价方法和评测手段将既不覆盖聊天机器人、语音助手和社区问答等系统,也不考虑问答的答题策略、人机交互和情感需求,而是聚焦于问题求解能力,要求对于给定的问题,不管来自开放域还是限定域,都能够直接给出问题的准确答案。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 测试技术
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
EdgeMark是一个面向嵌入式AI的自动化部署与基准测试系统,支持TensorFlow Lite Micro、Edge Impulse等主流工具,通过模块化架构实现模型生成、优化、转换与部署全流程自动化,并提供跨平台性能对比,助力开发者在资源受限设备上高效选择与部署AI模型。
486 9
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能:有多少人工,才能有多少智能?
当下AI大模型的能力,特别是Agent领域,到底离不开多少“人工”的加持?本文将结合我的实际经验,深入探讨高质量数据与有效评价体系在Agent发展中的决定性作用,并通过编码Agent、Web Agent和GUI Agent的成熟度分析,揭示AI智能体发展面临的挑战与机遇。
320 89
|
5月前
|
机器学习/深度学习 人工智能 供应链
决策智能是新的人工智能平台吗?
决策智能融合数据、决策与行动,通过AI与自动化技术提升企业决策质量与效率,支持从辅助到自动化的多级决策模式,推动业务敏捷性与价值转化。
|
4月前
|
人工智能 IDE 开发工具
拔俗人工智能辅助评审系统:如何用技术为“把关”提效
人工智能辅助评审系统融合大模型、提示工程与业务流程,实现上下文深度理解、场景化精准引导与无缝集成。通过自动化基础审查,释放专家精力聚焦核心决策,提升评审效率与质量,构建人机协同新范式。(239字)
393 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
拔俗AI人工智能评审管理系统:用技术为决策装上“智能导航”
AI评审系统融合NLP、知识图谱与机器学习,破解传统评审效率低、标准不一难题。通过语义解析、智能推理与风险预判,构建标准化、可复用的智能评审流程,助力项目质量与效率双提升。(238字)
338 0
|
10月前
|
人工智能 自然语言处理 API
MCP与A2A协议比较:人工智能系统互联与协作的技术基础架构
本文深入解析了人工智能领域的两项关键基础设施协议:模型上下文协议(MCP)与代理对代理协议(A2A)。MCP由Anthropic开发,专注于标准化AI模型与外部工具和数据源的连接,降低系统集成复杂度;A2A由Google发布,旨在实现不同AI代理间的跨平台协作。两者虽有相似之处,但在设计目标与应用场景上互为补充。文章通过具体示例分析了两种协议的技术差异及适用场景,并探讨了其在企业工作流自动化、医疗信息系统和软件工程中的应用。最后,文章强调了整合MCP与A2A构建协同AI系统架构的重要性,为未来AI技术生态系统的演进提供了方向。
1479 62
|
8月前
|
机器学习/深度学习 人工智能 自动驾驶
人机融合智能 | 以人为中心的人工智能伦理体系
本章探讨“以人为中心”的人工智能伦理体系,分析人工智能伦理与传统伦理学的关系、主要分支内容及核心原则。随着人工智能技术快速发展,其在推动社会进步的同时也引发了隐私、公平、责任等伦理问题。文章指出,人工智能伦理需融入传统伦理框架,并构建适应智能技术发展的新型伦理规范体系,以确保技术发展符合人类价值观和利益。
381 4
|
8月前
|
机器学习/深度学习 人工智能 算法
人机融合智能 | 以人为中心人工智能新理念
本文探讨了“以人为中心的人工智能”(HCAI)理念,强调将人的需求、价值和能力置于AI设计与开发的核心。HCAI旨在确保AI技术服务于人类,增强而非取代人类能力,避免潜在危害。文章分析了AI的双刃剑效应及其社会挑战,并提出了HCAI的设计目标与实施路径,涵盖技术、用户和伦理三大维度。通过系统化方法,HCAI可推动AI的安全与可持续发展,为国内外相关研究提供重要参考。
616 3
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
人机融合智能 | 数据与知识双驱动式人工智能
本章系统介绍了数据驱动、知识驱动及双驱动人工智能的理论与应用。数据驱动方法依赖大数据和深度学习,在图像识别、自然语言处理等领域取得突破,但面临标注成本高、可解释性差等问题。知识驱动方法通过知识表示与推理提升系统理解能力,却在泛化性和适应性上受限。为弥补单一范式的不足,数据与知识双驱动融合两者优势,致力于构建更智能、可解释且安全可靠的AI系统,兼顾伦理与隐私保护。文章还回顾了AI发展历程,从早期神经网络到当前大规模语言模型(如GPT、BERT)的技术演进,深入解析了各类机器学习与深度学习模型的核心原理与应用场景,展望未来AI发展的潜力与挑战。
504 0
|
10月前
|
数据采集 机器学习/深度学习 人工智能
数据驱动智能,智能优化数据——大数据与人工智能的双向赋能
数据驱动智能,智能优化数据——大数据与人工智能的双向赋能
658 4