《中国人工智能学会通讯》——8.37 文献数据获取

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第8章,第8.37节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

8.37 文献数据获取

本文从多个维度获取在软件工程领域与演化算法有关的研究成果。首先,从基于搜索的软件工程文献仓库(SBSE Repository)获取基于搜索的软件工程的文献列表。本文选取该仓库中 1 502篇发表在期刊或者会议上的文章(删除书籍、技术报告等类型的文献),将这些文章的标题、摘要、发表刊物、发表时间以及作者等信息从 SBSERepository 网站提取下来。第二,提取所有文献的关键词信息。由于许多文献中并未提供具体的关键词,因此采用如下策略完成关键词提取,若文章中提供了关键词,则将这些关键词提取下来;若文章中未提供关键词,则利用网络爬虫将文献数据库(IEEE Xplore、ACM、Springer、Science Direct、Wiley 等)中自动摘要出的该文章的关键字爬取下来;对于极少数的在文章中和文献数据库中均未提供关键词的情况,利用人工分析的方法从标题和摘要中总结关键词。在关键词统计的过程中,删掉了如 Software、Software Engineering、SBSE 等 范围过大或不具有具体含义的词项,同时合并了部分意思相同或相近的关键词。第三,从文献数据库中爬取作者的机构信息,并且从 Google Scholar 网站爬取文章的引用数信息。

在完成文献收集后,对所有的文献进行人工过滤,发现其中有 553 篇文章不符合本文的研究主题。这类文章主要包括如下三种情况:① 文献并未利用已知的演化算法解决软件工程问题,而是自定义的启发式规则;② 文献的主要算法并非演化算法,而仅把它们作为对比算法;③ 文献属于综述类文章,并非利用演化算法解决具体的软件工程问题。在删除这些文献后,筛选出 949 篇利用已有的演化算法或改进的演化算法,解决软件工程问题的文章。

相关文章
|
2月前
|
人工智能 算法 语音技术
人工智能语音数据
人工智能语音数据
77 5
|
2月前
|
人工智能 自然语言处理 语音技术
人工智能语音数据的多样性
人工智能语音数据的多样性
40 2
|
2月前
|
机器学习/深度学习 传感器 人工智能
人工智能图像数据
人工智能图像数据
50 3
|
13天前
|
机器学习/深度学习 人工智能 前端开发
人工智能平台PAI产品使用合集之创建了实时特征视图,里面的数据是通过什么传入的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
11天前
|
存储 人工智能 安全
人工智能浪潮下的数据隐私保护技术
在大数据与人工智能(AI)的高速发展中,数据隐私保护成为亟待解决的关键议题。本文将探讨当前AI时代下数据隐私保护的技术手段及其面临的挑战,并分析未来发展趋势。文章首先介绍数据隐私的重要性和当前面临的风险,然后深入讨论加密技术和匿名化处理等保护措施,最后评估这些技术的有效性及潜在的改进方向。
12 0
|
14天前
|
机器学习/深度学习 人工智能 算法
人工智能伦理:机器学习中的数据偏见与公平性挑战
在机器学习领域,算法的公正性与透明度日益成为社会关注的焦点。本文深入探讨了AI系统在处理数据时可能遇到的偏见问题及其对社会公平性的影响。通过分析具体案例和最新研究成果,本文揭示了数据偏见如何影响算法决策,并提出了减轻这些偏见的策略。文章呼吁开发更加负责任的AI系统,以促进技术与社会价值的和谐共存。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
2月前
|
人工智能 测试技术
测试数据不再难,人工智能批量生成给你用!
本文介绍了如何利用ChatGPT生成测试数据。测试数据是验证功能和触发异常场景的关键,设计时需全面考虑等价类、边界值和正交法。实践中,先明确数据类型、格式和需求,然后向ChatGPT提供相关信息。例如,对于只能输入中国手机号的输入框,初始提示可能只包含正常手机号,但应进一步补充异常场景,如非数字、长度错误、非中国号码、特殊字符、空输入等。此外,可通过指定yaml格式来满足代码使用需求。总结来说,生成测试数据需清晰定义需求,拆分任务,并系统测试各种变化。
43 2
|
2月前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI 操作报错合集之DSSM负采样时,输入数据不同,被哈希到同一个桶里,导致生成的embedding相同如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
2月前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI 操作报错合集之机器学习PAI缺失值补充报错,从odps读取数据正常 进行下一步时,补充缺失值报错如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。

热门文章

最新文章