研究人员测试:GPT-4V生成网页超一半情况比人类效果更好

简介: 【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好

12.jpg
在人工智能技术的飞速发展中,生成式人工智能已经成为了一个热门的研究领域。它通过理解和生成多模态内容,为前端开发带来了革命性的变化。最近,一项由斯坦福大学、佐治亚理工学院和谷歌DeepMind联合进行的研究,通过Design2Code项目,将这一技术推向了新的高度。

这项研究的核心在于探索多模态大型语言模型(LLMs)如何将视觉设计直接转换为代码实现。研究人员通过手动策划一个包含484个真实世界网页的基准测试集,并开发了一套自动评估指标,以此来衡量当前多模态LLMs的性能。这些模型需要在给定截图输入的情况下,生成能够直接渲染成参考网页的代码实现。

在众多模型中,GPT-4V和Gemini Pro Vision的表现尤为突出。研究人员开发了多种多模态提示方法,并通过微调一个开源的Design2Code-18B模型,使其性能与Gemini Pro Vision相匹配。在人类评估和自动指标的双重考验下,GPT-4V在这项任务上的表现超越了其他模型。更令人惊讶的是,GPT-4V生成的网页在超过一半的情况下,无论是在视觉外观还是内容上,都能替代原始参考网页。在某些情况下,GPT-4V甚至被认为比原始参考网页设计得更好。

这项研究不仅展示了GPT-4V的强大能力,也揭示了开源模型在某些方面的不足。例如,开源模型在从输入网页中回忆视觉元素和生成正确布局设计方面存在不足,但这些问题可以通过适当的微调得到显著改善。研究人员通过构建真实世界的Design2Code基准测试集,开发全面的自动评估指标,并提出新的多模态提示方法,为未来的研究提供了宝贵的资源。

在自动评估方面,研究人员提出了一种新的评估方法,通过计算参考网页截图和生成网页渲染截图之间的相似度来评估生成的网页。这种评估方法考虑了边界框匹配、文本内容、位置和网页上所有匹配视觉元素的颜色等多个维度,这些维度与人类判断高度相关。

在人类评估方面,研究人员通过招募人类注释者进行了一系列的评估,以比较不同模型和方法的性能,并直接评估最佳性能模型的质量。他们发现,GPT-4V在所有维度上都优于其他基线模型,而文本增强提示和自我修订提示可以进一步提高性能。此外,微调的Design2Code-18B模型与Gemini Pro Vision直接提示的性能相匹配。

研究还探讨了网页生成的难度因素,发现参考实现中的标签总数是难度的强指标,标签越多,网页生成的难度越大。此外,研究人员还分析了不同自动评估维度的学习过程,发现颜色相似性和CLIP相似性在训练后期稳步提高,这可能受益于HTML训练数据。

最后,研究人员提出了未来研究的几个方向,包括改进多模态LLMs的提示技术,使用真实世界网页训练开放多模态LLMs,扩展测试输入类型,以及将评估从静态网页扩展到动态网页。同时,他们也强调了Design2Code技术的潜在双重用途风险,并承诺为所有数据、代码和模型发布提供清晰的道德使用指南。

这项研究不仅展示了GPT-4V在网页生成任务上的卓越性能,也为前端开发自动化提供了新的视角和可能性。通过这些研究成果,我们可以期待未来在网页设计和开发领域出现更多创新的工具和服务。

目录
相关文章
|
15天前
|
数据采集 监控 机器人
浅谈网页端IM技术及相关测试方法实践(包括WebSocket性能测试)
最开始转转的客服系统体系如IM、工单以及机器人等都是使用第三方的产品。但第三方产品对于转转的业务,以及客服的效率等都产生了诸多限制,所以我们决定自研替换第三方系统。下面主要分享一下网页端IM技术及相关测试方法,我们先从了解IM系统和WebSocket开始。
33 4
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
GPT学术优化:专为学术研究和写作设计的多功能开源项目
GPT学术优化是一个专为学术研究和写作设计的多功能开源项目,集成了论文翻译、源代码解析、互联网信息获取、Latex文章校对、论文润色和摘要生成等多项实用功能。本文将详细介绍GPT学术优化的主要功能、技术原理以及如何运行该项目的教程。
55 11
GPT学术优化:专为学术研究和写作设计的多功能开源项目
|
3月前
|
Web App开发 JavaScript 前端开发
添加浮动按钮点击滚动到网页底部的纯JavaScript演示代码 IE9、11,Maxthon 1.6.7,Firefox30、31,360极速浏览器7.5.3.308下测试正常
添加浮动按钮点击滚动到网页底部的纯JavaScript演示代码 IE9、11,Maxthon 1.6.7,Firefox30、31,360极速浏览器7.5.3.308下测试正常
|
4天前
|
算法 数据挖掘 测试技术
犬类癌症检测(CANDiD)研究:使用独立测试集对1000多只犬进行基于高通量测序的多癌种早期检测"液体活检"血液测试的临床验证
这项研究首次在大规模独立测试集上验证了基于NGS的液体活检在犬类多癌种检测中的应用。该方法具有很高的特异性,可以作为一种新的无创癌症筛查和辅助诊断工具。通过早期发现癌症,有望改善犬类癌症的诊断和管理模式。
28 12
|
4月前
|
机器学习/深度学习 测试技术 信息无障碍
VLM集体失明?视力测试惨败,GPT-4o、Claude 3.5全都不及格
【8月更文挑战第2天】新研究表明,顶尖视觉语言模型(VLMs)如GPT-4o和Claude 3.5,在看似简单的视觉任务上表现堪忧,诸如判断圆圈是否重叠或线条是否交叉等。此发现揭示了即便是在图像理解方面表现出色的VLMs也存在基本视觉认知的局限性,提示模型融合视觉信息的方式有待改进。论文详细探讨了可能的原因及未来提升方向。[@arxiv:2407.06581]
66 6
|
6月前
|
存储 人工智能
GPT-4尚未出现自我意识!这项研究用上帝之点解读,迈向AGI局限无法克服
【6月更文挑战第21天】研究人员构建了智能与意识的“飞行模型”,定义了全知全能代理(Ω点)和绝对零代理(α点),以此评估AI的智能水平。目前AI接近人类智能但缺乏自我意识。该模型为理解AI的智能和意识提供新视角,但也因理论概念的实证支持不足及忽视环境影响的多样性而受到批评。[DOI: 10.13140/RG.2.2.24518.28484]
88 6
|
2月前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
69 1
|
2月前
|
人工智能
反向和错位图灵测试:GPT-4比人类更人性化!
【10月更文挑战第8天】本文探讨了GPT-4在反向和错位图灵测试中的表现。反向测试中,GPT-4判断自身生成对话的准确性高于判断人类对话;错位测试中,人类更容易区分GPT-4生成的对话。研究揭示了GPT-4的某些特征及其局限性,如数据集偏差和任务特定性。
30 5
|
2月前
|
JavaScript 前端开发 测试技术
精通Selenium:从基础到高级的网页自动化测试策略
【10月更文挑战第6天】随着Web应用变得越来越复杂,手动进行功能和兼容性测试变得既耗时又容易出错。自动化测试因此成为了现代软件开发不可或缺的一部分。Selenium是一个强大的工具集,它支持多种编程语言(包括Python),允许开发者编写脚本来模拟用户与Web页面的交互。本文将带领读者从Selenium的基础知识出发,逐步深入到高级的应用场景,通过丰富的代码示例来展示如何高效地进行网页自动化测试。
496 5
|
2月前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
52 0