研究人员测试:GPT-4V生成网页超一半情况比人类效果更好

简介: 【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好

12.jpg
在人工智能技术的飞速发展中,生成式人工智能已经成为了一个热门的研究领域。它通过理解和生成多模态内容,为前端开发带来了革命性的变化。最近,一项由斯坦福大学、佐治亚理工学院和谷歌DeepMind联合进行的研究,通过Design2Code项目,将这一技术推向了新的高度。

这项研究的核心在于探索多模态大型语言模型(LLMs)如何将视觉设计直接转换为代码实现。研究人员通过手动策划一个包含484个真实世界网页的基准测试集,并开发了一套自动评估指标,以此来衡量当前多模态LLMs的性能。这些模型需要在给定截图输入的情况下,生成能够直接渲染成参考网页的代码实现。

在众多模型中,GPT-4V和Gemini Pro Vision的表现尤为突出。研究人员开发了多种多模态提示方法,并通过微调一个开源的Design2Code-18B模型,使其性能与Gemini Pro Vision相匹配。在人类评估和自动指标的双重考验下,GPT-4V在这项任务上的表现超越了其他模型。更令人惊讶的是,GPT-4V生成的网页在超过一半的情况下,无论是在视觉外观还是内容上,都能替代原始参考网页。在某些情况下,GPT-4V甚至被认为比原始参考网页设计得更好。

这项研究不仅展示了GPT-4V的强大能力,也揭示了开源模型在某些方面的不足。例如,开源模型在从输入网页中回忆视觉元素和生成正确布局设计方面存在不足,但这些问题可以通过适当的微调得到显著改善。研究人员通过构建真实世界的Design2Code基准测试集,开发全面的自动评估指标,并提出新的多模态提示方法,为未来的研究提供了宝贵的资源。

在自动评估方面,研究人员提出了一种新的评估方法,通过计算参考网页截图和生成网页渲染截图之间的相似度来评估生成的网页。这种评估方法考虑了边界框匹配、文本内容、位置和网页上所有匹配视觉元素的颜色等多个维度,这些维度与人类判断高度相关。

在人类评估方面,研究人员通过招募人类注释者进行了一系列的评估,以比较不同模型和方法的性能,并直接评估最佳性能模型的质量。他们发现,GPT-4V在所有维度上都优于其他基线模型,而文本增强提示和自我修订提示可以进一步提高性能。此外,微调的Design2Code-18B模型与Gemini Pro Vision直接提示的性能相匹配。

研究还探讨了网页生成的难度因素,发现参考实现中的标签总数是难度的强指标,标签越多,网页生成的难度越大。此外,研究人员还分析了不同自动评估维度的学习过程,发现颜色相似性和CLIP相似性在训练后期稳步提高,这可能受益于HTML训练数据。

最后,研究人员提出了未来研究的几个方向,包括改进多模态LLMs的提示技术,使用真实世界网页训练开放多模态LLMs,扩展测试输入类型,以及将评估从静态网页扩展到动态网页。同时,他们也强调了Design2Code技术的潜在双重用途风险,并承诺为所有数据、代码和模型发布提供清晰的道德使用指南。

这项研究不仅展示了GPT-4V在网页生成任务上的卓越性能,也为前端开发自动化提供了新的视角和可能性。通过这些研究成果,我们可以期待未来在网页设计和开发领域出现更多创新的工具和服务。

目录
相关文章
|
1月前
|
Web App开发 安全 测试技术
网页测试
【4月更文挑战第8天】网页测试
29 1
|
1月前
|
人工智能 搜索推荐 测试技术
模拟试错(STE)法让7B大模型测试超GPT-4
【2月更文挑战第24天】模拟试错(STE)法让7B大模型测试超GPT-4
60 1
模拟试错(STE)法让7B大模型测试超GPT-4
|
1月前
|
前端开发 JavaScript API
前端 npm anywhere 与 npm now 网页随时真机测试
前端 npm anywhere 与 npm now 网页随时真机测试
59 0
|
12天前
|
测试技术
软件测试之【合理的利用GPT来辅助软件测试一】
软件测试之【合理的利用GPT来辅助软件测试一】
12 0
|
19天前
|
人工智能 自然语言处理 安全
GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4
【5月更文挑战第27天】GPT-4在图灵测试中达到54%的胜率,使人类无法辨别其身份,展示出强大的人工智能模拟人类行为的能力。这项由UCSD进行的研究超越了ELIZA的22%,但未及人类67%的真实水平。尽管成果显著,图灵测试的局限性及AI伦理问题也随之浮现,引发关于技术控制与安全性的讨论。该进展预示着人工智能在客户服务等领域有广阔应用前景。[[arXiv:2405.08007](https://arxiv.org/pdf/2405.08007)]
24 1
|
1月前
|
人工智能 开发框架 搜索推荐
23.3k Star!推荐一款非常强大的GPT网页客户端:Lobe Chat
23.3k Star!推荐一款非常强大的GPT网页客户端:Lobe Chat
127 2
|
1月前
|
人工智能 测试技术 量子技术
Claude 3智商测试101分超越人类/碾压GPT-4!
【2月更文挑战第16天】Claude 3智商测试101分超越人类/碾压GPT-4!
42 1
Claude 3智商测试101分超越人类/碾压GPT-4!
|
1月前
|
Web App开发 前端开发 测试技术
如何测试Web网页的兼容性测试?
如何测试Web网页的兼容性测试?
135 3
|
8月前
|
NoSQL 网络协议 Linux
公网远程cpolar内网穿透发布网页测试 「内网穿透」
公网远程cpolar内网穿透发布网页测试 「内网穿透」
|
8月前
|
Java 测试技术 Spring
Spring Boot 学习研究笔记(五) -SpringBoot集成单元测试
Spring Boot 学习研究笔记(五) -SpringBoot集成单元测试