多模态AI单词助记模型体验

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: 一文带你了解多模态AI单词助记模型的优与劣

产品简介

本次体验的产品是一个可以帮助用户记忆单词的AI模型,基于星火认知大模型的多模态AI单词助记应用,旨在于通过荒谬而反直觉的故事和助记图片帮助用户记忆单词。提供两种模式,第一种是demo,点击“生成故事demo”,无需其他操作,等待20s生成即可;第二种是输入单词后,点击“生成故事”。本次体验有两个功能点,一个是图文记忆,一个是视觉学习。下面开始分别体验:点击该链接即可前往进行体验。

图文记忆

这个功能提供了两种模式,一个是demo,一个是自定义。

demo的话操作非常简单,只需要选择任意一组词汇,点击“生成故事demo”就行。如下

根据词汇生成的故事

根据故事会生成的图片提示词

根据提示词生成的图片

  • 这里可以很明显看出demo是有问题的,虽然提供了四组词汇,但无论你怎么选择,始终只会使用第一组,且无法根据提示词生成图片。

既然demo生成有问题,下面就体验自定义看看结果如何。

生成的故事

这个生成效果让我很吃惊,我词汇里明明是没有苹果等水果的啊,这怎么还上面的那个故事非常像呢。为了验证误差,我在此点击生成,如下:

这回的效果直接成了图片提示词了,不得不说效果非常糟糕。

在这里可能会有小伙伴质疑,你使用的是官网列子,肯定是会有同demo一样的问题啊,为了消除大家的顾虑,我输入了自定义词汇,生成故事如下:

看到这你是不是很无语啊,我的词汇里根本没有car吧。

  • 总结:其实从功能体验来看,目前还只能勉强算个demo吧,不但没法准确生成故事,更不用谈根据提示词生成图片了。实际上,从每次生成体验来看,文本框中的内容都是累加的,这就导致后面的词汇关联上了前面的,情况很糟糕。强烈建议优化后再上线。

视觉学习

为了避免误操作导致效果不精准,这里先就操作步骤简单描述,如下:

下面就分别体验上述三种上传方式,看看识别率怎么样。

  • 第一种上传本地图片,如下:

    这个识别率能达到90%,除了TV没有识别出外,其他均准确识别到了。点击生成释义看看效果如何:

    给出的释义还是非常不错的,例句也相对简单易懂,效果不错。
  • 第二种拍摄图片,操作步骤如下:

    看看识别效果如何:

    我这个拍摄的场景元素其实还是蛮负责的,既有近处元素,还有远处的。识别率80%,主要是后面的大冰箱和门框没有识别出来。但这个识别中的transparent,还是值得点赞的,它把盒子的透明度给识别出来了。点击生成释义,看看情况怎么样:

    生成释义的效果一如既往的好,通俗易懂,对于单词记忆有帮助。
  • 第三种读取剪切板图片,操作步骤如下:

    我任意选择一张图片进行复制操作,而后点击这里的按钮进行读取,识别效果如下:

    这个识别率还是挺高的,但可能违背了记忆英文单词的这个初衷,均没有给出相应的词汇。这里为了验证效果,我另外选择了一张,识别效果如下:

    从这里可以非常好地理解,为啥纯文字的识别有问题,是因为缺乏了识别的物体元素。这次的识别率还不错,就是这个phone和umbrella,我识别没看出是哪里体现了。
    看看生成释义情况如何:

    这个功能还是一如既往的稳定,值得点赞表扬。

体验总结

1、整个体验流程还是非常通顺的,通过魔塔模型可以直接在线体验,免去了传统部署搭建环境,主打一个开箱即用,高效便捷。

2、针对图文记忆模块,目前体验下来也就是demo效果,除了无法正常根据词汇准确生成故事,更没法根据提示词生成图片。此外,生成故事文本框的内容是没法手动删除的,而图片提示词文本框的内容又是可以的。虽然提供了四组词汇,但demo始终只认有apple的第一组,体验非常糟糕。

3、视觉学习模块整体效果非常不错,不但提供了三种图片上传方式,还温馨提供了example。图片的整体识别率还挺高,基本元素都能被识别到;生成释义和例句是这里非常值得点赞的一个功能点,除了单词多生成速度略慢外,其他均很优秀。这里唯一要吐槽的点是没有针对上传图片进行说明,也就是如果图片中是纯文字的,它可能无法识别成词汇,只有带有可识别物体元素的图片才能正常识别到词汇。

4、不管是图片记忆还是视觉学习,都没有针对既有内容设计清理按钮,用户需要主动选中删除键进行删除,有些文本框还不支持删除,这点体验非常不友好。

5、在模型开头的描述中,作者有提到后期的更新计划,比如加入本地单词库上传和选择预设单词库功能,还有克隆音色朗读功能等,这些点还是值得非常期待的,在这里感谢作者日夜编码,给大家带来优秀模型工具,期待更多功能点上线。

目录
相关文章
|
1月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
|
1月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
347 121
|
1月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
267 114
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
258 120
|
1月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
244 117
|
1月前
|
人工智能 机器人 人机交互
当AI学会“看、听、懂”:多模态技术的现在与未来
当AI学会“看、听、懂”:多模态技术的现在与未来
267 117
|
1月前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界
|
1月前
|
人工智能 文字识别 自然语言处理
从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆AI下一场革命。
近期,在第八届中国模式识别与计算机视觉学术会议(PRCV 2025)上,合合信息作为承办方举办了“多模态文本智能大模型前沿技术与应用”论坛,汇聚了学术界的顶尖智慧,更抛出了一颗重磅“炸弹”——“多模态文本智能技术”概念。
130 1
|
1月前
|
缓存 物联网 PyTorch
使用TensorRT LLM构建和运行Qwen模型
本文档介绍如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen模型,涵盖模型转换、引擎构建、量化推理及LoRA微调等操作,并提供详细的代码示例与支持矩阵。
400 2

热门文章

最新文章