moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取

简介: moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持图像识别、OCR文字识别、图像数据提取与分析。
  2. 技术:基于API调用,支持多轮对话、流式输出等特性。
  3. 应用:适用于内容审核、文档处理、医学影像分析、智能交互服务等场景。

正文(附运行示例)

moonshot-v1-vision-preview 是什么

moonshot-v1-vision-preview

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,进一步完善了 moonshot-v1 模型系列的多模态能力。该模型具备强大的图像识别能力,能够精准区分复杂细节,如相似的蓝莓松饼和吉娃娃图片。在文字识别方面,模型表现优异,能够准确识别潦草手写内容,如收据单、快递单等。

此外,moonshot-v1-vision-preview 还能分析图像中的数据,如柱状图的科目成绩,并从美学角度评价图表。模型基于API调用,支持多轮对话、流式输出等特性,用户可以轻松将其集成到自己的应用中。

moonshot-v1-vision-preview 的主要功能

  • 图像识别:准确识别出图像中的复杂细节和细微差别,即使是相似度较高、人眼较难区分的对象,如蓝莓松饼和吉娃娃图片,模型也能精确地区分和识别。
  • OCR文字识别能力:在OCR文字识别和图像理解场景中表现突出,比普通的文件扫描和OCR识别软件更加准确。能识别收据单、快递单等文档中潦草的手写内容,准确提取文字信息。
  • 图像数据提取与分析:精准识别图像中的数据信息,如柱状图中的科目名称、分数数值等,进行数据对比分析。还能识别图像的样式格式、颜色等美学元素,从美学角度对图像进行评价。
  • API调用:基于API调用,用户能将模型集成到自己的应用中。

如何运行 moonshot-v1-vision-preview

1. 获取API密钥

首先,您需要在月之暗面平台上注册并获取API密钥。

2. 安装必要的库

使用以下命令安装所需的Python库:

pip install openai

3. 调用API

以下是一个简单的Python示例,展示如何调用moonshot-v1-vision-preview的API进行图像识别:

import os
import base64

from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("MOONSHOT_API_KEY"),
    base_url="https://api.moonshot.cn/v1",
)

# 在这里,你需要将 kimi.png 文件替换为你想让 Kimi 识别的图片的地址
image_path = "kimi.png"

with open(image_path, "rb") as f:
    image_data = f.read()

# 我们使用标准库 base64.b64encode 函数将图片编码成 base64 格式的 image_url
image_url = f"data:image/{os.path.splitext(image_path)[1]};base64,{base64.b64encode(image_data).decode('utf-8')}"


completion = client.chat.completions.create(
    model="moonshot-v1-8k-vision-preview",
    messages=[
        {
   "role": "system", "content": "你是 Kimi。"},
        {
   
            "role": "user",
            # 注意这里,content 由原来的 str 类型变更为一个 list,这个 list 中包含多个部分的内容,图片(image_url)是一个部分(part),
            # 文字(text)是一个部分(part)
            "content": [
                {
   
                    "type": "image_url", # <-- 使用 image_url 类型来上传图片,内容为使用 base64 编码过的图片内容
                    "image_url": {
   
                        "url": image_url,
                    },
                },
                {
   
                    "type": "text",
                    "text": "请描述图片的内容。", # <-- 使用 text 类型来提供文字指令,例如“描述图片内容”
                },
            ],
        },
    ],
)

print(completion.choices[0].message.content)

4. 运行示例

将上述代码保存为 moonshot_vision.py,然后在终端中运行:

python moonshot_vision.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
6月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1125 109
|
6月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
594 2
|
5月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
696 120
|
7月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
814 23
|
7月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
1351 2
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
941 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
6月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
1323 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
|
7月前
|
人工智能 算法 测试技术
轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源
继 7 月 26 日开源『书生』科学多模态大模型 Intern-S1 之后,上海人工智能实验室(上海AI实验室)在8月23日推出了轻量化版本 Intern-S1-mini。
1072 50

热门文章

最新文章