moonshot-v1-vision-preview：月之暗面Kimi推出多模态视觉理解模型，支持图像识别、OCR文字识别、数据提取

2025-01-21 2173

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型，具备强大的图像识别、OCR文字识别和数据提取能力，支持API调用，适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：支持图像识别、OCR文字识别、图像数据提取与分析。
技术：基于API调用，支持多轮对话、流式输出等特性。
应用：适用于内容审核、文档处理、医学影像分析、智能交互服务等场景。

正文（附运行示例）

moonshot-v1-vision-preview 是什么

moonshot-v1-vision-preview

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型，进一步完善了 moonshot-v1 模型系列的多模态能力。该模型具备强大的图像识别能力，能够精准区分复杂细节，如相似的蓝莓松饼和吉娃娃图片。在文字识别方面，模型表现优异，能够准确识别潦草手写内容，如收据单、快递单等。

此外，moonshot-v1-vision-preview 还能分析图像中的数据，如柱状图的科目成绩，并从美学角度评价图表。模型基于API调用，支持多轮对话、流式输出等特性，用户可以轻松将其集成到自己的应用中。

moonshot-v1-vision-preview 的主要功能

图像识别：准确识别出图像中的复杂细节和细微差别，即使是相似度较高、人眼较难区分的对象，如蓝莓松饼和吉娃娃图片，模型也能精确地区分和识别。
OCR文字识别能力：在OCR文字识别和图像理解场景中表现突出，比普通的文件扫描和OCR识别软件更加准确。能识别收据单、快递单等文档中潦草的手写内容，准确提取文字信息。
图像数据提取与分析：精准识别图像中的数据信息，如柱状图中的科目名称、分数数值等，进行数据对比分析。还能识别图像的样式格式、颜色等美学元素，从美学角度对图像进行评价。
API调用：基于API调用，用户能将模型集成到自己的应用中。

如何运行 moonshot-v1-vision-preview

1. 获取API密钥

首先，您需要在月之暗面平台上注册并获取API密钥。

2. 安装必要的库

使用以下命令安装所需的Python库：

pip install openai

3. 调用API

以下是一个简单的Python示例，展示如何调用moonshot-v1-vision-preview的API进行图像识别：

import os
import base64

from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("MOONSHOT_API_KEY"),
    base_url="https://api.moonshot.cn/v1",
)

# 在这里，你需要将 kimi.png 文件替换为你想让 Kimi 识别的图片的地址
image_path = "kimi.png"

with open(image_path, "rb") as f:
    image_data = f.read()

# 我们使用标准库 base64.b64encode 函数将图片编码成 base64 格式的 image_url
image_url = f"data:image/{os.path.splitext(image_path)[1]};base64,{base64.b64encode(image_data).decode('utf-8')}"


completion = client.chat.completions.create(
    model="moonshot-v1-8k-vision-preview",
    messages=[
        {
   "role": "system", "content": "你是 Kimi。"},
        {
   
            "role": "user",
            # 注意这里，content 由原来的 str 类型变更为一个 list，这个 list 中包含多个部分的内容，图片（image_url）是一个部分（part），
            # 文字（text）是一个部分（part）
            "content": [
                {
   
                    "type": "image_url", # <-- 使用 image_url 类型来上传图片，内容为使用 base64 编码过的图片内容
                    "image_url": {
   
                        "url": image_url,
                    },
                },
                {
   
                    "type": "text",
                    "text": "请描述图片的内容。", # <-- 使用 text 类型来提供文字指令，例如“描述图片内容”
                },
            ],
        },
    ],
)

print(completion.choices[0].message.content)

4. 运行示例

将上述代码保存为 moonshot_vision.py，然后在终端中运行：

python moonshot_vision.py

资源

项目官网：https://platform.moonshot.cn/docs/guide/use-kimi-vision-model