moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持图像识别、OCR文字识别、图像数据提取与分析。
  2. 技术:基于API调用,支持多轮对话、流式输出等特性。
  3. 应用:适用于内容审核、文档处理、医学影像分析、智能交互服务等场景。

正文(附运行示例)

moonshot-v1-vision-preview 是什么

moonshot-v1-vision-preview

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,进一步完善了 moonshot-v1 模型系列的多模态能力。该模型具备强大的图像识别能力,能够精准区分复杂细节,如相似的蓝莓松饼和吉娃娃图片。在文字识别方面,模型表现优异,能够准确识别潦草手写内容,如收据单、快递单等。

此外,moonshot-v1-vision-preview 还能分析图像中的数据,如柱状图的科目成绩,并从美学角度评价图表。模型基于API调用,支持多轮对话、流式输出等特性,用户可以轻松将其集成到自己的应用中。

moonshot-v1-vision-preview 的主要功能

  • 图像识别:准确识别出图像中的复杂细节和细微差别,即使是相似度较高、人眼较难区分的对象,如蓝莓松饼和吉娃娃图片,模型也能精确地区分和识别。
  • OCR文字识别能力:在OCR文字识别和图像理解场景中表现突出,比普通的文件扫描和OCR识别软件更加准确。能识别收据单、快递单等文档中潦草的手写内容,准确提取文字信息。
  • 图像数据提取与分析:精准识别图像中的数据信息,如柱状图中的科目名称、分数数值等,进行数据对比分析。还能识别图像的样式格式、颜色等美学元素,从美学角度对图像进行评价。
  • API调用:基于API调用,用户能将模型集成到自己的应用中。

如何运行 moonshot-v1-vision-preview

1. 获取API密钥

首先,您需要在月之暗面平台上注册并获取API密钥。

2. 安装必要的库

使用以下命令安装所需的Python库:

pip install openai
AI 代码解读

3. 调用API

以下是一个简单的Python示例,展示如何调用moonshot-v1-vision-preview的API进行图像识别:

import os
import base64

from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("MOONSHOT_API_KEY"),
    base_url="https://api.moonshot.cn/v1",
)

# 在这里,你需要将 kimi.png 文件替换为你想让 Kimi 识别的图片的地址
image_path = "kimi.png"

with open(image_path, "rb") as f:
    image_data = f.read()

# 我们使用标准库 base64.b64encode 函数将图片编码成 base64 格式的 image_url
image_url = f"data:image/{os.path.splitext(image_path)[1]};base64,{base64.b64encode(image_data).decode('utf-8')}"


completion = client.chat.completions.create(
    model="moonshot-v1-8k-vision-preview",
    messages=[
        {
   "role": "system", "content": "你是 Kimi。"},
        {
   
            "role": "user",
            # 注意这里,content 由原来的 str 类型变更为一个 list,这个 list 中包含多个部分的内容,图片(image_url)是一个部分(part),
            # 文字(text)是一个部分(part)
            "content": [
                {
   
                    "type": "image_url", # <-- 使用 image_url 类型来上传图片,内容为使用 base64 编码过的图片内容
                    "image_url": {
   
                        "url": image_url,
                    },
                },
                {
   
                    "type": "text",
                    "text": "请描述图片的内容。", # <-- 使用 text 类型来提供文字指令,例如“描述图片内容”
                },
            ],
        },
    ],
)

print(completion.choices[0].message.content)
AI 代码解读

4. 运行示例

将上述代码保存为 moonshot_vision.py,然后在终端中运行:

python moonshot_vision.py
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

目录
打赏
0
6
6
0
343
分享
相关文章
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。
127 1
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
机器学习在图像识别中的应用:解锁视觉世界的钥匙
机器学习在图像识别中的应用:解锁视觉世界的钥匙
658 95
谷歌放大招!多模态模型PaliGemma 2 Mix上线:通吃问答+OCR+检测等多项视觉理解任务,28B参数无需额外加载模型
PaliGemma 2 Mix 是谷歌DeepMind发布的多任务视觉语言模型,支持图像描述、OCR、目标检测等功能,适用于文档理解、科学问题解答等场景。
83 2
文字识别OCR常见问题之本地部署如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
249 3
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
印刷文字识别使用问题之如何提高OCR的识别率
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
印刷文字识别操作报错合集之通过HTTPS连接到OCR服务的API时报错,该如何处理
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
百度飞桨(PaddlePaddle) - PaddleHub OCR 文字识别简单使用
百度飞桨(PaddlePaddle) - PaddleHub OCR 文字识别简单使用
482 0
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
文本,文字识别,Flask实现内部接口开发,OCR外部接口的开发,如何开发一个识别接口,通过post调用,参数是图片的路径,内部调用,直接传图片路径就行
文本,文字识别,Flask实现内部接口开发,OCR外部接口的开发,如何开发一个识别接口,通过post调用,参数是图片的路径,内部调用,直接传图片路径就行

热门文章

最新文章