文字识别

首页 标签 文字识别
# 文字识别 #
关注
5950内容
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。
腾讯混元 HunyuanVideo 1.5 开源!
腾讯混元团队开源HunyuanVideo 1.5,一款8.3B参数的轻量级视频生成模型,基于DiT架构,支持文生视频、图生视频,可在14G显存设备运行,生成5-10秒高清视频,具备强指令响应、流畅动作与电影级画质。
自动化评测的九九归一——评测agent
本文提出并落地统一评测Agent架构,通过让Agent自主学习业务标注标准(如语雀文档),实现评测集生成、自动打分、结果验收与Badcase分析的全链路自动化。
|
19小时前
|
Token百科:什么是Token?以及Token收费价格计费规则,以阿里云为例免费送7000万Tokens
Token是AI大模型处理文本的最小计量单位(如1汉字≈0.5–2个Token)。阿里云2026年实行输入/输出Token分别计费,支持Qwen-Max、Plus等多系列模型,价格从0.367元/百万起;新用户开通百炼平台可免费领7000万Tokens(每模型各100万),企业还可申领万亿Tokens扶持。
四款国产VLM OCR模型横评
春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
免费试用