文字识别

首页 标签 文字识别
# 文字识别 #
关注
5950内容
腾讯混元 HunyuanVideo 1.5 开源!
腾讯混元团队开源HunyuanVideo 1.5,一款8.3B参数的轻量级视频生成模型,基于DiT架构,支持文生视频、图生视频,可在14G显存设备运行,生成5-10秒高清视频,具备强指令响应、流畅动作与电影级画质。
|
21小时前
|
Token百科:什么是Token?以及Token收费价格计费规则,以阿里云为例免费送7000万Tokens
Token是AI大模型处理文本的最小计量单位(如1汉字≈0.5–2个Token)。阿里云2026年实行输入/输出Token分别计费,支持Qwen-Max、Plus等多系列模型,价格从0.367元/百万起;新用户开通百炼平台可免费领7000万Tokens(每模型各100万),企业还可申领万亿Tokens扶持。
自动化评测的九九归一——评测agent
本文提出并落地统一评测Agent架构,通过让Agent自主学习业务标注标准(如语雀文档),实现评测集生成、自动打分、结果验收与Badcase分析的全链路自动化。
隐私搜索的几个选择
个人信息被互联网厂商过度收集用于广告、大数据杀熟和售卖已经是不争的事实。我们可以从源头来减少自己的活动隐私泄露。
四款国产VLM OCR模型横评
春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
免费试用