视觉智能开放平台的搜索结果_热门_第6页-阿里云开发者社区

真的很搞笑

|

问答

|

来自：视觉智能

身份证识别ocr，每次购买需要更换url地址吗？

# 文字识别 # 视觉智能开放平台 # 文字识别

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

EchoMimicV2：阿里推出的开源数字人项目，能生成完整数字人半身动画

EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目，能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列，通过音频-姿势动态协调策略生成高质量动画视频，确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动，还简化了动画生成过程中的复杂条件，适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。

# 虚拟数字人 # 视觉智能开放平台 # 人工智能 # 自然语言处理 # 并行计算 # Ubuntu # Python

小小鹿鹿鹿

|

问答

|

来自：视觉智能

文字识别ocr支持android吗，android sdk文档链接有不？

# 文字识别 # 视觉智能开放平台 # Android开发 # 文字识别 # 开发工具

AI未闻花名

|

6月前

|

博文

|

来自：视觉智能

构建AI智能体：九十五、YOLO视觉大模型入门指南：从零开始掌握目标检测

本文介绍了视觉大模型及YOLO目标检测技术，重点讲解YOLOv8在CPU上的部署与应用。涵盖模型选择、图像检测、实时摄像头识别及性能优化，适合初学者快速上手。

# 视觉智能开放平台 # 机器学习/深度学习 # 传感器 # 人工智能 # 计算机视觉 # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

CogView-3-Flash：智谱首个免费AI图像生成模型，支持多种分辨率，快速生成创意图像

CogView-3-Flash 是智谱推出的首个免费AI图像生成模型，支持多种分辨率，快速生成高质量图像，广泛应用于广告、设计、艺术创作等领域。

# 视觉智能开放平台 # 人工智能 # 编解码 # 自然语言处理 # 开发者

安之眼Agent

|

3月前

|

博文

|

来自：视觉智能

基于端侧 AI 与云边协同的电力智能巡检解决方案实践

电力巡检面临人工依赖高、效率低、安全风险大、数据难闭环等痛点。本方案基于云-边-端协同架构，融合端侧轻量化AI、多模态感知与弱网适配技术，打造工业级AR智能安全帽，实现变电站、输电线路等场景的智能识别、实时预警、全程追溯与安全管控，助力电网数字化升级。

# 视觉智能开放平台 # 人工智能 # 运维 # 安全 # 传感器 # 缓存

提个问题

|

问答

|

来自：视觉智能

视觉智能开放平台文字识别API服务计费和报价

# 视觉智能开放平台 # 文字识别 # 文字识别 # API

阿里云OpenVI

|

博文

|

来自： ModelScope模型即服务

【OpenVI-图像超分实战篇】别用GAN做超分了，快来试试基于扩散模型的图像超分吧！

近10年来，深度学习技术得到了长足进步，在图像增强领域取得了显著的成果，尤其是以GAN为代表的生成式模型在图像复原、老片修复，图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面，用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时，保持细节特征，补充生成真实的纹理，其中应用广泛的工作是Real-ESRGAN。扩散模型DiffusionModel在图像超分辨率这方面的新的应用，展现出其超过GAN的生成多样性和真实性。看完后，你会发现，还在用GAN做图像超分辨率吗？已经OUT了，快来试试DiffusionModel吧！

# 视觉智能开放平台 # 机器学习/深度学习 # 编解码 # 达摩院 # 算法

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

video-analyzer 是一款开源视频分析工具，结合 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型，能够提取视频关键帧、转录音频并生成详细描述，支持本地运行和多种应用场景

# 视觉智能开放平台 # 人工智能 # 自然语言处理 # 监控 # API # 计算机视觉

kuaitongai

|

博文

|

来自：视觉智能

分析对比大模型OCR、传统OCR和深度学习OCR

OCR技术近年来迅速普及，广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景，极大提升了便利性。其发展历程从传统方法（基于模板匹配和手工特征设计）到深度学习（采用CNN、LSTM等自动学习高级语义特征），再到大模型OCR（基于Transformer架构，支持跨场景泛化和少样本学习）。每种技术在特定场景下各有优劣：传统OCR适合实时场景，深度学习OCR精度高但依赖大量数据，大模型OCR泛化能力强但训练成本高。未来，大模型OCR将结合多模态预训练，向通用文字理解方向发展，与深度学习OCR形成互补生态，最大化平衡成本与性能。

# 视觉智能开放平台 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 异构计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

视觉智能开放平台