视觉智能开放平台的搜索结果_热门_第18页-阿里云开发者社区

三分钟热度的鱼

|

问答

|

来自：视觉智能

在文字识别OCR这种手写的Excel应该用什么功能提取？

# 文字识别 # 视觉智能开放平台 # 文字识别

GoAlaaa

|

博文

|

来自：视觉智能

CRNN文字识别

近几年来，CRNN在计算机视觉文本识别领域取得不错成果。CRNN是一种卷积循环神经网络结构，用于解决基于图像的序列识别问题，特别是场景文字识别问题。CRNN网络实现了不定长验证结合CNN和RNN网络结构，使用双向LSTM循环网络进行时序训练，并在最后引入CTC损失函数来实现端对端的不定长序列识别，

# 文字识别 # 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 文字识别 # 算法 # 数据挖掘 # 计算机视觉 # Perl

Deephub

|

博文

|

来自： ModelScope模型即服务

可以提高你的图像识别模型准确率的7个技巧

# 图像识别 # 视觉智能开放平台 # 机器学习/深度学习 # 编解码 # 自然语言处理 # 算法 # 决策智能 # 计算机视觉

ModelScope运营小助手

|

博文

|

来自： ModelScope模型即服务

关键点检测从入门到进阶

关键点检测，也被称作关键点定位或关键点对齐（keypoint alignment），在不同的任务中名字可能略有差异。比如，在人脸关键点定位中会被称作facemark alignment，在人体关键点检测中称作pose alignment。

# 视觉智能开放平台 # GPU云服务器 # 机器学习/深度学习 # 人工智能 # 编解码 # JSON # 数据可视化 # 开发工具 # 数据安全/隐私保护 # 计算机视觉 # 数据格式 # 异构计算

aqi00

|

博文

|

来自：视觉智能

FFmpeg开发笔记（四十八）从0开始搭建直播系统的开源软件架构

音视频技术广泛应用于直播系统，涵盖电视、电脑、手机直播等多种形式，并延伸至在线教育、医疗咨询和安全监控等领域。直播系统涉及实时编解码与传输，技术实现较复杂。从用户角度看，直播系统分为来源方和观看方，但在开发者视角下还需加入云平台作为中转。本文提出一套基于全开源软件的直播系统架构，分为三层：开源直播录制软件（如OBS Studio、RTMP Streamer），开源流媒体服务器（如SRS、ZLMediaKit），以及开源音视频播放器（如VLC media player、ExoPlayer）。这些组件共同构成一个高效、灵活且成本低廉的直播解决方案。

# 视觉智能开放平台 # Web App开发 # 编解码 # Linux # Android开发 # 开发者

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

TRELLIS：微软联合清华和中科大推出的高质量 3D 生成模型，支持局部控制和多种输出格式

TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型，能够根据文本或图像提示生成多样化的 3D 资产，支持多种输出格式和灵活编辑。

# 视觉智能开放平台 # 人工智能 # vr&ar

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Figma-Low-Code：快速将Figma设计转换为Vue.js应用，支持低代码渲染、数据绑定

Figma-Low-Code 是一个开源项目，能够直接将 Figma 设计转换为 Vue.js 应用程序，减少设计师与开发者之间的交接时间，支持低代码渲染和数据绑定。

# 视觉智能开放平台 # 敏捷开发 # 人工智能 # JavaScript # API # 开发者

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

VITRON：开源像素级视觉大模型，同时满足图像与视频理解、生成、分割和编辑等视觉任务

VITRON 是由 Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大模型，支持图像与视频的理解、生成、分割和编辑，适用于多种视觉任务。

# 视觉智能开放平台 # 人工智能 # 自然语言处理 # 并行计算 # 前端开发 # PyTorch

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

ACE++：输入想法就能完成图像创作和编辑！阿里通义推出新版自然语言驱动的图像生成与编辑工具

ACE++ 是阿里巴巴通义实验室推出的升级版图像生成与编辑工具，支持多种任务，如高质量人物肖像生成、主题一致性保持和局部图像编辑。

# 自然语言处理 # 视觉智能开放平台 # 存储 # 人工智能 # 自然语言处理 # 物联网 # 计算机视觉

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Umi-OCR：31K Star！离线OCR终结者！公式+二维码+多语种，开源免费吊打付费

Umi-OCR 是一款免费开源的离线 OCR 文字识别工具，支持截图、批量图片、PDF 扫描件的文字识别，内置多语言识别库，提供命令行和 HTTP 接口调用功能。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 文字识别 # 自然语言处理 # 算法

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

视觉智能开放平台