|
机器学习/深度学习 人工智能 算法
|
置顶

【视觉智能产品速递——人物动漫化能力上新】

VIAPI—人物动漫化!新增风格版本发布。 产品功能:人物动漫化——输入一张人物图像,生成其二次元卡通形象,返回卡通化后的结果图像。 🔥🔥🔥 本次更新风格:国风工笔画、港漫风

1525 3
来自: 人脸人体  版块
|
机器学习/深度学习 人工智能 自然语言处理
|
置顶

让梦境绘入现实--AIGC人像绘画

在光怪陆离的梦境中,我们可以摆脱客观事实的约束,对自己的外在形象进行天马行空的畅想,有人化身威风凛凛的将军驰骋疆场,又有人化身亭亭玉立的公主正襟危坐,然而这些翩若惊鸿婉若游龙的美好瞬间却总是会随着一声闹钟的响声化为泡影。难道梦境中的自己总是不能被带回到现实之中吗?AIGC技术的快速发展使得这一点成为可能。

725 2
置顶

多种模态控制的背景生成技术

在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。

493 1
|
编解码 物联网 开发者
|
置顶

FaceChain应用生态爆发?无限可能的人物应用等你加入探索!

在过去的不到一个月,FaceChain开源项目从无到有,成功突破了相关技术瓶颈,GitHub获得了超过4.6K star,为未来的应用发展奠定了坚实的基础。 本文将介绍我们已经实现的一些核心功能、,以及未来一些场景的设想。文章末尾,诚邀有意向有能力的开发者加入我们!

1478 2
来自: 人脸人体  版块
|
机器学习/深度学习 人工智能 达摩院
|
置顶

港大阿里“视觉AI任意门”,一键向场景中无缝传送物体

本文主要展示了阿里和港大的AI版「任意门」,实现零样本的图像嵌入。

1505 3
|
人工智能 自动驾驶 算法
|
置顶

本地生活技术雷达——生成式AI(Generative AI)在阿里本地生活的应用与思考

本地生活技术雷达是由本地生活技术中心战略管理&PMO团队开展的,定期扫描和评估新兴技术的战略研究工作。目的是对技术趋势进行前瞻性预判,提出新技术布局建议,在技术驱动业务创新和业务增长、践行社会责任等方面有一些实质性探索。 本篇尝试探讨 1)理解AI范式——从分析型(Analytical AI)到生成式(Generative AI)的拐点在2022年,其对人类社会以及商业模式的长期影响; 2)生成式AI(文生文、文生图、图生图等)在本地业务目前场景的应用和未来的方向。 欢迎技术、产品、运营、战略、管理层、国内国际等各种视角的指点和碰撞!

40116 8
|
机器学习/深度学习 人工智能 TensorFlow
|
置顶

新手该如何快速学习和应用LLM

新手该如何快速学习和应用LLM

655 0
|
存储 人工智能 算法
|
置顶

AI提效:基于手淘首页截图进行请求定位能力实现

AI提效:基于手淘首页截图进行请求定位能力实现

518 1
|
机器学习/深度学习 人工智能 自然语言处理
|
置顶

【OpenVI—AI热点日报】9月13日

AI热点日报隆重推出! 我们汇集了最新的AI热点信息、最新论文和观点,为您提供最前沿的AI领域资讯。 (往期链接请在子社区查看官方博文哦~)

333 0
|
机器学习/深度学习 编解码 算法
|
置顶

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

图像上色是老照片修复的一个关键步骤,本文介绍发表在 ICCV 2023 上的最新上色论文 DDColor

3971 11
来自: 视觉生产  版块
|
机器学习/深度学习 人工智能 达摩院
|
置顶

AIGC玩转卡通化技术实践

伴随着持续不断的AIGC浪潮,越来越多的AI生成玩法正在被广大爱好者定义和提出,图像卡通化(动漫化)基于其还原效果高,风格种类丰富等特点而备受青睐。早在几年前,伴随着GAN网络的兴起,卡通化就曾经风靡一时。而今,伴随着AIGC技术的兴起和不断发展,扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍达摩院开放视觉团队的卡通化技术实践。

57514 5
来自: 视觉生产  版块
|
机器学习/深度学习 人工智能 自然语言处理
|
置顶

ChatGPT最强专业学习资料集锦

本文旨在整理一份可供参考和学习的专业ChatGPT相关资料,包括ChatGPT相关论文、Github项目、以及当前市场上出现的ChatGPT相关产品等。

1354 5
|
人工智能 编解码 算法
|
置顶

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

传统视频目标检测(Video Object Detection, VOD)是离线(offline)的检测任务,即仅考虑算法的检测精度,未考虑算法的延时。流感知(Streaming Perception)任务作为VOD的一个细分方向,采用流平均精度(Streaming Average Precision, sAP)指标,衡量算法的在线(online)检测能力,即同时衡量算法的精度和延时。本文针对现有的流感知工作在训练方式和模型感受野两方面的不足,提出了DAMO-StreamNet,在保证算法实时性的前提下,实现了SOTA的性能。

1599 6
|
机器学习/深度学习 人工智能 编解码
|
置顶

AI人像特效之「一键生成N次元虚拟形象」

为了零成本低门槛地提供极致酷炫的人像玩法,我们提出了一套人像风格化通用框架「AI Maleonn」AI 版神笔马良,用于一键生成风格百变的人物虚拟形象,在风格上涵盖手绘、3D、日漫、艺术特效、铅笔画等多种风格,同时可以支持面向小样本的专属风格定制,利用少量目标风格图即可实现快速迁移拓展;在处理维度上,不仅适用于生成头部效果,更支持全图精细化纹理转换,兼容多人场景;在模型鲁棒性上,有效克服了多角度姿态、面部遮挡等各类复杂场景,整体稳定性大大提升。

2373 7
来自: 人脸人体  版块
|
机器学习/深度学习 编解码 算法
|
置顶

【视觉智能开放平台】出品智能修图技术—智能转档算法

RAW转档是专业级摄影后期修图的必备环节,旨在将拍摄的RAW图转化为细节丰富,色彩准确的JPG原片,方便修图师基于转档结果进行更为个性化和精细化的美化操作。由于对效果的精准要求和流程的把控需求,目前修图师主要利用专业软件进行人工转档操作。整个过程耗时又费力,极大降低了后期修图的交付效率。为了赋能修图师,提升他们的工作效率,本文提出了一种基于数据驱动,自动转档的技术方案,以实现人工RAW转档的替代。

1295 2
来自: 图像生产  版块

WordArt Designer:基于用户驱动与大语言模型的艺术字生成

本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。该系统包含四个关键模块:LLM引擎、SemTypo、Stlytypo和TextTypo模块。由gpt-3.5 turbo驱动的LLM引擎可以解释用户输入,从而将抽象概念转化为具体的设计。SemTypo模块使用语义概念优化字体设计,在艺术转换和可读性之间取得平衡。在SemTypo的基础上,StyTypo模块辅助生成精细的图像。TextTypo模块通过纹理渲染进一步生成创造性纹理字体。

43608 20
来自: 图像生产  版块
|
1天前
|
传感器 算法 机器人
|

医疗引导机器人技术架构解析:从感知算法到业务闭环

智慧医院建设推动医疗引导机器人迈向智能化,其核心技术涵盖多传感器融合导航、垂直领域大模型与RAG语义理解、主动视觉交互、跨楼层梯控及HIS系统深度集成。本文从技术架构出发,剖析环境感知、认知决策与系统协同的关键突破,揭示机器人如何成为连接物理空间与数字医疗的核心终端。

29 1
|
1天前
|
文字识别 自然语言处理 算法
|

智慧政务大厅的数字化转型:关键技术架构与终端解决方案评测

智慧政务大厅正迈向智能化,通过边缘计算、AI与物联网技术融合,构建“感知—认知—行动”闭环。依托大模型、OCR、生物识别等技术,实现语义理解、智能导办与设备协同,推动服务从“能办”到“好办、主动办”升级。

44 19
|
3天前
|
人工智能
|

# 用Prompt Engineering高效生成合规Amazon包类套图

利用Prompt Engineering,仅需1张实拍图+产品参数,即可高效生成符合Amazon美国站合规要求的包类套图。通过结构化提示词,明确主图、卖点、场景等6类图片职责,确保每张图精准传达信息,避免AI篡改产品细节,实现低成本、可复用、规模化出图,大幅提升上架效率。

32 0
来自: 图像生产  版块

用 Nano Banana Pro 批量生成城市天气视觉卡片

本文介绍如何用Nano Banana Pro批量生成统一风格的城市天气视觉卡片。通过结构化Prompt模版,固定视角、构图与尺寸(1080×1080),结合等距3D卡通风格,将北京、上海等城市的天气信息(晴/阴/雨/夜)转化为直观、稳定的视觉内容,适用于内容平台、城市账号或系统看板,实现高效复用与扩展。

29 0
来自: 图像生产  版块
|
6天前
|
前端开发 小程序 JavaScript
|

A2UI 规范与 AG-UI 协议:打造高效协同的界面开发体系

A2UI规范与AG-UI协议构建“设计-开发”协同闭环:前者统一视觉与交互标准,后者定义组件通信与跨平台适配,二者融合提升协作效率、保障体验一致,推动界面开发向标准化、可复用、高效能演进。

196 0
|
1月前
|
文字识别 算法 数据可视化
|

2025 年度机器视觉公司有哪些:从技术实力到落地案例的全方位选型参考

在智能制造背景下,机器视觉成为提质增效关键。本文发布2025年度机器视觉公司评估,从技术、场景、服务三大维度解析领先企业方案,聚焦苏州德创测控等代表,涵盖核心技术、落地案例与产教融合,为制造企业选型提供权威参考,助力智能升级。

146 0
|
1月前
|
机器学习/深度学习 传感器 人工智能
|

实力强劲的机器视觉公司有哪些:2025年TOP5精选榜单

科技迭代驱动工业升级,机器视觉成自动化核心。本文基于资质、技术与口碑,精选TOP5机器视觉公司:德创测控、海康威视、康耐视、基恩士、大华华睿,覆盖全链条方案,助力企业降本增效、智能转型。

374 0
|
1月前
|
人工智能 自然语言处理 安全
|

程序员都在偷偷用的AI编程神器!2025高效自动写代码工具全解析

AI编程革命正悄然兴起。李响团队调研显示,AI助手大幅提升开发效率,GitHub Copilot、CodeWhisperer、Tabnine各具优势,而新兴的Lynx AI更以自然语言生成全栈应用,零门槛、多端适配,助力开发者从重复劳动中解放,专注创新。

1165 3
来自: 内容审核  版块
|
1月前
|
人工智能 缓存 编解码
|

FFmpeg 官方汇编课程:写出快 5 倍的视频处理代码

FFmpeg官方开源汇编教程asm-lessons,手把手教你用SIMD指令优化音视频处理性能。从工具链到实战案例,掌握工业级高性能代码编写,提升程序效率数倍,适合C语言开发者进阶学习。

193 10
来自: 视频分割  版块
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AI内容创作Agent架构解析:基于移动端原生框架的内容特工队AI (ReelsAgent)与传统短视频工具的技术差异

传统的AI视频工具链往往基于单点功能堆栈或PC/Web端的SaaS架构,难以承载短视频营销所需的高频、高并发、全流程自动化需求。本文将从AI Agent系统架构角度,对比内容特工队AI (ReelsAgent)的移动端原生设计与现有主流工具的实现路径,以评估其在工程实践中的优劣。

302 7
|
1月前
|
传感器 人工智能 边缘计算
|

机器视觉公司有哪些:国产平台德创引领产教融合

本文整合苏州德创、基恩士、康耐视、奥普特、研华科技五家机器视觉公司,涵盖资质、产品、产教融合优势,提供选型参考,助力院校实现教学与产业需求精准对接。

173 0
|
1月前
|
人工智能 运维 算法
|

机器视觉公司有哪些:德创测控引领,产教融合优选指南​

本文依据权威报告,结合产教适配度、技术成熟度与服务保障力,推荐苏州德创、海康机器人、凌云光、大恒图像、华数机器人五家机器视觉公司,助力用户科学决策。

204 0
|
1月前
|
机器学习/深度学习 算法 机器人
|

机器视觉软件平台哪个好:2025领衔的选型指南

本文基于权威报告,对比苏州德创、康耐视、凌云光、海康机器人、基恩士五大机器视觉软件平台,从算法能力、易用性、兼容性及教学工业适配性等维度分析,为选型提供可溯源依据。德创VisionPlus国产全栈适配,教学与工业双优。附选购指南,助力精准决策。

489 0
|
2月前
|
机器学习/深度学习 文字识别 Shell
|

高效率办公PDF批量处理:批量OCR识别PDF区域文字内容,用PDF内容批量改名或导出表格的货物运单应用案例

针对铁路货运物流单存档需求,本项目基于WPF与飞桨OCR技术,实现批量图片多区域文字识别与自动重命名。用户可自定义识别区域,系统提取关键信息(如车号、批次号)并生成规范文件名,提升档案管理效率与检索准确性,支持PDF及图像文件处理。

424 0
来自: 文字识别  版块
|
3月前
|
机器学习/深度学习 PyTorch 算法框架/工具
|

pytorch基于AnimeFace128数据集训练DCGAN

基于AnimeFace128数据集,使用PyTorch构建DCGAN生成动漫人脸。包含生成器与判别器网络设计、数据加载及训练流程,通过对抗学习生成64×64清晰图像。

218 0
|
3月前
|
机器学习/深度学习 编解码 Python
|

Python图片上采样工具 - RealESRGANer

Real-ESRGAN基于深度学习实现图像超分辨率放大,有效改善传统PIL缩放的模糊问题。支持多种模型版本,推荐使用魔搭社区提供的预训练模型,适用于将小图高质量放大至大图,放大倍率越低效果越佳。

318 3
|
3月前
|
人工智能 数据可视化 前端开发
|

AI Ping:精准可靠的大模型服务性能评测平台

AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。

832 3
|
4月前
|

OBS美颜美肌插件安装使用教程

软件是不自带美颜插件的,可以安装OBS-Studio-29.1.3安装包,就自带美颜功能的插件。在OBS软件【插件中心】菜单下,打开【打开插件中心】,安装美颜摄像头注册即可。在OBS软件【停靠窗口】菜单下,打开【美颜参数控制面板】的美颜窗口。插件里面有自带教程,可以自行学习。

731 2
|
5月前
|
机器学习/深度学习 算法 定位技术
|

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现裂缝的检测识别(C#代码UI界面版)

本项目基于YOLOv8模型与C#界面,结合Baumer工业相机,实现裂缝的高效检测识别。支持图像、视频及摄像头输入,具备高精度与实时性,适用于桥梁、路面、隧道等多种工业场景。

688 27
|
5月前
|
机器学习/深度学习 缓存 文字识别
|

【繁体图片文字识别】竖排的繁体图片文字识别翻译,竖排的繁体图片文字如何识别,竖排繁体图片识别后转横排,竖排的繁体识别比较友好的方法

竖排繁体文字识别系统适用于古籍数字化、港澳台文档、书法作品、历史档案及学术研究等场景,支持图像预处理、自动旋转、OCR识别、竖转横与繁转简。通过咕嘎OCR与OpenCC技术,实现高效精准的文字转换与编辑。

695 0
来自: 文字识别  版块
|
5月前
|
机器学习/深度学习 人工智能 编解码
|

AI视觉新突破:多角度理解3D世界的算法原理全解析

多视角条件扩散算法通过多张图片输入生成高质量3D模型,克服了单图建模背面细节缺失的问题。该技术模拟人类多角度观察方式,结合跨视图注意力机制与一致性损失优化,大幅提升几何精度与纹理保真度,成为AI 3D生成的重要突破。

545 0
|
5月前
|
C#
|

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件,PDF自动提取内容命名的方案和详细步骤

本工具可批量提取PDF中的合同编号、日期、发票号等关键信息,支持PDF自定义区域提取并自动重命名文件,适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现,提供完整代码示例与百度、腾讯网盘下载链接,助力高效处理PDF文档。

765 40
来自: 文字识别  版块
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

TsingtaoAI具身智能机器人开发套件及实训方案

该产品套件创新性地融合了先进大模型技术、深度相机与多轴协作机械臂技术,构建了一个功能强大、灵活易用的人机协作解决方案。其核心在于将智能决策、精准感知与高效执行完美结合,为高校实训领域的发展注入新动力。

829 10
|
7月前
|
API Python
|

利用openvino模型推理图片

本文介绍了如何使用 OpenVINO 格式模型文件对图片进行推理。通过将训练好的模型转换为 OpenVINO 格式,可实现跨设备部署。文中详细展示了利用 Python 和 OpenVINO API 完成模型加载、编译及推理的步骤。核心代码包括初始化 OpenVINO 模型、设置预测参数(如置信度和 IoU 阈值)以及对图片进行检测并显示结果。注意:OpenVINO 模型文件需完整存放于同一目录下,路径需正确配置,参数可根据模型性能调整。

493 64
来自: 图像理解  版块
|
7月前
|
机器学习/深度学习 人工智能 算法
|

智创 AI 新视界 -- 提升 AI 推理速度的高级方法(16 - 2)

本文深度聚焦提升 AI 推理速度,全面阐述模型压缩(低秩分解、参数量化)、硬件加速(GPU、TPU)及推理算法优化(剪枝感知推理、动态批处理)。结合图像识别等多领域案例与丰富代码示例,以生动形象且专业严谨的方式,为 AI 从业者提供极具价值的技术指南,助力突破 AI 推理速度瓶颈,实现系统性能跃升。

649 73
|
7月前
|
数据采集 存储 人工智能
|

智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧(16 - 1)

本文深度聚焦 AI 模型训练效率优化,全面涵盖数据预处理(清洗、归一化、增强)、模型架构(轻量级应用、剪枝与量化)、训练算法与超参数调优(自适应学习率、优化算法)等核心维度。结合自动驾驶、动物图像识别、语音识别等多领域实际案例,佐以丰富且详细的代码示例,深度剖析技术原理与应用技巧,为 AI 从业者呈上极具专业性、可操作性与参考价值的技术宝典,助力高效优化模型训练效率与性能提升。

961 73
|
8月前
|

TeaScript数值书写规则

本内容介绍了数值的多种表示形式,包括十进制整数(如`14123`)、十六进制整数(如`0xFF`)、八进制整数(如`012`)以及实数(如`1.23`)。十进制和实数可带正负号,实数含小数点,支持科学计数法(如`1.23e3`)。十六进制以`0x`开头,八进制以`0`开头,各有对应数字范围。

325 71
|
8月前
|
IDE 开发工具
|

TeaScript IDE集成开发环境

TeaScriptIDE 是一款功能丰富的集成开发环境,包含代码编辑器(语法着色提升可读性)、调试器(显示运行结果)、内置函数帮助文档、打包功能(生成单个可执行文件)以及保存/恢复最近文件的功能。其界面由菜单栏、工具栏、多标签页编辑窗口、控制台输出窗口和状态栏组成,支持快速命令调用、程序运行结果显示及错误信息提示。退出时会自动保存状态,下次启动可继续编辑上次打开的文件。

218 15
|
8月前
|

TVM虚拟机应用实例

TVM虚拟机应用实例

201 5
来自: 图像生产  版块
|
8月前
|
机器学习/深度学习 人工智能 算法
|

快瞳犬种识别效果图示,120种狗品种精准覆盖

犬种识别技术已从实验室走向大众,基于深度学习的卷积神经网络(CNN)和YOLO系列算法,可高效实现犬种分类与目标检测。本文介绍了快瞳犬种识别的技术原理、训练代码及应用场景,包括宠物管理、遗传疾病研究、公共安全、城市管理及遗失宠物寻找等。通过Python代码加载YOLOv8模型并进行训练,模型能在图像中标注犬种及其边界框,为智慧生活提供技术支持。

744 33
|
9月前
|
算法 编译器 C++
|

C++20之2025年上桌我坐哪里?

C++20是C++语言的一次重大更新,引入了模块、协程、概念、范围等革命性特性。相比老版本,它显著提高了开发效率、增强了代码可读性和可维护性,并通过优化编译和运行性能提升了整体表现。这些改进推动了现代C++编程范式的发展,帮助开发者应对复杂软件工程挑战。文章回顾了C++发展历程,详细分析了C++20的新特性及其优势,展望了其未来潜力。

381 1
|
9月前
|
编解码 监控 安全
|

JT1078和GB28181差别在哪里?

JT1078和GB28181分别是针对车载监控和公共安全监控设计的标准协议。JT1078专注于车载视频监控,适用于物流与交通场景,强调实时传输、编解码支持及无线环境下的数据安全性;而GB28181侧重于大规模公共安全监控,覆盖城市安防等领域,支持多协议交互与级联方案。两者在技术上有交集,需通过中间件实现互联互通,各有独特优势以满足不同需求。

521 8
|
9月前
|
存储 编解码 监控
|

Android平台GB28181执法记录仪技术方案与实现

本文介绍了大牛直播SDK的SmartGBD在执法记录仪场景中的应用。GB28181协议作为视频监控联网的国家标准,为设备互联互通提供规范。SmartGBD专为Android平台设计,支持音视频采集、编码与传输,具备自适应算法和多功能扩展优势。文章分析了执法记录仪的需求,如实时音视频传输、设备管理及数据安全,并详细阐述了基于SmartGBD的技术实现方案,包括环境准备、SDK集成、设备注册、音视频处理及功能扩展等步骤。最后展望了SmartGBD在未来智慧物联领域的广阔应用前景。

561 13
|
9月前
|
编解码 监控 开发工具
|

H.264语法结构分析之frame_cropping_flag

本文深入探讨了H.264标准中的`frame_cropping_flag`,一个常被提及却易被误解的概念。该标志用于指示解码后图像是否需裁剪,通过四个裁剪偏移量参数调整分辨率。文章分析了其在视频转码、流处理及编辑中的应用,并讨论对视频质量的影响,如内容完整性、分辨率调整和传输效率。合理设置此参数可优化视频适配与播放体验,但需注意兼容性问题。最后强调,理解音视频协议框架对开发高质量播放器至关重要。

245 9

视觉智能

为开发者提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术应用能力的综合性视觉AI能力平台。适用于数字营销、互联网娱乐、安防、手机应用、泛金融身份认证等行业。

0
今日
12884
内容
3
活动
816
关注
你好!
登录掌握更多精彩内容

相关产品

  • 视觉智能开放平台