|
机器学习/深度学习 人工智能 算法
|
置顶

【视觉智能产品速递——人物动漫化能力上新】

VIAPI—人物动漫化!新增风格版本发布。 产品功能:人物动漫化——输入一张人物图像,生成其二次元卡通形象,返回卡通化后的结果图像。 🔥🔥🔥 本次更新风格:国风工笔画、港漫风

1794 4
来自: 人脸人体  版块
|
机器学习/深度学习 人工智能 自然语言处理
|
置顶

让梦境绘入现实--AIGC人像绘画

在光怪陆离的梦境中,我们可以摆脱客观事实的约束,对自己的外在形象进行天马行空的畅想,有人化身威风凛凛的将军驰骋疆场,又有人化身亭亭玉立的公主正襟危坐,然而这些翩若惊鸿婉若游龙的美好瞬间却总是会随着一声闹钟的响声化为泡影。难道梦境中的自己总是不能被带回到现实之中吗?AIGC技术的快速发展使得这一点成为可能。

833 2
置顶

多种模态控制的背景生成技术

在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。

580 1
|
编解码 物联网 开发者
|
置顶

FaceChain应用生态爆发?无限可能的人物应用等你加入探索!

在过去的不到一个月,FaceChain开源项目从无到有,成功突破了相关技术瓶颈,GitHub获得了超过4.6K star,为未来的应用发展奠定了坚实的基础。 本文将介绍我们已经实现的一些核心功能、,以及未来一些场景的设想。文章末尾,诚邀有意向有能力的开发者加入我们!

1555 2
来自: 人脸人体  版块
|
机器学习/深度学习 人工智能 达摩院
|
置顶

港大阿里“视觉AI任意门”,一键向场景中无缝传送物体

本文主要展示了阿里和港大的AI版「任意门」,实现零样本的图像嵌入。

1674 3
|
人工智能 自动驾驶 算法
|
置顶

本地生活技术雷达——生成式AI(Generative AI)在阿里本地生活的应用与思考

本地生活技术雷达是由本地生活技术中心战略管理&PMO团队开展的,定期扫描和评估新兴技术的战略研究工作。目的是对技术趋势进行前瞻性预判,提出新技术布局建议,在技术驱动业务创新和业务增长、践行社会责任等方面有一些实质性探索。 本篇尝试探讨 1)理解AI范式——从分析型(Analytical AI)到生成式(Generative AI)的拐点在2022年,其对人类社会以及商业模式的长期影响; 2)生成式AI(文生文、文生图、图生图等)在本地业务目前场景的应用和未来的方向。 欢迎技术、产品、运营、战略、管理层、国内国际等各种视角的指点和碰撞!

40269 8
|
机器学习/深度学习 人工智能 TensorFlow
|
置顶

新手该如何快速学习和应用LLM

新手该如何快速学习和应用LLM

744 0
|
存储 人工智能 算法
|
置顶

AI提效:基于手淘首页截图进行请求定位能力实现

AI提效:基于手淘首页截图进行请求定位能力实现

578 1
|
机器学习/深度学习 人工智能 自然语言处理
|
置顶

【OpenVI—AI热点日报】9月13日

AI热点日报隆重推出! 我们汇集了最新的AI热点信息、最新论文和观点,为您提供最前沿的AI领域资讯。 (往期链接请在子社区查看官方博文哦~)

376 0
|
机器学习/深度学习 编解码 算法
|
置顶

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

图像上色是老照片修复的一个关键步骤,本文介绍发表在 ICCV 2023 上的最新上色论文 DDColor

4288 11
来自: 视觉生产  版块
|
机器学习/深度学习 人工智能 达摩院
|
置顶

AIGC玩转卡通化技术实践

伴随着持续不断的AIGC浪潮,越来越多的AI生成玩法正在被广大爱好者定义和提出,图像卡通化(动漫化)基于其还原效果高,风格种类丰富等特点而备受青睐。早在几年前,伴随着GAN网络的兴起,卡通化就曾经风靡一时。而今,伴随着AIGC技术的兴起和不断发展,扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍达摩院开放视觉团队的卡通化技术实践。

57679 5
来自: 视觉生产  版块
|
机器学习/深度学习 人工智能 自然语言处理
|
置顶

ChatGPT最强专业学习资料集锦

本文旨在整理一份可供参考和学习的专业ChatGPT相关资料,包括ChatGPT相关论文、Github项目、以及当前市场上出现的ChatGPT相关产品等。

1450 5
|
人工智能 编解码 算法
|
置顶

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

传统视频目标检测(Video Object Detection, VOD)是离线(offline)的检测任务,即仅考虑算法的检测精度,未考虑算法的延时。流感知(Streaming Perception)任务作为VOD的一个细分方向,采用流平均精度(Streaming Average Precision, sAP)指标,衡量算法的在线(online)检测能力,即同时衡量算法的精度和延时。本文针对现有的流感知工作在训练方式和模型感受野两方面的不足,提出了DAMO-StreamNet,在保证算法实时性的前提下,实现了SOTA的性能。

1780 6
|
机器学习/深度学习 人工智能 编解码
|
置顶

AI人像特效之「一键生成N次元虚拟形象」

为了零成本低门槛地提供极致酷炫的人像玩法,我们提出了一套人像风格化通用框架「AI Maleonn」AI 版神笔马良,用于一键生成风格百变的人物虚拟形象,在风格上涵盖手绘、3D、日漫、艺术特效、铅笔画等多种风格,同时可以支持面向小样本的专属风格定制,利用少量目标风格图即可实现快速迁移拓展;在处理维度上,不仅适用于生成头部效果,更支持全图精细化纹理转换,兼容多人场景;在模型鲁棒性上,有效克服了多角度姿态、面部遮挡等各类复杂场景,整体稳定性大大提升。

2693 7
来自: 人脸人体  版块
|
机器学习/深度学习 编解码 算法
|
置顶

【视觉智能开放平台】出品智能修图技术—智能转档算法

RAW转档是专业级摄影后期修图的必备环节,旨在将拍摄的RAW图转化为细节丰富,色彩准确的JPG原片,方便修图师基于转档结果进行更为个性化和精细化的美化操作。由于对效果的精准要求和流程的把控需求,目前修图师主要利用专业软件进行人工转档操作。整个过程耗时又费力,极大降低了后期修图的交付效率。为了赋能修图师,提升他们的工作效率,本文提出了一种基于数据驱动,自动转档的技术方案,以实现人工RAW转档的替代。

1498 2
来自: 图像生产  版块

WordArt Designer:基于用户驱动与大语言模型的艺术字生成

本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。该系统包含四个关键模块:LLM引擎、SemTypo、Stlytypo和TextTypo模块。由gpt-3.5 turbo驱动的LLM引擎可以解释用户输入,从而将抽象概念转化为具体的设计。SemTypo模块使用语义概念优化字体设计,在艺术转换和可读性之间取得平衡。在SemTypo的基础上,StyTypo模块辅助生成精细的图像。TextTypo模块通过纹理渲染进一步生成创造性纹理字体。

43704 20
来自: 图像生产  版块
|
1天前
|
人工智能 运维 安全
|

基于端侧 AI 与云边协同的电力智能巡检解决方案实践

电力巡检面临人工依赖高、效率低、安全风险大、数据难闭环等痛点。本方案基于云-边-端协同架构,融合端侧轻量化AI、多模态感知与弱网适配技术,打造工业级AR智能安全帽,实现变电站、输电线路等场景的智能识别、实时预警、全程追溯与安全管控,助力电网数字化升级。

39 0
|
2天前
|
机器学习/深度学习 存储 人工智能
|

AI解说大师Agent Skill详解:如何让智能体具备自主任务规划能力?

本文深度解析AI Agent“技能(Skill)”的本质,破除“仅封装CLI/API”的误区,揭示真正核心是任务规划能力——让AI像项目经理一样理解意图、拆解任务、自主决策、传递数据、容错恢复。以“AI解说大师”为例,详解原创/二创双路径规划、数据流依赖管理与Markdown结构化Skill设计,推动Agent从执行者跃升为“懂思考的协作者”。

60 0
|
7天前
|
芯片 内存技术
|

电路设计调试:那些书本上没写,但实际中常踩的坑

本文揭秘硬件设计中高频踩坑点:从电阻电容选型失当、电源啸叫与冲击、时序偏差、信号反射串扰,到EMC防护失效及高低温失效机理。强调“基础不牢,地动山摇”,提醒工程师重视元器件参数、阻抗匹配、回流路径等细节,少走弯路。(239字)

52 0
|
8天前
|
芯片
|

辐射超标、静电复位等等这些EMC问题背后藏着什么?

本文结合典型工程案例,系统解析EMC设计四大关键环节:结构屏蔽与接地(如悬空金属、散热器接地)、电缆与接口防护(如Pigtail问题、ESD保护)、滤波设计(如滤波器安装、TVS选型)及PCB布局(地平面完整性、滤波电容 placement)。强调EMC需前置设计,而非事后整改。(239字)

57 0
|
8天前
|
传感器 算法 安全
|

AR 眼镜多模态融合:视觉、语音与 IMU 的端侧协同实践

本文介绍AR眼镜端侧多模态融合方案,通过视觉、语音与IMU协同,解决工业场景中强光、噪声、漂移等挑战;采用硬件触发同步、动态加权融合与INT8量化优化,实现≤15ms低延时、91%高识别率及22%功耗降低,已在五矿盐湖项目落地验证。

89 0
|
8天前
|
传感器 人工智能 监控
|

协作机器人和工业机器人的区别

协作机器人(Cobot)是专为人机协同设计的工业机器人分支,以安全、灵活、易用为核心,通过力控感知、速度监控与ISO/TS 15066认证实现无围栏共作;支持拖拽示教、快速换型,部署快、成本低、ROI短(6–18个月),适用于打磨、柔性装配、医疗辅助等非标场景。(239字)

113 1
|
15天前
|
人工智能 算法 vr&ar
|

边缘AI算法在工业AR眼镜中的部署实践:从模型轻量化到端侧推理

本文分享AR眼镜端侧AI部署实践:针对工业无网/弱网、毫秒级响应需求,通过知识蒸馏+INT8量化+剪枝将模型压缩至<10MB;选用MNN引擎优化推理,实测仪表OCR(38ms/99.2%)、缺陷检测(42ms/98.7%)等任务均满足实时性与精度要求。

249 1
|
15天前
|
编解码 文字识别 安全
|

AutoGod:安卓5-16全兼容!一站式自动化框架,开发效率直接拉满

Auto-God是一站式安卓自动化框架,兼容Android 5–16,覆盖手势、视觉(OCR/YOLO)、网络、UI(Material3悬浮界面)、拓展及安全(防HOOK/抓包/破解)全能力,开箱即用,真机/模拟器/云手机全支持,让自动化开发更简单、高效、安全。

178 1
|
21天前
|
人工智能 运维 安全
|

解放双手,透视数据:AR+AI技术正在如何解决 新能源储能行业的老大难问题

在新能源储能工厂,AR+AI智能眼镜正革新传统巡检:设备信息“长”在眼前,AI自动识读仪表、预警异常,远程专家实时指导。它不替代人,而是赋能一线——让巡检更准、更快、更安全。

104 1
来自: 图像搜索  版块
|
24天前
|
机器学习/深度学习 人工智能 编解码
|

视频字幕擦除与动态修复技术深度解析:从开源算法基准到高并发SaaS架构的演进

本报告深度解析视频硬字幕擦除与修复技术演进,涵盖光流传播、时空Transformer(如ProPainter)及扩散模型等前沿算法;对比开源工具、桌面软件与SaaS云平台,指出云端原生架构在算力解耦、热更新、高并发与易用性上的断代优势,为工业落地提供权威指南。

254 0
|
25天前
|
机器学习/深度学习 编解码 算法
|

SPMamba-YOLO:多尺度增强+全局建模,水下目标检测精度飙升4.9%!

本文提出SPMamba-YOLO水下目标检测模型:创新融合SPPELAN(增强多尺度特征与感受野)、PSA注意力(抑制背景、提升小目标判别)及Mamba状态空间模块(建模长程依赖),在URPC2022上mAP@0.5达82.5%,超越YOLOv8n 4.9%。

239 2
|
30天前
|
Cloud Native 算法 测试技术
|

基于云原生架构的 AIGC 视频后处理实践:应对扩散模型纹理挑战

随着 AIGC 视频生成规模化应用,视频后处理能力逐渐成为系统吞吐与质量保障的关键环节。本文结合实际工程实践,分析扩散模型生成视频在高频纹理与时间一致性方面的挑战,并探讨基于云原生架构的 GPU 化后处理方案。通过引入生成式重构与弹性算力调度,实现视频修复性能与吞吐能力的显著提升。

110 1
来自: 分割抠图  版块
|
1月前
|
机器学习/深度学习 人工智能 文字识别
|

视频后期黑科技:深度拆解开源 VSR 架构与视频 Inpainting 实践全指南

本文深度解析视频补全(Video Inpainting)前沿技术,聚焦硬字幕去除工具VSR的底层架构(OCR定位、时序传播、光流对齐)、本地部署要点(CUDA环境、显存优化)及云端方案(550W AI扩散模型),对比二者在隐私、效率与画质上的差异,助力开发者科学选型。(239字)

135 4
|
2月前
|
人工智能 JSON 算法
|

AI Glasses识别百变脸谱

本项目提出“AI脸谱眼镜”方案:通过端云协同架构,结合人脸检测、EasyDL脸谱识别、戏曲百科与AR投射技术,让观众佩戴眼镜即可实时获取京剧角色名、性格、行当等信息。卡片投射于视野下方,不遮挡表演,专为戏迷、游客及学生设计,助力传统文化沉浸式普及。(239字)

186 6
|
2月前
|
传感器 人工智能 Java
|

当AI Glasses走进小吃街,实现美食百科

这是一款面向吃货的AI眼镜系统,融合图像识别、美食百科与AR投射技术。用户扫视小吃,即刻获取名称、热量、辣度、成分及推荐指数等信息,端云协同实现500ms内响应。支持健康色标(绿/黄/红)、动态百科更新与场景化提示,让逛吃更聪明、更安心。(239字)

102 2
|
2月前
|
机器学习/深度学习 人工智能 编解码
|

AI视频去字幕技术完全指南:原理、方法与工具对比(2026版)

本文深度解析AI视频去字幕技术,涵盖原理(OCR检测+GAN修复+时序一致性)、主流工具横评、分步实操教程及短视频、教育、影视等六大行业应用。适合创作者、自媒体人与技术爱好者,20分钟掌握高效去字幕方法。

877 0
|
2月前
|
算法 IDE vr&ar
|

【征文计划】使用Rokid与Unity开发背单词软件

你是否也有这样的时刻:打开手机准备背单词,却被弹出的通知带走了注意力,五分钟后又开始在刷短视频。 我们总想利用通勤和排队的碎片时间,但始终无法逃离手机这个时间黑洞,直到我开始佩戴Rokid AR眼镜,看着眼前空旷的视野,我突然有了一个想法。为何不开发一款极简背单词软件?

188 2
|
2月前
|
JSON 人工智能 API
|

【ComfyUI API 自动化利器:comfyui_xy Python 库使用详解】

`comfyui_xy` 是一个轻量级 Python 客户端库,封装 ComfyUI API,支持一键上传图片/遮罩、动态修改工作流、自动排队执行与结果下载(图/视/音频)。安装即用,无需处理底层 HTTP/WebSocket 细节,助力 AIGC 自动化开发。开源免费,PyPI 可装。

1105 128
|
3月前
|
人工智能 前端开发 数据安全/隐私保护
|

【编号2571】AI 文生图 & 图生图工具开发与应用经验:高效解决批量图文生成痛点

AI 文生图工具,AI 图生图工具,Python AI 图文生成,批量生成无水印图片,Selenium 浏览器自动化,TKinter 界面开发,AI 生成图片去水印,批量图生图参数配置,参考图批量生成,AI 图文生成错误恢复

309 12
来自: 图像生产  版块
|
3月前
|
机器学习/深度学习 传感器 人工智能
|

构建AI智能体:九十五、YOLO视觉大模型入门指南:从零开始掌握目标检测

本文介绍了视觉大模型及YOLO目标检测技术,重点讲解YOLOv8在CPU上的部署与应用。涵盖模型选择、图像检测、实时摄像头识别及性能优化,适合初学者快速上手。

471 2
|
4月前
|
前端开发 安全 Java
|

自定义认证前端页面

本示例演示Spring Security基础配置:前端引入登录页,后端新增接口与安全配置。通过SecurityConfig实现请求认证、表单登录、自定义跳转等,启动后访问/demo/index自动跳转登录页,认证成功返回提示信息,完成权限控制验证。

120 1
|
4月前
|
传感器 算法 机器人
|

医疗引导机器人技术架构解析:决定品牌竞争力的核心要素

智慧医院建设推动医疗引导机器人迈向智能化,其核心技术涵盖多传感器融合导航、垂直领域大模型与RAG语义理解、主动视觉交互、跨楼层梯控及HIS系统深度集成。本文从技术架构出发,剖析环境感知、认知决策与系统协同的关键突破,揭示机器人如何成为连接物理空间与数字医疗的核心终端。

247 2
|
4月前
|
文字识别 自然语言处理 算法
|

智慧政务大厅的数字化转型:关键技术架构与终端解决方案评测

智慧政务大厅正迈向智能化,通过边缘计算、AI与物联网技术融合,构建“感知—认知—行动”闭环。依托大模型、OCR、生物识别等技术,实现语义理解、智能导办与设备协同,推动服务从“能办”到“好办、主动办”升级。

314 20
|
4月前
|
人工智能
|

# 用Prompt Engineering高效生成合规Amazon包类套图

利用Prompt Engineering,仅需1张实拍图+产品参数,即可高效生成符合Amazon美国站合规要求的包类套图。通过结构化提示词,明确主图、卖点、场景等6类图片职责,确保每张图精准传达信息,避免AI篡改产品细节,实现低成本、可复用、规模化出图,大幅提升上架效率。

338 1
来自: 图像生产  版块

用 Nano Banana Pro 批量生成城市天气视觉卡片

本文介绍如何用Nano Banana Pro批量生成统一风格的城市天气视觉卡片。通过结构化Prompt模版,固定视角、构图与尺寸(1080×1080),结合等距3D卡通风格,将北京、上海等城市的天气信息(晴/阴/雨/夜)转化为直观、稳定的视觉内容,适用于内容平台、城市账号或系统看板,实现高效复用与扩展。

375 0
来自: 图像生产  版块
|
4月前
|
前端开发 小程序 JavaScript
|

A2UI 规范与 AG-UI 协议:打造高效协同的界面开发体系

A2UI规范与AG-UI协议构建“设计-开发”协同闭环:前者统一视觉与交互标准,后者定义组件通信与跨平台适配,二者融合提升协作效率、保障体验一致,推动界面开发向标准化、可复用、高效能演进。

2213 0
|
5月前
|
文字识别 算法 数据可视化
|

2025 年度机器视觉公司有哪些:从技术实力到落地案例的全方位选型参考

在智能制造背景下,机器视觉成为提质增效关键。本文发布2025年度机器视觉公司评估,从技术、场景、服务三大维度解析领先企业方案,聚焦苏州德创测控等代表,涵盖核心技术、落地案例与产教融合,为制造企业选型提供权威参考,助力智能升级。

283 0
|
5月前
|
机器学习/深度学习 传感器 人工智能
|

实力强劲的机器视觉公司有哪些:2025年TOP5精选榜单

科技迭代驱动工业升级,机器视觉成自动化核心。本文基于资质、技术与口碑,精选TOP5机器视觉公司:德创测控、海康威视、康耐视、基恩士、大华华睿,覆盖全链条方案,助力企业降本增效、智能转型。

735 0
|
5月前
|
人工智能 自然语言处理 安全
|

程序员都在偷偷用的AI编程神器!2025高效自动写代码工具全解析

AI编程革命正悄然兴起。李响团队调研显示,AI助手大幅提升开发效率,GitHub Copilot、CodeWhisperer、Tabnine各具优势,而新兴的Lynx AI更以自然语言生成全栈应用,零门槛、多端适配,助力开发者从重复劳动中解放,专注创新。

4364 3
来自: 内容审核  版块
|
5月前
|
人工智能 缓存 编解码
|

FFmpeg 官方汇编课程:写出快 5 倍的视频处理代码

FFmpeg官方开源汇编教程asm-lessons,手把手教你用SIMD指令优化音视频处理性能。从工具链到实战案例,掌握工业级高性能代码编写,提升程序效率数倍,适合C语言开发者进阶学习。

336 10
来自: 视频分割  版块
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AI内容创作Agent架构解析:基于移动端原生框架的内容特工队AI (ReelsAgent)与传统短视频工具的技术差异

传统的AI视频工具链往往基于单点功能堆栈或PC/Web端的SaaS架构,难以承载短视频营销所需的高频、高并发、全流程自动化需求。本文将从AI Agent系统架构角度,对比内容特工队AI (ReelsAgent)的移动端原生设计与现有主流工具的实现路径,以评估其在工程实践中的优劣。

626 7
|
5月前
|
传感器 人工智能 边缘计算
|

机器视觉公司有哪些:国产平台德创引领产教融合

本文整合苏州德创、基恩士、康耐视、奥普特、研华科技五家机器视觉公司,涵盖资质、产品、产教融合优势,提供选型参考,助力院校实现教学与产业需求精准对接。

332 0
|
5月前
|
人工智能 运维 算法
|

机器视觉公司有哪些:德创测控引领,产教融合优选指南​

本文依据权威报告,结合产教适配度、技术成熟度与服务保障力,推荐苏州德创、海康机器人、凌云光、大恒图像、华数机器人五家机器视觉公司,助力用户科学决策。

378 0
|
5月前
|
机器学习/深度学习 算法 机器人
|

机器视觉软件平台哪个好:2025领衔的选型指南

本文基于权威报告,对比苏州德创、康耐视、凌云光、海康机器人、基恩士五大机器视觉软件平台,从算法能力、易用性、兼容性及教学工业适配性等维度分析,为选型提供可溯源依据。德创VisionPlus国产全栈适配,教学与工业双优。附选购指南,助力精准决策。

1043 0

视觉智能

为开发者提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术应用能力的综合性视觉AI能力平台。适用于数字营销、互联网娱乐、安防、手机应用、泛金融身份认证等行业。

0
今日
12906
内容
3
活动
852
关注
你好!
登录掌握更多精彩内容

相关产品

  • 视觉智能开放平台