Dify 接入通义万象指南

简介: Dify Pipeline集成通义万象, 实现自动化图像生成流程,包含基础流程和完整代码实现。

1. 模型信息概述

1.1 模型介绍

模型名称: wanx-v1

模型特点:

  • 具备中英文双语处理能力,适用于多语言场景。
  • 支持多种图像生成风格,涵盖写实、卡通、素描等。
  • 可接受输入参考图片,进行内容及风格迁移,以增强生成图像的多样性与一致性。

1.2 计费与使用限制

模型名称 免费额度 计费标准 任务下发 QPS 限制 并行任务数
wanx-v1 500 张(180 天有效) 0.16 元/张 - -

2. API 交互流程

2.1 任务创建

curl -X POST <https://dashscope.aliyuncs.com/api/v1/services/aigc/text2image/image-synthesis> \\
    -H 'X-DashScope-Async: enable' \\
    -H "Authorization: Bearer $DASHSCOPE_API_KEY" \\
    -H 'Content-Type: application/json' \\
    -d '{
    "model": "wanx-v1",
    "input": {
        "prompt": "猫, 简笔画, 黑白色"
    },
    "parameters": {
        "style": "<auto>",
        "size": "1024*1024",
        "n": 1
    }
}'

示例响应

{
   
    "output": {
   
        "task_status": "PENDING",
        "task_id": "441d3aa7-86f1-4271-815e-bd077d90fe0b"
    },
    "request_id": "3c77444d-2413-9a82-96f7-1271c3aa327e"
}

2.2 任务结果查询

curl -X GET \\
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \\
<https://dashscope.aliyuncs.com/api/v1/tasks/{
   task_id}>

示例响应

{
   
    "output": {
   
        "task_status": "SUCCEEDED",
        "results": [
            {
   "url": "<https://example.com/generated_image.png>"}
        ]
    }
}

3. Dify Pipeline 集成方案

3.1 方案一(基础流程)

  1. 发送 HTTP 请求创建任务,并获取 task_id
  2. 代码提取 task_id
  3. 采用 sleep 机制等待任务完成。
  4. 发送 HTTP 请求获取任务结果。
  5. 提取 url 并转换为 Markdown 格式。
  6. 结束流程。
    image.png

3.2 方案二(完整代码实现)

import time
import requests

def generate_image(prompt: str, api_key: str) -> dict:
    """
    发送文本生成图像请求,并轮询任务状态以获取最终结果。

    参数:
        prompt: str - 图像描述,如 "猫, 简笔画, 黑白色"
        api_key: str - API 认证密钥

    返回:
        dict - 生成的图片 URL 或错误信息
    """
    post_url = "<https://dashscope.aliyuncs.com/api/v1/services/aigc/text2image/image-synthesis>"
    headers = {
   "Authorization": f"Bearer {api_key}", "Content-Type": "application/json"}
    data = {
   "model": "wanx-v1", "input": {
   "prompt": prompt}, "parameters": {
   "style": "<auto>", "size": "1024*1024", "n": 1}}

    response = requests.post(post_url, headers=headers, json=data)
    task_id = response.json().get("output", {
   }).get("task_id")
    if not task_id:
        return {
   "error": "任务创建失败"}

    get_url = f"<https://dashscope.aliyuncs.com/api/v1/tasks/{task_id}>"
    for _ in range(30):
        response = requests.get(get_url, headers=headers)
        task_status = response.json().get("output", {
   }).get("task_status", "")

        if task_status == "SUCCEEDED":
            results = response.json().get("output", {
   }).get("results", [])
            return {
   "result": results[0].get("url", "任务成功但无 URL")}
        elif task_status == "FAILED":
            return {
   "error": "任务失败"}

        time.sleep(1)

    return {
   "error": "超时未完成"}

image.png

4. 关键配置与优化

  • 节点超时配置
    Dify 需要进行私有化部署,并适当调整超时配置,以满足异步任务的处理需求。建议修改 SANDBOX_WORKER_TIMEOUT 至 60 秒以上。
vim dify/docker/.env

# 调整参数
SANDBOX_WORKER_TIMEOUT=60

docker compose down
docker compose up -d
  • 环境变量配置
    在阿里云百炼平台创建api-key, 配置到dify流程中
    image.png

image.png


本方案可借助 Dify Pipeline 实现通义万象 API 的高效自动化集成,为复杂应用场景提供可扩展的 AI 生成式图像解决方案。

目录
相关文章
用通义万象做一个动态海报庆祝4月24日中国航天日
这段文案描述了一幅动画海报的设计理念,融合传统与现代、科技与梦想。画面以上海黄浦江为背景,明月升起象征传统,火箭升空代表科技探索。穿着旗袍的女孩和多元人群展现文化传承,火箭化为飞船遨游宇宙寓意人类追求未知。古代天文仪器与现代科技呼应,体现历史与未来的对话。整体传达对科技成就的喜悦及对未来的美好期许,致敬中国科学家与宇航员,祝福祖国繁荣昌盛。
|
人工智能
通义万象使用总结(1)
从获奖作品中学习精细的提示词和优化技巧,改进自己的作品,最终创造出满意的结果。
1231 2
|
9月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1372 109
|
9月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
759 2
|
10月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
1767 2
|
8月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
1155 120
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
1186 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
9月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
1832 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型

热门文章

最新文章