🙋魔搭ModelScope本期社区进展:
📟255个模型:F5-TTS系列、FLUX.1-Turbo-Alpha、TeleChat2-115B等;
📁37个数据集:SafeMTData、浮动体结构分析数据集等;
🎨57个创新应用:E2-F5-TTS、表格识别多模型集成、AI_Gen_Novel等;
📄8篇文章:
- 开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
- TeleAI 开源星辰语义大模型-TeleChat2!
- 院士力荐!《赢在AI+》路演征集中
- ModelScope魔搭10月版本发布月报
- 【深圳见!】AI+硬件新机遇期!快来与通义大模型核心作者、投资人和AI硬件从业者聊一聊
- 阿里妈妈技术开源FLUX图像修复&蒸馏加速模型
- 交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
- 如何利用 OpenVINO™ 部署 Qwen2 多模态模型
01
精选模型
F5-TTS系列
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。
F5-TTS不需要复杂的模型设计,如持续时间模型、文本编码器和音素对齐等,只需要将输入文本填充为与输入语音相同的长度,并进行去噪以生成语音。F5-TTS还提出了一种在推理时采样的策略,显著提高了模型性能和效率。在公共的多语言100万小时数据集上训练后,F5-TTS生成的语音具有高度自然和表达性的零样本能力、无缝代码切换能力和速度控制效率。
模型链接:
https://modelscope.cn/models/SWivid/F5-TTS_Emilia-ZH-EN
代码示例:
- 下载repo
git clone https://github.com/SWivid/F5-TTS.git cd F5-TTS
安装其他依赖:
pip install -r requirements.txt
- 模型下载
下载vocos-mel-24khz模型:
modelscope download --model=pengzhendong/vocos-mel-24khz --local_dir ../checkpoints/charactr/vocos-mel-24khz
下载模型文件:
modelscope download --model=SWivid/F5-TTS_Emilia-ZH-EN --local_dir ./ckpts/ F5TTS_Base/model_1200000.bin modelscope download --model=SWivid/E2-TTS_Emilia-ZH-EN --local_dir ./ckpts/ E2TTS_Base/model_1200000.bin
- 模型推理
使用inference-cli推理
python inference-cli.py \ --model "F5-TTS" \ --ref_audio "tests/ref_audio/test_en_1_ref_short.wav" \ --load_vocoder_from_local \ --ref_text "Some call me nature, others call me mother nature." \ --gen_text "I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences." python inference-cli.py \ --model "E2-TTS" \ --ref_audio "tests/ref_audio/test_zh_1_ref_short.wav" \ --load_vocoder_from_local \ --ref_text "对,这就是我,万人敬仰的太乙真人。" \ --gen_text "突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩那稍显肉感的双臂,轻笑道,我身上的肉,是为了掩饰我爆棚的魅力,否则,岂不吓坏了你们呢?"
alimama-creative-FLUX图像修复&蒸馏加速模型
阿里妈妈智能创作与AI应用团队近期开源了两项FLUX 文生图模型的的实用配套模型。研究团队针对这一行业需求进行了相关探索,开源了基于 FLUX(FLUX.1-dev) 的Controlnet 修复模型以及8步加速 Turbo 模型两个配套模型,更进一步,两个模型可互相兼容配合实用,达到更快的修复生图。
模型链接:
- FLUX修复Controlnet模型:
https://www.modelscope.cn/models/alimama-creative/FLUX.1-dev-Controlnet-Inpainting-Beta
- FLUX 8步加速Lora模型:
https://www.modelscope.cn/models/alimama-creative/FLUX.1-Turbo-Alpha
示例代码:
diffusers推理示例代码(A100):
import torch from diffusers.pipelines import FluxPipeline from modelscope import snapshot_download model_id = snapshot_download("AI-ModelScope/FLUX.1-dev") adapter_id = snapshot_download("alimama-creative/FLUX.1-Turbo-Alpha") pipe = FluxPipeline.from_pretrained( model_id, torch_dtype=torch.bfloat16 ) pipe.to("cuda") pipe.load_lora_weights(adapter_id) pipe.fuse_lora() prompt = "A DSLR photo of a shiny VW van that has a cityscape painted on it. A smiling sloth stands on grass in front of the van and is wearing a leather jacket, a cowboy hat, a kilt and a bowtie. The sloth is holding a quarterstaff and a big book." image = pipe( prompt=prompt, guidance_scale=3.5, height=1024, width=1024, num_inference_steps=8, max_sequence_length=512).images[0]
更多玩法教程详见:
02
数据集推荐
SafeMTData
SafeMTData由上海人工智能实验室推出,专注于大型语言模型在多轮交互中的安全对齐,包含1680个安全的多轮对话。该数据集基于断路器训练数据集策划而成,已经过过滤以避免与Harmbench的数据污染。它包含了由ActorAttack创建的有害多轮查询以及拒绝有害查询的拒绝响应。
数据集链接:
https://www.modelscope.cn/datasets/Shanghai_AI_Laboratory/SafeMTData
03
精选应用
E2-F5-TTS
一款基于流匹配的全非自回归文本到语音转换系统,零样本语音复刻,生成流畅,情感丰富。
体验直达:
https://www.modelscope.cn/studios/modelscope/E2-F5-TTS
表格识别多模型集成
一个由多个模型集成的表格内容识别、提取工具
体验直达:
https://www.modelscope.cn/studios/jockerK/TableRec
04
社区精选文章