备案控制台

蚝油菜花_个人页

蚝油菜花

文章

645

问答

1

视频

0

个人介绍

微信公众号：@蚝油菜花｜如果你也关注大模型发展现状，或对大模型应用开发非常感兴趣，很期待你的关注和私信，我会不定期分享自己的想法和开源实例。

擅长的技术

获得更多能力

通用技术能力：

Python
高级
能力说明：

通过课程学习与实战项目，熟练掌握Python的语法知识与编程技能，具备Python语言的函数、面向对象、异常处理等能力，常用开发框架的实际应用和开发能力，具备使用，掌握Python数据分析三剑客Matplotlib、Numpy、Pandas的概念与应用场景，掌握利用Python语言从数据采集到分析的全流程相关知识。
获取记录：
- 2025-02-23 在大学考试大学/社区-用户参加考试
- 2025-02-23 在大学考试 Python初级能力大学/社区用户通过技能测试
- 2025-02-23 在大学考试大学/社区-用户参加考试
- 2025-02-23 在大学考试 Python中级能力大学/社区用户通过技能测试
- 2025-02-22 在大学考试大学/社区-用户参加考试
- 2025-02-22 在大学考试 Python高级能力大学/社区用户通过技能测试

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

文章
问答
视频

暂无更多信息

2025年04月

04.17 19:42:36

发表了文章 2025-04-17 19:42:36

开源学习神器把2小时网课压成5分钟脑图！BiliNote：一键转录哔哩哔哩视频，生成结构化学习文档

本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote，其整合多模态AI技术实现视频内容结构化解析，支持跨平台视频源处理与本地化部署方案，提供从语音转写到智能摘要的全流程自动化能力。
04.17 19:42:19

发表了文章 2025-04-17 19:42:19

模型手动绑骨3天，AI花3分钟搞定！UniRig：清华开源通用骨骼自动绑定框架，助力3D动画制作

UniRig是清华大学与VAST联合研发的自动骨骼绑定框架，基于自回归模型与交叉注意力机制，支持多样化3D模型的骨骼生成与蒙皮权重预测，其创新的骨骼树标记化技术显著提升动画制作效率。
04.17 19:42:03

发表了文章 2025-04-17 19:42:03

AI竟能独立完成顶会论文！The AI Scientist-v2：开源端到端AI自主科研系统，自动探索科学假设生成论文

The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统，通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化，其生成论文已通过国际顶会同行评审。
04.17 19:41:42

发表了文章 2025-04-17 19:41:42

谷歌开源多智能体开发框架 Agent Development Kit：百行代码构建复杂AI代理，覆盖整个开发周期！

谷歌开源的Agent Development Kit（ADK）是首个代码优先的Python工具包，通过多智能体架构和灵活编排系统，支持开发者在百行代码内构建复杂AI代理，提供预置工具库与动态工作流定义能力。
04.17 19:41:07

发表了文章 2025-04-17 19:41:07

告别潜在空间的黑箱操作，直接在原始像素空间建模！PixelFlow：港大团队开源像素级文生图模型

香港大学与Adobe联合研发的PixelFlow模型，通过流匹配和多尺度生成技术实现像素级图像生成，在256×256分辨率任务中取得1.98的FID分数，支持端到端训练并突破传统模型对预训练VAE的依赖。
04.17 19:40:44

发表了文章 2025-04-17 19:40:44

别让创意卡在工具链！MiniMax MCP Server：MiniMax 开源 MCP 服务打通多模态生成能力，视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件，支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力，兼容主流客户端实现跨平台调用，采用检索增强生成技术保障内容准确性。
04.17 19:40:23

发表了文章 2025-04-17 19:40:23

GPT-4.5 竟成小丑！OpenAI 推出 GPT-4.1：百万级上下文多模态语言模型，性价比远超 GPT-4o mini

OpenAI最新发布的GPT-4.1系列语言模型通过混合专家架构与上下文优化，实现百万级token处理能力，在编码任务中准确率提升21.4%，推理成本降低83%，支持多模态内容理解与低延迟响应。
04.15 09:29:27

发表了文章 2025-04-15 09:29:27

超越 DeepSeek-R1！Seed-Thinking-v1.5：字节跳动开源MoE架构推理模型，200B总参数仅激活20B，推理效率提升5倍

字节跳动推出的200B参数混合专家模型，在AIME/Codeforces/GPQA等基准测试中实现多项突破，采用强化学习框架与流式推理系统，支持7大领域复杂推理任务。
04.15 09:28:19

发表了文章 2025-04-15 09:28:19

快速切换多种画风！FlexIP：腾讯开源双适配器图像生成框架，精准平衡身份保持与个性化编辑

本文解析腾讯最新开源的FlexIP图像框架，其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡，在CLIP-I指标上取得0.873的高分验证了技术突破。
04.15 09:27:30

发表了文章 2025-04-15 09:27:30

AgentPrune：开源多智能体通信优化框架，无缝兼容AutoGen，让对话成本直降95%！

同济大学与香港中文大学联合研发的AgentPrune框架，通过时空图建模与低秩稀疏剪枝技术，显著优化多智能体系统的通信效率。该框架在保持性能的同时减少72.8%的通信量，并具备防御对抗攻击能力。
04.15 09:27:11

发表了文章 2025-04-15 09:27:11

设计师集体破防！UNO：字节跳动创新AI图像生成框架，多个参考主体同框生成，位置/材质/光影完美对齐

UNO是字节跳动开发的AI图像生成框架，通过渐进式跨模态对齐和通用旋转位置嵌入技术，解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成，在虚拟试穿、产品设计等领域展现强大泛化能力。
04.15 09:26:52

发表了文章 2025-04-15 09:26:52

还在手动验证文献引用？ScholarCopilot：开源AI学术写作工具，生成时实时插入文献引用

基于 Qwen-2.5-7B 模型的 ScholarCopilot 通过动态检索标记和联合优化技术，实现学术文本生成与文献引用的精准匹配，在 50 万篇论文库中实现 40.1% 的检索准确率，生成文本的学术严谨性评分达 16.2/25。
04.11 22:56:14

发表了文章 2025-04-11 22:56:14

GPT-4o测评准确率竟不到1%！BrowseComp：OpenAI开源AI代理评测新基准，1266道高难度网络检索问题

OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题，覆盖影视、科技、艺术等九大领域，其最新Deep Research模型以51.5%准确率展现复杂信息整合能力，为AI代理的浏览能力评估建立新标准。
04.11 22:55:27

发表了文章 2025-04-11 22:55:27

传统OCR集体阵亡！Versatile-OCR-Program：开源多语言OCR工具，精准解析表格和数学公式等复杂结构

本文解析开源OCR工具Versatile-OCR-Program的技术实现，其基于多模态融合架构实现90%以上识别准确率，支持数学公式与图表的结构化输出，为教育资料数字化提供高效解决方案。
04.11 22:55:02

发表了文章 2025-04-11 22:55:02

傅利叶开源人形机器人，提供完整的开源套件！Fourier N1：具备23个自由度和3.5米/秒运动能力

傅利叶推出的开源人形机器人N1搭载自研动力系统与多模态交互模块，具备23个自由度和3.5米/秒运动能力，提供完整开源套件助力开发者验证算法。
04.11 22:54:42

发表了文章 2025-04-11 22:54:42

月之暗面开源16B轻量级多模态视觉语言模型！Kimi-VL：推理仅需激活2.8B，支持128K上下文与高分辨率输入

月之暗面开源的Kimi-VL采用混合专家架构，总参数量16B推理时仅激活2.8B，支持128K上下文窗口与高分辨率视觉输入，通过长链推理微调和强化学习实现复杂任务处理能力。
04.11 14:31:47

发表了文章 2025-04-11 14:31:47

1天消化完Spring全家桶文档！DevDocs：一键深度解析开发文档，自动发现子URL并建立图谱

DevDocs是一款基于智能爬虫技术的开源工具，支持1-5层深度网站结构解析，能将技术文档处理时间从数周缩短至几小时，并提供Markdown/JSON格式输出与AI工具无缝集成。
04.11 14:31:08

发表了文章 2025-04-11 14:31:08

Cloudflare推出托管式RAG服务！AutoRAG：从数据上传到索引更新全程托管，文档变动自动同步

AutoRAG是Cloudflare推出的全托管检索增强生成服务，基于自动索引和向量化技术，帮助开发者快速构建上下文感知的AI应用，无需管理底层基础设施。
04.11 14:30:38

发表了文章 2025-04-11 14:30:38

用AI精准定位问题代码，调试时间直接砍半！LocAgent：斯坦福开源代码调试神器，多跳推理锁定问题代码

LocAgent是由斯坦福大学、耶鲁大学等顶尖机构联合开发的代码定位框架，通过将代码库转化为图结构并利用大语言模型的多跳推理能力，实现精准的问题代码定位。
04.11 14:30:21

发表了文章 2025-04-11 14:30:21

【内附榜单】评估AI大模型的代码修复能力！Multi-SWE-bench：字节开源代码修复能力评估基准，覆盖7大主流编程语言

Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准，包含1632个真实GitHub问题样本，通过严格筛选与人工验证确保数据质量。
04.11 14:29:03

发表了文章 2025-04-11 14:29:03

推理速度开挂！谷歌推出 Gemini 2.5 Flash：在保持Gemini 2.5精度的同时，延迟降低到竞品的1/3

谷歌最新推出的Gemini 2.5 Flash AI模型在保持低延迟和成本效益的同时，通过引入思考能力为开发者解锁了智能代理构建、代码辅助等新应用场景。
04.11 14:28:37

发表了文章 2025-04-11 14:28:37

AI智能体内战终结者！A2A：谷歌开源的首个标准智能体交互协议，让AI用同一种“语言”交流

A2A是谷歌推出的首个标准化智能体交互协议，通过统一通信规范实现不同框架AI智能体的安全协作，支持多模态交互和长时任务管理，已有50多家企业加入生态。
04.10 10:08:13

发表了文章 2025-04-10 10:08:13

覆盖16省方言的老人语音数据集！SeniorTalk：智源研究院开源全球首个超高龄老年人中文语音数据集

SeniorTalk是由智源研究院与南开大学联合推出的全球首个中文超高龄老年人对话语音数据集，包含202位75岁及以上老年人的55.53小时语音数据，涵盖16个省市的不同地域口音。
04.10 10:07:57

发表了文章 2025-04-10 10:07:57

能够双向推理的LLM！Dream-7B：港大联合华为开源的扩散推理模型，能够同时考虑前后文信息

Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型，采用独特的掩码扩散范式，在文本生成、数学推理和代码编写等任务中展现出卓越性能。
04.10 10:07:38

发表了文章 2025-04-10 10:07:38

Llama Nemotron：英伟达开源基于Llama架构优化的推理模型，253B参数持平DeepSeek R1！

NVIDIA推出的Llama Nemotron系列推理模型，基于Llama架构优化，包含Nano/Super/Ultra三款，在数学推理、编程和工具调用等任务中展现卓越性能。
04.10 10:06:53

发表了文章 2025-04-10 10:06:53

AI图像质感还原堪比专业摄影！Miracle F1：美图WHEE全新AI图像生成模型，支持超写实与多风格生成

美图WHEE推出的Miracle F1采用扩散模型技术，通过精准语义理解和多风格生成能力，可产出具有真实光影质感的专业级图像作品。
04.10 10:06:25

发表了文章 2025-04-10 10:06:25

GitHub官方开源MCP服务！GitHub MCP Server：无缝集成GitHub API，实现Git流程完全自动化

GitHub MCP Server是基于Model Context Protocol的服务器工具，提供与GitHub API的无缝集成，支持自动化处理问题、Pull Request和仓库管理等功能。
04.10 10:05:50

发表了文章 2025-04-10 10:05:50

从商业海报到二次元插画多风格通吃！HiDream-I1：智象未来开源文生图模型，17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型，采用扩散模型技术和混合专家架构，在图像质量、提示词遵循能力等方面表现优异，支持多种风格生成。
04.10 10:05:29

发表了文章 2025-04-10 10:05:29

14B小模型代码成绩紧逼O3-Mini！DeepCoder-14B-Preview：基于Deepseek-R1蒸馏优化的开源代码生成模型

DeepCoder-14B-Preview是基于Deepseek-R1蒸馏优化的140亿参数模型，通过强化学习微调在LiveCodeBench达到60.6%准确率，开源训练数据与系统优化方案。
04.08 22:45:00

发表了文章 2025-04-08 22:45:00

这个AI能把PSD变视频！人物/场景/道具任意组合！SkyReels-A2：昆仑万维推出的可控多元素视频生成框架

SkyReels-A2是昆仑万维推出的创新视频生成框架，通过扩散模型和图像-文本联合嵌入技术，实现多元素精准组合与高质量视频输出。
04.08 22:44:42

发表了文章 2025-04-08 22:44:42

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集，包含41.25小时3-5岁儿童普通话语音数据，覆盖中国22个省级行政区，为儿童语音识别和语言发展研究提供高质量数据支持。
04.08 22:44:17

发表了文章 2025-04-08 22:44:17

漫画师福音！开源AI神器让线稿着色快如闪电！MagicColor：港科大开源多实例线稿着色框架，一键生成动画级彩图

MagicColor是香港科技大学推出的多实例线稿着色框架，基于扩散模型和自监督训练策略，实现单次前向传播完成多实例精准着色，大幅提升动画制作和数字艺术创作效率。
04.08 14:29:28

发表了文章 2025-04-08 14:29:28

OmniCam：浙大联合上海交大推出多模态视频生成框架，虚拟导演打造百万级影视运镜

OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架，通过LLM与视频扩散模型结合实现高质量视频生成，支持文本、轨迹和图像等多种输入模态。
04.08 14:28:52

发表了文章 2025-04-08 14:28:52

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架，采用并行Mamba结构和多信号控制技术，能生成高度逼真的说话人头部视频。
04.08 14:28:03

发表了文章 2025-04-08 14:28:03

OpenRouter 推出百万 token 上下文 AI 模型！Quasar Alpha：提供完全免费的 API 服务，同时支持联网搜索和多模态交互

Quasar Alpha 是 OpenRouter 推出的预发布 AI 模型，具备百万级 token 上下文处理能力，在代码生成、指令遵循和低延迟响应方面表现卓越，同时支持联网搜索和多模态交互。
04.08 14:25:14

发表了文章 2025-04-08 14:25:14

32.7K Star！Awesome MCP Servers：开源MCP资源聚合平台，覆盖20+垂直领域

Awesome MCP Servers 是一个开源项目，汇集了3000多个基于Model Context Protocol的服务器实现，支持本地和云端部署，为AI大模型提供丰富的外部数据访问和工具调用能力。
04.08 14:24:55

发表了文章 2025-04-08 14:24:55

重定义数字人交互！OmniTalker：阿里推出实时多模态说话头像生成框架，音视频实现唇语级同步

阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成，创新性采用TMRoPE技术确保音视频同步，支持流式多模态输入处理。
04.06 00:34:48

发表了文章 2025-04-06 00:34:48

科研论文翻译神器！BabelDOC：开源AI工具让PDF论文秒变双语对照，公式图表全保留

BabelDOC 是一款专为科学论文设计的开源AI翻译工具，采用先进的无损解析技术和智能布局识别算法，能完美保留原文格式并生成双语对照翻译。
04.06 00:33:02

发表了文章 2025-04-06 00:33:02

音乐人狂喜！AbletonMCP：让AI帮你写歌，一句话生成专业编曲，Demo级作品秒出

AbletonMCP 是一个开源项目，通过模型上下文协议（MCP）将 Ableton Live 与 Claude AI 连接，实现 AI 辅助音乐制作，支持创建、修改 MIDI 和音频轨道等操作。

1

2

3

4

...

15

发表了文章 2025-04-30

小米7B参数推理大模型首次开源！Xiaomi MiMo：数学代码双杀，超越32B巨头
发表了文章 2025-04-30

这个AI把arXiv变成代码工厂，快速复现顶会算法！Paper2Code：AI论文自动转代码神器，多智能体框架颠覆科研复现
发表了文章 2025-04-26

Cooragent：清华 LeapLab 开源 AI Agent 协作框架，一句话召唤AI军团！
发表了文章 2025-04-26

LongPort MCP：证券业首个券商MCP，AI赋能智能投资新时代，散户也能玩转机构级交易
发表了文章 2025-04-26

RAGEN：RL训练LLM推理新范式！开源强化学习框架让Agent学会多轮决策
发表了文章 2025-04-25

开源8B参数全能扩散模型Flex.2-preview：把线稿变商稿，还能边画边改！
发表了文章 2025-04-24

让AI单次生成4万字！WriteHERE：开源AI长文写作框架，单次生成超长文本，小说报告一键搞定！
发表了文章 2025-04-24

AI生成视频告别剪辑拼接！MAGI-1：开源自回归视频生成模型，支持一镜到底的长视频生成
发表了文章 2025-04-24

全球首款开源通用型AI智能体上线！Suna：自动处理Excel/爬数据/写报告等复杂任务一句话搞定
发表了文章 2025-04-24

Yuxi-Know：开源智能问答系统，基于大模型RAG与知识图谱技术快速构建知识库
发表了文章 2025-04-24

让AI读懂K线图！ChatTS-14B：字节开源的时间序列理解和推理大模型，自然语言提问秒解趋势密码！
发表了文章 2025-04-24

机器人训练师狂喜！Infinite Mobility：上海AI Lab造物神器1秒生成可动家具，成本只要1分钱
发表了文章 2025-04-24

还在想开题报告？SurveyGO卷姬：清华开源学术论文AI写作神器，一键生成文献综述
发表了文章 2025-04-24

「社会实验室」成真！SocioVerse：复旦联合小红书开源社会模拟世界模型，用AI预演群体行为
发表了文章 2025-04-24

白板秒变IDE，草图直接生成可运行代码！Pad.ws：白板+代码编辑器深度结合，创意到实现无缝衔接
发表了文章 2025-04-22

音乐人必看！OpenUtau：开源AI歌声合成神器，快速打造专业级虚拟歌手，中文日文无缝切换
发表了文章 2025-04-22

视觉分词器突破天花板！GigaTok：港大字节联手打造3B参数视觉分词器，突破图像生成瓶颈
发表了文章 2025-04-22

快速生成商业级高清图！SimpleAR：复旦联合字节推出图像生成黑科技，5亿参数秒出高清大图
发表了文章 2025-04-20

FastAPI开发者福音！FastAPI-MCP：将FastAPI秒变MCP服务器的开源神器，无需配置自动转换！
发表了文章 2025-04-20

斯坦福黑科技让笔记本GPU也能玩转AI视频生成！FramePack：压缩输入帧上下文长度！仅需6GB显存即可生成高清动画

正在加载, 请稍后...

滑动查看更多

提交了问题 2020-03-23

oss 上传图片成功能够put，但视频put失败返回403

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息