机器学习/深度学习

首页 标签 机器学习/深度学习
# 机器学习/深度学习 #
关注
71412内容
PPO最强,DPO一般?一文带你了解常见三种强化学习方法,文末推荐大模型微调神器!
大模型如何更懂人类?关键在于“对齐”。PPO、DPO、KTO是三大主流对齐方法:PPO效果强但复杂,DPO平衡高效,KTO低成本易上手。不同团队可根据资源选择路径。LLaMA-Factory Online让微调像浏览器操作一样简单,助力人人皆可训练专属模型。
|
4小时前
| |
1秒生图!6B参数如何“以小博大”生成超真实图像?
Z-Image是6B参数开源图像生成模型,仅需16GB显存即可生成媲美百亿级模型的超真实图像,支持中英双语文本渲染与智能编辑,登顶Hugging Face趋势榜,首日下载破50万。
|
15小时前
| |
构建AI智能体:三十八、告别“冷启动”:看大模型如何解决推荐系统的世纪难题
协同过滤是推荐系统中广泛使用的技术,其核心思想是利用用户行为数据发现相似用户或物品进行推荐。摘要包括:1)协同过滤基于用户历史行为数据,通过计算相似度(如余弦相似度、皮尔逊相关系数)预测用户偏好;2)主要分为基于用户(寻找相似用户群体)和基于物品(发现相似物品)两种方法;3)面临冷启动、数据稀疏性等挑战,可通过混合推荐(结合内容特征)和矩阵分解等技术解决;4)典型应用包括电商猜你喜欢和流媒体推荐;5)结合大语言模型可增强语义理解能力,提升推荐准确性。
|
16小时前
|
BipedalWalker实战:SAC算法如何让机器人学会稳定行走
本文探讨基于Soft Actor-Critic(SAC)算法的下肢假肢自适应控制。传统方法依赖精确建模,难以应对复杂环境变化。SAC通过最大熵强化学习,使假肢在仿真中自主探索、学习稳定步态,具备抗干扰与容错能力。结合生物工程视角,将神经网络映射为神经系统,奖励函数关联代谢效率,实现从试错到自然行走的演化。相位图分析显示极限环形成,标志动态稳定步态建立,能效曲线表明后期动作更节能。研究为智能假肢迈向临床应用提供新思路。
|
1天前
|
基于反馈循环的自我进化AI智能体:原理、架构与代码实现
自我进化智能体突破传统AI静态局限,通过“执行-反馈-调整”闭环,实现持续自主优化。它结合大模型与在线学习,利用多评分器反馈自动改进提示或参数,无需人工干预。适用于医疗、金融、编程等动态场景,推动AI迈向终身学习。
数字人实践案例分享
# 数字人实践案例分享:从概念到落地的全面解析 在人工智能技术飞速发展的今天,数字人已不再是科幻电影中的概念。据统计,2024年全球数字人市场规模已突破千亿元,年复合增长率高达67%。作为AI技术的
数字人实践案例分享
# 数字人实践案例分享:从概念到落地的全面解析 在人工智能技术飞速发展的今天,数字人已不再是科幻电影中的概念。据统计,2024年全球数字人市场规模已突破千亿元,年复合增长率高达67%。作为AI技术的
智能宠物设备端侧AI技术深度解析:从模型压缩到实时响应
随着宠物经济兴起,智能设备迎来发展机遇。本文聚焦端侧AI在宠物识别中的应用,探讨模型压缩、硬件适配与性能优化技术,解决识别不准、响应慢等痛点,助力开发者打造高效、低功耗的智能宠物产品,实现毫秒级精准识别。
NeurIPS 2025!电子科大同济等提出Table2LaTeX-RL:表格转 LaTeX 精准度再突破
Table2LaTeX-RL:基于强化多模态大模型,实现从表格图像到高保真LaTeX代码的生成。创新提出VSGRPO双奖励机制与百万级数据集,显著提升复杂表格的结构与视觉一致性,推动学术文档自动化重建新进展。
|
2天前
|
2026版基于Python的旅游景点推荐系统:技术解析与实现路径
在数字化浪潮下,旅游业迈向智能化转型。2026版基于Python的旅游景点推荐系统,融合大数据、机器学习与可视化技术,破解信息过载难题。通过协同过滤与内容过滤混合算法,精准匹配用户偏好;利用Scrapy爬取多源数据,Echarts实现动态展示,Django构建交互界面,打造个性化、实时化、可视化的智能推荐平台,提升用户体验与决策效率。
免费试用