|
3月前
|
人工智能 自然语言处理 算法
|

提升LangChain开发效率:10个被忽视的高效组件,让AI应用性能翻倍

LangChain作为主流大语言模型应用框架,其高级组件常被忽视。本文详解10个高价值但低使用率的核心组件,如语义检索、多模板路由、智能查询转换等,结合技术原理与实践案例,助开发者构建更高效、智能、适应性强的AI系统,提升应用性能与业务价值。

270 0
|
5月前
|
SQL 数据建模 关系型数据库
|

别光知道存数据库了,数据建模才是王道!(入门指南+实战代码)

别光知道存数据库了,数据建模才是王道!(入门指南+实战代码)

612 4
|
8月前
|
机器学习/深度学习 人工智能 数据挖掘
|

AI概率学预测足球大小球让球数据分析

在足球数据分析中,AI概率学预测主要用于大小球和让球盘口的分析。大小球预测通过历史数据、机器学习和实时数据动态调整进球数;让球分析则利用Elo评分等评估实力差距,结合盘口数据预测比赛结果。数据来源包括历史比赛、球队和球员信息及外部因素。模型选择涵盖回归、分类和时间序列模型,并通过交叉验证、误差分析进行优化。实际应用包括制定投注策略、风险管理及开发自动化系统。代码示例展示了使用随机森林回归模型预测进球数的过程。

1042 1
|
机器学习/深度学习 弹性计算 人工智能
|

大模型进阶微调篇(三):微调GPT2大模型实战

本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。

2331 6
来自: 人工智能平台PAI  版块
|
人工智能
|

写歌词的技巧和方法基础教程:引领你走进音乐世界,妙笔生词智能写歌词软件

音乐是灵魂的语言,歌词则是承载灵魂的载体。本文介绍写歌词的基础技巧,包括寻找灵感、确定主题、构建结构和运用语言,同时推荐《妙笔生词智能写歌词软件》作为创作助手,助力你走进丰富多彩的音乐世界。

1319 0
|
自然语言处理 数据可视化 API
|

优化采样参数提升大语言模型响应质量:深入分析温度、top_p、top_k和min_p的随机解码策略

本文详细解析了大语言模型(LLM)的采样策略及其关键参数,如温度和top_p。LLM基于输入提示生成下一个标记的概率分布,通过采样策略选择标记并附回输入,形成循环。文章介绍了对数概率(logprobs)、贪婪解码、温度参数调整、top-k与top-p采样等概念,并探讨了min-p采样这一新方法。通过调整这些参数,可以优化LLM输出的质量和创造性。最后,文章提供了实验性尝试的建议,帮助读者在特定任务中找到最佳参数配置。本文使用VLLM作为推理引擎,展示了Phi-3.5-mini-instruct模型的应用实例。

932 6
|
分布式计算 安全 Hadoop
|

Hadoop 集群一直处于安全模式,强制退出后出现数据丢失警告。解决方法

本文介绍了Hadoop集群安全模式的相关命令和问题解决。当集群处于安全模式时,可使用`hdfs dfsadmin -safemode get`检查状态,`enter`进入,`leave`或`forceExit`离开。若因数据块不一致导致安全模式持续,可通过强制退出,然后删除丢失数据块的文件以恢复正常。如果遇到权限问题,可以使用`chmod`授权或关闭HDFS权限验证(不推荐),配置修改后需重启集群生效。

1664 0
|
机器学习/深度学习 PyTorch 算法框架/工具
|

归一化技术比较研究:Batch Norm, Layer Norm, Group Norm

本文将使用合成数据集对三种归一化技术进行比较,并在每种配置下分别训练模型。记录训练损失,并比较模型的性能。

902 2
|
消息中间件 Kafka Apache
|

Flink CDC+Kafka 加速业务实时化

阿里巴巴开发工程师,Apache Flink Committer 任庆盛,在 9 月 24 日 Apache Flink Meetup 的分享。

23213 1
来自: 实时计算 Flink  版块
|
存储 SQL 缓存
|

技术内幕 | 阿里云EMR StarRocks 极速数据湖分析

本文为作者在 StarRocks Summit Asia 2022 上的分享

1411 0
|
2天前
|
存储 前端开发
|

【实战案例】火语言 RPA 采集小说站已完结书名(自动翻页判断),保存到Excel 全流程(附完整脚本)

自动采集起点中文网完本小说书名,支持翻页检测与数据存储。脚本逐页抓取小说名并保存至Excel,最多采集50页,智能判断翻页逻辑,确保数据完整,适用于批量获取完结书籍信息。

41 5
|
4天前
|
监控 供应链 调度
|

别让顾客“用脚投票”:餐饮行业如何用数据把体验做“香”

别让顾客“用脚投票”:餐饮行业如何用数据把体验做“香”

41 4
|
4天前
|
搜索推荐 算法 大数据
|

基于python大数据的特产推荐系统

本研究基于Python大数据技术构建特产推荐系统,旨在解决旅游消费中信息不对称、推荐精准度低等问题。融合用户行为与特产属性数据,运用机器学习算法实现个性化推荐,提升用户体验与产业效益。

41 1
|
5天前
|
程序员 网络安全 开发工具
|

推送报错403怎么办?vscode推送项目到github

推送报错403怎么办?vscode推送项目到github

41 1
|
2月前
|
人工智能 自然语言处理 IDE
|

模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验

通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。

501 109
来自: 人工智能平台PAI  版块
|
6月前
|
人工智能 自然语言处理 算法
|

DistilQwen-ThoughtX:变长思维链推理模型,能力超越DeepSeek蒸馏模型

阿里云PAI团队开发的 OmniThought 数据集,其中包含200万思维链,并标注了推理冗余度(RV)和认知难度(CD)分数。基于此数据集,我们还推出了 DistilQwen-ThoughtX 系列模型,可以通过RV和CD分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。

622 9
来自: 人工智能平台PAI  版块
|
6月前
|
机器学习/深度学习 PyTorch API
|

PyTorch量化感知训练技术:模型压缩与高精度边缘部署实践

本文深入探讨神经网络模型量化技术,重点讲解训练后量化(PTQ)与量化感知训练(QAT)两种主流方法。PTQ通过校准数据集确定量化参数,快速实现模型压缩,但精度损失较大;QAT在训练中引入伪量化操作,使模型适应低精度环境,显著提升量化后性能。文章结合PyTorch实现细节,介绍Eager模式、FX图模式及PyTorch 2导出量化等工具,并分享大语言模型Int4/Int8混合精度实践。最后总结量化最佳策略,包括逐通道量化、混合精度设置及目标硬件适配,助力高效部署深度学习模型。

822 21
|
11月前
|
机器学习/深度学习 算法 安全
|

从方向导数到梯度:深度学习中的关键数学概念详解

方向导数衡量函数在特定方向上的变化率,其值可通过梯度与方向向量的点积或构造辅助函数求得。梯度则是由偏导数组成的向量,指向函数值增长最快的方向,其模长等于最速上升方向上的方向导数。这两者的关系在多维函数分析中至关重要,广泛应用于优化算法等领域。

716 36
|
机器学习/深度学习 缓存 PyTorch
|

异步数据加载技巧:实现 DataLoader 的最佳实践

【8月更文第29天】在深度学习中,数据加载是整个训练流程中的一个关键步骤。为了最大化硬件资源的利用率并提高训练效率,使用高效的数据加载策略变得尤为重要。本文将探讨如何通过异步加载和多线程/多进程技术来优化 DataLoader 的性能。

2058 1
|
测试技术 程序员 C#
|

《黑神话:悟空》:从Unity到UE4 —— 游戏引擎迁移的挑战与机遇

【8月更文第26天】近年来,游戏行业的发展突飞猛进,特别是在图形表现力和技术实现上。《黑神话:悟空》是一款备受期待的动作角色扮演游戏,该游戏在早期开发阶段使用了Unity引擎,但为了追求更高的视觉质量和更强大的技术能力,开发团队决定将其迁移到Unreal Engine 4 (UE4)。本文将探讨这一迁移过程中的技术挑战与机遇。

854 1
|
人工智能 自然语言处理 搜索推荐
|

国内可用的 Web Search API,可以平替Bing Search API

近期人们发现,AI对搜索引擎的需求远远超过人类。这个团队专为AI打造搜索引擎,上线仅60天就已被调用超30万次。

3653 1
|
存储 JSON API
|

批量采集抖音商品详情数据:推荐你使用API(通过商品id取商品详情商品主图sku属性)

批量采集抖音商品详情,建议使用API接口。步骤包括:注册抖音开放平台获取App Key和Secret,调用商品详情API接口传入商品ID及相关参数,解析返回的JSON获取商品信息(如名称、价格、主图和SKU)。此外,接口列表提供商品搜索、销售量查询、历史价格、订单管理等多种功能。已封装的API接口地址:c0b.cc/R4rbK2,可测试并联系获取SDK文件。

1341 1
|
机器学习/深度学习 人工智能 自然语言处理
|

蚂蚁集团持续探索生成式AI,20篇论文入选AI顶会NeurlPS

NeurlPS官方数据显示,本届会议共有12343篇有效论文投稿,接收率为26.1%。蚂蚁集团20篇论文被收录。 据了解,蚂蚁此次入选的论文,覆盖计算机视觉、自然语言处理、图神经网络、图像处理等多个人工智能和机器学习领域的前沿主题。其中七成以上论文聚焦生成式AI在高速发展中遇到的一些挑战和难题。

1063 0
|
自然语言处理 数据处理 调度
|

《Havenask分布式索引构建服务--Build Service》

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask分布式索引构建服务——Build Service,主打稳定、快速、易管理,是在线系统提升竞争力的一大利器。

102258 3
来自: 智能搜索推荐  版块
|
机器学习/深度学习 人工智能 自然语言处理
|

四张图片道清AI大模型的发展史(1943-2023)

现在最火的莫过于GPT了,也就是大规模语言模型(LLM)。“LLM” 是 “Large Language Model”(大语言模型)的简称,通常用来指代具有巨大规模参数和复杂架构的自然语言处理模型,例如像 GPT-3(Generative Pre-trained Transformer 3)这样的模型。这些模型在处理文本和语言任务方面表现出色,但其庞大的参数量和计算需求使得它们被称为大模型。当然也有一些自动生成图片的模型,但是影响力就不如GPT这么大了。

5028 0
|
机器学习/深度学习 算法 计算机视觉
|

3D目标检测框架 MMDetection3D环境搭建 docker篇

本文介绍如何搭建3D目标检测框架,使用docker快速搭建MMDetection3D的开发环境,实现视觉3D目标检测、点云3D目标检测、多模态3D目标检测等等。

1475 0
|
算法 搜索推荐 Python
|

Python算法——插入排序

Python算法——插入排序

253 0
|
机器学习/深度学习 存储 算法
|

机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost

机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost

1205 0
|
机器学习/深度学习 人工智能 自然语言处理
|

大模型:人工智能发展的引擎

大模型:人工智能发展的引擎

674 0
|
存储 人工智能 自然语言处理
|

机器学习系列 | 04: 知识图谱发展历程及其分类

本文简要梳理知识图谱的前世今生及其分类

1614 0
|
机器学习/深度学习 数据采集 搜索推荐
|

10种数据分析的模型思维让你“灵光一闪”

推荐10种数据分析思维,让你在工作中带来“灵光一闪”的感觉 本文来源于阿里开发者公众号

942 0
|
SQL 关系型数据库 MySQL
|

Flink CDC 系列 - 实现 MySQL 数据实时写入 Apache Doris

Flink CDC 结合 Doris Flink Connector 实现 MySQL 数据实时入 Apache Doris。

4367 1
来自: 实时计算 Flink  版块
|
API 索引
|

es实战-分片分配失败解决方案

分片无法分配情况的一些解决办法

2682 0
|
SQL 关系型数据库 MySQL
|

Flink CDC 2.0 正式发布,详解核心改进

Flink CDC 2.0.0 版本于 8 月 10 日正式发布,点击了解详情~

26862 1
来自: 实时计算 Flink  版块
|
2月前
|
机器学习/深度学习 算法
|

Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定

本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT),旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发,PSFT通过引入参数更新的稳定性机制,防止模型在训练中变得过于确定,从而提升探索能力与后续强化学习阶段的表现。实验表明,PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。

209 3
|
4月前
|
数据采集 人工智能 算法
|

“脏”数据毁一生?教你用大数据清洗术,给数据洗个“澡”!

“脏”数据毁一生?教你用大数据清洗术,给数据洗个“澡”!

478 4
|
5月前
|
人工智能 自然语言处理 算法
|

AI时代如何让大模型「读懂」企业数据?——从“单一问数”到“复杂决策”的智能跃迁

从早期的传统BI,到敏捷BI,再到智能BI,BI工具正逐步进化为具备类人推理能力的数字助手。Gartner预测,到2025年,增强型消费者体验将首次推动增强型BI(ABI)能力的采用率超过50%,这将深刻重塑企业的业务流程与决策模式,“人人都是数据消费者”的时代正加速到来。

541 1
|
6月前
|
JSON JavaScript API
|

MCP 实战:用配置与真实代码玩转 GitHub 集成

MCP 实战:用配置与真实代码玩转 GitHub 集成

1346 4
|
7月前
|
数据采集 机器学习/深度学习 人工智能
|

面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布

2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。

854 13
|
7月前
|
人工智能 JavaScript 前端开发
|

TVM虚拟机

TVM引擎是一款超微型、多功能的编程工具,支持多种语法(如Lisp、JavaScript等),拥有几百个实用函数。其核心优势包括快速加载执行、跨平台运行(Windows、Linux等)、源代码链接生成独立文件及嵌入宿主系统作为开发语言平台。此外,它具备动态脚本特性、符号单元运算、面向对象原型继承、函数式编程特点,以及C语言底层操作能力。TVM还支持弱类型数据处理、多态函数、内存垃圾自动回收、正则表达式文本处理和网络编程接口,广泛应用于分布计算、科学统计及人工智能等领域。

626 6
|
8月前
|
机器学习/深度学习 编解码 自然语言处理
|

SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器

SigLIP 2 是一种改进的多语言视觉-语言编码器系列,通过字幕预训练、自监督学习和在线数据管理优化性能。它在零样本分类、图像-文本检索及视觉表示提取中表现卓越,支持多分辨率处理并保持图像纵横比。模型提供 ViT-B 至 g 四种规格,采用 WebLI 数据集训练,结合 Sigmoid 损失与自蒸馏等技术提升效果。实验表明,SigLIP 2 在密集预测、定位任务及多模态应用中显著优于前代和其他基线模型。

618 9
|
9月前
|
自然语言处理 搜索推荐 小程序
|

微信公众号接口:解锁公众号开发的无限可能

微信公众号接口是微信官方提供的API,支持开发者通过编程与公众号交互,实现自动回复、消息管理、用户管理和数据分析等功能。本文深入探讨接口的定义、类型、优势及应用场景,如智能客服、内容分发、电商闭环等,并介绍开发流程和工具,帮助运营者提升用户体验和效率。未来,随着微信生态的发展,公众号接口将带来更多机遇,如小程序融合、AI应用等。

1032 1
|
12月前
|
存储 分布式计算 流计算
|

实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎

本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。

3413 73
来自: 实时计算 Flink  版块
|
机器学习/深度学习 人工智能 算法
|

小白教程-阿里云快速搭建Stable-Diffusion WebUI环境+免费试用

Stable-Diffusion 是目前热门的AIGC图像生成方案,通过开源与社区共享模型的方式,成为AI艺术与创意产业的重要工具。本文介绍通过阿里云快速搭建SD WebUI的服务,并有免费试用权益,适合新手入门。通过详细步骤指导,帮助读者轻松上手,享受创作乐趣。

2149 0
|
数据采集 人工智能 安全
|

数据治理的实践与挑战:大型案例解析

在当今数字化时代,数据已成为企业运营和决策的核心资源。然而,随着数据量的爆炸性增长和数据来源的多样化,数据治理成为了企业面临的重要挑战之一。本文将通过几个大型案例,探讨数据治理的实践、成效以及面临的挑战。

1610 4
|
数据采集 人工智能 监控
|

赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)

2597 0
|
机器学习/深度学习 自然语言处理 搜索推荐
|

云上智能客服机器人:重塑客户服务体验的新篇章

未来,云上智能客服机器人将继续深化深度学习技术的应用,通过跨领域的知识融合和模型训练提升其在复杂场景下的理解和决策能力。同时,机器人将更加注重多模态交互技术的发展以提供更加自然流畅的交互体验。 4.2 情感智能与人性化服务 随着情感智能技术的不断发展,云上智能客服机器人将更加注重情感交互和人性化服务。机器人将能够识别用户的情感状态和需求偏好提供更加贴心和温暖的服务体验。

733 7
|
机器学习/深度学习 存储 算法
|

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

在本文中,我们将探讨一种方法来解决这个问题,称为Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘,使神经网络在获得新技能的同时保留先前学习任务的知识。

963 1
|
机器学习/深度学习 自然语言处理 数据可视化
|

文本挖掘与可视化:生成个性化词云的Python实践【7个案例】

词云是文本数据可视化的工具,显示单词频率,直观、美观,适用于快速展示文本关键信息。 - 用途包括关键词展示、数据探索、报告演示、情感分析和教育。 - 使用`wordcloud`和`matplotlib`库生成词云,`wordcloud`负责生成,`matplotlib`负责显示。 - 示例代码展示了从简单词云到基于蒙版、颜色和关键词权重的复杂词云生成。 - 案例覆盖了中文分词(使用`jieba`库)、自定义颜色和关键词权重的词云。 - 代码示例包括读取文本、分词、设置词云参数、显示和保存图像。

1730 1
|
SQL 数据库 数据安全/隐私保护
|

harbor修改密码

在Harbor `v2.9.0`中,忘记密码可使用以下方法强制重置:通过`docker exec`进入harbor-db容器,使用SQL命令`update harbor_user set salt='',password='' where user_id = 1;`清空admin密码。然后重启Harbor,系统将要求初始化新密码。注意此操作涉及数据库交互,需谨慎执行。

1419 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

4
今日
67333
内容
127
活动
439333
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务