|
9天前
|
数据采集 边缘计算 运维
|

算力不是越近越好:从边缘到中心,一场正在发生的再分配

算力不是越近越好:从边缘到中心,一场正在发生的再分配

67 4
|
11天前
|
机器学习/深度学习 人工智能 JSON
|

大模型太“通用”?一文搞懂模型微调:从原理到实战,让AI听懂你的行话

本文深入浅出地讲解大模型微调的必要性、原理与实践:针对通用LLM在专业性、时效性、幻觉及业务适配上的不足,详解LoRA等参数高效微调技术,并以IT知识助手为例,手把手演示数据准备、模型选择、训练评估到部署的全流程,助力开发者低成本打造专属领域专家模型。(239字)

112 7
|
11天前
|
缓存 负载均衡 安全
|

Nginx 反向代理:原理、优势与配置指南

Nginx反向代理是核心服务器架构技术,可实现请求转发、负载均衡、高可用与安全防护。它隐藏后端服务器,自动剔除故障节点,并支持SSL终止、缓存等高级功能,配置简洁灵活,广泛应用于高性能Web系统。

124 13
|
13天前
|
人工智能 自然语言处理 数据挖掘
|

智能体来了2026AI元年:工作流推理能力的系统级融合成为主流实践

2026年,企业AI将从外置工具升级为内生认知组件:深度嵌入业务系统,实现流程级重构;依托状态感知、动态知识注入与跨系统调用三大支柱,推动“认知在线”。AI不再是辅助,而是流程中的智能单元。

133 0
|
17天前
|
数据采集 人工智能 监控
|

AI也能“专业进修”?不用写代码,教你用微调打造行业专属模型

本文深入浅出解析AI微调(Fine-tuning)技术,聚焦如何让通用大模型成长为行业专才。详解LoRA等高效微调原理,对比RAG优劣,提供数据准备、模型选择、在线训练到效果评估的四步实战指南,助力零基础用户低成本打造专属专业AI。(239字)

91 10
|
19天前
|
存储 机器学习/深度学习 人工智能
|

别让大模型“失忆”:手把手教你用向量数据库打造它的专属知识库

本文深入浅出地讲解向量数据库原理与实践:用“语义身份证”比喻Embedding,以图书管理员类比关键词与语义搜索差异;手把手用Python+Faiss+BGE搭建中文语义检索系统,并详解RAG流程、效果评估与调优要点,助你为大模型装配真正懂业务的“外挂大脑”。

150 4
|
26天前
|
SQL 存储 分布式计算
|

Hologres Dynamic Table在淘天价格力的业务实践

淘天价格力团队依托Hologres Dynamic Table,实现亿级商品数据的高效治理。通过增量刷新与全量刷新机制,支持秒级圈选、分钟级报表更新,满足大促场景下高时效、多维度分析需求,显著提升数据灵活性与决策效率。

158 2
来自: 实时数仓 Hologres  版块
|
2月前
|
人工智能 自然语言处理 API
|

全面认识MCP:大模型连接真实世界的“USB-C接口”

MCP(模型上下文协议)是Anthropic推出的开放标准,被誉为AI时代的“USB-C”。它统一了大模型与工具、数据源的连接方式,简化集成,提升安全与扩展性,推动AI智能体实现复杂任务自动化,正重塑全球AI应用生态。

211 0
|
2月前
|
NoSQL Linux Shell
|

MongoDB单机部署

本文介绍MongoDB在Windows与Linux系统的安装启动方法,包括下载32/64位安装包、解压配置、命令行或配置文件方式启动服务,并设置数据目录与端口。同时说明如何通过mongo shell连接数据库,使用Compass图形化工具管理,以及Linux下的部署、防火墙配置和安全关闭服务等操作,助你快速搭建MongoDB运行环境。(238字)

76 0
|
4月前
|
存储 数据采集 搜索推荐
|

Python+淘宝API:3步爬取10万条商品评论(附反爬破解技巧)

本文介绍淘宝商品评论爬取技术,涵盖环境配置、接口分析、反爬破解及数据存储。使用Python模拟请求,动态代理与签名绕过风控,结合Flask中转降低封禁风险,实现高效合规的数据采集,适用于竞品分析与用户画像构建。(238字)

729 1
|
4月前
|
XML JSON API
|

苏宁商品详情API秘籍!轻松获取商品详情数据

苏宁商品详情API基于RESTful架构,支持JSON/XML格式,通过AppKey、AppSecret与签名三重认证,结合OAuth 2.0实现安全调用。开发者可获取商品名称、价格、销量、库存、促销等实时数据,适用于电商分析与商业智能。接口强制使用HTTPS协议,支持POST/GET请求,统一采用UTF-8编码,确保数据传输安全可靠。

321 1
|
4月前
|
JSON 安全 API
|

亚马逊商品列表API秘籍!轻松获取商品列表数据

亚马逊商品列表API(SP-API)提供标准化接口,支持通过关键词、分类、价格等条件搜索商品,获取ASIN、价格、销量等信息。采用OAuth 2.0认证与AWS签名,保障安全。数据以JSON格式传输,便于开发者批量获取与分析。

392 1
|
4月前
|
人工智能 缓存 并行计算
|

用数学重构 AI的设想:流形注意力 + 自然梯度优化的最小可行落地

本文提出两个数学驱动的AI模块:流形感知注意力(D-Attention)与自然梯度优化器(NGD-Opt)。前者基于热核偏置,在局部邻域引入流形结构,降低计算开销;后者在黎曼流形上进行二阶优化,仅对线性层低频更新前置条件。二者均提供可复现代码与验证路径,兼顾性能与工程可行性,助力几何感知的模型设计与训练。

387 1
|
5月前
|
Linux 调度 iOS开发
|

Motrix高速下载工具软件,一款高效、稳定可替代迅雷的下载工具实用教程讲解!

Motrix是一款开源免费、无广告的全能下载工具,支持Windows、macOS、Linux三端。界面简洁,支持HTTP、FTP、BT、磁力等全协议下载,智能识别链接,最高64线程加速,支持断点续传、批量下载、剪贴板监听、任务分类及浏览器扩展联动,功能强大且易于管理,最大化提升下载效率。

1115 0
|
6月前
|
JSON 监控 API
|

抖音视频列表API秘籍!轻松获取视频列表数据

抖音视频列表API是抖音开放平台提供的核心接口,支持按关键词、分类、排序方式筛选视频,适用于内容推荐、趋势分析等场景。接口返回含视频ID、标题、播放量等50+字段,支持分页获取,通过HTTP GET请求调用,返回JSON格式数据,便于开发者快速集成与处理。需注册平台账号获取访问权限。

1386 56
|
7月前
|
机器学习/深度学习 人工智能 API
|

AI 发展 && MCP

AI发展——计算机视觉、ChatGPT、Sora、DeepSeek、生成式AI。什么是MCP,Prompt、LLM、Function Call、Agent、MCP是什么,各自区别;MCP如何工作,MCP架构、MCP Server工作原理,Cursor如何使用MCP,自定义MCP Server

1138 46
|
9月前
|
人工智能 开发框架 自然语言处理
|

企业级AI搜索解决方案:阿里云AI搜索开放平台

本文介绍了 阿里云 AI 搜索开放平台作提供丰富的 AI 搜索组件化服务,兼容主流开发框架 LangChain和 LlamaIndex,支持搜索专属大模型、百炼等大模型服务,以及 Elasticsearch、Havenask 等开源引擎。用户可灵活调用多模态数据解析、大语言模型、效果测评等数十个服务,实现智能搜索、检索增强生成(RAG)、多模态搜索等场景的搭建。

758 0
来自: 智能搜索推荐  版块
|
9月前
|
存储 消息中间件 OLAP
|

基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路

本文整理自淘天集团高级数据开发工程师朱奥在Flink Forward Asia 2024的分享,围绕实时数仓优化展开。内容涵盖项目背景、核心策略、解决方案、项目价值及未来计划五部分。通过引入Paimon和Hologres技术,解决当前流批存储不统一、实时数据可见性差等痛点,实现流批一体存储与高效近实时数据加工。项目显著提升了数据时效性和开发运维效率,降低了使用门槛与成本,并规划未来在集团内推广湖仓一体架构,探索更多技术创新场景。

1691 3
来自: 实时计算 Flink  版块
|
10月前
|
缓存 并行计算 PyTorch
|

PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制

本文深入探讨了PyTorch中GPU内存管理的核心机制,特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因,并通过实际案例(如Llama 1B模型训练)展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术,显著提升了内存使用效率,减少了系统调用开销。此外,文章还介绍了高级优化方法,包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。

1969 0
|
机器学习/深度学习 算法 PyTorch
|

DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解

强化学习(RL)是提升大型语言模型(LLM)推理能力的重要手段,尤其在复杂推理任务中表现突出。DeepSeek团队通过群组相对策略优化(GRPO)方法,在DeepSeek-Math和DeepSeek-R1模型中取得了突破性成果,显著增强了数学推理和问题解决能力。GRPO无需价值网络,采用群组采样和相对优势估计,有效解决了传统RL应用于语言模型时的挑战,提升了训练效率和稳定性。实际应用中,DeepSeek-Math和DeepSeek-R1分别在数学推理和复杂推理任务中展现了卓越性能。未来研究将聚焦于改进优势估计、自适应超参数调整及理论分析,进一步拓展语言模型的能力边界。

2093 8
|
数据采集 存储 安全
|

【大数据】数据治理浅析

数据治理是数字化时代企业管理和利用数据的核心手段,确保数据的准确性、一致性和安全性。从基本概念、应用场景、必要性、需求分析等方面深入探讨其功能架构、技术架构、应用架构和数据架构,涵盖金融、医疗、应急管理等多个领域典型案例。随着政策法规推动、技术创新助力及市场需求增长,数据治理正朝着自动化、智能化方向发展,市场规模不断扩大,但人才短缺问题仍需解决。

1542 11
|
并行计算 PyTorch 编译器
|

pytorch 安装 + 搭配PyCharm

pytorch + pycharm

3254 1
|
机器学习/深度学习 算法 大数据
|

【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析

2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。

5345 22
|
数据采集 DataWorks 安全
|

DataWorks产品使用合集之如何通过接口单独触发业务流程里面的某些节点运行

DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

220 0
|
数据采集 DataWorks 监控
|

DataWorks产品使用合集之调度配置中的自定义参数如何设置季度初和周初

DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

285 3
|
机器学习/深度学习 人工智能 安全
|

「随笔」开源大模型与闭源大模型,你更看好哪一方?

开源与闭源AI模型各有利弊。开源促进创新、透明度和学习,但可能有安全风险和质量不一;闭源则保护IP、提供定制服务,但可能限制创新和透明度。混合策略,如基础开源加高级服务闭源,成为平衡点。选择取决于创新、产权、透明度和商业目标。

1377 0
|
分布式计算 算法 Java
|

阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理

阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理

1574 3
|
存储 分布式计算 大数据
|

MaxCompute产品使用合集之在sql里调用自定义的udf时,设置一次同时处理的数据行数,是并行执行还是串行执行的

MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

432 0
来自: 大数据计算 MaxCompute  版块
|
并行计算 Ubuntu Docker
|

Docker环境Ubuntu20.04安装Python3.10版本

Docker环境Ubuntu20.04安装Python3.10版本

5884 0
|
TensorFlow 算法框架/工具 异构计算
|

TensorFlow检测GPU是否可用

TensorFlow检测GPU是否可用

857 0
|
机器学习/深度学习 人工智能 数据可视化
|

号称能打败MLP的KAN到底行不行?数学核心原理全面解析

Kolmogorov-Arnold Networks (KANs) 是一种新型神经网络架构,挑战了多层感知器(mlp)的基础,通过在权重而非节点上使用可学习的激活函数(如b样条),提高了准确性和可解释性。KANs利用Kolmogorov-Arnold表示定理,将复杂函数分解为简单函数的组合,简化了神经网络的近似过程。与mlp相比,KAN在参数量较少的情况下能达到类似或更好的性能,并能直观地可视化,增强了模型的可解释性。尽管仍需更多研究验证其优势,KAN为深度学习领域带来了新的思路。

6654 5
|
DataWorks 安全 数据库
|

DataWorks产品使用合集之在DataWorks中,使用Power BI Desktop来连接Hologres数据库需要设置白名单如何解决

DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

509 2
|
传感器 算法 Linux
|

查看 PCD 点云 windows

在Linux系统查看PCD 点云有许多方法,但发现在windows下的工具比较少,这里分享两个思路,一个是使用MATLAB工具编程,另一个是下载CloudCompare软件进行查看点云。

13212 0
|
机器学习/深度学习 自然语言处理 算法
|

【ACL2023】基于电商多模态概念知识图谱增强的电商场景图文模型FashionKLIP

从大规模电商图文数据中自动化构建多模态概念级知识图谱的方案,随后将概念级多模态先验知识注入到VLP模型中,以实现跨模态图文样本在概念层面进一步对齐。

1906 1
来自: 人工智能平台PAI  版块

xfs_repair命令xfs文件系统修复工具

xfs_repair命令xfs文件系统修复工具

4905 0
来自: 人工智能平台PAI  版块
|
数据挖掘 Python
|

【DSW Gallery】Jupyter魔术命令使用技巧

Jupyter Notebook除了能够执行Python代码之外,还提供一些魔术命令(Magic Command)方便用户简洁地解决标准数据分析中的各种常见问题,本文介绍几个常见的魔术命令使用技巧。

1005 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 自然语言处理 算法
|

跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA

本⽂简要介绍我们在电商下对CLIP模型的优化,以及上述模型在公开数据集上的评测结果。最后,我们介绍如何在EasyNLP框架中调用上述电商CLIP模型。

2894 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 存储 弹性计算
|

使用Databricks+Mlflow进行机器学习模型的训练和部署【Databricks 数据洞察公开课】

介绍如何使用Databricks和MLflow搭建机器学习生命周期管理平台,实现从数据准备、模型训练、参数和性能指标追踪、以及模型部署的全流程。

1862 0
|
SQL 消息中间件 缓存
|

Flink SQL 实战:双流 join 场景应用

大家都知道在使用 SQL 进行数据分析的过程中,join 是经常要使用的操作。在离线场景中,join 的数据集是有边界的,可以缓存数据有边界的数据集进行查询,有Nested Loop/Hash Join/Sort Merge Join 等多表 join;而在实时场景中,join 两侧的数据都是无边界的数据流,所以缓存数据集对长时间 job 来说,存储和查询压力很大。如何从容应对各种流式场景?

11164 2
来自: 实时计算 Flink  版块
|
流计算 网络协议 Apache
|

咱们从头到尾讲一次 Flink 网络流控和反压剖析

文章将从网络流控的概念与背景、TCP的流控机制、Flink TCP-based 反压机制(before V1.5)、Flink Credit-based 反压机制 (since V1.5)、总结与思考等几个方面进行分享。

6662 1
来自: 实时计算 Flink  版块
|
搜索推荐 开发者 算法
|

云栖全程回顾|搜索推荐工程技术专场(附视频与文档)

2019年9月26日在云栖大会《搜索推荐工程技术专场》上,介绍了阿里巴巴搜索推荐与广告,淘系推荐算法云上赋能的分享。基于阿里巴巴十几年搜索与推荐引擎的技术沉淀,承载了包括淘宝、天猫、菜鸟、盒马、钉钉、优酷乃至海外电商在内的整个阿里集团业务,同时由搜索推荐体系支撑起的云产品矩阵已服务于全球的开发者。本次分享邀请到了阿里巴巴搜索和推荐最核心的资深技术专家,为大家带来搜索和推荐领域最前沿、专业、深度的技术内容盛宴。

8969 0
来自: 智能搜索推荐  版块
|
缓存 前端开发 rax
|

浅析CPU结构对程序的影响以及熔断原理

## CPU 结构简介 ### CPU 指令结构 * 下表列出了CPU关键技术的发展历程以及代表系列,每一个关键技术的诞生都是环环相扣的,处理器这些技术发展历程都围绕着如何不让“CPU闲下来”这一个核心目标展开。

2788 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 算法 搜索推荐
|

【玩转数据系列五】农业贷款发放预测

很多农民因为缺乏资金,在每年耕种前会向相关机构申请贷款来购买种地需要的物资,等丰收之后偿还。农业贷款发放问题是一个典型的数据挖掘问题。贷款发放人通过往年的数据,包括贷款人的年收入、种植的作物种类、历史借贷信息等特征来构建经验模型,通过这个模型来预测受贷人的还款能力。

12031 2
来自: 人工智能平台PAI  版块
|
1天前
|
数据采集 人工智能 自然语言处理
|

微调不是万能药:三个信号告诉你根本不需要做微调

本文破除“微调万能”迷思,提出判断是否需微调的三大核心维度:任务复杂度(知识查询/格式遵从/能力涌现)、风格要求强度(可选→固定→品牌级)、数据可得性(量、质、多样性),并对比提示词工程、RAG等轻量替代方案,强调理性决策、避免无效投入。

23 0
|
6天前
|
数据采集 人工智能 自然语言处理
|

大模型微调后,如何判断它是不是“变聪明”了?这套评估方法论请收好。

本文系统阐述大模型微调效果评估的核心价值与实践方法:强调评估是检验泛化能力的“试金石”,须坚持人工主观评估(重业务适配性)与自动化客观评估(重量化指标)双轨并行;详解测试集构建、指标选择、基线对比等关键步骤,助力从0到1建立科学、可信、可迭代的评估体系。(239字)

55 3
|
8天前
|
机器学习/深度学习 数据可视化 程序员
|

模型说不清,人就不敢用:可解释性,往往死在数据准备那一步

模型说不清,人就不敢用:可解释性,往往死在数据准备那一步

59 7
|
8天前
|
数据库 C++
|

相似度搜索 ≠ 语义理解:向量数据库的能力边界

本文直击RAG系统常见误区:向量数据库只解决“相似性检索”,不等于“语义理解”。它能高效召回“看起来相关”的内容,但无法判断概念等价、逻辑冲突、条件限制或信息可用性。混淆二者是多数故障根源。正确认知其边界,方能工程化落地。

58 3
|
9天前
|
安全 搜索推荐 物联网
|

为什么微调会放大训练数据中的隐私残留

本文揭示一个反直觉真相:模型隐私风险多在微调后才凸显,而非预训练阶段。微调并非“创造”隐私信息,而是放大模型中已存在的隐性模式(如身份指向、行为细节),尤其LoRA等高效方法更易固化风险。关键在于警惕“过度具体化”输出——它比直接泄露更隐蔽、更危险。

56 2
|
10天前
|
安全 数据可视化 物联网
|

LoRA rank 越大越好?你可能在放大不可控行为

本文揭示LoRA微调中最隐蔽的陷阱:rank并非“效果旋钮”,而是“行为自由度开关”。调大rank不等于提升能力,实则放大不可控行为——松绑参数约束、固化数据隐性偏好、削弱可解释性,并掩盖系统设计缺陷。安全使用的关键,在于以“能否清晰归因风险”为阈值,而非追求表面效果。

79 2
|
10天前
|
搜索推荐 数据挖掘 UED
|

必应SEO优化方法:提升网站在必应搜索引擎排名的实用策略

必应(Bing)为全球第二大搜索引擎,做好其SEO优化可显著提升网站曝光、获取精准流量。本文系统梳理五大核心策略:关键词研究(善用Bing工具、聚焦长尾词)、网站结构、内容质量、技术优化(速度/移动端/HTTPS)及高质量外链建设,并提供进阶建议。(239字)

62 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69094
内容
128
活动
439688
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务