|
5月前
|
Java 数据库 Docker
|

基于neo4j数据库和dify大模型框架的rag模型搭建

基于neo4j数据库和dify大模型框架的rag模型搭建

1395 35
|
7月前
|
存储 分布式计算 安全
|

数据生命周期管理:从生成到销毁,数据的“生死”之旅

数据生命周期管理:从生成到销毁,数据的“生死”之旅

1331 6
|
7月前
|
数据安全/隐私保护
|

5分钟注册一个可用Gemini的谷歌邮箱账号

5分钟注册一个可用Gemini的谷歌邮箱账号

1814 23
|
10天前
|
分布式计算 关系型数据库 MySQL
|

六、Sqoop 导出

除了从数据库往 Hadoop 导,Sqoop 也能把 Hadoop 里的数据反向“倒”回数据库,做成 Export。很多场景用得上,比如 ETL 后结果回写,业务系统更新,或者补数据。这篇文章细讲了 Export 的用法,INSERT / UPDATE 模式啥区别,update-key、allowinsert 怎么配,暂存表咋用,配了完整例子,学完导出不用再踩坑!

115 1
|
6月前
|
存储 人工智能 自然语言处理
|

LangChain RAG入门教程:构建基于私有文档的智能问答助手

本文介绍如何利用检索增强生成(RAG)技术与LangChain框架构建基于特定文档集合的AI问答系统。通过结合检索系统和生成机制,RAG能有效降低传统语言模型的知识局限与幻觉问题,提升回答准确性。文章详细展示了从环境配置、知识库构建到系统集成的全流程,并提供优化策略以改进检索与响应质量。此技术适用于专业领域信息检索与生成,为定制化AI应用奠定了基础。

1646 5
|
5月前
|
人工智能 并行计算 监控
|

在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南

本文详细介绍了在AMD硬件上构建大型语言模型(LLM)推理环境的全流程。以RX 7900XT为例,通过配置ROCm平台、部署Ollama及Open WebUI,实现高效本地化AI推理。尽管面临技术挑战,但凭借高性价比(如700欧元的RX 7900XT性能接近2200欧元的RTX 5090),AMD方案成为经济实用的选择。测试显示,不同规模模型的推理速度从9到74 tokens/秒不等,满足交互需求。随着ROCm不断完善,AMD生态将推动AI硬件多元化发展,为个人与小型组织提供低成本、低依赖的AI实践路径。

1921 1
|
9月前
|
存储 消息中间件 druid
|

Druid 架构原理及核心特性详解

Druid 是一个分布式、支持实时多维OLAP分析的列式存储数据处理系统,适用于高速实时数据读取和灵活的多维数据分析。它通过Segment、Datasource等元数据概念管理数据,并依赖Zookeeper、Hadoop和Kafka等组件实现高可用性和扩展性。Druid采用列式存储、并行计算和预计算等技术优化查询性能,支持离线和实时数据分析。尽管其存储成本较高且查询语言功能有限,但在大数据实时分析领域表现出色。

1995 19
|
10天前
|
供应链 搜索推荐 API
|

从0到1掌握1688API:图片搜索获取技巧与避坑指南

1688图片搜索API基于图像识别技术,支持上传JPG/PNG格式图片(Base64或URL),实现同款或相似商品搜索。适用于电商选品、供应链管理等场景,提供价格、销量等多维度筛选,返回商品ID、标题、价格、销量及供应商信息。

140 3
|
6月前
|
自然语言处理 API 数据库
|

2025年大模型就业:核心技术趋势、技能要求与职业发展全景解析

随着大语言模型(Large Language Models, LLMs)的技术飞速迭代,人工智能领域正经历从通用对话工具向高度智能化、任务导向的智能体(Agent)系统的深刻转型。到2025年4月,企业对掌握LLM相关技术的专业人才需求持续高涨,核心能力聚焦于检索增强生成(RAG)、智能体任务自动化、模型对齐优化以及多模态融合。本文将全面剖析2025年大模型就业市场的技术演进路径、核心技能要求、行业应用场景、推荐实践项目以及职业发展建议,旨在为从业者提供详尽的职业规划指南,帮助其精准把握行业机遇。

1416 6
|
7月前
|
数据采集 Web App开发 API
|

B站高清视频爬取:Python爬虫技术详解

B站高清视频爬取:Python爬虫技术详解

1756 2
|
9月前
|
并行计算 PyTorch 算法框架/工具
|

阿里云PAI-部署Qwen2-VL-72B

阿里云PAI-部署Qwen2-VL-72B踩坑实录

3923 1
来自: 人工智能平台PAI  版块
|
8月前
|
JSON 搜索推荐 数据挖掘
|

Temu商品列表数据接口(Temu API系列)

Temu作为新兴跨境电商平台,为全球卖家和消费者搭建便捷交易桥梁。通过商品列表数据接口,开发者、分析师可获取商品名称、价格、销量等信息,助力市场调研、商品管理和数据分析。接口支持HTTP GET请求,参数包括品类、价格区间、排序方式等,响应格式为JSON。Python示例代码展示了如何调用API获取数据,应用场景涵盖竞争对手分析、选品参考、销售预测及个性化推荐系统开发等。

2274 24
|
15天前
|
数据采集 机器学习/深度学习 人工智能
|

反爬虫机制深度解析:从基础防御到高级对抗的完整技术实战

本文系统阐述了反爬虫技术的演进与实践,涵盖基础IP限制、User-Agent检测,到验证码、行为分析及AI智能识别等多层防御体系,结合代码实例与架构图,全面解析爬虫攻防博弈,并展望智能化、合规化的发展趋势。

219 0
|
10月前
|
存储 监控 数据可视化
|

常见的分布式定时任务调度框架

分布式定时任务调度框架用于在分布式系统中管理和调度定时任务,确保任务按预定时间和频率执行。其核心概念包括Job(任务)、Trigger(触发器)、Executor(执行器)和Scheduler(调度器)。这类框架应具备任务管理、任务监控、良好的可扩展性和高可用性等功能。常用的Java生态中的分布式任务调度框架有Quartz Scheduler、ElasticJob和XXL-JOB。

3759 66
|
10月前
|
应用服务中间件 Linux 网络安全
|

nginx安装部署ssl证书,同时支持http与https方式访问

为了使HTTP服务支持HTTPS访问,需生成并安装SSL证书,并确保Nginx支持SSL模块。首先,在`/usr/local/nginx`目录下生成RSA密钥、证书申请文件及自签名证书。接着,确认Nginx已安装SSL模块,若未安装则重新编译Nginx加入该模块。最后,编辑`nginx.conf`配置文件,启用并配置HTTPS服务器部分,指定证书路径和监听端口(如20000),保存后重启Nginx完成部署。

3205 8
|
11天前
|
人工智能 Cloud Native 搜索推荐
|

【2025云栖大会】阿里云AI搜索年度发布:开启Agent时代,重构搜索新范式

2025云栖大会阿里云AI搜索专场上,发布了年度AI搜索技术与产品升级成果,推出Agentic Search架构创新与云原生引擎技术突破,实现从“信息匹配”到“智能问题解决”的跨越,支持多模态检索、百亿向量处理,助力企业降本增效,推动搜索迈向主动服务新时代。

145 22
|
11天前
|
机器学习/深度学习 存储 人工智能
|

斯坦福ACE框架:让AI自己学会写prompt,性能提升17%成本降87%

斯坦福与SambaNova联合提出Agentic Context Engineering(ACE),通过让模型自生成、反思并迭代优化输入上下文,构建持续演化的“操作手册”,显著提升任务准确率,降低成本与延迟,突破传统简洁prompt局限,推动LLM高效自我改进。

261 2
|
5月前
|
存储 JSON 数据可视化
|

从零构建知识图谱:使用大语言模型处理复杂数据的11步实践指南

本文将基于相关理论知识和方法构建一个完整的端到端项目,系统展示如何利用知识图谱方法对大规模数据进行处理和分析。

933 7
|
7月前
|
数据安全/隐私保护 UED 异构计算
|

【大模型私有化部署要花多少钱?】一张图看懂你的钱用在哪

本文探讨了高性价比实现DeepSeek大模型私有化部署的方法,分为两部分: 一是定义大模型性能指标,包括系统级(吞吐量、并发数)与用户体验级(首token生成时间、单token生成时间)指标,并通过roofline模型分析性能瓶颈; 二是评估私有化部署成本,对比不同硬件(如H20和4090)及模型选择,结合业务需求优化资源配置。适合关注数据安全与成本效益的企业参考。

1758 1
|
15天前
|
数据采集 运维 监控
|

爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南

本文系统解析爬虫与自动化核心技术,涵盖HTTP请求、数据解析、分布式架构及反爬策略,结合Scrapy、Selenium等框架实战,助力构建高效、稳定、合规的数据采集系统。

264 0
|
1月前
|

一键解决 Office 卸载难题!微软官方卸载工具,点击下载开启轻松卸载之旅

微软官方Office卸载工具可彻底清除Office 2007至2021及365版本残留,解决重装报错问题。支持深度扫描与一键卸载,操作简单,卸载后需重启生效。

522 18
|
7月前
|
关系型数据库 MySQL 数据库
|

基于Flink CDC 开发,支持Web-UI的实时KingBase 连接器,三大模式无缝切换,效率翻倍!

TIS 是一款基于Web-UI的开源大数据集成工具,通过与人大金仓Kingbase的深度整合,提供高效、灵活的实时数据集成方案。它支持增量数据监听和实时写入,兼容MySQL、PostgreSQL和Oracle模式,无需编写复杂脚本,操作简单直观,特别适合非专业开发人员使用。TIS率先实现了Kingbase CDC连接器的整合,成为业界首个开箱即用的Kingbase CDC数据同步解决方案,助力企业数字化转型。

1395 5
|
8天前
|
人工智能 数据处理 API
|

阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来

Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。

131 6
来自: 实时计算 Flink  版块
|
10月前
|
机器学习/深度学习 监控 算法
|

机器学习在图像识别中的应用:解锁视觉世界的钥匙

机器学习在图像识别中的应用:解锁视觉世界的钥匙

1237 95
|
4月前
|
存储 运维 Java
|

官宣 | Fluss 0.7 发布公告:稳定性与架构升级

Fluss 0.7 版本正式发布!历经 3 个月开发,完成 250+ 次代码提交,聚焦稳定性、架构升级、性能优化与安全性。新增湖流一体弹性无状态服务、流式分区裁剪功能,大幅提升系统可靠性和查询效率。同时推出 Fluss Java Client 和 DataStream Connector,支持企业级安全认证与鉴权机制。未来将在 Apache 孵化器中继续迭代,探索多模态数据场景,欢迎开发者加入共建!

392 8
来自: 实时计算 Flink  版块
|
15天前
|
存储 缓存 调度
|

vLLM 吞吐量优化实战:10个KV-Cache调优方法让tokens/sec翻倍

十个经过实战检验的 vLLM KV-cache 优化方法 —— 量化、分块预填充、前缀重用、滑动窗口、ROPE 缩放、后端选择等等 —— 提升 tokens/sec。

246 10
|
1月前
|
人工智能 Ubuntu 前端开发
|

Dify部署全栈指南:AI从Ubuntu配置到HTTPS自动化的10倍秘籍

本文档介绍如何部署Dify后端服务及前端界面,涵盖系统环境要求、依赖安装、代码拉取、环境变量配置、服务启动、数据库管理及常见问题解决方案,适用于开发与生产环境部署。

446 1
|
4月前
|
存储 编解码 Prometheus
|

大模型推理加速实战:vLLM 部署 Llama3 的量化与批处理优化指南

本文详解如何通过量化与批处理优化,在vLLM中高效部署Llama3大模型。涵盖内存管理、推理加速及混合策略,提升吞吐量并降低延迟,适用于大规模语言模型部署实践。

1149 2
|
7月前
|
监控 Linux iOS开发
|

告别数据丢失!跨平台同步工具FreeFileSync 14.2下载教程|手把手配置多设备备份

FreeFileSync 14.2 是一款开源跨平台文件同步工具,支持 Windows、macOS 和 Linux 系统。新增功能包括实时同步监控、云存储集成(Google Drive 和 Dropbox)、智能冲突解决及性能优化,适用于数据备份、服务器文件同步等场景。本文详细介绍其下载、安装、配置及高级使用技巧,并提供常见问题解答和延伸学习资源。

1898 8
|
7月前
|
机器学习/深度学习 人工智能 数据可视化
|

生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较

本文系统对比了扩散模型与Flow Matching两种生成模型技术。扩散模型通过逐步添加噪声再逆转过程生成数据,类比为沙堡的侵蚀与重建;Flow Matching构建分布间连续路径的速度场,如同矢量导航系统。两者在数学原理、训练动态及应用上各有优劣:扩散模型适合复杂数据,Flow Matching采样效率更高。文章结合实例解析两者的差异与联系,并探讨其在图像、音频等领域的实际应用,为生成建模提供了全面视角。

1061 1
|
7月前
|
机器学习/深度学习 数据处理
|

大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究

本文分析了大规模Transformer架构(如LLama)中归一化技术的关键作用,重点探讨了LayerNorm被RMSNorm替代的原因。归一化通过调整数据量纲保持分布形态不变,提升计算稳定性和收敛速度。LayerNorm通过均值和方差归一化确保数值稳定,适用于序列模型;而RMSNorm仅使用均方根归一化,省略均值计算,降低计算成本并缓解梯度消失问题。RMSNorm在深层网络中表现出更高的训练稳定性和效率,为复杂模型性能提升做出重要贡献。

1474 14
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
|

很火的DeepSeek到底是什么

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年。因推出开源 AI 模型 DeepSeek-R1 而引起了广泛关注。与ChatGPT相比,大幅降低了推理模型的成本。

3424 36
|
9月前
|
关系型数据库 OLAP OLTP
|

深入剖析 OALP 与 OLTP:概念、区别、技术、场景

本文深入剖析了OLTP(在线事务处理)与OLAP(在线分析处理)的概念、区别、技术及应用场景。OLTP专注于实时业务操作,确保数据一致性和高效性,适用于金融、电商等行业;OLAP则侧重于历史数据分析,支持复杂查询和多维分析,助力企业决策。两者在数据特点、系统设计、用户类型及数据库设计上存在显著差异。合理结合OLTP和OLAP,可提升企业的运营效率和决策水平。

1451 15
|
2月前
|
机器学习/深度学习 人工智能 算法
|

GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题

这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破

858 0
|
4月前
|
SQL 数据建模 关系型数据库
|

别光知道存数据库了,数据建模才是王道!(入门指南+实战代码)

别光知道存数据库了,数据建模才是王道!(入门指南+实战代码)

562 4
|
4月前
|
数据挖掘 计算机视觉 Windows
|

Origin2024 汉化安装专业解析|企业级部署教程+批量激活解决方案

Origin是一款由OriginLab开发的科学绘图与数据分析软件,支持Windows系统,提供丰富的2D/3D图形模板和强大的数据分析功能,如统计、信号处理、图像处理等。本文详细介绍Origin2024的下载与安装步骤,包括解压文件、运行安装程序、输入序列号、安装路径设置及破解方法,帮助用户快速完成软件安装与激活。

867 21
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

多模态AI核心技术:CLIP与SigLIP技术原理与应用进展

近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。

1117 13
|
28天前
|
并行计算 数据格式 异构计算
|

完整教程:从0到1在Windows下训练YOLOv8模型

本文详细介绍在Windows系统下使用YOLOv8训练目标检测模型的完整步骤,涵盖环境配置、数据集准备、模型训练与测试、常见问题解决及GPU加速技巧。提供详细命令与代码示例,并推荐现成数据集与工具,助您高效完成模型训练。

817 13
|
2月前
|
人工智能 分布式计算 自然语言处理
|

多智能体系统设计:5种编排模式解决复杂AI任务

本文探讨了多AI智能体协作中的关键问题——编排。文章指出,随着系统从单体模型向多智能体架构演进,如何设计智能体之间的通信协议、工作流程和决策机制,成为实现高效协作的核心。文章详细分析了五种主流的智能体编排模式:顺序编排、MapReduce、共识模式、分层编排和制作者-检查者模式,并分别介绍了它们的应用场景、优势与挑战。最后指出,尽管大模型如GPT-5提升了单体能力,但在复杂任务中,合理的智能体编排仍不可或缺。选择适合的编排方式,有助于在系统复杂度与实际效果之间取得平衡。

457 10
|
4月前
|
人工智能 前端开发 搜索推荐
|

LangGraph实战教程:构建会思考、能记忆、可人工干预的多智能体AI系统

本文介绍了使用LangGraph和LangSmith构建企业级多智能体AI系统的完整流程。从简单的ReAct智能体开始,逐步扩展至包含身份验证、人工干预、长期内存管理和性能评估的复杂架构。文章详细讲解了状态管理、工具集成、条件流程控制等关键技术,并对比了监督者架构与群体架构的优劣。通过系统化的方法,展示了如何构建可靠、可扩展的AI系统,为现代AI应用开发提供了坚实基础。*作者:Fareed Khan*

1077 0
|
8月前
|
机器学习/深度学习 算法 PyTorch
|

DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解

强化学习(RL)是提升大型语言模型(LLM)推理能力的重要手段,尤其在复杂推理任务中表现突出。DeepSeek团队通过群组相对策略优化(GRPO)方法,在DeepSeek-Math和DeepSeek-R1模型中取得了突破性成果,显著增强了数学推理和问题解决能力。GRPO无需价值网络,采用群组采样和相对优势估计,有效解决了传统RL应用于语言模型时的挑战,提升了训练效率和稳定性。实际应用中,DeepSeek-Math和DeepSeek-R1分别在数学推理和复杂推理任务中展现了卓越性能。未来研究将聚焦于改进优势估计、自适应超参数调整及理论分析,进一步拓展语言模型的能力边界。

1249 8
|
10月前
|
机器学习/深度学习 算法 安全
|

从方向导数到梯度:深度学习中的关键数学概念详解

方向导数衡量函数在特定方向上的变化率,其值可通过梯度与方向向量的点积或构造辅助函数求得。梯度则是由偏导数组成的向量,指向函数值增长最快的方向,其模长等于最速上升方向上的方向导数。这两者的关系在多维函数分析中至关重要,广泛应用于优化算法等领域。

666 36
|
3月前
|
SQL DataWorks 监控
|

免费玩转阿里云DataWorks!智能Copilot+用户画像实战,开发效率翻倍攻略

DataWorks是阿里云推出的一站式大数据开发与治理平台,具备数据集成、开发、管理、安全及智能监控等功能,支持多行业数据中台建设。其可视化界面与强大调度能力,助力企业高效完成数据处理与分析。

531 0
|
6月前
|
数据采集 存储 监控
|

Python 原生爬虫教程:网络爬虫的基本概念和认知

网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。

920 31
|
9月前
|
存储 SQL NoSQL
|

Doris 架构原理及核心特性详解

Doris 是百度内部孵化的OLAP项目,现已开源并广泛应用。它采用MPP架构、向量化执行引擎和列存储技术,提供高性能、易用性和实时数据处理能力。系统由FE(管理节点)和BE(计算与存储节点)组成,支持水平扩展和高可用性。Doris 适用于海量数据分析,尤其在电商、游戏等行业表现出色,但资源消耗较大,复杂查询优化有局限性,生态集成度有待提高。

1305 15
|
10天前
|
JSON 安全 算法
|

从0到1掌握1688API:商品详情获取技巧与避坑指南

1688商品详情API通过商品ID获取商品标题、价格库存、图片视频、SKU等结构化数据,支持字段定制与批发价查询,适用于电商整合与竞品分析。采用RESTful+JSON,需AppKey/Secret签名认证,保障数据实时安全。

122 0
|
2月前
|
人工智能 自然语言处理 JavaScript
|

17种RAG实现方法大揭秘

RAG(检索增强生成)通过结合外部知识库与LLM生成能力,有效解决大模型知识滞后与幻觉问题。本文详解三类策略、17种实现方案,涵盖文档分块、检索排序与反馈机制,并提供工程选型指南,助力构建高效智能系统。

543 0
|
4月前
|
数据采集 自动驾驶 Java
|

PAI-TurboX:面向自动驾驶的训练推理加速框架

PAI-TurboX 为自动驾驶场景中的复杂数据预处理、离线大规模模型训练和实时智能驾驶推理,提供了全方位的加速解决方案。PAI-Notebook Gallery 提供PAI-TurboX 一键启动的 Notebook 最佳实践

1129 2
来自: 人工智能平台PAI  版块
|
4月前
|
数据采集 人工智能 编解码
|

2025年颠覆闭源大模型?MonkeyOCR:这款开源AI文档解析模型,精度更高,速度更快!

还在依赖昂贵且慢的闭源OCR工具?华中科技大学开源的MonkeyOCR文档解析模型,以其超越GPT4o的精度和更快的推理速度,在单机单卡(3090)上即可部署,正颠覆业界认知。本文将深入解析其设计哲学、核心突破——大规模自建数据集,并分享实测体验与避坑指南。

1465 87
|
4月前
|
安全 Linux Android开发
|

如何将Kindle电子书下载到电脑:技术流程与操作解析

随着数字阅读兴起,Kindle成为主流电子书平台。然而,Amazon的封闭生态和DRM限制,使用户难以灵活管理书籍。本文从技术角度出发,讲解如何合法下载Kindle电子书至电脑,包括使用Kindle for PC、USB导出及进阶方案(如Android模拟器、WINE环境)。同时介绍文件格式处理、自动化备份与阅读体验优化方法,并强调版权合规的重要性,助您构建个人数字图书馆。

1546 3

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
67306
内容
127
活动
439311
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务