|
XML 存储 API
|

RAG效果优化:高质量文档解析详解

本文介绍了如何通过高质量的文档解析提升RAG系统整体的效果。

16998 15
来自: 智能搜索推荐  版块
|
运维 安全 数据安全/隐私保护
|

隐语(SecretFlow)联邦学习实训营第一期笔记

**摘要:** 本文探讨了数据可信流通的概念,强调了数据来源确认、使用范围界定、流程追溯和风险防范的重要性。数据流通分为内循环(安全域内)和外循环(跨域),其中外循环面临黑客攻击、内部泄露和数据滥用等风险。为建立技术信任,提出了身份验证、利益对齐、能力预期和行为审计四点要求,涉及隐私计算、可信计算等技术。隐语作为隐私计算框架,提供服务以支持数据安全流通,通过开源降低接入门槛,并具备统一架构、原生应用、开放拓展、高性能和多轮安全验证等优势。开源隐语助力解决数据权属和信任问题,促进数据要素的安全流通。

737 0
|
SQL DataWorks 安全
|

DataWorks产品使用合集之如何进行私有化部署

DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

584 1
|
机器学习/深度学习 数据处理 计算机视觉
|

LabelStudio环境搭建以及使用且解除上传文件限制

LabelStudio是开源的数据标注工具,支持多种类型如文本、图像、音频、视频的标注任务。它具有多种标注类型、可扩展性、团队协作和版本控制等功能,并可在本地、云端或Docker中部署。通过设置环境变量`DATA_UPLOAD_MAX_NUMBER_FILES`,可以解除上传文件数量限制。使用Docker安装时,可运行包含该变量的命令以启动容器,并通过http://localhost:8080访问。遇到文件数限制问题,可增大此变量值以解决。

4599 3
|
监控 应用服务中间件 nginx
|

使用 Docker Compose V2 快速搭建日志分析平台 ELK (Elasticsearch、Logstash 和 Kibana)

ELK的架构有多种,本篇分享使用的架构如图所示: Beats(Filebeat) -> -> Elasticsearch -> Kibana,目前生产环境一天几千万的日志,内存占用大概 10G

1436 4
|
关系型数据库 MySQL 数据处理
|

实时计算 Flink版产品使用合集之如何采集sqlserver 从节点

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

184 0
来自: 实时计算 Flink  版块
|
Ubuntu
|

Ubuntu20.04安装软件报错:The following packages have unmet dependencies - 蓝易云

请注意,替换上述命令中的 `<package-name>`为你实际要安装的软件包名。

3127 0
|
Java 应用服务中间件 Maven
|

解决“Unable to start embedded Tomcat“错误的完整指南

通过逐步检查以上问题,你应该能够解决 "Unable to start embedded Tomcat" 错误,并使Tomcat成功启动。

4832 1
|
数据采集 大数据 数据安全/隐私保护
|

掌握网络抓取技术:利用RobotRules库的Perl下载器一览小红书的世界

本文探讨了使用Perl和RobotRules库在遵循robots.txt规则下抓取小红书数据的方法。通过分析小红书的robots.txt文件,配合亿牛云爬虫代理隐藏真实IP,以及实现多线程抓取,提高了数据采集效率。示例代码展示了如何创建一个尊重网站规则的数据下载器,并强调了代理IP稳定性和抓取频率控制的重要性。

575 7
|
SQL HIVE
|

Hive中日期处理函数的使用(date_format、date_add、date_sub、next_day)

Hive中日期处理函数的使用(date_format、date_add、date_sub、next_day)

4275 3
|
SQL XML JSON
|

Hive函数全解——思维导图 + 七种函数类型

Hive函数全解——思维导图 + 七种函数类型

635 2
|
消息中间件 安全 Kafka
|

2024年了,如何更好的搭建Kafka集群?

我们基于Kraft模式和Docker Compose同时采用最新版Kafka v3.6.1来搭建集群。

4044 2
|
人工智能 机器人 图形学
|

2023 年最好的36款 AI 生产力工具(上)

本文主要展示了36 款 AI 应用,可以帮助读者更快、更好地工作。每个人都在与ChatGPT交流,从完整的博客文章到特定代码行的功能都在询问。其结果令人惊叹。虽然我们仍在探索如何将这项技术纳入我们的工作流程中,但明显的是,人工智能工具正在改变游戏规则。尽管ChatGPT是目前最受欢迎的,但它远不是首款进入市场的人工智能应用程序。

1738 1
|
机器学习/深度学习 分布式计算 并行计算
|

【MATLAB】史上最全的13种数据拟合算法全家桶

【MATLAB】史上最全的13种数据拟合算法全家桶

2579 1
|
机器学习/深度学习 人工智能 自然语言处理
|

四张图片道清AI大模型的发展史(1943-2023)

现在最火的莫过于GPT了,也就是大规模语言模型(LLM)。“LLM” 是 “Large Language Model”(大语言模型)的简称,通常用来指代具有巨大规模参数和复杂架构的自然语言处理模型,例如像 GPT-3(Generative Pre-trained Transformer 3)这样的模型。这些模型在处理文本和语言任务方面表现出色,但其庞大的参数量和计算需求使得它们被称为大模型。当然也有一些自动生成图片的模型,但是影响力就不如GPT这么大了。

5452 0
|
存储 NoSQL 知识图谱
|

7 种查询策略教你用好 Graph RAG 探索知识图谱

我们在这篇文章中探讨了知识图谱,特别是图数据库 NebulaGraph,是如何结合 LlamaIndex 和 GPT-3.5 为 Philadelphia Phillies 队构建了一个 RAG。 此外,我们还探讨了 7 种查询引擎,研究了它们的内部工作,并观察了它们对三个问题的回答。我们比较了每个查询引擎的优点和缺点,以便更好地理解了每个查询引擎设计的用例。

1447 0
|
传感器 机器学习/深度学习 Ubuntu
|

【论文解读】F-PointNet 使用RGB图像和Depth点云深度 数据的3D目标检测

​F-PointNet 提出了直接处理点云数据的方案,但这种方式面临着挑战,比如:如何有效地在三维空间中定位目标的可能位置,即如何产生 3D 候选框,假如全局搜索将会耗费大量算力与时间。 F-PointNet是在进行点云处理之前,先使用图像信息得到一些先验搜索范围,这样既能提高效率,又能增加准确率。 论文地址:Frustum PointNets for 3D Object Detection from RGB-D Data  开源代码:https://github.com/charlesq34/frustum-pointnets

2039 0
|
供应链 Python
|

Pyomo:强大的优化建模工具库

Pyomo介绍

2911 0
|
存储 人工智能 Cloud Native
|

云原生大数据架构实践与思考-DataFunTalk

导读: 作者:振策-阿里云计算平台-产品解决方案, 20230805 本文将分享当前云原生大数据架构的发展历程/架构定义/核心能力/应用场景及趋势思考。主要包括以下四个部分: - 从大数据上云看架构 - 云原生数据平台的核心能力 - Data+AI with Cloud-Native - 未来趋势与思考

3667 0
|
存储 缓存 分布式计算
|

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

本篇文章介绍了 Gluten 项目的背景和目标,以及它如何解决基于 Apache Spark 的数据负载场景中的 CPU 计算瓶颈。此外,还详细介绍了 Gluten 与 Celeborn 的集成。Celeborn 采用了 Push Shuffle 的设计,通过远端存储、数据重组、内存缓存、多副本等设计,不仅进一步提升 Gluten Shuffle 的性能和稳定性,还使得 Gluten 拥有更好的弹性,从而更好的拥抱云原生。

3148 4
|
机器学习/深度学习 XML JSON
|

LLM 系列 | 08:ChatGPT Prompt实践:文本转换

今天这篇小作文主要介绍如何通过构建ChatGPT Prompt以解决文本转换任务。

1186 0
|
消息中间件 存储 NoSQL
|

基于 Flink CDC 的现代数据栈实践

阿里云技术专家,Apache Flink PMC Member & Committer, Flink CDC Maintainer 徐榜江和阿里云高级研发工程师,Apache Flink Contributor & Flink CDC Maintainer 阮航,在 Flink Forward Asia 2022 数据集成专场的分享。

1775 0
来自: 实时计算 Flink  版块
|
运维 达摩院 Kubernetes
|

SREWorks数智运维平台开源一周年 | 智能运维aiops的回顾与展望

开源的这一年,我们聊一聊。

2378 0
来自: 大数据计算 MaxCompute  版块
|
存储 消息中间件 SQL
|

Flink Table Store 0.3 构建流式数仓最佳实践

阿里巴巴高级技术专家,Apache Flink PMC 李劲松(之信),在 FFA 2022 实时湖仓的分享。

2287 0
来自: 实时计算 Flink  版块
|
SQL 存储 分布式计算
|

Delta Lake的演进历史及现状【Databricks 数据洞察公开课】

从大数据平台架构的演进、Delta Lake关键特性、版本迭代、重要功能等多方面,介绍Delta Lake的演进和优势。

1602 0
|
关系型数据库 MySQL 数据库
|

Flink CDC 2.2 正式发布,新增四种数据源,支持动态加表,提供增量快照框架

Flink CDC 2.2 正式发布,文末有一则消息或许你会感兴趣~

9800 0
来自: 实时计算 Flink  版块
|
SQL 关系型数据库 MySQL
|

Flink CDC 2.0 正式发布,详解核心改进

Flink CDC 2.0.0 版本于 8 月 10 日正式发布,点击了解详情~

27372 1
来自: 实时计算 Flink  版块
|
存储 机器学习/深度学习 人工智能
|

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/spark(当前产品提供¥599首购试用活动,欢迎试用!)

4278 0
|
JSON 编解码 缓存
|

Search template — Elastic Stack 实战手册

Elasticsearch 允许使用模板语言 mustache 来预设搜索逻辑,在实际搜索时,通过参数中的键值,对来替换模板中的占位符,最终完成搜索

917 0
|
存储 SQL 分布式计算
|

数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。

29555 2
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 存储 人工智能
|

AI·OS新探索:端到端算法工程平台

本话题将围绕深度算法学习工程,详细介绍在淘宝搜索,推荐,广告业务的最佳实践,和大家详细阐述,阿里是如何构建一个高效的端到端AI算法平台。

19000 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 人工智能 自然语言处理
|

淘宝千人千面背后的秘密:搜索推荐广告三位一体的在线服务体系AI·OS

揭晓三位一体的在线服务体系AI·OS,及其技术架构演进,技术概况,云原生产品与实践。

8863 0
来自: 智能搜索推荐  版块
|
SQL 存储 分布式计算
|

Spark 3.0 对于 DATE 和 TIMESTAMP 的改进

本文将会深入介绍DATE和TIMESTAMP

8336 0
|
分布式计算 资源调度 DataWorks
|

MaxCompute/Dataworks云数仓高可用最佳实践

大数据计算服务(MaxCompute,原名ODPS)是一种企业级SaaS模式云数据仓库,能够快速、完全托管的EB级数据仓库解决方案。DataWorks和MaxCompute关系紧密:DataWorks为MaxCompute提供一站式的数据同步、业务流程设计、数据开发、管理和运维功能。 本文主要介绍在使用阿里云MaxCompute/DataWorks运维过程中经常会遇到的问题及对应的解决方法。

3449 0
来自: 大数据计算 MaxCompute  版块
|
存储 大数据 分布式计算
|

助力云上开源生态 - 阿里云开源大数据平台的发展

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上,阿里巴巴高级产品专家夏立为大家分享了阿里云EMR如何助力云上开源生态。

12166 0
|
索引 存储 对象存储
|

【最佳实践】如何从AWS中的Elasticsearch索引平滑迁移至阿里云

阿里云的易用、便捷、稳定、以及低门槛深受广大开发者欢迎,本次实践是针对希望将Elasticsearch索引迁移至阿里云的客户所准备。本次Elasticsearch索引迁移方案参考架构图如下:

6445 0
|
分布式计算 并行计算 TensorFlow
|

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

11510 1
|
消息中间件 Java Kafka
|

Apache Flink 漫谈系列(15) - DataStream Connectors之Kafka

聊什么 为了满足本系列读者的需求,在完成《Apache Flink 漫谈系列(14) - DataStream Connectors》之前,我先介绍一下Kafka在Apache Flink中的使用。所以本篇以一个简单的示例,向大家介绍在Apache Flink中如何使用Kafka。

9305 57
来自: 实时计算 Flink  版块
|
资源调度 调度 混合部署
|

阿里巴巴搜索混部解密

Hippo是搜索调度团队根据搜索、推荐、广告等业务特点从2013年开始打造并逐步完善的一套分布式调度系统,支持了集团内外多个事业部的搜索、推荐、广告等相关业务。2017双11期间,搜索在离线混部实现了全时段无干预无降级稳定运行,提供了搜索双11所有TF模型离线批次训练所需资源,并在2017/11/10晚上23点因为离线训练集群负载过高首次在混部上不间断运行了超过2万core的双11实时训练流程并一直在稳定运行。

8112 0
来自: 智能搜索推荐  版块
|
8天前
|
C++ 容器
|

切分粒度,如何影响 TopK 的风险分布

RAG系统问题常被归咎于TopK调参,实则根源在文档切分粒度——它预先决定了风险类型(缺失型/冲突型)与分布形态(分散或集中)。TopK只是放大器,而非成因。优化切分才是治本之策。

62 12
|
8天前
|
人工智能 算法 量子技术
|

下一代互联网的模样:当 AI 会思考、Web3 去中心、量子打破极限

下一代互联网的模样:当 AI 会思考、Web3 去中心、量子打破极限

57 8
|
10天前
|
SQL 人工智能 运维
|

人机共生时代:AI 不是敌人,而是一起扛活的伙伴

人机共生时代:AI 不是敌人,而是一起扛活的伙伴

73 7
|
11天前
|
人工智能 资源调度 供应链
|

自主智能体:重塑传统行业的隐形革命

在AI从概念走向应用的时代,自主智能体正悄然重塑传统行业。它非单一模型,而是具备感知、决策、执行与优化能力的“数字员工”,已在制造、供应链、农业、医疗、建筑等领域实现深度赋能,推动人机协同新范式。

51 1
|
12天前
|
数据采集 人工智能 JSON
|

别让烂数据毁了你的AI!一份人人能懂的数据集入门与避坑指南

本文深入浅出解析AI数据集的核心价值与实践方法:阐明“垃圾进,垃圾出”原理,拆解数据集、样本、特征、标签等概念,详解训练/验证/测试集分工;以文本情感二分类为例,手把手指导数据收集、清洗、标注、划分及低代码微调;强调数据质量决定模型上限,并展望合规、合成数据与自动化标注趋势。(239字)

97 1
|
17天前
|
机器学习/深度学习 存储 缓存
|

零基础玩转RAG:手把手教你搞定文档切分与大模型微调

本文深入解析RAG中至关重要的文档切分技术,系统对比句子切分、固定长度、重叠窗口、递归切分和语义切分五种策略,结合代码示例与实战技巧(PDF/Markdown/代码处理),并提供量化评估与调优方法,助你夯实RAG基石。(239字)

101 1
|
18天前
|
存储 人工智能 安全
|

重构认知——AI智能体来了从0到1的落地工程全指南

本文系统阐述AI智能体开发方法论:突破“调参”思维,以感知、决策、执行、记忆四大架构为基,提出从场景锁定到评估优化的“五步跃迁法”,助力开发者构建具备行业深度与自主行动力的数字生命。(239字)

122 0
|
22天前
|
SQL 机器学习/深度学习 运维
|

MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤

MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤

132 13
|
25天前
|
存储 人工智能 分布式计算
|

阿里云 OpenLake:AI 时代的全模态、多引擎、一体化解决方案深度解析

阿里云徐晟详解OpenLake:构建全模态、多引擎、一体化智能数据体系,融合大数据与AI,支持湖仓一体、Agentic Data及AI搜索,助力企业降本增效、加速AI落地。(239字)

187 1
|
27天前
|
人工智能 运维 调度
|

数据中心节能:液冷 + AI 调度,到底是不是“真解法”?

数据中心节能:液冷 + AI 调度,到底是不是“真解法”?

108 4

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69094
内容
128
活动
439688
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务