|
10月前
|
存储 SQL 大数据
|

从数据存储到分析:构建高效开源数据湖仓解决方案

今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。

743 7
来自: 实时计算 Flink  版块
|
10月前
|
人工智能 运维 自然语言处理
|

AI for Network Ops

网络运维工作涵盖从规划设计到日常维护的多个方面,随着网络规模扩大,人工运维难以应对。自动化运维系统应运而生,通过批量配置变更和监控工具提升效率。大模型(LLM)具备推理、学习和泛化能力,可作为网工的智能助手,优化故障定位等任务。团队通过多轮信息摘要和微调模型,实现了高效准确的故障定位,单个故障定位耗时小于1.5分钟,准确率超过80%。未来,大模型还将应用于智能答疑机器人和意图驱动网络等领域,全面提升网络运维效率。

217 9
|
10月前
|
人工智能 Java 测试技术
|

重塑招聘生态,共赴全局提效

本次分享主要探讨了大模型在应用中的经验和心得,特别是在深圳市模型推出后对其应用场景的思考。内容涵盖生成式大模型的应用、标注准确率接近人工、招聘领域的具体应用效果,以及大模型如何重塑招聘生态和赋能职场。通过实际案例展示了大模型在客服、电话分析、简历优化等场景中的高效应用,强调其在降低成本、提高效率和解决时空错配问题上的优势。未来,大模型有望进一步优化招聘流程,提升企业与求职者的匹配效率。

153 8
|
10月前
|
机器学习/深度学习 编解码 算法
|

高真实感3D高斯数字化身

本次分享介绍了3D高速扩建高新作为一种新的可微渲染技术,特别是高斯泼溅技术在数字化身3D领域的应用。该技术通过高斯点云扩展传统3D点云属性,实现高真实感、实时交互渲染,优化3D重建与多视点图像生成。文中还探讨了数字化身的构建与应用,包括全身和人头模型的创建,并展示了其在不同环境光照下的效果。最后,提出了未来研究方向,如更灵活的编辑和视频生成大模型的融合,以提升数字人的可控性和真实感。

384 4
|
10月前
|
人工智能 自然语言处理 安全
|

新浪微博AIGC业务应用探索-AIGC应用平台助力业务提效实践

本次分享围绕AIGC技术在新浪微博的应用展开,涵盖四个部分。首先分析AIGC为微博带来的机遇与挑战,特别是在内容安全和模型幻觉等问题上的应对策略;其次介绍通过工程架构快速实现AIGC技术落地的方法,包括统一部署模型和服务编排;接着展示AIGC在微博的具体应用场景,如评论互动、视频总结和智能客服等;最后展望未来,探讨大模型的发展趋势及其在多模态和特定业务场景中的应用前景。

408 6
|
10月前
|
缓存 人工智能 算法
|

深度揭秘复杂异构硬件推理优化

本文介绍了大语言模型在部署推理层面的性能优化工作,涵盖高性能算子、量化压缩、高效运行时及分布式调度四个方面。面对参数和上下文规模增长带来的显存、缓存与计算开销挑战,文中详细探讨了如何通过优化算子性能、低精度量化压缩、异步运行时框架设计以及多层次分布式架构来提升大模型推理效率。此外,还展示了BladeLLM引擎框架的实际应用效果,证明了这些技术在高并发场景下的显著性能提升。

513 7
|
10月前
|
数据采集 数据挖掘 数据安全/隐私保护
|

4步教你用rvest抓取网页并保存为CSV文件

本文介绍如何使用R语言的`rvest`包抓取网页数据并保存为CSV文件,以界面新闻网站为例。通过设置代理IP(如亿牛云)、User-Agent和Cookie,增强访问稳定性和安全性。代码涵盖环境配置、数据抓取、解析及保存步骤,确保高效、稳定地获取网页数据。适用于数据分析和统计分析场景。

221 8
|
10月前
|
存储 人工智能 算法
|

深度揭秘超长序列生成任务训练技术

阿里自研的TorchAcc训练引擎提出了超长序列训练方案FlashSequence,针对超长文本理解、视频生成等场景。通过2D Context Parallel和Hybrid FSDP混合分布式策略,结合显存、计算和通信优化,实现了百万级别超长序列模型的高效训练。FlashSequence在算力、显存需求及分布式训练方面进行了多项创新,性能提升显著,最大可达48%。该方案大幅降低了企业创新成本,提升了业务应用的可能性。

377 4
|
10月前
|
JSON JavaScript 前端开发
|

一次采集JSON解析错误的修复

两段采集来的JSON格式数据存在格式问题,直接使用PHP的`json_decode`会报错。解决思路包括:1) 手动格式化并逐行排查错误;2) 使用PHP-V8JS扩展在JavaScript环境中解析。具体方案一是通过正则表达式和字符串替换修复格式,方案二是利用V8Js引擎执行JS代码并返回JSON字符串,最终实现正确解析。 简介: 两段采集的JSON数据因掺杂JavaScript代码导致PHP解析失败。解决方案包括手动格式化修复和使用PHP-V8JS扩展在JavaScript环境中解析,确保JSON数据能被正确处理。

235 5
|
10月前
|
人工智能 安全 算法
|

PAI负责任的AI解决方案: 安全、可信、隐私增强的企业级AI

在《PAI可信AI解决方案》会议中,分享了安全、可信、隐私增强的企业级AI。会议围绕三方面展开:首先通过三个案例介绍生活和技术层面的挑战;其次阐述构建AI的关键要素;最后介绍阿里云PAI的安全功能及未来展望,确保数据、算法和模型的安全与合规,提供全方位的可信AI解决方案。

341 5
来自: 人工智能平台PAI  版块
|
10月前
|
存储 人工智能 算法
|

深度解读面向大模型开发和应用的数据处理套件

本文深入解读了大数据与AI联合场景下的技术,重点探讨了大语言模型、多模态模型训练及应用数据处理。文章首先分析了算法、算力和数据在大模型训练中的重要性,强调数据采集、标注和质量控制的关键作用。接着介绍了PAI平台上的端到端数据处理套件,涵盖预训练、有监督微调和偏好对齐的数据处理流程,以及数据合成和蒸馏技术的应用。最后展望了未来在多模态处理、性能优化和行业解决方案方面的扩展方向。

544 3
来自: 人工智能平台PAI  版块
|
10月前
|
存储 缓存 自然语言处理
|

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

KV缓存是大语言模型(LLM)处理长文本的关键性能瓶颈,现有研究多聚焦于预填充阶段优化,忽视了解码阶段的重要性。本文提出SCOPE框架,通过分离预填充与解码阶段的KV缓存策略,实现高效管理。SCOPE保留预填充阶段的关键信息,并在解码阶段引入滑动窗口等策略,确保重要特征的有效选取。实验表明,SCOPE仅用35%原始内存即可达到接近完整缓存的性能水平,显著提升了长文本生成任务的效率和准确性。

507 3
|
10月前
|
人工智能 自然语言处理 搜索推荐
|

智能语音助手的发展与未来:开启人机交互的新篇章

智能语音助手的发展与未来:开启人机交互的新篇章

1642 28
|
10月前
|
供应链 算法 测试技术
|

基于控制工程的牛鞭效应simulink建模与仿真

本研究基于控制理论,建立了多级线性供应链模型,利用噪声带宽和Matlab/Simulink对牛鞭效应进行建模与仿真。牛鞭效应指需求信息在供应链中逐级放大,导致库存积压、缺货等问题。通过Forrester模型,描述各节点订单量与库存水平的动态变化,采用差分方程模拟多级供应链系统。测试使用MATLAB2022A版本,展示了模型的有效性和可扩展性。

166 9
|
10月前
|
机器学习/深度学习 Rust 算法
|

Python环境管理的新选择:UV和Pixi,高性能Python环境管理方案

近期Python生态系统在包管理领域发生了重要变化,Anaconda调整商业许可证政策,促使社区寻找更开放的解决方案。本文介绍两款新一代Python包管理工具:UV和Pixi。UV用Rust编写,提供高性能依赖解析和项目级环境管理;Pixi基于Conda生态系统,支持conda-forge和PyPI包管理。两者分别适用于高性能需求和深度学习项目,为开发者提供了更多选择。

2093 2
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AI在内容创作中的创新:开启智能创意的新时代

AI在内容创作中的创新:开启智能创意的新时代

1233 14
|
10月前
|
算法
|

基于PSO粒子群优化的配电网可靠性指标matlab仿真

本程序基于PSO粒子群优化算法,对配电网的可靠性指标(SAIFI、SAIDI、CAIDI、ENS)进行MATLAB仿真优化。通过调整电网结构和设备配置,最小化停电频率和时长,提高供电连续性和稳定性。程序在MATLAB 2022A版本上运行,展示了优化前后指标的变化。PSO算法模拟鸟群行为,每个粒子代表一个潜在解决方案,通过迭代搜索全局最优解,实现配电网的高效优化设计。

269 15
|
10月前
|
机器学习/深度学习 算法 数据可视化
|

无监督学习与数据聚类:从理论到实践

无监督学习与数据聚类:从理论到实践

367 12
|
10月前
|
人工智能 数据可视化 数据挖掘
|

【产品】G 端产品经理

G端产品经理在政府数字化转型中扮演着关键角色,连接政府需求与技术实现。他们负责挖掘需求、规划方案、推动跨部门协作,并监督项目进展。具体职责包括需求调研、产品规划与设计、原型制作、文档撰写及交互与视觉设计等。面对复杂多变的需求、快速更新的技术和严格的项目验收,G端产品经理需不断提升专业技能,以适应挑战并推动政府治理体系现代化。

243 10
|
10月前
|
算法 数据处理 Python
|

高精度保形滤波器Savitzky-Golay的数学原理、Python实现与工程应用

Savitzky-Golay滤波器是一种基于局部多项式回归的数字滤波器,广泛应用于信号处理领域。它通过线性最小二乘法拟合低阶多项式到滑动窗口中的数据点,在降噪的同时保持信号的关键特征,如峰值和谷值。本文介绍了该滤波器的原理、实现及应用,展示了其在Python中的具体实现,并分析了不同参数对滤波效果的影响。适合需要保持信号特征的应用场景。

1152 11
|
10月前
|
搜索推荐 数据安全/隐私保护 UED
|

产品经理-B 端与C端

B端与C端是IT互联网产品经理的类型划分,分别面向企业和个人消费者。C端产品如微信、淘宝,注重用户体验和快速迭代;B端产品如CRM系统、ERP软件,强调功能复杂性和定制化服务。此外,还有G端产品,主要服务于政府机构,注重数据安全和合规性。产品经理起源于20世纪20年代末的美国宝洁公司,随着互联网的发展,该角色在IT领域变得愈加重要。

1347 12
|
10月前
|
机器学习/深度学习 算法 索引
|

单目标问题的烟花优化算法求解matlab仿真,对比PSO和GA

本项目使用FW烟花优化算法求解单目标问题,并在MATLAB2022A中实现仿真,对比PSO和GA的性能。核心代码展示了适应度计算、火花生成及位置约束等关键步骤。最终通过收敛曲线对比三种算法的优化效果。烟花优化算法模拟烟花爆炸过程,探索搜索空间,寻找全局最优解,适用于复杂非线性问题。PSO和GA则分别适合快速收敛和大解空间的问题。参数调整和算法特性分析显示了各自的优势与局限。

499 11
|
10月前
|
供应链 监控 API
|

1688.item_search_shop API:开启电商数据新纪元

1688.item_search_shop API是阿里巴巴1688平台提供的核心接口之一,支持根据关键词搜索指定店铺的商品,并获取商品详情、图片、价格等信息。该API允许设定搜索结果排序方式,如按销量或价格排序,满足不同需求。开发者可将其集成到电商应用中,提升用户体验;市场分析人员可利用其进行趋势和竞争对手分析;供应链管理人员则能监控库存,优化策略。示例代码展示了如何使用Python调用该API,帮助开发者快速上手。这一API的推出标志着B2B电商领域商品搜索技术的重要进步,推动行业向更高效、智能的方向发展。

226 1
|
10月前
|
机器学习/深度学习 分布式计算 数据挖掘
|

MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎

MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。

192 6
|
10月前
|
人工智能 分布式计算 大数据
|

MaxFrame在工作、生活中的应用

MaxFrame作为阿里云自研的Python分布式计算框架,专为连接大数据与AI而设计,能够在我所在的公司、工作以及学习中发挥显著作用。

117 1
来自: 大数据计算 MaxCompute  版块
|
10月前
|
数据采集 人工智能 分布式计算
|

MaxFrame 产品评测报告

作为一名运维开发工程师,我根据官方文档体验了阿里云MaxFrame产品,并对其在分布式Pandas处理和AI数据处理方面进行了深入评测。本文从最佳实践、产品体验、AI数据预处理对比三方面进行评估。MaxFrame在分布式Pandas操作中表现出色,支持groupby、join等操作,显著提升数据处理效率;在AI数据预处理方面也展示了便捷性,但缺乏针对大模型的特定优化。总体而言,MaxFrame易用性强,适合大规模数据分析和AI模型训练,但仍需增加更多功能和支持以进一步完善。

129 2
来自: 大数据计算 MaxCompute  版块
|
10月前
|
Java 数据管理 Linux
|

StarRocks元数据无法合并

StarRocks版本在3.1.4及以下,并且使用了metadata_journal_skip_bad_journal_ids来跳过某个异常的journal,会导致FE元数据无法合并。

140 2
|
10月前
|
JSON API 开发者
|

京东店铺所有商品数据接口(JD.item_search_shop)丨京东API接口指南

JD.item_search_shop 是京东开放平台提供的接口,用于获取店铺所有商品数据。请求方法为 GET,主要参数包括 shopId(必填)、page、pageSize 和 sortType。开发者需先注册并获取 API 密钥,确定目标店铺 ID 后构建请求。响应为 JSON 格式,适用于电商应用、价格比较和市场分析等场景。

937 0
|
10月前
|
存储 人工智能 BI
|

Paimon 1.0: Unified Lake Format for Data + AI

本文整理自阿里云智能开源湖存储负责人李劲松在Flink Forward Asia 2024上海站主论坛的演讲。Apache Paimon于今年3月成为顶级项目,计划发布1.0版本,目标是Unified Lake Format for Data + AI,解决数据处理与AI应用中的关键问题。Paimon结合Flink打造Streaming Lakehouse解决方案,已在阿里巴巴集团及多个行业中广泛应用。来自淘天、抖音和vivo的嘉宾分享了基于Paimon + Flink技术栈的数据湖实时处理与分析实践案例。内容涵盖大数据从业者面临的痛点、Paimon的发展历程及大厂的应用经验。

897 2
来自: 实时计算 Flink  版块
|
10月前
|
机器学习/深度学习 数据采集 算法
|

多维偏好分析及其在实际决策中的应用:基于PCA-KMeans的数据降维与模式识别方法

多维偏好分析(MPA)是市场营销、心理学和公共政策等领域广泛应用的工具,用于研究复杂偏好决策过程。本文通过主成分分析(PCA)和K均值聚类算法对鸢尾花数据集进行降维和模式识别,展示了PCA在保留95.8%方差的同时实现物种分类的有效性,K均值聚类结果与实际物种分类高度一致。该方法揭示了高维数据中的隐含模式,为各领域的实际决策提供了可靠的分析框架,具有重要的应用价值。研究表明,PCA和聚类分析能够有效简化和理解高维偏好数据,帮助决策者制定更有针对性的策略。

422 3
|
10月前
|
机器学习/深度学习 人工智能 开发者
|

强化学习在游戏开发中的应用:打造智能化游戏体验

强化学习在游戏开发中的应用:打造智能化游戏体验

548 19
|
10月前
|
算法 图形学
|

三维球体空间中光线反射模拟与三维点云提取matlab仿真

本项目使用MATLAB2022A模拟三维椭球体内光线反射并提取三维点云。通过设置椭球模型作为墙壁,根据几何光学原理计算光线在曲面上的反射路径,记录每次反射点坐标,生成三维点云图。核心代码实现多次反射的循环计算与绘图,并展示反射点的位置变化及其平滑处理结果。最终,通过光线追踪技术模拟真实场景中的光线行为,生成精确的三维点云数据,适用于计算机图形学和光学仿真领域。

358 27
|
10月前
|
存储 监控 数据可视化
|

常见的分布式定时任务调度框架

分布式定时任务调度框架用于在分布式系统中管理和调度定时任务,确保任务按预定时间和频率执行。其核心概念包括Job(任务)、Trigger(触发器)、Executor(执行器)和Scheduler(调度器)。这类框架应具备任务管理、任务监控、良好的可扩展性和高可用性等功能。常用的Java生态中的分布式任务调度框架有Quartz Scheduler、ElasticJob和XXL-JOB。

3712 66
|
10月前
|
应用服务中间件 Linux 网络安全
|

nginx安装部署ssl证书,同时支持http与https方式访问

为了使HTTP服务支持HTTPS访问,需生成并安装SSL证书,并确保Nginx支持SSL模块。首先,在`/usr/local/nginx`目录下生成RSA密钥、证书申请文件及自签名证书。接着,确认Nginx已安装SSL模块,若未安装则重新编译Nginx加入该模块。最后,编辑`nginx.conf`配置文件,启用并配置HTTPS服务器部分,指定证书路径和监听端口(如20000),保存后重启Nginx完成部署。

3148 8
|
10月前
|
JSON 搜索推荐 API
|

拍立淘API是基于图像识别技术的服务接口,支持淘宝、1688和义乌购平台。

拍立淘API是基于图像识别技术的服务接口,支持淘宝、1688和义乌购平台。用户上传图片后,系统能快速匹配相似商品,提供精准搜索结果,并根据用户历史推荐个性化商品,简化购物流程。开发者需注册账号并获取API Key,授权权限后调用接口,返回商品详细信息如ID、标题、价格等。使用时需遵守频率限制,确保图片质量,保障数据安全。

393 5
|
10月前
|
JSON API 开发者
|

速卖通获得AliExpress商品详情API接口文章

速卖通(AliExpress)是阿里巴巴旗下的全球跨境电商平台,提供便捷的在线购物渠道。为帮助开发者和商家高效管理商品信息,速卖通提供了商品详情API接口。本文介绍如何使用aliexpress.item_get API获取商品详情,包括获取API密钥、调用API接口及处理响应数据,帮助用户提升商品管理和营销效率。注意API调用限制和合法合规使用。

391 2
|
10月前
|
安全 API 数据安全/隐私保护
|

速卖通AliExpress商品详情API接口深度解析与实战应用

速卖通(AliExpress)作为全球化电商的重要平台,提供了丰富的商品资源和便捷的购物体验。为了提升用户体验和优化商品管理,速卖通开放了API接口,其中商品详情API尤为关键。本文介绍如何获取API密钥、调用商品详情API接口,并处理API响应数据,帮助开发者和商家高效利用这些工具。通过合理规划API调用策略和确保合法合规使用,开发者可以更好地获取商品信息,优化管理和营销策略。

433 2
|
10月前
|
安全 架构师 大数据
|

DataWorks 安全中心

DataWorks的安全中心,作为云上大数据体系的安全门户,致力于向您提供面向数据安全生命周期全过程的安全能力,同时在符合安全规范要求的前提下,提供各类安全诊断的最佳实践。帮助您快速构建平台的数据内容、个人隐私等相关的安全能力,满足企业面向高风险场景的各类安全要求。

208 0
|
10月前
|
运维 监控 架构师
|

DataWorks 运维中心

DataWorks 运维中心是一站式大数据运维监控平台,支持实时查看任务运行状态,提供智能诊断、重跑等运维操作,帮助您对异常任务进行基础运维;提供智能基线,帮助您解决重要任务产出时间不可控,海量任务监控难的问题,保障任务产出的时效性;提供引擎、资源、调度等多方位的运维能力。

190 0
|
10月前
|

DataWorks 数据资产治理

DataWorks 数据资产治理(原数据治理中心)可根据预先配置的治理计划,自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题,并通过健康分量化评估,从全局、工作空间、个人等多个视角,以治理报告及排行榜呈现治理成果,帮助您高效达成治理目标。同时,还提供业务资产管理、资产分析、任务资源消耗明细、费用预估等功能,帮助您有效掌握各类资源的使用详情。

338 58
|
10月前
|
SQL 架构师 数据管理
|

DataWorks 数据集成

DataWorks 数据集成是一个稳定高效、弹性伸缩的数据同步平台,致力于提供在复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。

228 0
|
10月前
|

DataWorks Copilot

DataWorks Copilot是您在DataWorks的智能助手,当前阶段可根据自然语言快速转换为需要的SQL命令,包括SQL生成、SQL改写、SQL纠错、生成注释等,帮助您轻松高效地完成数据ETL及数据分析工作。本文为您介绍在各个场景下DataWorks Copilot的智能SQL能力。

250 0
|
10月前
|
SQL 数据可视化 架构师
|

DataWorks Notebook

DataWorks的Notebook提供了一个交互式、灵活且可复用的数据处理和分析环境,增强了直观性、模块化和交互性,帮助您更轻松地进行数据处理、探索、可视化和模型构建。

189 0
|
10月前
|
数据可视化 架构师 数据管理
|

DataWorks Data Studio 数据开发

Data Studio是阿里巴巴基于15年大数据经验打造的智能湖仓一体数据开发平台,兼容阿里云多项计算服务,提供智能化ETL、数据目录管理及跨引擎工作流编排的产品能力。通过个人开发环境实例支持Python开发、Notebook分析与Git集成,Data Studio还支持丰富多样的插件生态,实现了实时离线一体化、湖仓一体化、大数据AI一体化,助力“Data+AI”全生命周期的数据管理。

6002 56
|
10月前
|
存储 数据采集 数据挖掘
|

CSV vs 数据库:数据存储的最佳选择是什么

本文介绍了爬虫数据存储中CSV和数据库的优缺点,分析了两者在不同场景下的适用性。CSV简单易用、资源消耗低,适合小量数据;数据库则在处理大量数据和复杂查询时表现出色,支持并发操作。通过Python代码示例,展示了如何使用多线程和爬虫代理IP技术将百度搜索数据存储到MySQL数据库中,适用于大型项目和复杂数据分析需求。

662 2

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

3
今日
67279
内容
127
活动
439298
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务