|
存储 编解码 自然语言处理
|

史诗级计算机字符编码知识分享,万字长文,一文即懂!

前一阵跟同事碰到了字符乱码的问题,了解后发现这个问题存在两年了,我们程序员每天都在跟编码打交道,但大家对字符编码都是一知半解:“天天吃猪肉却很少见过猪跑”,今天我就把它彻底讲透!

11589 3
|
SQL 存储 分布式计算
|

ODPS是什么/阿里云一体化大数据平台ODPS的前世今生

ODPS(Open Data Processing Service),原是阿里云从 09年开始自研的大规模批量计算引擎,2016 年更名为MaxCompute。2022云栖大会上,阿里云ODPS全新升级为一体化大数据平台,存储、调度、元数据一体化融合 ,从 Processing 升级为 Platform,即 Open Data Platform and Service。提供了离线计算、实时交互式分析、机器学习等可扩展的智能计算引擎,满足用户多元化数据计算需求。

4092 0
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 存储 分布式计算
|

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

阿里云智能研究员 林伟 :阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考,使得湖的灵活性、数据种类丰富与仓的可成长性和企业级管理得到有机融合,这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架构。

4234 0
来自: 大数据计算 MaxCompute  版块
|
存储 数据采集 人工智能
|

数据中台的智能进化—阿里巴巴十二年数据平台发展历程

从2016年诞生起,“中台”概念就一路火热至今,对互联网与金融行业数字化转型产生了极为深远的影响。 作为“中台”概念的提出者和先行者,阿里巴巴用12年的实践探索了中台能力建设和数据应用。在不断升级和重构的过程中,阿里巴巴的中台建设经历了从分散的数据分析到数据中台化能力整合,再到全局数据智能化的时代。

11939 8
|
大数据 人工智能 存储
|

AI加持的阿里云飞天大数据平台技术揭秘

摘要:2019云栖大会大数据&AI专场,阿里云智能计算平台事业部研究员关涛、资深专家徐晟来为我们分享《AI加持的阿里云飞天大数据平台技术揭秘》。本文主要讲了三大部分,一是原创技术优化+系统融合,打破了数据增长和成本增长的线性关系,二是从云原生大数据平台到全域云数仓,阿里开始从原生系统走入到全域系统模式,三是大数据与AI双生系统,讲如何更好的支撑AI系统以及通过AI系统来优化大数据系统。

9828 0
来自: 大数据计算 MaxCompute  版块
|
分布式计算 MaxCompute BI
|

【转载】时隔一年多,我又用起了 Superset

去年 6 月份在流利说提离职后,leader 问我为什么要走。我说,流利说有很健全的数据处理基础设施,但这不是所有的公司都会有的条件,所以我想看看在一个基建不全的创业公司我是否也可以像现在一样做的好。

18313 82
来自: 大数据计算 MaxCompute  版块
|
分布式计算 并行计算 TensorFlow
|

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

11865 1
|
供应链 数据可视化 前端开发
|

你刚吃的兰州牛肉面,背后就藏着大数据

兰州拉面都拥抱大数据了,此刻我只想问,黄焖鸡、麻辣烫和沙县小吃,你们还在等什么?

44254 58
来自: 数据可视化DataV  版块
|
算法 搜索推荐 双11
|

实时离线平台Pora介绍@2015

12318 2
来自: 智能搜索推荐  版块
|
11天前
|
数据采集 中间件 API
|

别再手写低效的代理池了,试试这3个开箱即用的调度框架!

本文详解3种实战级代理调度框架:ProxyPool+API(中大型)、轻量轮询队列(中小项目)、Scrapy隧道中间件(快速升级),含核心代码、避坑要点与选型建议,助爬虫稳定高效运行。

79 0
|
12天前
|
存储 安全 算法
|

构建云上数据安全防线:阿里云加密参数配置的最佳实践与合规指南

本文剖析未加密数据导致的安全事件,指出企业需从“边界防御”转向“数据本体加密”。详解哈希/分组算法选择、密钥管理、备份策略等精细化配置要点,并介绍阿里云KMS、CloudHSM、铜锁密码库等底层能力如何支撑终端加密软件实现合规、安全、高效、可控的内生数据防护。(239字)

102 1
|
16天前
|
数据采集 网络协议 数据安全/隐私保护
|

从HTTP头部彻底搞懂高匿、普匿与透明代理

本文深入解析HTTP代理“透明/普匿/高匿”的本质差异,指出其匿名等级并非营销话术,而是由X-Forwarded-For、Via、Proxy-Connection三大请求头字段是否存在严格定义。结合抓包实操与隧道代理原理,厘清认知误区,助爬虫工程师科学选型、精准验证。

102 1
|
1月前
|
数据采集 自然语言处理 供应链
|

反向海淘风口下,taocarts 跨境独立站系统如何重构代购、集运与代采全链路?

当下跨境电商格局生变,反向海淘(中国商品销往海外)正成为新蓝海,淘宝代购、1688 代采、华人代购、代购集运等需求爆发。但行业普遍面临货源同步难、系统碎片化、运营效率低等痛点。本文从技术与行业双维度,深度解析taocarts 跨境独立站系统—— 一款面向反向海淘独立站、代购企业、跨境创业者的一体化智能解决方案,如何通过API 货源同步、自动采购、多语言多货币、集运转运等核心能力,破解行业难题,助力创业者抓住反向海淘红利。

259 0
来自: 大数据运维SREWorks  版块
|
1月前
|
人工智能 安全 数据可视化
|

Windows 全版本 OpenClaw 搭建教程 零代码可视化一键部署

OpenClaw(小龙虾)是2026年热门开源AI自动化工具,支持Win10/11本地离线运行。零代码、全图形化、内置依赖、多模型切换、大Token额度,5–10分钟一键部署。数据不出设备,安全可控,适配办公全场景。(239字)

240 1
|
1月前
|
存储 分布式计算 运维
|

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升,在迁移到 EMR Serverless Spark 之后,TCO 明显下降,平台按作业生命周期弹性拉起与回收,只为实际消耗付费;同时,托管化带来了稳定性与调度效率提升;更关键的是交付确定性提升,大作业整体可提速约 1 小时,报表链路从长尾波动变成更可控的出数节奏。

207 4
|
1月前
|
机器学习/深度学习 搜索推荐 数据处理
|

PAI-Rec推荐开发平台:企业级智能推荐解决方案,驱动业务全域增长

PAI-Rec是阿里云一站式推荐系统平台,集成多路召回、多目标精排(如DBMTL)、GPU加速推理与灵活迭代能力,已助力电商、直播、音视频等多行业提升点击率、转化率与ROI,实现高效、低成本、可自主演进的智能推荐。

350 16
来自: 智能搜索推荐  版块
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AI浪潮下的程序员:如何在变革中寻找新航向

本文探讨AI浪潮下程序员的转型之路:AI是助手而非替代者。面对挑战,应主动学习AI工具、深耕行业领域、提升软技能与问题解决能力,从“码农”蜕变为“AI时代的创造者”。未来属于积极适应者。(239字)

279 8
|
2月前
|
设计模式 人工智能 边缘计算
|

破局协同设计困局:从“各自为战”到“同频共振”,解锁企业创新新动能!

本文剖析协同设计面临的“三重枷锁”:信息孤岛导致数据割裂、供需错配引发内耗、流程混乱造成低效。结合建筑、制造、创意领域实践案例,提出破局关键——构建统一协同平台、优化闭环流程、融合BIM/AI等智能技术,推动产设研一体化,释放创新效能。(239字)

216 3
来自: 数据可视化DataV  版块
|
2月前
|
人工智能 运维 监控
|

Anthropic 内部用了数百个 Skills,这份清单他们第一次公开

Anthropic 内部,有数百个 Skills 每天在运行。

414 4
|
2月前
|
自然语言处理 数据挖掘 数据库
|

数据智能引擎:从精准问数到深度分析的完整解决方案

数据智能引擎基于本体论,首创“精准问数+深度分析”双模式:技术专家可自然语言查数据,高管提方向性问题获自动洞察。多智能体协同、95%准确率、低门槛业务知识管理,赋能企业AI原生数据转型。(239字)

302 1
|
3月前
|
人工智能 自然语言处理 搜索推荐
|

RAG不只是问答!看完这些应用案例,才发现它的潜力这么大

RAG(检索增强生成)技术正赋能企业知识管理、智能客服、辅助决策、内容创作与教育培训等多元场景,通过语义检索+精准生成,提升信息获取效率与AI实用性,助力零代码构建专属智能系统。

435 5
|
3月前
|
安全 物联网 测试技术
|

为什么 loss 看起来很好,模型却更危险了

本文揭示大模型微调中一个关键陷阱:loss持续下降≠模型更安全。相反,当loss“好看”时,模型可能因过度拟合训练数据中的偏差、模板或错误表达而变得更危险——回答更笃定、拒答率下降、边界问题越界更隐蔽。根本原因在于:loss衡量的是“复现训练文本”的能力,而非“行为是否可靠/合规”。工程上应转向以事实正确率、拒答率、自信度、越界率等为核心的行为评估体系,将loss仅作为训练健康度的辅助信号。

335 1
|
4月前
|
安全 算法 C++
|

PPO 真正的应用场景,和你想的可能不一样

PPO并非“万能增强器”,而是精准解决模型“行为偏好错位”的工具:当模型“会但总选错”(如安全拒答生硬、风格不稳、高风险下过度自信)时,PPO通过人类偏好反馈重塑其选择倾向;若问题本质是“不会”,则PPO无效甚至有害。用对场景,事半功倍。

387 1
|
4月前
|
人工智能 监控 API
|

Opus 4.5、GPT-5.2 与 Gemini 3 Pro:企业级场景下的大模型工程表现对比

本文从工程与生产视角,对比Opus 4.5、GPT-5.2、Gemini 3 Pro三款大模型在输出一致性、可控性、长上下文、接口确定性等维度的表现,强调企业级AI选型应重稳定性与系统友好度,而非单纯比拼能力。

383 4
来自: 人工智能平台PAI  版块
|
4月前
|
算法 搜索推荐 Serverless
|

为什么 ES 的搜索结果只到 10,000?强制“数清楚”的代价有多大

Elasticsearch 7.x后默认返回10,000总数,实为Block-Max WAND算法的性能优化——跳过低分文档块以提升查询速度。强行开启`track_total_hits:true`将禁用该优化,导致CPU飙升、延迟激增。本文深入Lucene底层,解析其原理、陷阱与治理方案。

621 1
|
4月前
|
人工智能 JSON 物联网
|

大模型微调完全指南:原理、实践与平台选择,让AI真正为你所用

微调是让通用大模型成为垂直领域“专家”的关键路径:通过小规模、高质量数据定向优化模型参数,实现专业适配。相比提示词工程的临时性,微调能内化知识、提升准确性与风格一致性。LoRA等高效微调技术大幅降低门槛,百条数据+单卡即可完成,兼顾效果与成本。(239字)

550 6
|
4月前
|
机器学习/深度学习 人工智能
|

【AI大模型面试宝典四】- 基础架构篇

【AI大模型知识干货系列】深度解析Transformer位置编码:从绝对到相对,拆解Sinusoidal、RoPE、ALiBi等核心机制,对比优劣,直击面试高频问题。每篇聚焦一个知识点,助你系统掌握大模型关键技术,紧跟AI浪潮!欢迎关注、点赞、批评指正~

311 0
来自: 人工智能平台PAI  版块
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|

【AI大模型面试宝典二】— 基础架构篇

【AI大模型面试宝典】聚焦分词器核心考点!详解BPE、WordPiece、SentencePiece原理与实战,覆盖中文分词最佳实践、词汇表构建、特殊标记处理,助你轻松应对高频面试题,精准提升offer竞争力!

350 0
来自: 人工智能平台PAI  版块
|
4月前
|
机器学习/深度学习 算法 自动驾驶
|

基于YOLOv8模型的行人车辆多目标检测计数与跟踪系统

本研究基于YOLOv8模型,针对智能交通与公共安全需求,开展行人车辆多目标检测、计数与跟踪技术研究。通过融合YOLOv8高精度检测与DeepSORT稳定跟踪,实现复杂场景下目标的实时定位、统计与轨迹追踪,提升交通管理效率与公共安全保障能力,推动智慧城市发展。

478 13
|
4月前
|
人工智能 区块链 数据库
|

去中心化身份(DID)体系解析:我们真的需要“没有平台”的身份吗?

去中心化身份(DID)体系解析:我们真的需要“没有平台”的身份吗?

686 2
|
4月前
|
Java Go 开发者
|

IDEA开发常用的快捷键

IntelliJ IDEA常用快捷键汇总:涵盖代码生成(如main、sout)、编辑(复制、删除、重命名)、导航(跳转、查找)、格式化、代码阅读及版本控制等高频操作,提升开发效率。熟练掌握可显著优化编码体验,是Java开发者必备技能。

508 1
|
5月前
|
数据库
|

什么是 Code 39?

Code 39是1974年由Intermec开发的字母数字条形码,支持43个字符,广泛用于汽车、医疗、国防等领域。分Regular和Full ASCII两种,后者可编码全部128个ASCII字符。结构简单,自校验强,但密度较低。可通过HCreateLabelView轻松生成,适用于非零售场景。

758 2
|
5月前
|
存储 监控 算法
|

ElasticSearch集群

Elasticsearch集群通过分片与副本机制解决海量数据存储和单点故障问题。将索引拆分为多个分片分布于不同节点,提升存储与性能;通过副本实现高可用。利用docker-compose可快速搭建三节点集群,结合cerebro监控状态。分片路由基于hash算法,确保数据均衡。集群支持故障转移与脑裂防护,保障稳定可靠。

462 0
|
5月前
|
存储 Java
|

超长String接收处理

Java中String变量最大长度为Integer.MAX_VALUE,但字符串字面量受class文件格式限制,最大65534。超过会编译错误,需通过StringBuilder分组处理长字符串。

228 0
|
5月前
|
机器学习/深度学习 数据采集 人工智能
|

大模型训练方法与技术术语解释

预训练、微调、RLHF、思维链等技术共同推动大模型发展。预训练构建语言基础,微调适配特定任务,RLHF融入人类偏好,思维链提升推理能力,少样本与零样本实现快速迁移,指令微调增强指令理解,自监督学习利用海量无标数据,温度控制生成风格,蒸馏压缩模型规模,缩放定律指导模型扩展,全面提升大模型理解、生成与泛化能力。

348 0
|
5月前
|
机器学习/深度学习 数据采集 人工智能
|

大模型训练方法与技术术语解释

预训练、微调、RLHF、思维链等技术共同构建大模型核心能力。预训练夯实语言基础,微调适配特定任务,RLHF对齐人类偏好,思维链提升推理,少/零样本实现快速迁移,指令微调增强指令理解,自监督利用海量文本,温度控制生成风格,蒸馏压缩模型规模,缩放定律指引性能增长路径。

500 0
|
6月前
|
机器学习/深度学习 搜索推荐 算法
|

用数据给婚恋 App 把把脉:让匹配更靠谱、聊天更顺畅、留存更健康

用数据给婚恋 App 把把脉:让匹配更靠谱、聊天更顺畅、留存更健康

499 8
|
6月前
|
SQL 人工智能 API
|

LangChain 不只是“拼模型”:教你从零构建可编程的 AI 工作流

LangChain 不只是“拼模型”:教你从零构建可编程的 AI 工作流

793 8
|
6月前
|
人工智能 自然语言处理 数据可视化
|

2025 ChatBI 产品选型推荐:智能问数+归因分析+报告生成

当企业站在 ChatBI 选型的十字路口,技术架构的先进性、场景适配的完整性、落地实践的可验证性应成为核心考量标准。

1031 0
|
7月前
|
XML JSON API
|

苏宁商品详情API秘籍!轻松获取商品详情数据

苏宁商品详情API基于RESTful架构,支持JSON/XML格式,通过AppKey、AppSecret与签名三重认证,结合OAuth 2.0实现安全调用。开发者可获取商品名称、价格、销量、库存、促销等实时数据,适用于电商分析与商业智能。接口强制使用HTTPS协议,支持POST/GET请求,统一采用UTF-8编码,确保数据传输安全可靠。

662 1
|
8月前
|
数据采集 存储 缓存
|

LLM + 抓取:让学术文献检索更聪明

结合爬虫与大模型,打造懂语义的学术检索助手:自动抓取最新NLP+爬虫论文,经清洗、向量化与RAG增强,由LLM提炼贡献,告别关键词匹配,实现精准智能问答。

937 0
|
8月前
|
机器学习/深度学习 人工智能 算法
|

卷积神经网络深度解析:从基础原理到实战应用的完整指南

蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。

744 11
|
8月前
|
存储 人工智能 NoSQL
|

用Context Offloading解决AI Agent上下文污染,提升推理准确性

上下文工程是将AI所需信息(如指令、数据、工具等)动态整合到模型输入中,以提升其表现。本文探讨了“上下文污染”问题,并提出“上下文卸载”策略,通过LangGraph实现,有效缓解长文本处理中的信息干扰与模型幻觉,提升AI代理的决策准确性与稳定性。

1068 2
|
9月前
|
JSON API 数据格式
|

小红书笔记详情API数据解析(附代码)

本内容介绍了小红书开放平台的笔记详情API接口功能,涵盖笔记标题、内容、互动数据及多媒体资源的获取方式。提供接口概述、请求方式及Python调用示例,适用于内容分析与营销策略优化,帮助开发者高效集成与使用。

982 4
|
9月前
|
JSON API 数据格式
|

1688店铺订单列表订单详情订单物流API响应数据解析

1688平台作为阿里巴巴旗下的B2B电商利器,提供高效订单管理API,支持订单查询、状态变更与物流同步,助力企业提升运营效率。本文附Python请求示例代码,实现便捷对接与数据获取。

460 0
|
10月前
|
存储 Java 大数据
|

Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用(198)

简介:本文探讨Java大数据技术在智能家居能源消耗分析与节能策略中的应用。通过数据采集、存储与智能分析,构建能耗模型,挖掘用电模式,制定设备调度策略,实现节能目标。结合实际案例,展示Java大数据在智能家居节能中的关键作用。

884 0
|
10月前
|
消息中间件 监控 Java
|

借助最新技术构建 Java 邮件发送功能的详细流程与核心要点分享 Java 邮件发送功能

本文介绍了如何使用Spring Boot 3、Jakarta Mail、MailHog及响应式编程技术构建高效的Java邮件发送系统,涵盖环境搭建、异步发送、模板渲染、测试与生产配置,以及性能优化方案,助你实现现代化邮件功能。

705 0
|
10月前
|
人工智能 运维 自然语言处理
|

如何在 Elasticsearch 中构建你的智能 AI 助手?

本文将带你探索一种全新的思路:如何基于 Elasticsearch 快速构建一个具备自然语言理解能力、异常检测和安全威胁识别能力的智能运维 AI 助手 。文章会围绕实际部署流程、关键技术点和典型应用场景展开,帮助你把 Elasticsearch 从“日志仓库”升级为“智能决策中枢”。

532 30
|
10月前
|
存储 缓存 API
|

信息检索重排序技术深度解析:Cross-Encoders、ColBERT与大语言模型方法的实践对比

本文将深入分析三种主流的重排序技术:Cross-Encoders(交叉编码器)、ColBERT以及基于大语言模型的重排序器,并详细阐述各方案在实际应用中的性能表现、成本考量以及适用场景。

863 3
|
11月前
|
数据采集 存储 API
|

Python爬虫结合API接口批量获取PDF文件

Python爬虫结合API接口批量获取PDF文件

914 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69522
内容
128
活动
439957
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务