|
12月前
|
SQL 分布式计算 运维
|

dataphin评测报告

本文是一篇关于Dataphin的使用总结与测评报告。作为一位开发工程师,作者在使用Dataphin过程中发现其具备数据规范化构建、全链路数据治理、数据资产化及跨平台兼容的优势,能有效降低开发门槛并提升效率。文章详细介绍了从进入工作台到数据规划、引入数据、数据处理、功能周期任务补数据、数据验证以及数据分析的全流程操作步骤,并通过截图辅助说明,帮助用户快速上手Dataphin,实现高效的数据开发与治理,在测评使用过程中整体感觉dataphin这个产品功能非常强大,能够为开发人员提高工作效率,界面也是比较清晰的感觉,容易初学者上手学习。

281 3
|
12月前
|
弹性计算 资源调度 算法
|

阿里云 Elasticsearch Serverless 检索增强型8.17 版免费邀测!

阿里云Elasticsearch Serverless检索增强型8.17版现已开放邀测

550 59
|
12月前
|
数据采集 测试技术 C++
|

无headers爬虫 vs 带headers爬虫:Python性能对比

无headers爬虫 vs 带headers爬虫:Python性能对比

363 5
|
12月前
|
XML JSON 监控
|

深入研究:1688 商品列表 API 详解

1688商品列表API为电商数据分析、竞品调研等场景提供程序化数据获取方式。通过关键词、价格区间、销量范围及类目等条件筛选商品,返回商品标题、价格、销量等基本信息。支持HTTP GET/POST请求,响应格式为JSON或XML,助力业务分析与决策。

250 4
|
12月前
|
消息中间件 存储 监控
|

Lalamove基于Flink实时湖仓演进之路

本文由货拉拉国际化技术部资深数据仓库工程师林海亮撰写,围绕Flink在实时数仓中的应用展开。文章首先介绍了Lalamove业务背景,随后分析了Flink在实时看板、数据服务API、数据监控及数据分析中的应用与挑战,如多数据中心、时区差异、上游改造频繁及高成本问题。接着阐述了实时数仓架构从无分层到引入Paimon湖仓的演进过程,解决了数据延迟、兼容性及资源消耗等问题。最后展望未来,提出基于Fluss+Paimon优化架构的方向,进一步提升性能与降低成本。

421 11
来自: 实时计算 Flink  版块
|
12月前
|
前端开发 Linux Docker
|

docker的安装使用0废话版本自学软硬件工程师778天

win11怎么安装docker的必要设置自学软硬件工程师778天

269 0
|
12月前
|
机器学习/深度学习 人工智能 JSON
|

【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。

581 63
来自: 人工智能平台PAI  版块
|
12月前
|
机器学习/深度学习 人工智能 大数据
|

《爆不爆,数据说了算:大数据预测电影票房的门道》

《爆不爆,数据说了算:大数据预测电影票房的门道》

541 7
|
1月前
|
Java
|

java工具:Long转String(时间毫秒数转日期格式字符串)

java工具:Long转String(时间毫秒数转日期格式字符串)

176 2
|
2月前
|
数据采集 Go 开发者
|

Go语言高并发采集:Goroutine配合隧道代理的极致性能体验

本文探讨了使用Go语言和隧道代理技术实现高并发数据采集的方法。Go的轻量级并发和非阻塞I/O特性,结合隧道代理的IP轮换优势,可大幅提升采集效率并降低维护成本。文章提供了Go代码示例,展示了如何配置http客户端使用隧道代理,并强调了性能优化技巧,如连接池复用、Channel限流、错误重试和上下文控制

101 2
|
2月前
|
机器学习/深度学习 人工智能 物联网
|

从微调到 PPO:祝福 AI 的下一步进化

本文探讨祝福AI从“写得不错”到“越写越懂你”的演进路径:SFT微调已解决群体风格对齐,而PPO强化学习则让模型基于用户反馈(点赞、修改、发送等)动态适配个体偏好,学会为表达后果负责——不是教它“怎么说”,而是教它“何时这样说才对”。

128 1
|
2月前
|
数据采集 安全 C++
|

当 Prompt 和 RAG 都开始别扭时,你该认真考虑微调了

本文以春节祝福生成为例,揭示微调本质:它不是技术升级的“最后一招”,而是对任务性质的判断结果——当问题核心是“模型会做但不像你要的”(如风格不一致、分寸难拿捏),且Prompt/RAG已显乏力时,微调反而是最克制高效的选择。提供可落地的三维度决策框架。

328 148
|
2月前
|
人工智能 安全 UED
|

多任务微调:拜年、感谢、道歉,为什么不是三个简单任务

本文探讨祝福类AI扩展多任务(拜年/感谢/道歉)时的关键工程抉择:表面相似的情绪表达,实则在风险等级、语气分寸与用户期待上差异巨大。多任务微调易致任务“污染”,尤其低风险任务会拉偏高风险任务的表达倾向。核心结论:技术难点不在模型能力,而在厘清人情世故的边界——何时共享,何时拆模,才是成熟落地的关键。

336 149
|
2月前
|
数据采集 人工智能 自然语言处理
|

场景判断:什么情况下值得做微调?三个维度帮你做决策

本文提出微调选型三维度决策框架:任务复杂度(知识查询/格式遵从/能力涌现)、风格要求(可选→固定→品牌级)、数据可得性(量、质、多样性),并对比提示词工程、RAG等轻量替代方案,助技术决策者科学评估微调必要性,避免资源浪费。

143 4
|
2月前
|
缓存 人工智能 弹性计算
|

祝福发送也疯狂:秒级响应的速度奥秘

春节祝福需秒级响应!本文详解高并发下AI祝福生成的提效方案:优选7B小模型、INT4量化提速5倍、批处理提升吞吐、vLLM推理优化、弹性云部署+CDN缓存,多管齐下实现高质量与飞速响应兼得。

103 1
|
2月前
|
运维 监控 安全
|

NTP时间同步服务器:安徽京准助力公共资源交易中心

安徽京准为公共资源交易中心提供NTP时间同步解决方案,践行“时间即证据,同步即公平”理念。通过北斗/GPS双模授时、分层同步架构,确保投标截止、自动开标、日志审计等关键环节时间毫秒级统一,夯实电子化交易的法律效力、公正性与等保合规基础。(239字)

102 0
|
2月前
|
安全 算法 测试技术
|

PPO / DPO 对安全边界的影响:压制还是迁移风险

本文揭示对齐训练(PPO/DPO)的深层误区:它不降低风险总量,而是迁移风险形态——压制显性违规,却强化灰区输出的稳定性与隐蔽性。风险未被消除,只是从“直白越界”变为“委婉越界”,更难检测、评估与拦截。安全不能只靠对齐,需模型、系统、策略三层协同。

117 4
|
2月前
|
数据库 C++
|

向量维度、距离函数,如何影响召回结果

本文揭示向量检索效果不佳的根源常被误判:问题不在embedding模型本身,而在于被忽视的底层选择——向量维度与距离函数。二者共同定义了“相似性”的本质,而非仅调节精度。维度决定语义表达自由度与错误类型,距离函数(L2/Cosine/Dot)则确立“何为相近”的世界观。二者强耦合,直接塑造召回空间。调参前,先问:你更怕漏召,还是误召?

117 6
|
2月前
|
数据采集 边缘计算 运维
|

算力不是越近越好:从边缘到中心,一场正在发生的再分配

算力不是越近越好:从边缘到中心,一场正在发生的再分配

118 4
|
2月前
|
人工智能 资源调度 供应链
|

自主智能体:重塑传统行业的隐形革命

在AI从概念走向应用的时代,自主智能体正悄然重塑传统行业。它非单一模型,而是具备感知、决策、执行与优化能力的“数字员工”,已在制造、供应链、农业、医疗、建筑等领域实现深度赋能,推动人机协同新范式。

113 1
|
2月前
|
人工智能 安全 C++
|

一个项目能长期活下去,靠的从来不是模型

AI项目成败关键不在模型强弱,而在于系统性生存能力:厘清责任边界、接纳不确定性、严控复杂度、建立止损机制、允许模型“不万能”、并在模型成功时保持克制。真正活久的项目,清醒、务实、敬畏现实。

214 12
|
2月前
|
存储 SQL 运维
|

数据工程实践:指标平台如何通过三级物化与智能路由破解性能与成本难题?

实现从“成本中心”到“效率引擎”的转变。

101 2
|
3月前
|
算法 安全 C++
|

PPO 微调的本质:它不是在教模型“更聪明”

PPO微调本质是“行为选择”而非“知识学习”:它不教模型新能力,而是通过奖励信号与KL约束,在已有能力空间中重校输出概率分布,对齐人类偏好。核心只更新Policy,Reward引导方向,KL保障安全,专治风格、安全、边界问题。

128 0
|
3月前
|
SQL 机器学习/深度学习 运维
|

MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤

MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤

179 13
|
3月前
|
安全 物联网
|

为什么你调的不是参数,而是风险

大模型微调不是调参,而是风险管理:学习率决定偏离幅度,batch size影响偏差放大,epoch迫使模型“选边”,LoRA rank拓展失控空间。参数非“强度 knob”,实为“风险杠杆”——每次调整都在重分配行为分布。成熟微调,重在理解并可控承担风险。

138 1
|
3月前
|
数据采集 Kubernetes Docker
|

采集架构的三次升级:脚本、Docker 与 Kubernetes

本文通过一个网站商品列表页采集任务,展示了爬虫架构从Python脚本到Docker化,再到Kubernetes Job化的三次演进。Kubernetes在处理大规模、高成本、高稳定性需求的爬虫任务时变得必要,帮助自动管理任务生命周期和资源,避免系统失控。

104 1
|
3月前
|
前端开发 调度 决策智能
|

智能体应用场景拆解:它适合出现在系统的哪些位置?

智能体应用的关键不在“能否做”,而在“应放在系统何处”。本文从工程视角指出:智能体应作为被调度的执行模块,嵌入非结构化节点,避免成为中枢大脑。宜用于后台任务、辅助执行,而非前端交互或决策判断。合理位置需满足可降级、可替代、失败成本低等特征,确保系统稳定性。

153 2
|
3月前
|
传感器 自动驾驶 算法
|

自动驾驶不是“一行代码开上高速”:聊聊感知、预测与决策这三大算法核心

自动驾驶不是“一行代码开上高速”:聊聊感知、预测与决策这三大算法核心

220 13
|
3月前
|
消息中间件 自然语言处理 前端开发
|

Pandabuy模式淘宝 1688 代购系统搭建指南

聚焦留学生与海外华人需求,采用微服务架构集成淘宝/1688及国际物流API,提供代购集运一站式服务。盈利来自交易差价、增值服务与会员体系,结合网红营销与低价策略,支持多语言、多支付与合规认证,适配俄欧美等市场。

146 4
|
3月前
|
供应链 API 区块链
|

区块链不是银弹,但在供应链溯源这件事上,它真的“对路”了

区块链不是银弹,但在供应链溯源这件事上,它真的“对路”了

117 6
|
3月前
|
消息中间件 关系型数据库 MySQL
|

别再被 Exactly-Once 忽悠了:端到端一致性到底是怎么落地的?

别再被 Exactly-Once 忽悠了:端到端一致性到底是怎么落地的?

166 8
|
3月前
|
安全 测试技术 网络安全
|

静态IP,你真的了解吗?

静态IP与代理IP广泛应用于自媒体精准推送、游戏多账号运营、远程安全访问、服务器稳定部署、跨地区网络测试、防火墙策略配置等场景,有效提升访问稳定性、安全性和用户体验,助力企业高效运作与个人网络需求。

175 0
|
3月前
|
SQL 人工智能 分布式计算
|

MaxCompute SQL AI 实操

MaxCompute SQL AI全新上线,通过AI_GENERATE函数在SQL中直接调用大模型,实现工作总结智能分析,支持内容分类、情感判断与多模态处理,提升数据分析效率。

141 3
|
3月前
|
消息中间件 搜索推荐 NoSQL
|

别再迷信离线了:流 + 在线模型,才是实时推荐的正解

别再迷信离线了:流 + 在线模型,才是实时推荐的正解

142 6
|
3月前
|

内部类

内部类是定义在类中的类,分为成员、静态、局部和匿名四种。成员内部类属于外部类成员,可被权限修饰符修饰;静态内部类仅访问外部静态成员;局部内部类定义在方法内;匿名内部类用于简化接口或父类的实现,常用于一次性场景,提升代码简洁性。(238字)

114 1
|
4月前
|
存储 缓存 运维
|

一场FullGC故障排查

本文记录了一次Java应用CPU使用率异常升至104%的排查过程。通过分析发现,问题由Full GC频繁触发导致,根源在于将大体积Excel数据以List<Map<String, String>>形式加载至JVM内存,造成堆内存膨胀且长期驻留,最终引发内存压力和GC风暴。结合JProfiler工具定位到大对象后,提出“治本”(移出JVM内存)与“治标”(精简数据结构)两类解决方案,并总结了从监控识别、工具分析到代码优化的完整排查思路,强调应关注JVM层面而非仅机器指标。

100 1
|
4月前
|
机器学习/深度学习 传感器 算法
|

Python | K折交叉验证的参数优化的LinearRegression(线性回归)预测及可视化算法

本教程涵盖Python线性回归预测全流程,包含数据处理、模型训练、K折交叉验证及贝叶斯、随机、网格搜索三种参数优化方法,适用于多领域回归任务,附完整代码与可视化实现。

135 1
|
4月前
|
JSON Dubbo Java
|

Feign远程调用

本文介绍了如何使用Feign替代RestTemplate实现更优雅的HTTP跨服务调用。通过引入Feign,解决传统方式中服务地址硬编码、代码可读性差等问题,并结合注册中心实现服务发现。文章详细讲解了Feign的集成步骤、自定义配置(如日志级别)、性能优化(如连接池)及最佳实践,包括接口抽取与模块复用方案,提升微服务间通信的可维护性和开发效率。

158 0
|
4月前
|
自然语言处理 fastjson Java
|

FastJson:大面积故障规避案例

本文记录了一次由Kotlin语法混淆引发的FastJson反序列化故障排查过程。因误将 `{}` 赋值给Java对象字段,导致FastJson解析时触发 `kotlin_error` 静态标记位异常,进而引发全局反序列化失败。问题隐蔽且影响广泛,最终通过深入源码定位并反思多语言混编下的开发规范与框架风险,强调了对底层机制理解的重要性。(239字)

101 0
|
4月前
|
存储 缓存 NoSQL
|

Redis:内存陡增100%深度复盘

事故因大KEY调用量随流量增长,导致带宽占满,Redis内存使用率迅速达100%。虽有淘汰机制,但缓冲区激增(尤其Pub/Sub输出缓冲)占用大量内存,超出实例容量,致使SET/GET超时崩溃。根本原因为客户端缓冲区失控,非数据本身膨胀,最终Redis无法服务。

111 0
|
4月前
|
缓存 JavaScript 前端开发
|

Vue高效学习指南:从入门到实战的科学路径

本文系统梳理Vue学习路径:从入门筑基、核心深化到项目实战与生态拓展,结合实践方法与避坑指南,帮助初学者打破碎片化学习困境,科学构建知识体系,高效成长为能独立开发的Vue开发者。

163 0
|
4月前
|
Dubbo Java 应用服务中间件
|

Feign远程调用

本章介绍如何用Feign替代RestTemplate实现更优雅的HTTP跨服务调用。通过引入Feign,解决RestTemplate存在的服务地址硬编码、代码可读性差等问题。结合注册中心,基于注解声明远程调用接口,简化开发。同时讲解自定义日志、连接池优化及最佳实践——通过抽取feign-api模块实现客户端复用,提升维护性与扩展性。

119 0
|
4月前
|
Kubernetes Java 应用服务中间件
|

1.开发篇(脚手架下载)

本文介绍基于Spring Cloud Alibaba与Kubernetes的微服务开发实践,重点分享项目初始化与本地启动的高效工具。通过阿里云EDAS 3.0及配套插件,开发者可快速搭建应用并自动对接注册中心,显著提升开发体验。后续将深入讲解云端部署与端云互联能力。

105 0
|
4月前
|
SQL 安全 关系型数据库
|

了解SQL注入

SQL注入是一种常见且危险的Web安全漏洞,攻击者通过构造恶意SQL语句绕过身份验证、窃取数据或执行系统命令。其成因主要是应用程序对用户输入过滤不严,导致数据库被非法操控。OWASP将其列为头号Web威胁。防御需结合输入验证、参数化查询及网络层防护措施。

110 0
|
4月前
|
Web App开发 安全 JavaScript
|

5.跨域处理

本文介绍跨域问题及其解决方案。当协议、域名或端口不同时,浏览器会阻止跨域请求。通过CORS(跨域资源共享)机制,可使用@CrossOrigin注解、全局配置WebMvcConfigurer或自定义过滤器实现安全跨域访问。

115 0
|
4月前
|
Linux 数据安全/隐私保护 虚拟化
|

虚拟机安装(CentOS7)

准备CentOS7镜像及VMware Workstation虚拟机工具,可从百度云下载(提取码:h1y9/bkz3)。使用VMware创建虚拟机,参考知乎教程完成安装。默认登录用户为root,密码由用户自定义设置。需准备一台具备运行虚拟机条件的电脑。

148 0
|
4月前
|
消息中间件 人工智能 决策智能
|

AgentScope x RocketMQ:构建多智能体应用组合

AgentScope是阿里巴巴推出的开发者友好型多智能体框架,支持模块化、可定制的智能体应用开发。通过集成RocketMQ,实现高效、可靠的A2A通信,助力构建如“智能旅行助手”等复杂协作场景,提升开发效率与系统可扩展性。(238字)

303 0
|
4月前
|
人工智能 缓存 自然语言处理
|

大模型推理与应用术语解释

本文系统介绍了大语言模型核心概念:推理、生成式AI、检索增强生成(RAG)、提示工程、上下文学习、代理、多模态学习与语义搜索。涵盖其原理、应用与优化技术,展现大模型在内容生成、知识融合、任务执行与跨模态理解等方面的前沿进展,揭示高效、智能AI系统的构建路径。

197 1
|
4月前
|
消息中间件 人工智能 Linux
|

基于 RocketMQ 构建 高可靠 A2A 通信通道

A2A协议由Google于2025年发起,旨在实现跨厂商AI智能体的标准化通信。基于RocketMQ构建的异步通信方案,支持任务分发、流式交互与状态同步,助力多智能体系统高效协作,推动开放可扩展的Agent生态发展。

109 0
|
4月前
|
数据采集 API 开发者
|

1688商品评论API使用指南

本文介绍1688商品评论数据获取方案,基于合规爬虫技术解析商品ID(offerId)对应的买家评论信息,涵盖评论内容、评分、采购详情、多媒体及商家回复等。适用于口碑分析、质量调研等非商用学习场景,遵循平台规则与法律法规,不提供官方API外的公开接口。

157 1

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

4
今日
69318
内容
128
活动
439805
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务