|
16小时前
|
机器学习/深度学习 自然语言处理 iOS开发
|

Feature Generator(FG)特征算子配置指南

本文档全面介绍Feature Generator(FG)的各类特征算子配置方法,涵盖基础(ID/原始特征)、计算(表达式)、交叉(组合)、查找(Lookup/Match)、文本(重叠/BM25)、序列、预处理(分词/归一化)及字符串处理(正则替换/切片)等9大类算子,附详细配置示例与说明。

56 8
来自: 智能搜索推荐  版块
|
20小时前
|
机器学习/深度学习 JSON 自然语言处理
|

PAI-Rec 特征工程全解析:统计特征、实时特征、序列特征与 FG 特征算子

PAI-Rec是阿里云智能推荐的特征工程解决方案,支持离线统计、实时及序列特征自动衍生,并通过Feature Generator(17种内置算子)保障离线/在线特征一致性,大幅降低开发与维护成本。

48 6
来自: 智能搜索推荐  版块
|
22小时前
|
机器学习/深度学习 搜索推荐 数据处理
|

PAI-Rec推荐开发平台:企业级智能推荐解决方案,驱动业务全域增长

PAI-Rec是阿里云一站式推荐系统平台,集成多路召回、多目标精排(如DBMTL)、GPU加速推理与灵活迭代能力,已助力电商、直播、音视频等多行业提升点击率、转化率与ROI,实现高效、低成本、可自主演进的智能推荐。

61 15
来自: 智能搜索推荐  版块
|
23小时前
|
算法 调度 数据库
|

演化计算与抽样方法构造新算法流程:从 AlphaEvolve 看 LLM × EA 融合范式

本文系统解析AlphaEvolve——Google DeepMind提出的LLM×EA融合新范式:以语义引导的抽样机制、双模型协同进化(Gemini Flash+Pro)、自动评估闭环,实现算法的自主发现与优化,已突破矩阵乘法纪录并提升训练效率。(239字)

50 14
|
1天前
|
机器学习/深度学习 分布式计算 搜索推荐
|

PAI-Rec 召回引擎:构建高性能推荐系统的核心引擎

PAI-Rec是阿里云智能推荐平台的核心召回引擎,经阿里大规模场景验证。支持多路召回融合(U2I/I2I/向量/随机)、召回即过滤、毫秒级实时更新与分布式弹性架构,开箱即用,助力企业构建毫秒级、高精度、强实时的推荐系统。

41 7
来自: 智能搜索推荐  版块
|
1天前
|
SQL 人工智能 分布式计算
|

EMR Serverless Spark 携手 PAI/百炼,开启“SQL 即 AI”的新篇章

EMR Serverless Spark 深度集成 AI Function 能力,并无缝对接 阿里云百炼与 阿里云人工智能平台 PAI 模型在线服务 PAI-EAS,定义了“SQL 即 AI”的新解决思路,数据分析师只需一行 SQL,即可直接调用世界顶尖的大模型。

43 4
|
2天前
|
JSON 数据安全/隐私保护 计算机视觉
|

告别付费套路!PhotoLab:开源免费的全功能桌面图片工作站,解锁所有核心能力

PhotoLab Pro是一款开源免费的桌面图片工作站,集成图像编辑、拼图排版、JPEG批量压缩、高级批量处理、图片转PDF五大模块,无广告、无VIP、无功能阉割,支持宏录制与跨模块协同,开箱即用。

83 2
|
2天前
|
Java
|

java工具:《Long类型转Integer》

java工具:《Long类型转Integer》

48 1
|
2天前
|
关系型数据库 MySQL Apache
|

Flink CDC 3.6.0:支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution

Apache Flink CDC 3.6.0 正式发布!支持 Flink 1.20.x/2.2.x 与 JDK 11,增强端到端 Schema Evolution(MySQL/PostgreSQL 入湖入流),新增 Oracle Source 与 Hudi Sink 连接器,全面覆盖主流数据湖生态,并优化 Transform 框架、YAML 路由及多连接器能力。(239字)

76 2
来自: 实时计算 Flink  版块
|
2天前
|
数据采集 缓存 Java
|

Python、Java、PHP 三种语言实现爬虫的核心技术对比与示例

本文对比Python、Java、PHP三大语言爬虫技术,涵盖核心工具(如Scrapy/Jsoup/Goutte)、典型代码示例及异步、分布式、缓存等性能优化策略,并给出选型建议与反爬合规实践,助开发者高效构建稳定爬虫系统。

125 3
|
2天前
|
数据采集 消息中间件 监控
|

AIGC数据引擎的基石:图库抓取架构从单机到云原生的演进与实战

AIGC领域优化数据采集策略,提升大模型竞争力。初期使用Python脚本搭建单机爬虫,后转向分布式设计,引入代理技术。云原生部署实现弹性伸缩,全链路监控。构建高可用数据采集引擎是关键。

52 4
|
3天前
|
数据采集 人工智能 监控
|

快速接入小红书API,市场趋势与热点预测

小红书API+AI已成2026年品牌营销与内容电商核心基建,支持竞品监测、舆情预警、趋势预测等全场景合规数据采集;多模态生成、预测型AI与垂直领域模型加速商业化落地,SaaS工具、代运营、技术基建成三大机遇。(239字)

84 2
|
3天前
|
存储 人工智能 安全
|

2026年各大厂商OpenClaw中文生态分析调研汇报

OpenClaw(原Moltbot)是开源AI助手框架,ClaudeCowork为Anthropic官方企业协作工具;生态涵盖轻量版(Pico/NanoClaw)、高性能版(MaxClaw)、行业定制版(MedClaw、ClawWork等)及社区衍生项目(LobsterAI、RedClaw等),以Obsidian为知识库,OpenFang为交互协议。

140 5
|
3天前
|
数据采集 中间件 Go
|

Go Colly框架高阶技巧:如何在中间件中无缝切换代理IP

这是一份专为突发数据需求打造的Go Colly速查表:集成代理轮询、动态UA/Cookie伪装与智能限速,3步复制即用。无需架构设计,5分钟开跑,直面风控抓取竞品活动数据。

64 4
|
4天前
|
数据采集 API 调度
|

采集新手必看:选“隧道”还是“API提取”?一文看懂!

文章介绍了Python爬虫的两种代理方式:API提取代理和隧道代理。建议新手或需高并发项目使用隧道代理。提供了Python代码示例,展示如何使用隧道代理和伪装身份。

100 5
|
5天前
|
JSON 运维 Java
|

Apache Flink Agents 0.2.1 发布公告

Apache Flink Agents 0.2.1发布!修复3个关键缺陷(含MCP连接与Jackson反序列化问题),优化事件日志JSON输出、减小wheel包体积,并增强CI可观测性。推荐所有用户升级。支持OpenAI、Anthropic等多模型集成,附Demo演示智能运维能力。(239字)

90 5
来自: 实时计算 Flink  版块
|
5天前
|
存储 消息中间件 关系型数据库
|

(二)走进阿里云实时计算Flink版-场景案例篇

阿里云实时计算Flink版产品负责人黄鹏程(马格)介绍:基于Apache Flink打造的企业级全托管实时计算平台,支持批流一体、湖仓融合、实时风控与AI推理等场景,助力满帮、车企等客户降本增效35%,SLA达99.9%。

210 3
来自: 实时计算 Flink  版块
|
5天前
|
自然语言处理 搜索推荐 机器人
|

词向量还能“边用边学”?手把手教你用 Python 做增量训练,不用重头再来!

词向量还能“边用边学”?手把手教你用 Python 做增量训练,不用重头再来!

70 3
|
5天前
|
存储 安全 数据安全/隐私保护
|

数据放云上就安全了?别天真:聊透“云上合规+数据主权”的那些坑与解法

数据放云上就安全了?别天真:聊透“云上合规+数据主权”的那些坑与解法

77 3
|
5天前
|
数据采集 网络协议 Java
|

爬虫踩坑实录:OkHttp 接入爬虫代理报 Too many tunnel connections attempted 深度解析

本文深入解析 OkHttp 使用隧道代理抓取 HTTPS 网站时频发的 `ProtocolException: Too many tunnel connections attempted: 21` 错误,揭示其根源在于风控触发 302 重定向后 OkHttp 盲目重试隧道连接。通过关闭 `followRedirects(false)` 和 `followSslRedirects(false)`,两行配置即可优雅破局,精准捕获拦截响应,提升爬虫稳定性与调试效率。

99 2
|
6天前
|
Java
|

java工具:《Java 8 Stream实战:一行代码搞定集合对象类型转换》

java工具:《Java 8 Stream实战:一行代码搞定集合对象类型转换》

74 6
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
|

AI浪潮下的程序员:如何在变革中寻找新航向

本文探讨AI浪潮下程序员的转型之路:AI是助手而非替代者。面对挑战,应主动学习AI工具、深耕行业领域、提升软技能与问题解决能力,从“码农”蜕变为“AI时代的创造者”。未来属于积极适应者。(239字)

117 8
|
7天前
|
自然语言处理
|

为什么你的 NLP 模型一换语言就“智商归零”?多语言 NLP 的坑,比你想的深得多

为什么你的 NLP 模型一换语言就“智商归零”?多语言 NLP 的坑,比你想的深得多

94 6
|
7天前
|
消息中间件 Prometheus 监控
|

你还在“出问题才查日志”?用 Prometheus + Grafana,把大数据平台变成“会说话”的系统!

你还在“出问题才查日志”?用 Prometheus + Grafana,把大数据平台变成“会说话”的系统!

107 9
|
7天前
|
人工智能
|

我学GEO第10天:被豆包引用了,还被千问、元宝认识了

我是二二得四,专注GEO优化第10天。零基础起步,坚持每日图文输出、多平台分发、AI友好写作,已实现豆包/千问/元宝识别“二二得四”(置信度50%-65%),首篇文章被豆包引用。边学边测、边做边迭代,用真实过程记录普通人可复制的AI时代品牌可见性增长路径。

122 6
|
8天前
|
分布式计算 大数据 流计算
|

你还在手动发包?容器镜像一上,大数据部署直接“起飞”!

你还在手动发包?容器镜像一上,大数据部署直接“起飞”!

70 4
|
8天前
|
机器学习/深度学习 人工智能 缓存
|

一篇新闻太长懒得看?我用 Python + 深度学习,3分钟教你做一个“自动摘要神器”

一篇新闻太长懒得看?我用 Python + 深度学习,3分钟教你做一个“自动摘要神器”

84 8
|
8天前
|
数据采集 JSON 监控
|

洞察电商数据:京东商品评论API数据模型

本文详解京东商品评论API数据模型,涵盖SKU精准查询、分页参数、全维度字段(评论/用户/评分/内容/扩展)及合规脱敏规范。JSON结构清晰,开箱即用,助力竞品分析、口碑监测、选品调研与运营优化。(239字)

80 6
|
8天前
|
SQL 存储 人工智能
|

选型必算 ROI:Aloudata CAN 指标平台如何量化降本增效与统一口径价值

通过统一语义层、声明式定义与智能物化技术,实现可量化的降本增效与 100% 口径一致。

97 5
|
8天前
|
数据采集 JSON 数据挖掘
|

洞察电商数据:淘宝商品评论API数据模型

本文详解淘宝商品评论API数据模型,涵盖请求参数、JSON返回结构及五大核心字段(基础信息、用户、评分、内容、扩展),支持竞品分析、口碑监测与选品调研,适配开发对接与业务分析,合规高效获取全维度评论数据。(239字)

107 3
|
8天前
|
测试技术 Go 芯片
|

2A单节锂电池充电芯片PW4213的IC测试应用

PW4213是一款专为单节锂电池(3.7V/4.2V)设计的同步降压型充电管理IC。与常见的5V输入充电芯片不同,PW4213支持宽电压输入(4.5V-15V),可直接使用5V-12V适配器为单节锂电池充电,内部集成同步降压架构,在大压差应用下效率高、发热低。 工作模式:降压(Buck)拓扑,将5V/9V/12V输入降压至4.2V给单节锂电池充电 开关频率:500kHz,可使用小型化电感电容 最大充电电流:2A,可通过外接检流电阻调节 封装形式:SOP8-EP(底部带散热焊盘)

139 5
|
9天前
|
JSON Java fastjson
|

java工具:《json对象转javabean》

java工具:《json对象转javabean》

79 2
|
9天前
|
自然语言处理
|

别再只会“复制粘贴数据”了:聊聊 NLP 数据增强的那些实战骚操作

别再只会“复制粘贴数据”了:聊聊 NLP 数据增强的那些实战骚操作

89 3
|
9天前
|
SQL Cloud Native 大数据
|

别再只做“数据仓库苦力”了:聊聊如何用云原生把数据真正做成产品

别再只做“数据仓库苦力”了:聊聊如何用云原生把数据真正做成产品

100 3
|
9天前
|
设计模式 人工智能 边缘计算
|

破局协同设计困局:从“各自为战”到“同频共振”,解锁企业创新新动能!

本文剖析协同设计面临的“三重枷锁”:信息孤岛导致数据割裂、供需错配引发内耗、流程混乱造成低效。结合建筑、制造、创意领域实践案例,提出破局关键——构建统一协同平台、优化闭环流程、融合BIM/AI等智能技术,推动产设研一体化,释放创新效能。(239字)

90 3
来自: 数据可视化DataV  版块
|
9天前
|
数据采集 Web App开发 监控
|

极速上手:Puppeteer + 原生代理IP (金融与突发新闻抓取 Cheat Sheet)

本文介绍金融与新闻高频爬虫的实战方案:用 `puppeteer-extra` + `stealth` 插件隐藏自动化指纹,结合高匿代理IP轮换,实现秒级资讯采集。含完整配置、优化代码及生产避坑指南。

81 4
|
10天前
|
JSON API 数据格式
|

洞察电商数据:京东商品详情API 数据模型

该JD商品数据接口提供jd.item_get(基础)与jd.item_get_pro(全量)两大核心服务,支持POST/GET调用,返回JSON格式。无需申请密钥,传入item_id/sku_id及timestamp即可一键获取含图文、价格、库存、规格、销量、售后等7大模块的标准化商品数据,适配批量查询与中小卖家需求。(239字)

76 6
|
10天前
|
数据采集 人工智能 SEO
|

GEO怎么做?从0开始的五步法

GEO怎么做?从0开始的五步法:先搞懂GEO是什么(让AI在回答时提到你),再选对平台(公众号、问一问、知乎、搜狐号、小红书),然后写AI友好的内容(开头给结论、小标题分段、结尾加FAQ),发出去等收录,最后测效果优化。0成本起步,边学边做。我是二二得四,正在从头学GEO。

260 3
|
10天前
|
机器学习/深度学习 数据采集 搜索推荐
|

你还在用关键词匹配?Python 玩转文本聚类 + 相似度搜索,效果直接碾压

你还在用关键词匹配?Python 玩转文本聚类 + 相似度搜索,效果直接碾压

91 8
|
10天前
|
Kubernetes 监控 安全
|

别再说“多活一份数据就安全了”:云上灾备的真相,是你根本没想清楚 RTO / RPO

别再说“多活一份数据就安全了”:云上灾备的真相,是你根本没想清楚 RTO / RPO

150 9
|
10天前
|
人工智能 自然语言处理 供应链
|

AI 大模型时代:淘宝京东商品数据 API 如何重构电商智能决策

AI大模型正将传统API从“数据搬运工”升级为“智能决策中枢”,打通“数据→信息→知识→行动”全链路。通过融合电商API与大模型能力,在智能选品、竞品预警、内容生成、运营闭环四大场景实现从人工到自治的跃迁。(239字)

142 3
|
11天前
|
数据采集 自然语言处理 监控
|

拒绝“数据断层”:高质量舆情分析背后的隐形功臣——动态节点池

在AI与大数据时代,社交媒体数据是舆情监控、情感分析的核心资产。但再精妙的NLP模型也难逃“垃圾进、垃圾出”——数据断层导致的幸存者偏差,常源于爬虫被限流封禁。本文揭示动态代理IP池如何保障数据时序完整性、提升并发吞吐、规避风控,附可落地的Python实战代码,强调:稳定的数据管道,才是最高级的ROI。

141 4
|
11天前
|
人工智能 运维 监控
|

Anthropic 内部用了数百个 Skills,这份清单他们第一次公开

Anthropic 内部,有数百个 Skills 每天在运行。

175 4
|
11天前
|
数据采集 传感器 人工智能
|

AI质检+MES如何重构智能制造质量闭环

AI质检与MES深-度融合,构建“感知-分析-决策-执行”质量闭环:实现100%全检、自动拦截、一物一档、工艺自优化及缺-陷预-测;通过OPC UA/MQTT/边缘网关打通设备数据,支撑全流程精-准质量追溯。

113 4
|
11天前
|
芯片
|

电子工程师必看!2串双节锂电池保护芯片PW7120,应用与选型指南

PW7120采用SOT23-6L的封装形式,PW7120是一款基于COMS的双节可充电锂电池保护电路,它集高精度过电压充电保护、过电压放电保护、过电流充电保护、过电流放电保护、电池短路保护等性能于一身。

155 2
|
11天前
|
人工智能 自然语言处理 算法
|

别再只会关键词搜索了:一文带你用 LDA / NMF 玩转“主题建模”

别再只会关键词搜索了:一文带你用 LDA / NMF 玩转“主题建模”

137 4
|
11天前
|
存储 Kubernetes Cloud Native
|

你以为是磁盘慢?其实是你不会调:云原生存储性能调优实战(IOPS / 吞吐 / 延迟)

你以为是磁盘慢?其实是你不会调:云原生存储性能调优实战(IOPS / 吞吐 / 延迟)

96 2
|
11天前
|
SQL 人工智能 数据可视化
|

国内想走 Palantir 路线,最容易补错的不是产品能力,而是实施组织能力

Palantir 的核心壁垒不在平台规模或AI集成,而在于将复杂业务“可计算化”的高密度实施能力:通过本体建模沉淀语义、深入现场持续迭代、对决策结果负责。国内厂商亟需补足的,是“组织—语义—交付”三位一体的落地能力,而非盲目对标超级平台。

109 1
|
11天前
|
SQL 自然语言处理 数据可视化
|

当业务口径频繁变化时,预制指标、宽表、SQL 和本体ABC 谁最不容易失控?

本文对比四种智能问数路径:预制指标、宽表、人工SQL与本体ABC。指出在业务稳定时前三者高效,但面对口径频繁变更、跨部门协同等高变化场景,语义维护成本远超查询性能问题。本体ABC虽前期投入大,却将变化管理聚焦于对象、关系、属性与逻辑层面,实现长期可控的语义治理。

209 2
|
12天前
|
JSON 监控 API
|

京东商品评论内容获取指南

京东商品评论API(jd.item.review)提供结构化评论数据,支持按ID批量获取、好评/差评筛选、图文视频过滤、分页排序及追评、商家回复等维度,JSON格式返回,免申请一键调用,适用于口碑分析与舆情监控。(239字)

93 4

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69318
内容
128
活动
439805
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务