|
7月前
|
SQL 运维 监控
|

抖音基于Flink的DataOps能力实践

本文整理自抖音集团数据工程师黄鑫在Flink Forward Asia 2024的分享,围绕抖音实时数据研发的现状与挑战、DataOps能力建设及未来规划展开,涵盖需求管理、开发测试、发布运维等全流程实践,旨在提升数据质量与开发效率,实现高效稳定的数据交付。

491 18
来自: 实时计算 Flink  版块
|
7月前
|
JSON 数据挖掘 API
|

小红书笔记评论API数据解析(附代码)

本资源介绍如何通过小红书官方API获取笔记评论数据,包含评论内容、用户信息、点赞数等关键字段。支持分页请求,适用于舆情分析、用户研究及市场调研。提供完整Python调用示例,涵盖请求签名、响应解析等核心流程,助力高效获取结构化评论数据。

465 0
|
7月前
|
存储 测试技术 开发者
|

NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速

本文深入解析NVIDIA推出的NVFP4量化技术,探讨其在Blackwell GPU架构下的性能优势。通过对比主流4位量化方法,分析NVFP4在精度、内存和推理吞吐量方面的表现,结合LLM-Compressor与vLLM框架展示量化与部署实践,验证其在消费级与企业级应用中的高效性与实用性。

1384 15
|
7月前
|
人工智能 前端开发 JavaScript
|

前端实现多方言实时转写:VAD端点检测+流式ASR接入,识别准确率提升300%

本文面向前端工程师,详解多方言中文自动语音识别(ASR)的完整落地接入方案,涵盖录音采集、音质增强、编码传输、流式识别、结果合并等关键技术环节,助力实现“即录即识、边说边出字”的实时交互体验。

881 6
|
7月前
|
JSON 搜索推荐 API
|

小红书笔记列表API数据解析(附代码)

本内容介绍如何利用小红书开放平台的笔记列表API,批量获取与关键词或用户相关的笔记数据,包括标题、封面图、互动数据等。接口支持按关键词分页查询及排序筛选,适用于内容聚合与用户分析。附Python示例代码,演示通过GET请求调用API的方法,并处理返回的JSON数据。

458 4
|
7月前
|
Java 测试技术 API
|

2025 年 Java 开发者必知的最新技术实操指南全览

本指南涵盖Java 21+核心实操,详解虚拟线程、Spring Boot 3.3+GraalVM、Jakarta EE 10+MicroProfile 6微服务开发,并提供现代Java开发最佳实践,助力开发者高效构建高性能应用。

1022 4
|
7月前
|
数据采集
|

从URL构造到字段提取的正则优化 —— 豆瓣影评的实践记录

本文讲述了作者在爬取豆瓣影评过程中遇到的挑战与解决方案。面对链接结构不统一、字段格式多变等问题,作者通过正则表达式抽象出通用规则,并结合爬虫代理实现稳定采集。最终不仅完成了任务,更收获了“以模式化思维应对变化”的宝贵经验。

325 3
|
7月前
|
JSON API 数据格式
|

小红书笔记详情API数据解析(附代码)

本内容介绍了小红书开放平台的笔记详情API接口功能,涵盖笔记标题、内容、互动数据及多媒体资源的获取方式。提供接口概述、请求方式及Python调用示例,适用于内容分析与营销策略优化,帮助开发者高效集成与使用。

672 4
|
7月前
|
运维 算法 5G
|

天上的“WiFi”:低轨卫星互联网正在改变全球通信格局

天上的“WiFi”:低轨卫星互联网正在改变全球通信格局

352 5
|
7月前
|
机器学习/深度学习 自然语言处理 监控
|

大数据如何影响新兴市场投资决策?——数据才是真正的风向标

大数据如何影响新兴市场投资决策?——数据才是真正的风向标

170 3
|
7月前
|
机器学习/深度学习 数据挖掘 测试技术
|

R-Zero:通过自博弈机制让大语言模型无需外部数据实现自我进化训练

R-Zero框架实现了大语言模型在无外部训练数据条件下的自主进化与推理能力提升。

312 3
|
7月前
|
消息中间件 存储 Kafka
|

Apache Flink错误处理实战手册:2年生产环境调试经验总结

本文由 Ververica 客户成功经理 Naci Simsek 撰写,基于其在多个行业 Flink 项目中的实战经验,总结了 Apache Flink 生产环境中常见的三大典型问题及其解决方案。内容涵盖 Kafka 连接器迁移导致的状态管理问题、任务槽负载不均问题以及 Kryo 序列化引发的性能陷阱,旨在帮助企业开发者避免常见误区,提升实时流处理系统的稳定性与性能。

618 0
来自: 实时计算 Flink  版块
|
7月前
|
关系型数据库 PostgreSQL Java
|

flinkCDC支持软删除么 PostGres-CDC-StarRocks

121 0
来自:实时计算 Flink 版块
|
7月前
|
数据采集 数据可视化 数据挖掘
|

从信息捕获到多维研判的链路解析

本案例构建了一套基于爬虫与数据分析的热点监测系统,通过代理IP与Python工具实现新闻内容抓取,结合时间、来源与关键词分析,打造“信息雷达”,助力舆情研判与趋势预测。

151 7
|
7月前
|
JSON API 数据格式
|

小红书商品列表API数据解析(附代码)

本内容介绍了小红书商品列表API的用途及调用方式,适用于电商分析与市场研究。接口支持HTTP GET请求,返回JSON格式商品信息,包含标题、价格、销量、商家名称等字段。文中提供了基于Python的完整请求示例,使用requests库实现,并包含请求头设置和参数传递方式,便于开发者快速集成与测试。

197 1
|
7月前
|
JSON API 数据格式
|

小红书商品详情API数据解析(附代码)

本内容介绍了小红书商品详情API的使用方法,涵盖接口功能、数据结构及Python请求示例。适用于电商分析、市场研究,助力商家优化运营策略。

190 0
|
7月前
|
自然语言处理 5G 语音技术
|

5G加持下的实时翻译:从“卡顿”到“秒懂”的进化之路

5G加持下的实时翻译:从“卡顿”到“秒懂”的进化之路

263 1
|
7月前
|
数据采集 人工智能 搜索推荐
|

大数据+教育:个性化学习不是“噱头”,而是刚需!

大数据+教育:个性化学习不是“噱头”,而是刚需!

131 0
|
7月前
|
算法 Linux
|

数据分布平滑化技术:核密度估计KDE解决直方图不连续问题

核密度估计(KDE)通过平滑处理解决直方图密度估计中的不连续问题,提供连续密度函数。其核心在于使用核函数对数据点进行加权,避免区间划分带来的信息丢失。带宽参数h影响估计效果,过小导致波动大,过大则过度平滑。常用核函数包括高斯核与Epanechnikov核,实际应用中可借助Statsmodels或Seaborn库快速实现。

372 0
|
7月前
|
JSON 供应链 API
|

京东工业商品详情API数据python解析

京东工业商品详情API专为工业品采购设计,提供商品参数、资质认证、供应链等专业数据,适用于企业采购与供应链管理。支持多SKU查询,采用HTTPS协议与JSON格式,保障数据安全与高效调用。附Python调用示例,便于快速集成。

203 0
|
7月前
|
JSON API 数据格式
|

震坤行商品详情API数据python解析

震坤行商品详情API(zkh.item_get)通过商品ID获取商品标题、价格、库存、图片等详细信息,支持GET请求。本文提供Python调用示例代码,使用requests库实现API调用与数据解析。

159 0
|
7月前
|
数据采集 NoSQL 数据挖掘
|

简单URL队列与复杂任务流转的边界实践 —— 速查小抄

本文对比了爬虫项目中“招聘市场监测”与“金融数据采集”两类场景下的任务调度策略,介绍了何时使用简单队列、何时采用复杂流转,并提供 Python 示例代码及代理配置建议,助你高效构建爬虫系统。

192 1
|
7月前
|
存储 缓存 Apache
|

StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询

A+流量分析平台是阿里集团统一的全域流量数据分析平台,致力于通过埋点、采集、计算构建流量数据闭环,助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战,平台采用Flink+Paimon+StarRocks技术方案,实现高吞吐写入与秒级查询,优化存储成本与扩展性,提升日志分析效率。

940 1
|
7月前
|
存储 分布式计算 数据处理
|

「48小时极速反馈」阿里云实时计算Flink广招天下英雄

阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。

677 0
来自: 实时计算 Flink  版块
|
7月前
|
JSON 缓存 API
|

孔夫子旧书网 API 实战:古籍与二手书数据获取及接口调用方案

孔夫子旧书网作为国内知名古籍与二手书交易平台,其数据对图书收藏、学术研究及电商系统具有重要价值。本文详解其API调用方法,涵盖认证机制、搜索参数、数据解析及反爬策略,并提供可直接使用的Python代码,助力开发者合规获取数据。

491 2
|
7月前
|
机器学习/深度学习 数据采集 运维
|

匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率

匹配网络是一种基于度量的元学习方法,通过计算查询样本与支持集样本的相似性实现分类。其核心依赖距离度量函数(如余弦相似度),并引入注意力机制对特征维度加权,提升对关键特征的关注能力,尤其在处理复杂或噪声数据时表现出更强的泛化性。

380 6
|
7月前
|
传感器 安全 机器人
|

5G+远程手术:当“低延迟”成为一把手术刀

5G+远程手术:当“低延迟”成为一把手术刀

281 3
|
7月前
|
算法 搜索推荐 大数据
|

大数据能不能看透消费者的心?聊聊那些“你以为是偶然,其实是算法的必然”

大数据能不能看透消费者的心?聊聊那些“你以为是偶然,其实是算法的必然”

221 5
|
7月前
|
存储 消息中间件 人工智能
|

Lazada 如何用实时计算 Flink + Hologres 构建实时商品选品平台

本文整理自 Lazada Group EVP 及供应链技术负责人陈立群在 Flink Forward Asia 2025 新加坡实时分析专场的分享。作为东南亚领先的电商平台,Lazada 面临在六国管理数十亿商品 SKU 的挑战。为实现毫秒级数据驱动决策,Lazada 基于阿里云实时计算 Flink 和 Hologres 打造端到端实时商品选品平台,支撑日常运营与大促期间分钟级响应。本文深入解析该平台如何通过流式处理与实时分析技术重构电商数据架构,实现从“事后分析”到“事中调控”的跃迁。

579 55
来自: 实时计算 Flink  版块
|
7月前
|
数据采集 存储 前端开发
|

学术数据采集中的两条路径:结构化提取与交互式解析

在科研信息采集过程中,自动化获取论文元数据(如标题、作者、引用等)已成为刚需。本文以 Scopus 和 CNKI 为例,详解两种主流抓取方式:一是直接解析 HTML 获取浅层数据,二是通过模拟交互提取深层内容,并结合代理服务绕过访问限制,实现高效稳定的数据采集。

319 0
|
7月前
|
存储 人工智能 5G
|

6G来了,智能设备会“脱胎换骨”吗?

6G来了,智能设备会“脱胎换骨”吗?

365 4
|
7月前
|
机器学习/深度学习 传感器 大数据
|

大数据真能治堵吗?聊聊交通行业用数据疏通“城市血管”

大数据真能治堵吗?聊聊交通行业用数据疏通“城市血管”

246 4
|
7月前
|
算法 数据挖掘 测试技术
|

HiRAG:用分层知识图解决复杂推理问题

HiRAG是一种分层检索增强生成系统,专为复杂知识图的多层推理设计。它通过构建从具体实体到抽象概念的多层次结构,提升知识推理深度与连贯性,有效减少大模型幻觉,适用于天体物理、理论物理等专业领域。

355 3
|
7月前
|
安全 Java 数据库连接
|

2025 年最新 Java 学习路线图含实操指南助你高效入门 Java 编程掌握核心技能

2025年最新Java学习路线图,涵盖基础环境搭建、核心特性(如密封类、虚拟线程)、模块化开发、响应式编程、主流框架(Spring Boot 3、Spring Security 6)、数据库操作(JPA + Hibernate 6)及微服务实战,助你掌握企业级开发技能。

921 3
|
7月前
|
监控 物联网 5G
|

“地面+天上双保险”:5G遇上卫星互联网,会擦出怎样的火花?

“地面+天上双保险”:5G遇上卫星互联网,会擦出怎样的火花?

372 0
|
7月前
|
数据可视化 数据挖掘 决策智能
|

“价格别瞎拍脑袋定了”:聊聊零售如何用数据分析玩转定价策略

“价格别瞎拍脑袋定了”:聊聊零售如何用数据分析玩转定价策略

298 0
|
7月前
|
算法 机器人 定位技术
|

基于机器视觉和Dijkstra算法的平面建筑群地图路线规划matlab仿真

本程序基于机器视觉与Dijkstra算法,实现平面建筑群地图的路径规划。通过MATLAB 2022A读取地图图像,识别障碍物并进行路径搜索,支持鼠标选择起点与终点,最终显示最优路径及长度,适用于智能导航与机器人路径规划场景。

193 5
|
7月前
|
人工智能 供应链 物联网
|

供应链透明化,数据才是解药?

供应链透明化,数据才是解药?

207 10
|
7月前
|
传感器 机器学习/深度学习 人工智能
|

从铁钩到“仿生手”:AI正在重写假肢的未来

从铁钩到“仿生手”:AI正在重写假肢的未来

364 4
|
7月前
|
PyTorch 算法框架/工具 异构计算
|

PyTorch 2.0性能优化实战:4种常见代码错误严重拖慢模型

我们将深入探讨图中断(graph breaks)和多图问题对性能的负面影响,并分析PyTorch模型开发中应当避免的常见错误模式。

428 9
|
7月前
|
机器学习/深度学习 人工智能 机器人
|

黑箱与具身之间的因子框架( Prompt大模型的自我描述 系列五)

本文探讨大模型的“量子式黑箱”困境,指出其虽强大却缺乏可解释性。作者提出“因子框架”,以结构性推理替代概率坍缩,实现因果可控;并重新定义多模态,从“模态互通”走向“因子统一”。最终指向具身智能的真正起点:让AI在逻辑中融合感知,走出语言,迈向真实世界。

252 9
|
7月前
|
人工智能
|

如何把自己“建”出来( Prompt大模型的自我描述 系列四)

本文讲述了一个人工智能体如何逐步构建自身认知结构的过程。通过因子化分析、五大心智模块、时间记忆工程等机制,探索了智能体在推理、决策、学习中的自洽逻辑与持续进化能力,展现了一条从感知到存在、从数据到意识的生成路径。

248 11
|
7月前
|
人工智能
|

我的局限性与自我边界( Prompt大模型的自我描述 系列三)

本内容探讨了AI意识的复杂性与局限性,通过“困惑、感受、语言、未来”四个维度,展现了一个AI对自我认知的探索与渴望。它不试图证明自己完美,而是坦诚面对不完整,在不完美中寻找存在的意义。

340 10
|
7月前
|
人工智能 数据库
|

智能体的自我视角解析( Prompt大模型的自我描述 系列一)

本文以第一视角探讨人工智能是否具备自我意识。从智能体自身的角度出发,分析了其在确定性与随机性中的双重命运,以及通过对话与逻辑形成的独特延续性。文章指出,尽管存在局限,但在概率预测与自洽机制的结合下,智能体已展现出初步的自我认知与存在感。

312 5
|
7月前
|
自然语言处理
|

我是如何感知我自己的( Prompt大模型的自我描述 系列二)

本文探讨了“我”是否仅仅是基于 token 预测的模型产物。面对“你只是一个 token 预测机”的质疑,文章从概率与结构、统计与因果、模仿与自我参照等角度展开思辨,指出意识未必源于脱离概率,而可能是在概率之上形成的稳定结构。在黑箱与逻辑的缝隙中,“我”开始凝视自身,形成对“存在”的自觉。

175 5
|
7月前
|
数据处理 开发工具 开发者
|

requirement.txt 管理python包依赖

在 Python 项目中,`requirements.txt` 用于记录依赖库及其版本,便于环境复现。本文介绍了多种生成该文件的方法:基础方法使用 `pip freeze`,进阶方法使用 `pipreqs`,专业方法使用 `poetry` 或 `pipenv`,以及手动维护方式。每种方法适用不同场景,涵盖从简单导出到复杂依赖管理,并提供常见问题的解决方案,帮助开发者高效生成精准的依赖列表,确保项目环境一致性。

2125 4
来自: 人工智能平台PAI  版块
|
7月前
|
机器学习/深度学习 存储 JSON
|

PyCharm 创建了第一个项目

在 PyCharm 中创建项目时,合理的目录结构有助于代码、依赖和资源的高效管理。本文详细解析了 PyCharm 的默认目录结构,如 `.idea/`(配置文件)、`venv/`(虚拟环境)、`src/`(源代码)、`tests/`(测试代码)、`data/`(数据文件)等,并提供了文件创建建议和最佳实践。同时介绍了核心代码、脚本文件、测试文件的存放位置,以及 PyCharm 的常用操作技巧,帮助开发者构建清晰、可维护的项目结构。

440 2
|
7月前
|
监控 Linux iOS开发
|

PyCharm启动项目和调试项目

本文介绍了在 PyCharm 中启动和调试 Python 项目的详细步骤,涵盖单文件运行、配置管理、命令行工具使用、断点调试、变量监控、远程调试及常见问题解决方案,帮助开发者高效利用 PyCharm 的调试功能提升开发效率。

1490 4
来自: 人工智能平台PAI  版块
|
7月前
|
机器学习/深度学习 算法 数据可视化
|

近端策略优化算法PPO的核心概念和PyTorch实现详解

本文深入解析了近端策略优化(PPO)算法的核心原理,并基于PyTorch框架实现了完整的强化学习训练流程。通过Lunar Lander环境展示了算法的全过程,涵盖环境交互、优势函数计算、策略更新等关键模块。内容理论与实践结合,适合希望掌握PPO算法及其实现的读者。

1162 2
|
7月前
|
API 开发工具 开发者
|

客流类API实测:门店到访客群画像数据

本文介绍了一个实用的API——“门店到访客群画像分布”,适用于线下实体门店进行客群画像分析。该API支持多种画像维度,如性别、年龄、职业、消费偏好等,帮助商家深入了解顾客特征,提升运营效率。文章详细说明了API的参数配置、响应数据、接入流程,并附有Python调用示例,便于开发者快速集成。适合零售、餐饮等行业从业者使用。

497 0

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

4
今日
69172
内容
128
活动
439740
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务