|
7月前
|
SQL 关系型数据库 MySQL
|

JOIN顺序优化:小表驱动大表的执行原则

在数据库查询优化中,“小表驱动大表”是一种提升SQL查询效率的常用策略。其核心思想是优先处理数据量较小的表,再与大表进行连接操作,从而减少数据扫描量、降低I/O开销并提高内存使用效率。通过显式指定JOIN顺序、使用EXISTS替代IN以及合理创建索引等方式,可以有效实现该原则。例如,在连接部门表(小表)和员工表(大表)时,先处理小表可显著提升查询性能。掌握这一原则有助于编写高效SQL语句,优化数据库整体表现。

681 0
|
8月前
|
搜索推荐 数据处理
|

HarmonyOS实战:自定义表情键盘

本文介绍如何在鸿蒙系统中实现一个自定义表情键盘,涵盖数据处理、布局设计与交互逻辑,助你打造个性化输入体验。

245 0
|
8月前
|
人工智能 Apache 流计算
|

FFA 2025 新加坡站全议程上线|The Future of AI is Real-Time

Flink Forward Asia 2025将于7月3日在新加坡举办,主题为“实时智能的未来”。大会聚焦实时AI、实时湖仓与实时分析,展示Apache Flink及社区项目如Paimon、Fluss的最新成果。来自阿里云、AWS、TikTok等企业专家将分享洞见,现场及直播观众均可参与互动抽奖,共襄技术盛宴。

606 14
来自: 实时计算 Flink  版块
|
8月前
|
存储 运维 监控
|

OpenFeature 实战:统一特征开关在风控模型的落地与灰度发布方案

在金融风控场景中,模型迭代速度与线上稳定性之间的平衡是一大挑战。传统硬编码方式存在耦合度高、控制粒度粗、缺乏审计等问题,导致误拦截损失显著。本文介绍了基于 OpenFeature 的解决方案,通过动态配置、细粒度控制和多语言支持实现高效特征管理,并结合灰度发布、熔断机制和安全审计提升系统稳定性与发布安全性。实战数据显示,该方案显著缩短上线周期、降低故障率并提升模型覆盖率,具备高可用性和可扩展性,适用于复杂风控环境下的策略迭代需求。

456 8
|
8月前
|
数据采集 机器学习/深度学习 Java
|

Java 大视界 —— Java 大数据在智慧交通停车场智能管理与车位预测中的应用实践(174)

本文围绕 Java 大数据在智慧交通停车场智能管理与车位预测中的应用展开,深入剖析行业痛点,系统阐述大数据技术的应用架构,结合大型体育中心停车场案例,展示系统实施过程与显著成效,提供极具实操价值的技术方案。

334 2
|
8月前
|
人工智能 自然语言处理 数据可视化
|

AI重新定义体育直播

2024年的AI体育直播正以前所未有的方式革新观赛体验:进球瞬间生成多语言解说、预判精彩镜头、实时战术分析、自动生成集锦。AI不仅取代传统导播,还提供风格化解说、情绪化运镜和防作弊辅助,让比赛更智能、互动更丰富。开发者可借助开源工具入局,未来或将实现全息解说与脑机直连,为体育注入科技魅力!

437 2
|
8月前
|
数据采集 人工智能 编解码
|

2025年颠覆闭源大模型?MonkeyOCR:这款开源AI文档解析模型,精度更高,速度更快!

还在依赖昂贵且慢的闭源OCR工具?华中科技大学开源的MonkeyOCR文档解析模型,以其超越GPT4o的精度和更快的推理速度,在单机单卡(3090)上即可部署,正颠覆业界认知。本文将深入解析其设计哲学、核心突破——大规模自建数据集,并分享实测体验与避坑指南。

2220 87
|
8月前
|
存储 运维 Java
|

官宣 | Fluss 0.7 发布公告:稳定性与架构升级

Fluss 0.7 版本正式发布!历经 3 个月开发,完成 250+ 次代码提交,聚焦稳定性、架构升级、性能优化与安全性。新增湖流一体弹性无状态服务、流式分区裁剪功能,大幅提升系统可靠性和查询效率。同时推出 Fluss Java Client 和 DataStream Connector,支持企业级安全认证与鉴权机制。未来将在 Apache 孵化器中继续迭代,探索多模态数据场景,欢迎开发者加入共建!

816 8
来自: 实时计算 Flink  版块
|
8月前
|
算法 定位技术
|

我已证明P=NP

无论多难的问题,其实都有一个前提和”线索“。只要找到线索,就能解题。 I think I have proved P=NP problem from math.

524 136
|
8月前
|
算法 自动驾驶 机器人
|

基于Astar的复杂栅格地图路线规划算法matlab仿真

本项目基于A*算法实现复杂栅格地图的路径规划,适用于机器人导航、自动驾驶及游戏开发等领域。通过离散化现实环境为栅格地图,每个栅格表示空间区域属性(如可通行性)。A*算法利用启发函数评估节点,高效搜索从起点到终点的近似最优路径。项目在MATLAB2022a中运行,核心程序包含路径回溯与地图绘制功能,支持障碍物建模和路径可视化。理论结合实践,该方法具有重要应用价值,并可通过技术优化进一步提升性能。

263 0
|
8月前
|
XML JSON API
|

深入研究: 亚马逊 amazon商品列表API接口 Python 攻略

本内容介绍了亚马逊商品列表API接口的应用价值与操作方法。在电商数据分析驱动决策的背景下,该接口可自动化获取商品基本信息(如名称、价格、评价等),助力市场调研、竞品分析及价格监控等场景。接口通过设置搜索条件(关键词、类目、价格范围等)筛选商品列表,以GET请求方式调用,返回JSON或XML格式数据,包含商品基本信息、价格、评价、图片链接及库存状态等内容。合理使用此接口可提升运营效率、降低人力成本并及时掌握市场动态。

237 1
|
8月前
|
数据采集 缓存 自然语言处理
|

NLP驱动网页数据分类与抽取实战

本文探讨了使用NLP技术进行网页商品数据抽取时遇到的三大瓶颈:请求延迟高、结构解析慢和分类精度低,并以目标站点goofish.com为例,展示了传统方法在采集商品信息时的性能问题。通过引入爬虫代理降低封禁概率、模拟真实用户行为优化请求,以及利用关键词提取提升分类准确性,实现了请求成功率从65%提升至98%,平均请求耗时减少72.7%,NLP分类错误率下降73.6%的显著优化效果。最终,代码实现快速抓取并解析商品数据,支持价格统计与关键词分析,为构建智能推荐模型奠定了基础。

201 0
|
8月前
|
机器学习/深度学习 自然语言处理 前端开发
|

国内快递地址解析技术的工作原理详解

随着电商和快递行业快速发展,非结构化地址问题日益突出,如字段混杂、拼写错误等,传统方式难以高效处理。为此,探数平台推出基于NLP和地理信息的快递地址解析API,可将原始地址文本解析为标准结构化字段(如省、市、区、街道等),并支持收件人姓名与电话提取。 技术上,该API采用深度学习模型(如BERT、BiLSTM)进行语义理解,结合地址知识图谱实现纠错与补全。服务支持SaaS调用或私有化部署,性能稳定,适用于各类前端场景。通过地址结构化处理,企业可显著提升订单处理效率,减少配送错误,优化用户体验,助力全链路智能化升级。无论是电商平台还是物流系统,均可从中受益。

669 0
|
8月前
|
数据采集 人工智能 算法
|

“脏数据不清,分析徒劳”——聊聊数据分析里最容易被忽视的苦差事

“脏数据不清,分析徒劳”——聊聊数据分析里最容易被忽视的苦差事

311 34
|
9月前
|
存储 Rust Go
|

介绍一下这只小水獭 —— Fluss Logo 背后的故事

Fluss是一款开源流存储项目,致力于为Lakehouse架构提供高效的实时数据层。其全新Logo以一只踏浪前行的小水獭为核心形象,象征流动性、适应性和友好性。水獭灵感源于“Fluss”德语中“河流”的含义,传递灵活与亲和力。经过30多版设计迭代,最终呈现动态活力的视觉效果。Fluss计划捐赠给Apache软件基金会,目前已开启孵化提案。社区还推出了系列周边礼品,欢迎加入钉钉群109135004351参与交流!

976 3
来自: 实时计算 Flink  版块
|
9月前
|
数据采集 文字识别 JavaScript
|

视觉分析开发范例:Puppeteer截图+计算机视觉动态定位

本文介绍了在现代互联网中,传统DOM爬虫难以应对动态加载和视觉驱动内容的问题,并提出了“视觉爬虫”的解决方案。通过Puppeteer实现浏览器自动化,结合计算机视觉技术完成页面元素的动态定位与信息提取。文章对比了DOM爬虫与视觉爬虫的技术特点,展示了基于Node.js的核心代码示例,用于小红书平台的视频搜索、播放及截图处理。最后指出,视觉爬虫能够突破传统限制,在强JS渲染和动态内容场景中更具优势,为数据采集提供了新方向。

403 1
|
9月前
|
存储 数据采集 安全
|

数据治理:别让你的数据成为“垃圾堆”!

数据治理:别让你的数据成为“垃圾堆”!

224 3
|
9月前
|
人工智能 移动开发 搜索推荐
|

增强现实让广告“活”起来——AR 赋能营销的新玩法

增强现实让广告“活”起来——AR 赋能营销的新玩法

553 25
|
9月前
|
存储 人工智能 API
|

RAG-MCP:基于检索增强生成的大模型工具选择优化框架

RAG-MCP是一种通过检索增强生成技术解决大型语言模型(LLM)工具选择困境的创新框架。它针对提示词膨胀和决策效率低的问题,利用语义检索动态筛选相关工具,显著减少提示词规模并提升准确率。本文深入解析其技术原理,包括外部工具索引构建、查询时检索处理等核心步骤,以及实验评估结果。RAG-MCP不仅优化了LLM的工具使用能力,还为AI代理的发展提供了重要支持,未来可在极端规模检索、多工具工作流等方面进一步探索。

697 16
|
9月前
|
人工智能 自然语言处理 数据挖掘
|

云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用

PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。

638 4
来自: 人工智能平台PAI  版块
|
9月前
|
SQL 关系型数据库 MySQL
|

MySQL下载安装全攻略!小白也能轻松上手,从此数据库不再难搞!

这是一份详细的MySQL安装与配置教程,适合初学者快速上手。内容涵盖从下载到安装的每一步操作,包括选择版本、设置路径、配置端口及密码等。同时提供基础操作指南,如数据库管理、数据表增删改查、用户权限设置等。还介绍了备份恢复、图形化工具使用和性能优化技巧,帮助用户全面掌握MySQL的使用方法。附带常见问题解决方法,保姆级教学让你无忧入门!

1198 21
|
9月前
|
数据采集 编解码 JavaScript
|

视觉爬虫开发:通过Puppeteer截图+CV定位动态元素坐标

本文是关于“视觉爬虫开发”的速查指南,重点介绍如何使用 Puppeteer 和 OpenCV 在小红书上实现视频截图与评论采集。内容包括代理 IP 接入、Cookie 与 User-Agent 设置、动态元素坐标获取及评论采集的代码示例。提供功能点列表、常用代码片段、配置建议和快速测试方式,帮助开发者快速掌握核心技术和实践方法。通过 Puppeteer 截图结合 OpenCV 模板匹配,精准定位动态元素坐标,提升爬虫稳定性与效率。

309 2
|
9月前
|
自动驾驶 物联网 5G
|

5G赛道,谁主沉浮?——技术、市场与背后的博弈

5G赛道,谁主沉浮?——技术、市场与背后的博弈

228 12
|
9月前
|
传感器 监控 大数据
|

别让“数据”白跑!大数据也能拯救地球

别让“数据”白跑!大数据也能拯救地球

216 15
|
9月前
|
传感器 人工智能 边缘计算
|

“种田也能上5G?”——带你看懂5G+智慧农业的真相与技术细节

“种田也能上5G?”——带你看懂5G+智慧农业的真相与技术细节

361 19
|
10月前
|
大数据
|

“你朋友圈的真面目,大数据都知道!”——用社交网络分析看透人情世故

“你朋友圈的真面目,大数据都知道!”——用社交网络分析看透人情世故

401 16
|
10月前
|
数据采集 机器学习/深度学习 算法
|

别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?

别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?

702 4
|
10月前
|
分布式计算 运维 搜索推荐
|

立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务

蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。

541 57
|
10月前
|
存储 SQL 运维
|

中国联通网络资源湖仓一体应用实践

本文分享了中国联通技术专家李晓昱在Flink Forward Asia 2024上的演讲,介绍如何借助Flink+Paimon湖仓一体架构解决传统数仓处理百亿级数据的瓶颈。内容涵盖网络资源中心概况、现有挑战、新架构设计及实施效果。新方案实现了数据一致性100%,同步延迟从3小时降至3分钟,存储成本降低50%,为通信行业提供了高效的数据管理范例。未来将深化流式数仓与智能运维融合,推动数字化升级。

511 0
来自: 实时计算 Flink  版块
|
10月前
|
大数据 数据处理 数据安全/隐私保护
|

数据治理,你真的合规了吗?——从代码到实践的深度解析

数据治理,你真的合规了吗?——从代码到实践的深度解析

324 8
|
10月前
|
人工智能 安全 5G
|

5G网络安全全解析——新机遇与潜在风险

5G网络安全全解析——新机遇与潜在风险

422 4
|
10月前
|
存储 自然语言处理 PyTorch
|

从零开始用Pytorch实现LLaMA 4的混合专家(MoE)模型

近期发布的LLaMA 4模型引入混合专家(MoE)架构,以提升效率与性能。尽管社区对其实际表现存在讨论,但MoE作为重要设计范式再次受到关注。本文通过Pytorch从零实现简化版LLaMA 4 MoE模型,涵盖数据准备、分词、模型构建(含词元嵌入、RoPE、RMSNorm、多头注意力及MoE层)到训练与文本生成全流程。关键点包括MoE层实现(路由器、专家与共享专家)、RoPE处理位置信息及RMSNorm归一化。虽规模小于实际LLaMA 4,但清晰展示MoE核心机制:动态路由与稀疏激活专家,在控制计算成本的同时提升性能。完整代码见链接,基于FareedKhan-dev的Github代码修改而成。

461 9
|
10月前
|
数据采集 人工智能 JSON
|

Crawl4AI:为大语言模型打造的开源网页数据采集工具

随着大语言模型(LLMs)的快速发展,高质量数据成为智能系统的关键基础。**Crawl4AI**是一款专为LLMs设计的开源网页爬取工具,可高效提取并结构化处理网页数据,突破传统API限制,支持JSON、HTML或Markdown等格式输出。

841 3
|
10月前
|
存储 消息中间件 Kafka
|

中原银行实时场景企业级解决方案

中原银行实时数据开发平台负责人杜威科在Flink Forward Asia 2024分享了银行业实时数据处理的经验。内容涵盖需求分析、解决方案、场景案例与现状展望。银行业需构建全链路、全场景的企业级实时数据平台,解决动账场景下的复杂计算需求。通过Flink+Paimon方案,实现高效更新、低成本存储与便捷查询。案例包括账户表实时更新入湖、交易协同优化、实时图应用、海量数据存储及业务人员易用性建设。未来目标是实现上千张表实时入湖,缩短延迟并探索AI结合的新场景。

395 2
来自: 实时计算 Flink  版块
|
10月前
|

DataWorks X MCP:数据开发治理Agent发布!

DataWorks X MCP产品演示:使用DataWorks MCP Server和Hologres MCP Server来自动化完成数据集成实时数据同步任务开发和Hologres数据分析。

526 0
|
10月前
|
SQL API Apache
|

Dinky 和 Flink CDC 在实时整库同步的探索之路

本次分享围绕 Dinky 的整库同步技术演进,从传统数据集成方案的痛点出发,探讨了 Flink CDC Yaml 作业的探索历程。内容分为三个部分:起源、探索、未来。在起源部分,分析了传统数据集成方案中全量与增量割裂、时效性低等问题,引出 Flink CDC 的优势;探索部分详细对比了 Dinky CDC Source 和 Flink CDC Pipeline 的架构与能力,深入讲解了 YAML 作业的细节,如模式演变、数据转换等;未来部分则展望了 Dinky 对 Flink CDC 的支持与优化方向,包括 Pipeline 转换功能、Transform 扩展及实时湖仓治理等。

1200 12
来自: 实时计算 Flink  版块
|
11月前
|
供应链 监控 搜索推荐
|

反向海淘代购独立站:功能解析与搭建指南

“反向海淘”指海外消费者购买中国商品的现象,体现了中国制造的创新与强大。国产商品凭借高性价比和丰富功能,在全球市场备受欢迎。跨境电商平台的兴起为“反向海淘”提供了桥梁,而独立站因其自主权和品牌溢价能力逐渐成为趋势。一个成功的反向海淘代购独立站需具备多语言支持、多币种支付、物流跟踪、商品展示、购物车管理等功能,并通过SEO优化、社交媒体营销等手段提升运营效果。这不仅助力中国企业开拓海外市场,还推动了品牌全球化进程。

333 19
|
11月前
|
传感器 人工智能 算法
|

智能眼镜,从科技幻想到现实生活的触手可及

智能眼镜,从科技幻想到现实生活的触手可及

454 22
|
11月前
|
数据采集 运维 监控
|

数据分析异步进阶:aiohttp与Asyncio性能提升

本项目基于aiohttp与Asyncio开发异步爬虫,目标采集今日头条新闻数据。初期因网站限制机制导致请求异常,通过设置代理IP、Cookie和UserAgent解决拦截问题,并优化异步任务调度与异常捕获提升性能。方案包括动态代理池、统一请求头配置及日志监控,确保高并发下的稳定性。示例代码展示代理IP、请求头设置与错误处理方法,为类似项目提供参考。

327 1
|
11月前
|
机器学习/深度学习 存储 算法
|

强化学习:蒙特卡罗求解最优状态价值函数——手把手教你入门强化学习(五)

本文介绍了强化学习中的蒙特卡罗算法,包括其基本概念、两种估值方法(首次访问蒙特卡罗与每次访问蒙特卡罗)及增量平均优化方式。蒙特卡罗法是一种基于完整回合采样的无模型学习方法,通过统计经验回报的平均值估计状态或动作价值函数。文章详细讲解了算法流程,并指出其初期方差较大、估值不稳定等缺点。最后对比动态规划,说明了蒙特卡罗法在强化学习中的应用价值。适合初学者理解蒙特卡罗算法的核心思想与实现步骤。

669 4
来自: 人工智能平台PAI  版块
|
11月前
|
人工智能 Docker 容器
|

AI思维导图工具跨领域学习的好帮手

AI思维导图工具跨领域学习的好帮手

571 18
|
11月前
|
开发工具 虚拟化 git
|

自学软硬件第755 docker容器虚拟化技术youtube视频下载工具

docker容器虚拟化技术有什么用?怎么使用?TubeTube 项目使用youtube视频下载工具

551 13
|
11月前
|
存储 SQL 监控
|

Hologres Dynamic Table快速入门

本文由Hologres PD赵红梅分享,主题为Dynamic Table快速入门。内容分为三部分:一是介绍Dynamic Table,包括其在实时数仓中的应用场景及技术实现;二是讲解Dynamic Table的使用方法与实操,涵盖全量、增量及混合刷新模式的创建与操作;三是提供使用建议,如选择刷新模式、监控延迟、分区表应用及计算资源分配等。此外,还对比了Dynamic Table与其他产品(如DIS异步物化视图和Snowflake Dynamic Tables)的功能差异,并推荐下载Hologres 3.0实践手册以深入了解一体化实时湖仓平台的最新功能。

773 23
来自: 实时数仓 Hologres  版块
|
11月前
|
人工智能 搜索推荐 数据处理
|

阿里云 OpenSearch 智能问答版 ➕ DeepSeek R1——打造 B站 UP 主题爆款选题器

阿里云OpenSearch智能问答版+DeepSeek R1,支持多模态数据和联网搜索。以B站up主题爆款选题器为例,打造你的个人专属AI助手,开启你的智能搜索之旅,让AI赋能你的开发! (转载自哔哩哔哩,已获得原作者@老麦的工具库 授权。原视频地址:https://www.bilibili.com/video/BV1M8QmYJEzm/)

506 2
来自: 智能搜索推荐  版块
|
11月前
|
算法 安全 数据安全/隐私保护
|

根据空域图信息构造飞机航线图以及飞行轨迹模拟matlab仿真

本程序基于MATLAB2022A实现空域图信息的飞机航线图构建与飞行轨迹模拟。空域图是航空领域的重要工具,包含航线、导航点、飞行高度层等信息。程序通过航路网络建模(节点为机场/导航点,边为航线段)构建航线图,并依据飞行规则规划航线。飞行轨迹模拟包括确定起飞点与目的地、设置航路点及飞行高度层,确保飞行安全。完整程序运行结果无水印,适用于航空飞行计划制定与研究。

350 16
|
11月前
|
数据采集 Web App开发 JavaScript
|

Jsoup 爬虫:轻松搞定动态加载网页内容

Jsoup 爬虫:轻松搞定动态加载网页内容

611 0
|
11月前
|
算法 数据安全/隐私保护
|

基于GARCH-Copula-CVaR模型的金融系统性风险溢出效应matlab模拟仿真

本程序基于GARCH-Copula-CVaR模型,使用MATLAB2022A仿真金融系统性风险溢出效应。核心功能包括计算违约点、资产价值波动率、信用溢价及其直方图等指标。GARCH模型用于描述资产收益波动性,Copula捕捉依赖结构,CVaR度量极端风险。完整代码无水印输出。 具体步骤:首先通过GARCH模型估计单个资产的波动性,再利用Copula方法构建多资产联合分布,最后应用CVaR评估系统性风险。程序展示了详细的运行结果和图表分析,适用于金融市场风险量化研究。

413 6
|
11月前
|
JSON 搜索推荐 API
|

淘宝商品详情优惠券API接口全攻略

淘宝商品详情优惠券API接口助力电商精准营销。通过商品ID,开发者可精准检索与特定商品相关的优惠券信息,包括面额、使用门槛、领取条件、有效期等详细数据,并实时监测优惠券状态。此接口支持个性化筛选参数,如优惠券面额范围和类型,返回JSON格式的优惠券列表及状态信息,满足数据整合、营销活动策划等需求,提升用户体验和运营效率。示例代码展示了Python调用方法,帮助快速集成。 供稿者:Taobaoapi2014

465 3

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69094
内容
128
活动
439688
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务