大数据与机器学习-博文-第32页-阿里云开发者社区

wiker24

|

数据采集存储安全

|

博文

【大数据】数据治理浅析

数据治理是数字化时代企业管理和利用数据的核心手段，确保数据的准确性、一致性和安全性。从基本概念、应用场景、必要性、需求分析等方面深入探讨其功能架构、技术架构、应用架构和数据架构，涵盖金融、医疗、应急管理等多个领域典型案例。随着政策法规推动、技术创新助力及市场需求增长，数据治理正朝着自动化、智能化方向发展，市场规模不断扩大，但人才短缺问题仍需解决。

1894 11 12

申某某

|

数据处理数据安全/隐私保护流计算

|

博文

Flink 三种时间窗口、窗口处理函数使用及案例

Flink 是处理无界数据流的强大工具，提供了丰富的窗口机制。本文介绍了三种时间窗口（滚动窗口、滑动窗口和会话窗口）及其使用方法，包括时间窗口的概念、窗口处理函数的使用和实际案例。通过这些机制，可以灵活地对数据流进行分析和计算，满足不同的业务需求。

1910 27 28

来自：实时计算 Flink 版块

软件算法开发

|

算法决策智能

|

博文

基于prim算法求出网络最小生成树实现网络社团划分和规划

该程序使用MATLAB 2022a版实现路线规划，通过排序节点权值并运用Prim算法生成最小生成树完成网络规划。程序基于TSP问题，采用遗传算法与粒子群优化算法进行路径优化。遗传算法通过编码、选择、交叉及变异操作迭代寻优；粒子群优化算法则通过模拟鸟群觅食行为，更新粒子速度和位置以寻找最优解。

349 0 0

gudanhero2018

|

数据采集前端开发开发者

|

博文

Selenium中如何实现翻页功能

在使用Python的Selenium库进行网页爬虫开发时，翻页操作是常见需求。本文详细介绍如何通过Selenium实现翻页，包括定位翻页控件、执行翻页动作以及等待页面加载等关键步骤，并提供了基于“下一页”按钮和输入页码两种方式的具体示例代码。此外，还特别提醒开发者注意页面加载完全、动态内容加载及反爬机制等问题，确保爬虫稳定高效运行。

1705 3 3

来自：大数据运维SREWorks 版块

Java开发者

|

IDE Java 编译器

|

博文

Java“找不到符号” 错误怎么查找解决

“找不到符号”是Java编程中常见的编译错误，通常表明代码试图访问未声明或不可见的符号（如类、方法或变量）。解决此问题需检查拼写、导入包是否正确及作用域是否合适。确保使用正确的类路径和库，可有效避免此类错误。若问题依旧，查阅官方文档或使用调试工具定位错误亦为良策。

7776 10 10

郑小健

|

安全网络安全 Android开发

|

博文

深度解析：利用Universal Links与Android App Links实现无缝网页至应用跳转的安全考量

【10月更文挑战第2天】在移动互联网时代，用户经常需要从网页无缝跳转到移动应用中。这种跳转不仅需要提供流畅的用户体验，还要确保安全性。本文将深入探讨如何利用Universal Links（仅限于iOS）和Android App Links技术实现这一目标，并分析其安全性。

2599 0 0

子午s

|

机器学习/深度学习算法 TensorFlow

|

博文

交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面

交通标志识别系统。本系统使用Python作为主要编程语言，在交通标志图像识别功能实现中，基于TensorFlow搭建卷积神经网络算法模型，通过对收集到的58种常见的交通标志图像作为数据集，进行迭代训练最后得到一个识别精度较高的模型文件，然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面，实现用户上传一张交通标志图片，识别其名称。

900 7 7

郑小健

|

机器学习/深度学习 PyTorch 算法框架/工具

|

博文

数据平衡与采样：使用 DataLoader 解决类别不平衡问题

【8月更文第29天】在机器学习项目中，类别不平衡问题非常常见，特别是在二分类或多分类任务中。当数据集中某个类别的样本远少于其他类别时，模型可能会偏向于预测样本数较多的类别，导致少数类别的预测性能较差。为了解决这个问题，可以采用不同的策略来平衡数据集，包括过采样（oversampling）、欠采样（undersampling）以及合成样本生成等方法。本文将介绍如何利用 PyTorch 的 `DataLoader` 来处理类别不平衡问题，并给出具体的代码示例。

3335 2 2

hannahc001

|

数据采集人工智能监控

|

博文

赌你一定想要！OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具，支持团队协作，让标注工作变得简单高效。它不仅涵盖丰富的任务类型，如回答采集、偏好收集和内容评估等，还支持多模态数据标注，包括图像、视频和音频。Label-LLM具备预标注载入功能，能大幅提升工作效率，并提供全方位的任务管理与可视化分析，确保标注质量。快来体验这款强大的标注平台吧！[部署文档](https://github.com/opendatalab/LabelLLM)

3776 0 0

mwlwop5lh2fhq

|

机器学习/深度学习人工智能自动驾驶

|

博文

AI的奇思妙想之旅：探索未来的无限可能

人工智能（AI）正迅速变革世界，从自动驾驶到智能助手，乃至艺术创作领域。AI不仅能生成多样风格的艺术品，还能创造新艺术形式。例如，利用Python和深度学习库可将普通照片转化为梵高风格的画作。此外，AI还助力建筑设计，通过生成对抗网络（GAN）快速生成建筑草图。在医疗领域，AI支持个性化医疗决策，如通过随机森林算法预测心脏病风险。AI不仅象征技术飞跃，更预示着未来生活的无限可能。

560 2 2

nsu_xxy

|

机器学习/深度学习人工智能算法

|

博文

解决方案评测：通义万相 AI 绘画创作

通义万相 AI 绘画创作工具在功能、使用体验等方面表现出色，为用户提供了一种便捷、高效的绘画创作方式。虽然存在一些不足之处，但随着技术的不断发展和优化，相信其性能和表现会不断提升。对于艺术家、设计师、创意工作者以及普通爱好者来说，通义万相都是一款值得尝试和探索的 AI 绘画工具。

1564 4 5

Deephub

|

机器学习/深度学习存储算法

|

博文

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

在本文中，我们将探讨一种方法来解决这个问题，称为Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘，使神经网络在获得新技能的同时保留先前学习任务的知识。

1874 1 1

阿里云大数据Al技术

|

人工智能自然语言处理算法

|

博文

阿里云PAI大模型评测最佳实践

在大模型时代，模型评测是衡量性能、精选和优化模型的关键环节，对加快AI创新和实践至关重要。PAI大模型评测平台支持多样化的评测场景，如不同基础模型、微调版本和量化版本的对比分析。本文为您介绍针对于不同用户群体及对应数据集类型，如何实现更全面准确且具有针对性的模型评测，从而在AI领域可以更好地取得成就。

43242 15 19

来自：人工智能平台PAI 版块

郑小健

|

自然语言处理数据挖掘数据安全/隐私保护

|

博文

Magento：电子商务平台的卓越之选

Magento是2008年发布的开源电子商务平台，以其强大功能、灵活性和扩展性深受商家青睐。它支持多语言、货币和站点管理，适应全球化运营。主要特点包括：开源免费、功能丰富、扩展性强、性能优秀及安全性高。Magento的优势在于优秀的用户体验、SEO友好、内置营销工具、数据分析能力和社区支持。许多知名品牌利用Magento拓展全球市场，中小企业也通过它实现业务增长。作为电商解决方案，Magento将继续影响未来的电子商务格局。

653 4 4

小白学大数据

|

数据采集前端开发 JavaScript

|

博文

Symfony Panther在网络数据采集中的应用

476 1 1

来自：数据可视化DataV 版块

Deephub

|

监控数据处理索引

|

博文

整合LlamaIndex与LangChain构建高级的查询处理系统

该文阐述了如何结合LlamaIndex和LangChain构建一个扩展性和定制性强的代理RAG应用。LlamaIndex擅长智能搜索，LangChain提供跨平台兼容性。代理RAG允许大型语言模型访问多个查询引擎，增强决策能力和多样化回答。文章通过示例代码展示了如何设置LLM、嵌入模型、LlamaIndex索引及查询引擎，并将它们转换为LangChain兼容的工具，实现高效、精准的问题解答。通过多代理协作，系统能处理复杂查询，提高答案质量和相关性。

1378 0 0

Deephub

|

机器学习/深度学习算法 Unix

|

博文

循环编码:时间序列中周期性特征的一种常用编码方式

循环编码是深度学习中处理周期性数据的一种技术，常用于时间序列预测。它将周期性特征（如小时、日、月）转换为网络可理解的形式，帮助模型识别周期性变化。传统的one-hot编码将时间特征转换为分类特征，而循环编码利用正弦和余弦转换，保持时间顺序信息。通过将时间戳转换为弧度并应用sin和cos，每个原始特征只映射到两个新特征，减少了特征数量。这种方法在神经网络中有效，但在树模型中可能需谨慎使用。

2224 5 5

奔跑的数据

|

数据采集 JavaScript 前端开发

|

博文

使用Go和JavaScript爬取股吧动态信息的完整指南

本文介绍了如何使用Go和JavaScript构建网络爬虫，从股吧网站抓取实时股市信息。通过设置代理服务器以应对反爬策略，利用`got`库执行JavaScript提取动态数据，如用户讨论和市场分析。示例代码展示了爬虫的实现过程，包括浏览器实例创建、代理配置、JavaScript执行及数据打印。此方法有助于投资者及时获取市场资讯，为决策提供支持。

900 4 4

Byyyi

|

SQL 分布式计算资源调度

|

博文

常用大数据组件的Web端口号总结

这是关于常用大数据组件Web端口号的总结。通过虚拟机名+端口号可访问各组件服务：Hadoop HDFS的9870，YARN的ResourceManager的8088和JobHistoryServer的19888，Zeppelin的8000，HBase的10610，Hive的10002。ZooKeeper的端口包括客户端连接的2181，服务器间通信的2888以及选举通信的3888。

925 2 2

机器智能社区

|

人工智能自然语言处理大数据

|

博文

大模型+知识图谱双驱架构：新一代《知识语义框架SPG》白皮书

白皮书展望了SPG与LLM双向驱动的技术架构。通过基于SPG构建统一的图谱技术框架，可以屏蔽复杂的技术细节以支持新业务的快速部署，真正实现知识图谱技术的框架化、平民化、普惠化。

3832 2 2

Deephub

|

存储自然语言处理算法

|

博文

Tokenization 指南：字节对编码，WordPiece等方法Python代码详解

在2022年11月OpenAI的ChatGPT发布之后，大型语言模型(llm)变得非常受欢迎。从那时起，这些语言模型的使用得到了爆炸式的发展，这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。

703 3 3

xijie.xu

|

SQL 运维搜索推荐

|

博文

《揭秘，阿里开源自研搜索引擎Havenask的在线检索服务》

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎，深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的在线检索服务，它具备高可用、高时效、低成本的优势，帮助企业和开发者量身定做适合业务发展的智能搜索服务。

85465 138 144

来自：智能搜索推荐版块

tommy_tl

|

机器学习/深度学习存储分布式计算

|

博文

在阿里云上训练机器学习模型：逻辑回归和GBDT实践指南

机器学习在当今数据驱动的世界中扮演着关键角色，为业务决策提供了强大的支持。本文将详细介绍如何在阿里云上使用相关产品，训练逻辑回归（Logistic Regression）和梯度提升决策树（Gradient Boosted Decision Trees，GBDT）模型。我们将使用MaxCompute、PAI（机器学习平台）、DataWorks等阿里云产品，通过代码示例和详细说明，带你一步步完成整个流程。

934 0 0

Deephub

|

存储缓存异构计算

|

博文

大语言模型量化方法对比：GPTQ、GGUF、AWQ

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。

6731 0 0

楚国玉

|

JSON JavaScript 数据可视化

|

博文

可视化JSON数据工具推荐：JSON Viewer Pro和JSONGrid

本文介绍了两款可视化JSON数据的工具：JSON Viewer Pro和JSONGrid。它们都提供了丰富的功能和用户友好的界面，使用户能够更轻松地理解和处理JSON格式的数据。这些功能包括查看和分析、编辑和修改、格式化和美化、折叠和展开、高亮和搜索、排序和过滤、导入和导出等。这些工具对于开发人员、数据分析师和任何需要处理JSON的人都非常实用。

5169 0 0

小窗幽记机器学习

|

机器学习/深度学习算法数据挖掘

|

博文

机器学习系列 | 02：聚类算法指标整理

本文主要整理记录聚类算法指标，以供参考

1740 0 0

北村南

|

索引

|

博文

【Pytorch--代码技巧】各种论文代码常见技巧

博主在阅读论文原代码的时候常常看见一些没有见过的代码技巧，特此将这些内容进行汇总

726 0 0

taro_秋刀鱼

|

机器学习/深度学习 API Python

|

博文

阿里云DSW实例wandb使用示例

wandb是一个免费的，用于记录实验数据的工具。wandb相比于tensorboard之类的工具，有更加丰富的用户管理，团队管理功能，更加方便团队协作。本文主要演示如何在阿里云DSW实例中使用wandb。

2472 1 2

来自：人工智能平台PAI 版块

JackJiang2026

|

存储编解码自然语言处理

|

博文

揭晓三位一体的在线服务体系AI·OS，及其技术架构演进，技术概况，云原生产品与实践。

9219 0 1

来自：智能搜索推荐版块

隐林

|

分布式计算 MaxCompute BI

|

博文

【转载】时隔一年多，我又用起了 Superset

去年 6 月份在流利说提离职后，leader 问我为什么要走。我说，流利说有很健全的数据处理基础设施，但这不是所有的公司都会有的条件，所以我想看看在一个基建不全的创业公司我是否也可以像现在一样做的好。

18313 82 83

来自：大数据计算 MaxCompute 版块

阿里云E-MapReduce团队

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

11865 1 5

来自：开源大数据平台 E-MapReduce 版块

李寻弥-27988

|

供应链数据可视化前端开发

|

博文

你刚吃的兰州牛肉面，背后就藏着大数据

兰州拉面都拥抱大数据了，此刻我只想问，黄焖鸡、麻辣烫和沙县小吃，你们还在等什么？

44254 58 72

来自：数据可视化DataV 版块

奔跑的数据

|

16天前

|

数据采集网络协议数据安全/隐私保护

|

博文

本文探讨如何用Rust重构分布式爬虫Worker节点，解决高并发下的内存泄漏、CPU瓶颈与代理调度难题；结合Tokio、Reqwest与企业级隧道代理，实现千万级实时抓取的稳定、安全与高效。

180 2 2

pai_rec_coder

|

1月前

|

机器学习/深度学习搜索推荐数据处理

|

博文

PAI-Rec推荐开发平台：企业级智能推荐解决方案，驱动业务全域增长

PAI-Rec是阿里云一站式推荐系统平台，集成多路召回、多目标精排（如DBMTL）、GPU加速推理与灵活迭代能力，已助力电商、直播、音视频等多行业提升点击率、转化率与ROI，实现高效、低成本、可自主演进的智能推荐。

350 16 16

来自：智能搜索推荐版块

数据可视化工程

|

2月前

|

设计模式人工智能边缘计算

|

博文

破局协同设计困局：从“各自为战”到“同频共振”，解锁企业创新新动能！

本文剖析协同设计面临的“三重枷锁”：信息孤岛导致数据割裂、供需错配引发内耗、流程混乱造成低效。结合建筑、制造、创意领域实践案例，提出破局关键——构建统一协同平台、优化闭环流程、融合BIM/AI等智能技术，推动产设研一体化，释放创新效能。（239字）

216 3 3

来自：数据可视化DataV 版块

winx_19970108018

|

2月前

|

XML JSON 数据挖掘

|

博文

京东商品详情数据一键获取，item_get API接口讲解

京东item_get是获取单商品详情的核心API，支持一键拉取标题、价格、SKU、库存、详情HTML等结构化数据，适用于反向海淘、代购、ERP同步及比价分析等场景，分基础版与完整版，需认证授权后调用。（239字）

375 2 2

AI小怪兽

|

2月前

|

机器学习/深度学习人工智能算法

|

博文

SEP-YOLO：当频域分析遇上YOLO，透明物体实例分割迎来新突破，ISCAS 2026

本文提出SEP-YOLO框架，首创频域细节增强模块（可学习复数权重强化高频边界）、多尺度空间细化流（内容感知对齐+门控细化），并为Trans10K提供首个高质量实例标注。在Trans10K/GVD上mAP50超SOTA 3%+，兼顾精度与实时性。

321 5 6

Java开发者

|

2月前

|

Java 调度开发者

|

博文

Java AQS：JUC 并发体系的底层同步框架基石

AQS（AbstractQueuedSynchronizer）是Java并发包（JUC）的底层核心，以volatile state + CLH双向队列统一实现同步控制。支持独占（如ReentrantLock）与共享（如Semaphore、CountDownLatch）两种模式，通过模板方法封装排队、阻塞/唤醒等通用逻辑，是理解与定制高性能同步组件的关键基石。（239字）

466 7 7

大模型玩家七七

|

3月前

|

安全物联网测试技术

|

博文

为什么 loss 看起来很好，模型却更危险了

本文揭示大模型微调中一个关键陷阱：loss持续下降≠模型更安全。相反，当loss“好看”时，模型可能因过度拟合训练数据中的偏差、模板或错误表达而变得更危险——回答更笃定、拒答率下降、边界问题越界更隐蔽。根本原因在于：loss衡量的是“复现训练文本”的能力，而非“行为是否可靠/合规”。工程上应转向以事实正确率、拒答率、自信度、越界率等为核心的行为评估体系，将loss仅作为训练健康度的辅助信号。

335 1 1

狸奴算君

|

4月前

|

数据采集人工智能监控

|

博文

AI也能“专业进修”？不用写代码，教你用微调打造行业专属模型

本文深入浅出解析AI微调（Fine-tuning）技术，聚焦如何让通用大模型成长为行业专才。详解LoRA等高效微调原理，对比RAG优劣，提供数据准备、模型选择、在线训练到效果评估的四步实战指南，助力零基础用户低成本打造专属专业AI。（239字）

310 10 10

大模型玩家七七

|

4月前

|

安全算法 C++

|

博文

PPO 真正的应用场景，和你想的可能不一样

PPO并非“万能增强器”，而是精准解决模型“行为偏好错位”的工具：当模型“会但总选错”（如安全拒答生硬、风格不稳、高风险下过度自信）时，PPO通过人类偏好反馈重塑其选择倾向；若问题本质是“不会”，则PPO无效甚至有害。用对场景，事半功倍。

387 1 1

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

【大数据】数据治理浅析

Flink 三种时间窗口、窗口处理函数使用及案例

基于prim算法求出网络最小生成树实现网络社团划分和规划

Selenium中如何实现翻页功能

Java“找不到符号” 错误怎么查找解决

深度解析：利用Universal Links与Android App Links实现无缝网页至应用跳转的安全考量

交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面

数据平衡与采样：使用 DataLoader 解决类别不平衡问题

赌你一定想要！OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

AI的奇思妙想之旅：探索未来的无限可能

解决方案评测：通义万相 AI 绘画创作

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

阿里云PAI大模型评测最佳实践

Magento：电子商务平台的卓越之选

Symfony Panther在网络数据采集中的应用

整合LlamaIndex与LangChain构建高级的查询处理系统

循环编码:时间序列中周期性特征的一种常用编码方式

使用Go和JavaScript爬取股吧动态信息的完整指南

常用大数据组件的Web端口号总结

大模型+知识图谱双驱架构：新一代《知识语义框架SPG》白皮书

Tokenization 指南：字节对编码，WordPiece等方法Python代码详解

《揭秘，阿里开源自研搜索引擎Havenask的在线检索服务》

在阿里云上训练机器学习模型：逻辑回归和GBDT实践指南

大语言模型量化方法对比：GPTQ、GGUF、AWQ

可视化JSON数据工具推荐：JSON Viewer Pro和JSONGrid

机器学习系列 | 02：聚类算法指标整理

【Pytorch--代码技巧】各种论文代码常见技巧

阿里云DSW实例wandb使用示例

史诗级计算机字符编码知识分享，万字长文，一文即懂！

阿里云云原生一体化数仓 — 离线实时一体化新能力解读

离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

数据中台的智能进化—阿里巴巴十二年数据平台发展历程

实时数仓入门训练营：Hologres性能调优实践

首次揭秘云原生Hologres存储引擎

淘宝千人千面背后的秘密：搜索推荐广告三位一体的在线服务体系AI·OS

【转载】时隔一年多，我又用起了 Superset

漫谈分布式计算框架

你刚吃的兰州牛肉面，背后就藏着大数据

从HTTP头部彻底搞懂高匿、普匿与透明代理

反向海淘风口下，taocarts 跨境独立站系统如何重构代购、集运与代采全链路？

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

架构视角下的千万级分布式爬虫：Rust + Reqwest 与代理网关的全局设计

PAI-Rec推荐开发平台：企业级智能推荐解决方案，驱动业务全域增长

破局协同设计困局：从“各自为战”到“同频共振”，解锁企业创新新动能！

京东商品详情数据一键获取，item_get API接口讲解

SEP-YOLO：当频域分析遇上YOLO，透明物体实例分割迎来新突破，ISCAS 2026

Java AQS：JUC 并发体系的底层同步框架基石

为什么 loss 看起来很好，模型却更危险了

AI也能“专业进修”？不用写代码，教你用微调打造行业专属模型

PPO 真正的应用场景，和你想的可能不一样

大数据与机器学习

活跃用户

相关产品