|
2月前
|
SQL 安全 BI
|

Dataphin数据服务API行级权限管控解决方案 ——构建企业级数据安全的精细化管控体系

Dataphin数据服务推出行级权限管控功能,解决传统权限管理中用户权限分散、管控复杂等问题。支持直连与代理双模式访问,实现API与SQL权限统一管理,满足金融、零售、医疗等行业对数据访问的精细化控制需求。通过动态权限决策引擎和自动化继承体系,确保数据安全且提升应用开发效率。

240 0
|
3月前
|
人工智能 程序员 PHP
|

Cursor AI来袭!编程从此不再繁琐,一键生成代码,效率提升千倍

AI攻破最后防线!连架构设计都能自动生成,中级程序员集体破防

488 10
|
4月前
|
存储 SQL 分布式计算
|

别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南

别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南

194 19
|
4月前
|
存储 监控 算法
|

Java程序员必学:JVM架构完全解读

Java 虚拟机(JVM)是 Java 编程的核心,深入理解其架构对开发者意义重大。本文详细解读 JVM 架构,涵盖类加载器子系统、运行时数据区等核心组件,剖析类加载机制,包括加载阶段、双亲委派模型等内容。阐述内存管理原理,介绍垃圾回收算法与常见回收器,并结合案例讲解调优策略。还分享 JVM 性能瓶颈识别与调优方法,分析 Java 语言特性对性能的影响,给出数据结构选择、I/O 操作及并发同步处理的优化技巧,同时探讨 JVM 安全模型与错误处理机制,助力开发者提升编程能力与程序性能。

451 18
|
5月前
|
数据采集 JavaScript 前端开发
|

浏览器自动化检测对抗:修改navigator.webdriver属性的底层实现

本文介绍了如何构建一个反检测爬虫以爬取Amazon商品信息。通过使用`undetected-chromedriver`规避自动化检测,修改`navigator.webdriver`属性隐藏痕迹,并结合代理、Cookie和User-Agent技术,实现稳定的数据采集。代码包含浏览器配置、无痕设置、关键词搜索及数据提取等功能,同时提供常见问题解决方法,助你高效应对反爬策略。

409 1
|
5月前
|
自然语言处理 运维 DataWorks
|

智能体Agent解析:用自然语言重构数据开发工作方式

大数据开发治理平台DataWorks基于MCP协议,正式发布了DataWorks Agent,内置DataWorks MCP Server V1.0。该功能支持在DataWorks Data Studio中通过自然语言交互完成数据开发任务,实现了需求即代码的开发体验。本文将详细介绍如何通过配置使用DataWorks MCP Server进行任务的开发和运维管理。

424 3
|
6月前
|
人工智能 Linux iOS开发
|

Linux下搭建本地deepseek(附文档下载)

本文介绍了在Linux上搭建本地DeepSeek的步骤。主要涉及安装ollama、下载deepseek模型(1.5b参数版本)和配置ChatboxAI客户端。通过命令行安装ollama后,使用`ollama run deepseek-r1:1.5b`下载模型,并配置环境变量以确保服务正常运行。最后,通过ChatboxAI与模型进行交互。整个过程适合初学者,服务器配置为4核CPU和8GB内存,无GPU,响应速度稍有延迟但可接受。相关资源链接已提供。

795 2
|
7月前
|
机器学习/深度学习 数据采集 分布式计算
|

大数据分析中的机器学习基础:从原理到实践

大数据分析中的机器学习基础:从原理到实践

319 3
|
7月前
|
JSON 人工智能 API
|

云上玩转DeepSeek系列之四:DeepSeek R1 蒸馏和微调训练最佳实践

本文将为您带来“DeepSeek R1+Qwen 大模型蒸馏和微调训练”最佳实践。阿里云 PAI 平台提供了围绕 DeepSeek 模型的最佳实践,涵盖快速部署、应用搭建、蒸馏和微调等环节,帮助开发者高效利用计算资源,使用 Model Gallery 功能,轻松完成部署与微调任务。

822 8
来自: 人工智能平台PAI  版块
|
7月前
|
Ubuntu API 网络虚拟化
|

ubuntu22 编译安装docker,和docker容器方式安装 deepseek

本脚本适用于Ubuntu 22.04,主要功能包括编译安装Docker和安装DeepSeek模型。首先通过Apt源配置安装Docker,确保网络稳定(建议使用VPN)。接着下载并配置Docker二进制文件,创建Docker用户组并设置守护进程。随后拉取Debian 12镜像,安装系统必备工具,配置Ollama模型管理器,并最终部署和运行DeepSeek模型,提供API接口进行交互测试。

901 15
来自: 人工智能平台PAI  版块
|
8月前
|
机器学习/深度学习 存储 人工智能
|

人工智能的三大主义

人工智能的三大主义之一——符号主义,通过数学和逻辑符号构建表达式以模拟人类思维。其代表性成果包括1956年的“逻辑理论家”程序和上世纪80年代的专家系统。1997年,“深蓝”计算机击败国际象棋冠军卡斯帕罗夫,是符号主义在博弈领域的巅峰之作。然而,由于人类智能的复杂性和广泛性,符号主义难以完全模拟人类感知和潜智能,逐渐走向衰落。

1112 0
|
9月前
|
存储 数据采集 大数据
|

数据仓库建模规范思考

本文介绍了数据仓库建模规范,包括模型分层、设计、数据类型、命名及接口开发等方面的详细规定。通过规范化分层逻辑、高内聚松耦合的设计、明确的命名规范和数据类型转换规则,提高数据仓库的可维护性、可扩展性和数据质量,为企业决策提供支持。

719 10
|
10月前
|
数据采集 机器学习/深度学习 数据挖掘
|

10种数据预处理中的数据泄露模式解析:识别与避免策略

在机器学习中,数据泄露是一个常见问题,指的是测试数据在数据准备阶段无意中混入训练数据,导致模型在测试集上的表现失真。本文详细探讨了数据预处理步骤中的数据泄露问题,包括缺失值填充、分类编码、数据缩放、离散化和重采样,并提供了具体的代码示例,展示了如何避免数据泄露,确保模型的测试结果可靠。

558 2
ly~
|
12月前
|
传感器 存储 供应链
|

大数据在供应链管理中的具体应用案例

以下是大数据在供应链管理中的具体应用案例:沃尔玛通过整合内外部数据进行需求预测,提前调配应急物资;亚马逊利用大数据优化库存管理,提高周转率并降低成本;DHL通过传感器收集数据优化物流路线,提升运输效率。大数据的优势在于提高需求预测准确性、优化库存管理、提升物流效率、增强供应商管理和提高供应链可视性,从而实现全方位的供应链优化。

2731 2
|
12月前
|
数据采集 机器学习/深度学习 人工智能
|

云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进

本文根据2024云栖大会实录整理而成,演讲信息如下: 演讲人:林伟 | 阿里云智能集团研究员、阿里云人工智能平台 PAI 负责人;黄博远|阿里云智能集团资深产品专家、阿里云人工智能平台 PAI 产品负责人 活动:2024 云栖大会 - AI Infra 核心技术专场、人工智能平台 PAI 年度发布专场

1825 1
来自: 人工智能平台PAI  版块
|
24天前
|
前端开发 Java API
|

利用 Spring WebFlux 技术打造高效非阻塞 API 的完整开发方案与实践技巧

本文介绍了如何使用Spring WebFlux构建高效、可扩展的非阻塞API,涵盖响应式编程核心概念、技术方案设计及具体实现示例,适用于高并发场景下的API开发。

156 0
|
1月前
|
算法 安全 量子技术
|

“RSA还能撑多久?”——聊聊量子计算下密码学的危与机

“RSA还能撑多久?”——聊聊量子计算下密码学的危与机

126 0
|
1月前
|
算法 IDE Java
|

Java 项目实战之实际代码实现与测试调试全过程详解

本文详细讲解了Java项目的实战开发流程,涵盖项目创建、代码实现(如计算器与汉诺塔问题)、单元测试(使用JUnit)及调试技巧(如断点调试与异常排查),帮助开发者掌握从编码到测试调试的完整技能,提升Java开发实战能力。

199 0
|
2月前
|
存储 分布式计算 大数据
|

【赵渝强老师】阿里云大数据存储计算服务:MaxCompute

阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。

109 0
来自: 大数据计算 MaxCompute  版块
|
2月前
|
数据采集 存储 大数据
|

大数据之路:阿里巴巴大数据实践——日志采集与数据同步

本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。

170 1
|
2月前
|
人工智能 缓存 资源调度
|

云上AI推理平台全掌握 (4):大模型分发加速

为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。

195 0
来自: 人工智能平台PAI  版块
|
2月前
|
数据采集 人工智能 自然语言处理
|

DistillQwen-ThoughtY:通过变长思维链蒸馏,全面提升模型推理能力!

阿里云 PAI 团队基于 EasyDistill 框架,创新性地采用推理冗余度(RV)和认知难度(CD)双指标筛选机制,实现思维链与模型能力的精准匹配,发布新一代推理模型 DistillQwen-ThoughtY。相关模型和数据集已在 hugging face/ModelScope 等开源社区开放,配套 EasyDistill 框架支持高效知识蒸馏。近期内将推出 DistillQwen-ThoughtY 模型在 PAI-ModelGallery 的一键部署、训练和评测实践。

249 1
来自: 人工智能平台PAI  版块
|
3月前
|
人工智能 自然语言处理 监控
|

阿里云连续6年入选 Gartner®ABI 魔力象限报告,中国唯一!

近日,Gartner发布2025年《分析与商业智能平台魔力象限》报告,阿里云Quick BI第六年入选“挑战者”象限。报告肯定其在可视化、报表及自然语言查询(NLQ)方面的竞争力,并认可其融合AI与BI能力、推动数据分析民主化的创新成果。Quick BI已在零售、金融、制造等多个行业落地应用,助力企业实现高效数据驱动决策。

215 7
|
5月前
|
人工智能 自然语言处理 DataWorks
|

DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!

阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。

400 23
|
5月前
|
开发工具 C++ git
|

五分钟看懂推送本地项目到 GitHub新手菜鸡

五分钟看懂推送本地项目到 GitHub新手菜鸡

298 0
|
5月前
|
机器学习/深度学习 数据可视化 算法
|

Ray Flow Insight:让分布式系统调试不再"黑盒"

作为Ray社区的积极贡献者,我们希望将这些实践中沉淀的技术能力回馈给社区,推动Ray生态在实际场景中的应用深度和广度。因此,2024年底我们做了激活AntRay开源社区的决策,AntRay会始终保持与官方Ray版本强同步(即AntRay会紧随Ray官方社区版本而发布),内部Feature亦会加速推向AntRay以开源研发模式及时反哺内部业务,同时会将社区关注的Feature提交至Ray官方社区,实现内外部引擎双向价值流动。后续我们会以系列文章形式同步蚂蚁推向开源的新特性,本文将重点介绍:Ray Flow Insight —— 让分布式系统调试不再"黑盒"。

774 5
|
6月前
|
缓存 JSON JavaScript
|

体育应用怎么通过API接口接入数据源与直播源

本文介绍了体育类应用接入数据源与直播源的API接口方案。主要包括:1) 数据源API接入,涉及选择提供商、接入流程及常见数据类型;2) 直播源接入,涵盖直播源类型、提供商和技术方案;3) 技术实现要点,如数据缓存、实时更新机制和安全性考虑;4) 成本优化建议。附有HLS播放示例及Node.js完整集成代码,帮助开发者高效实现体育应用功能。

321 21
|
6月前
|
机器学习/深度学习 缓存 自然语言处理
|

深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构

Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。

734 6
|
7月前
|
人工智能 JSON 安全
|

酒店旅游API:数据交互的隐形桥梁——以携程API为例

携程API提供酒店旅游行业的实时数据互通、业务自动化及生态扩展功能,涵盖酒店详情获取、搜索、房态管理、订单处理和支付等核心接口。技术架构采用微服务集群与数据中台,支持高并发和金融级安全防护。挑战包括高并发、数据一致性和商业博弈,未来将融合AI、元宇宙和区块链技术,实现智能旅游体验。

819 0
|
7月前
|
SQL 消息中间件 Kafka
|

Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计

本文介绍了阿里云实时数仓Hologres负责人姜伟华在Flink Forward Asia 2024上的分享,涵盖实时数仓的发展历程、从实时数仓到实时湖仓的演进,以及总结。文章通过三代实时数仓架构的演变,详细解析了Lambda架构、Kafka实时数仓分层+OLAP、Hologres实时数仓分层复用等方案,并探讨了未来从实时数仓到实时湖仓的演进方向。最后,结合实际案例和Demo展示了Hologres + Flink + Paimon在实时湖仓中的应用,帮助用户根据业务需求选择合适的方案。

1134 20
来自: 实时计算 Flink  版块
|
8月前
|
存储 人工智能 安全
|

面向法律场景的大模型 RAG 检索增强解决方案

检索增强生成模型结合了信息检索与生成式人工智能的优点,从而在特定场景下提供更为精准和相关的答案。以人工智能平台 PAI 为例,为您介绍在云上使用一站式白盒化大模型应用开发平台 PAI-LangStudio 构建面向法律场景的大模型 RAG 检索增强解决方案,应用构建更简便,开发环境更直观。此外,PAI 平台同样发布了面向医疗、金融和教育领域的 RAG 解决方案。

1452 10
来自: 人工智能平台PAI  版块
|
9月前
|
存储 SQL 人工智能
|

Apache Flink 2.0:Streaming into the Future

本文整理自阿里云智能高级技术专家宋辛童、资深技术专家梅源和高级技术专家李麟在 Flink Forward Asia 2024 主会场的分享。三位专家详细介绍了 Flink 2.0 的四大技术方向:Streaming、Stream-Batch Unification、Streaming Lakehouse 和 AI。主要内容包括 Flink 2.0 的存算分离云原生化、流批一体的 Materialized Table、Flink 与 Paimon 的深度集成,以及 Flink 在 AI 领域的应用。

1238 13
来自: 实时计算 Flink  版块
|
9月前
|
Ubuntu Linux Shell
|

/etc/rc.d/rc.local 的作用

/etc/rc.d/rc.local是Linux系统中的一个重要配置文件,其主要作用是在系统启动时执行特定的命令或脚本。以下是关于/etc/rc.d/rc.local的详细解释: ### 作用 * **系统启动任务配置**:该文件允许系统管理员或用户配置在系统启动时需要自动运行的任务。这些任务可以是启动服务、运行特定程序或执行脚本等。 * **开机自启动程序**:通过编辑/etc/rc.d/rc.local文件,用户可以自定义开机启动程序。只需将需要开机启动的程序命令或脚本路径添加到该文件中,并在系统启动时该文件将被自动执行。 ### 文件内容 * 通常包含一个shell脚本,该脚本在

606 12
|
11月前
|
机器学习/深度学习 传感器 数据采集
|

使用Python实现深度学习模型:智能设备故障预测与维护

【10月更文挑战第10天】 使用Python实现深度学习模型:智能设备故障预测与维护

1512 2
|
11月前
|
Web App开发 缓存 安全
|

Chrome浏览器启动参数大全

这是一组用于定制浏览器行为的命令行参数,包括但不限于:不停用过期插件、放行非安全内容、允许应用中心脚本、停用GPU加速视频、禁用桌面通知、禁用拓展及各类API、调整缓存设置、启用打印预览、隐身模式启动、设定语言、使用代理服务器、无头模式运行等。通过这些参数,用户可以根据需求灵活调整浏览器功能与性能。

1535 0
|
12月前
|
存储 人工智能 并行计算
|

Pai-Megatron-Patch:围绕Megatron-Core打造大模型训练加速生态

Pai-Megatron-Patch(https://github.com/alibaba/Pai-Megatron-Patch)是阿里云人工智能平台PAI研发的围绕Nvidia MegatronLM的大模型开发配套工具,旨在帮助开发者快速上手大模型,完成大模型(LLM)相关的高效分布式训练,有监督指令微调,下游任务评估等大模型开发链路。最近一年来,我们持续打磨Pai-Megatron-Patch的性能和扩展功能,围绕Megatron-Core(以下简称MCore)进一步打造大模型训练加速技术生态,推出更多的的训练加速、显存优化特性。

1294 8
来自: 人工智能平台PAI  版块
|
17天前
|
机器学习/深度学习 计算机视觉
|

让模型不再忽视少数类:MixUp、CutMix、Focal Loss三种技术解决数据不平衡问题

在机器学习应用中,数据集规模有限且类别分布不均(如医学影像中正类仅占5%)常导致模型偏向多数类,虽准确率高,但少数类识别效果差。本文探讨MixUp、CutMix和Focal Loss三种技术,分别从数据增强与损失函数角度提升小规模不平衡数据集上的模型表现。

125 27
|
2月前
|
安全 Java 网络安全
|

Java 实现 SMTP 协议调用的详细示例及实战指南 SMTP Java 调用示例

本文介绍了如何使用Java调用SMTP协议发送邮件,涵盖SMTP基本概念、JavaMail API配置、代码实现及注意事项,适合Java开发者快速掌握邮件发送功能集成。

186 0
|
3月前
|
搜索推荐 安全 API
|

聚合电商API:一键连接多平台数据

聚合电商API接口平台整合淘宝、天猫、京东等多平台API,提供一站式数据服务。核心功能包括数据整合、多平台搜索、详细解析与定制化服务,助力商家高效管理订单、优化商品推荐及支持数据驱动决策。平台注重智能化、个性化与全渠道发展,保障数据安全,推动业务增长。

245 2
|
4月前
|
JSON 数据挖掘 API
|

小红书笔记评论API接口如何使用

小红书作为生活方式分享平台,评论是用户互动的核心形式。通过小红书笔记评论API接口,开发者可高效获取特定笔记下的评论数据(如内容、昵称、时间、点赞数等),用于舆情分析、用户反馈收集和市场调研。请求参数包括`note_id`、`page`、`page_size`、`timestamp`和`sign`,采用HTTP方式调用,返回JSON格式数据,为业务决策提供数据支持。

416 2
|
5月前
|
并行计算 PyTorch 算法框架/工具
|

Triton入门教程:安装与编写和运行简单Triton内核

Triton是一款开源GPU编程语言与编译器,专为AI和深度学习领域设计,提供高性能GPU代码开发的高效途径。它支持通过Python编写自定义GPU内核,性能接近专家级CUDA代码,但无需掌握底层CUDA知识。本文全面介绍了Triton的核心功能、安装方法、基础应用、高级优化策略,以及与CUDA和PyTorch的技术对比。此外,还探讨了其在实际项目中的应用场景,如加速Transformer模型训练和实现高效的量化计算内核。Triton简化了GPU编程流程,降低了开发门槛,同时保持高性能表现,成为连接高级框架与底层硬件的重要工具。

458 3
|
6月前
|
数据采集 存储 监控
|

网站价格监控:动态价格数据的实时抓取案例

本案例展示了如何利用爬虫技术实时抓取京东等电商平台的商品信息、价格及用户评价,通过代理IP、Cookie和User-Agent确保数据稳定采集。关键数据分析包括价格动态监控、评价趋势分析和竞争情报获取,助力商家制定策略。代码从简单请求逐步演进为具备异常处理、数据解析等功能的完整体系,并设计了「技术关系图谱」,直观展示系统模块间的关系,为开发者提供全局视角和技术路径参考。

895 0
|
6月前
|
XML 存储 分布式计算
|

【赵渝强老师】史上最详细:Hadoop HDFS的体系架构

HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。

499 70
来自: 大数据计算 MaxCompute  版块
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

国产AI神器Deepseek,本地离线使用教程!

国产AI神器Deepseek,本地离线使用教程!

811 14
来自: 人工智能平台PAI  版块
|
8月前
|
存储 分布式计算 Hadoop
|

MPP 架构与 Hadoop 架构技术选型指南

MPP架构与Hadoop架构是处理海量数据的两大选择。MPP通过大规模并行处理实现快速查询响应,适用于企业级数据仓库和OLAP应用;Hadoop则以分布式存储和计算为核心,擅长处理非结构化数据和大数据分析。两者各有优劣,MPP适合结构化数据和高性能需求场景,而Hadoop在扩展性和容错性上表现更佳。选择时需综合考虑业务需求、预算和技术能力。

745 14
|
9月前
|
运维 监控 安全
|

代理IP故障排查技巧汇总及实战经验分享

在信息化时代,互联网不可或缺。使用HTTP动态代理IP时,快速排查故障至关重要。主要步骤包括:1. 检查代理IP有效性(Ping测试、HTTP请求测试);2. 监控连接速度(延迟和带宽测试);3. 分析错误信息(HTTP状态码、日志);4. 检查代理设置(配置文件、协议支持);5. 使用调试工具(Wireshark、浏览器开发者工具);6. 咨询服务提供商;7. 检查网络环境(防火墙、ISP限制);8. 逐步排查并记录变化。这些技巧能有效找出并解决问题。

465 10
来自: 大数据计算 MaxCompute  版块
|
9月前
|
机器学习/深度学习 人工智能 算法
|

人工智能与机器人的结合:智能化世界的未来

人工智能与机器人的结合:智能化世界的未来

1144 32
|
9月前
|

FFA2024分论坛-生产实践

FFA 2024生产实践专场由 Apache Flink 核心贡献者与来自快手、eBay、阿里云、抖音集团、Uber、鹰角、移动云、京东、用友畅捷通、搜配云、度小满、天翼云等公司的一线技术专家带来,将聚焦于在生产中使用和部署Flink的痛点, 经验以及最佳实践, 共同探讨如何在真实环境中更高效, 安全, 敏捷地落地实时数据处理框架。

719
来自: 实时计算 Flink  版块
|
10月前
|
API 开发工具 开发者
|

探究亚马逊国际获得AMAZON商品详情 API 接口功能、作用与实际应用示例

亚马逊提供的Amazon Product Advertising API或Selling Partner API,使开发者能编程访问亚马逊商品数据,包括商品标题、描述、价格等。支持跨境电商和数据分析,提供商品搜索和详情获取等功能。示例代码展示了如何使用Python和boto3库获取特定商品信息。使用时需遵守亚马逊政策并注意可能产生的费用。

694 1
|
11月前
|
自然语言处理 算法 搜索推荐
|

NLP中TF-IDF算法

TF-IDF(词频-逆文档频率)是一种用于信息检索与数据挖掘的加权技术,通过评估词语在文档中的重要性来过滤常见词语,保留关键信息。本文介绍了TF-IDF的基本概念、公式及其在Python、NLTK、Sklearn和jieba中的实现方法,并讨论了其优缺点。TF-IWF是TF-IDF的优化版本,通过改进权重计算提高精度。

512 1