|
自然语言处理 算法 搜索推荐
|

NLP中TF-IDF算法

TF-IDF(词频-逆文档频率)是一种用于信息检索与数据挖掘的加权技术,通过评估词语在文档中的重要性来过滤常见词语,保留关键信息。本文介绍了TF-IDF的基本概念、公式及其在Python、NLTK、Sklearn和jieba中的实现方法,并讨论了其优缺点。TF-IWF是TF-IDF的优化版本,通过改进权重计算提高精度。

820 1
|
存储 机器学习/深度学习 编解码
|

免费的视频增强模型Video2X

免费的视频增强模型Video2X

1006 2
|
人工智能 算法 物联网
|

企业级RAG全链路优化关键技术

本文深入解析了企业级RAG全链路的关键技术、效果优化、性能优化及应用实践。

2100 2
|
数据采集 人工智能 安全
|

数据治理的实践与挑战:大型案例解析

在当今数字化时代,数据已成为企业运营和决策的核心资源。然而,随着数据量的爆炸性增长和数据来源的多样化,数据治理成为了企业面临的重要挑战之一。本文将通过几个大型案例,探讨数据治理的实践、成效以及面临的挑战。

1628 4
|
存储 人工智能 分布式计算
|

云栖实录 | 阿里云 OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

阿里云 OpenLake 解决方案重磅发布,构建大数据、搜索、AI 一体化的能力体系,实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发,助力企业基于数据资产构筑竞争力。

1257 10
|
JSON API 开发者
|

小红书 API 接口最新指南:笔记详情数据接口的接入与使用

小红书笔记详情数据接口由其开放平台提供,让开发者通过API批量获取笔记的全面信息,如标题、内容、图片及互动数据等。可用于数据分析、洞察用户行为与内容趋势,支持精准的内容创作与营销策略。使用前需注册认证并获取API密钥;依据官方文档构建与发送请求;处理JSON响应数据。注意遵守调用频率限制、保持数据更新及确保数据使用的合规性。

1649 0
|
机器学习/深度学习 算法 开发工具
|

大语言模型的直接偏好优化(DPO)对齐在PAI-QuickStart实践

阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对DPO算法提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现大语言模型的DPO对齐微调。本文以阿里云最近推出的开源大型语言模型Qwen2(通义千问2)系列为例,介绍如何在PAI-QuickStart实现Qwen2的DPO算法对齐微调。

35398 2
来自: 人工智能平台PAI  版块
|
数据挖掘 Python
|

利用Python进行数据分析PDF下载经典数据分享推荐

**Python数据分析大师作,Wes McKinney亲著,详述数据操作、清洗与分析。第2版面向Python 3.6,涵盖pandas、NumPy、IPython和Jupyter更新,实战案例丰富;第3版已升级至Python 3.10和pandas 1.4,继续引领数据科学潮流。[PDF下载](https://zhangfeidezhu.com/?p=337)**

576 0
|
并行计算 PyTorch 算法框架/工具
|

LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM

有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。

1894 2
|
消息中间件 Kafka 程序员
|

彻底搞懂Kafka生产消费流程,这篇文章就够了!

```markdown 🚀 Kafka 生产消费流程揭秘:Producer 创建守护线程Sender,消息经拦截器→序列化器→分区器→缓冲区。批量发送基于batch.size或linger.ms条件。acks参数控制可靠性,从0(最快但不可靠)到all(最可靠)。消息重试和元数据返回确保不丢失。关注“软件求生”公众号,探索更多技术! ```

586 1
|
SQL 分布式计算 Java
|

DataGrip 配置 HiveServer2 远程连接访问(含账号密码验证)

该文档介绍了如何为HiveServer2配置账号密码鉴权。提供了一个名为`CustomPasswdAuthenticator`的Java类实现`PasswdAuthenticationProvider`接口,用于验证HiveServer2的用户名和密码。此外,还给出了相关依赖的Maven配置,并说明了如何将编译后的Jar包放入Hive的库中。在Hive的`hive-site.xml`和Hadoop的`core-site.xml`中需配置相应的参数以启用自定义认证。文档还列举了可能遇到的问题及解决方法,包括权限问题、数据插入错误和JVM内存溢出。

1086 3
|
消息中间件 关系型数据库 MySQL
|

实时计算 Flink版操作报错合集之报错:“Data row is smaller than a column index”如何解决

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

676 2
来自: 实时计算 Flink  版块
|
消息中间件 Go API
|

Golang深入浅出之-Go语言中的微服务架构设计与实践

【5月更文挑战第4天】本文探讨了Go语言在微服务架构中的应用,强调了单一职责、标准化API、服务自治和容错设计等原则。同时,指出了过度拆分、服务通信复杂性、数据一致性和部署复杂性等常见问题,并提出了DDD拆分、使用成熟框架、事件驱动和配置管理与CI/CD的解决方案。文中还提供了使用Gin构建HTTP服务和gRPC进行服务间通信的示例。

868 0
|
JavaScript 前端开发 算法
|

JavaScript 中前置自增与后置自增:区别、应用场景

【4月更文挑战第6天】JavaScript中的前置自增`++a`先增后用,返回新值,适合复合赋值和循环计数;后置自增`a++`先用后增,返回原值,适用于保留变量原值的操作。二者差异在于运算时机和返回值,选择时要考虑递增时机和表达式中使用的值。在复杂表达式中应避免混用,注重代码清晰度和一致性。理解这些差异能提高代码效率,避免逻辑错误。

793 1
|
Oracle 关系型数据库 MySQL
|

Flink CDC产品常见问题之使用cdc-Oracle连接器报错如何解决

Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。

556 0
来自: 实时计算 Flink  版块
|
人工智能 算法 开发工具
|

通义千问1.5(Qwen1.5)大语言模型在PAI-QuickStart的微调与部署实践

Qwen1.5(通义千问1.5)是阿里云最近推出的开源大型语言模型系列。作为“通义千问”1.0系列的进阶版,该模型推出了多个规模,从0.5B到72B,满足不同的计算需求。此外,该系列模型还包括了Base和Chat等多个版本的开源模型,为全球的开发者社区提供了空前的便捷性。阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对Qwen1.5模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现Qwen1.5系列模型的微调和快速部署。

178971 8
来自: 人工智能平台PAI  版块
|
Windows
|

Coze开源软件Windows客户端-coze_desk

Coze开源软件Windows客户端-coze_desk

2074 0
来自: 人工智能平台PAI  版块
|
存储 5G API
|

来了,永久免费的图床服务

Markdown爱好者推荐PicGo软件搭配免费图床服务SMMS,解决在Markdown中插入图片的困扰。PicGo支持多种图床,如腾讯云、阿里云和免费的SMMS,提供拖拽上传、压缩图片功能。通过VSCode或Typora配合PicGo插件,能实现图片自动上传并转换为Markdown格式。SMMS提供5GB免费存储,足够个人博客使用。

2843 0
|
机器学习/深度学习 监控 算法
|

OpenAI Gym 高级教程——深度强化学习库的高级用法

OpenAI Gym 高级教程——深度强化学习库的高级用法

1163 0
|
自然语言处理 数据处理 调度
|

《Havenask分布式索引构建服务--Build Service》

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask分布式索引构建服务——Build Service,主打稳定、快速、易管理,是在线系统提升竞争力的一大利器。

102276 3
来自: 智能搜索推荐  版块
|
机器学习/深度学习 算法 计算机视觉
|

旋转目标检测【1】如何设计深度学习模型

平常的目标检测是平行的矩形框,“方方正正”的;但对于一些特殊场景(遥感),需要倾斜的框,才能更好贴近物体,旋转目标检测来啦~

1163 0
|
数据采集 存储 人工智能
|

AI 模型:数据收集和清洗

AI 模型:数据收集和清洗

1180 2
|
机器学习/深度学习 资源调度
|

区间预测 | MATLAB实现QRBiLSTM双向长短期记忆神经网络分位数回归时间序列区间预测

区间预测 | MATLAB实现QRBiLSTM双向长短期记忆神经网络分位数回归时间序列区间预测

576 1
|
机器学习/深度学习 PyTorch 算法框架/工具
|

Pytorch使用专题 | 2 :Pytorch中数据读取-Dataset、Dataloader 、TensorDataset 和 Sampler 的使用

介绍Pytorch中数据读取-Dataset、Dataloader 、TensorDataset 和 Sampler 的使用

1389 0
|
机器学习/深度学习 SQL 算法
|

中原银行实时风控体系建设实践

中原银行数据平台中心开发工程师陈玉强在 FFA 2021 的演讲。

2464 1
来自: 实时计算 Flink  版块
|
机器学习/深度学习 自然语言处理 运维
|

开放搜索电商行业模版驱动业务增长实践

阿里巴巴技术专家介绍如何通过开放搜索电商行业增强版,快速构建更高水准的搜索服务,带动业务指数级增长。

2604 0
来自: 智能搜索推荐  版块
|
SQL 机器学习/深度学习 监控
|

搜索引擎新架构:与SQL不得不说的故事

本话题将围绕阿里巴巴搜索引擎HA3架构,和大家详细阐述搜索引擎在面对架构深度学习和数据规模的挑战时,如何以数据库SQL的执行方式来应对解决。

16201 0
来自: 智能搜索推荐  版块
|
机器学习/深度学习 智能设计 数据可视化
|

DataV数据可视化年度峰会——唤醒数据,看见未来

2019数据可视化年度峰会将于12月23日于阿里巴巴西溪园区访客中心白马山庄举行,期待您的到来!

6592 0
来自: 数据可视化DataV  版块
|
23小时前
|
人工智能 监控 搜索推荐
|

当AI遇上大数据:教育不是“填鸭”,而是“因材施教2.0”

当AI遇上大数据:教育不是“填鸭”,而是“因材施教2.0”

31 7
|
9天前
|
关系型数据库 MySQL 数据处理
|

基于python的化妆品销售分析系统

本项目基于Python构建化妆品销售分析系统,结合Django框架与MySQL数据库,实现销售数据的采集、处理、分析与可视化,助力企业精准营销与决策优化,推动化妆品行业数字化转型。

77 9
|
3月前
|
存储 测试技术 开发者
|

NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速

本文深入解析NVIDIA推出的NVFP4量化技术,探讨其在Blackwell GPU架构下的性能优势。通过对比主流4位量化方法,分析NVFP4在精度、内存和推理吞吐量方面的表现,结合LLM-Compressor与vLLM框架展示量化与部署实践,验证其在消费级与企业级应用中的高效性与实用性。

444 15
|
3月前
|
JSON API 数据格式
|

小红书笔记详情API数据解析(附代码)

本内容介绍了小红书开放平台的笔记详情API接口功能,涵盖笔记标题、内容、互动数据及多媒体资源的获取方式。提供接口概述、请求方式及Python调用示例,适用于内容分析与营销策略优化,帮助开发者高效集成与使用。

403 4
|
3月前
|
人工智能 JavaScript 前端开发
|

全球首个 用代码画地球、日月的动态轨道模型

本文介绍了太阳、地球和月球之间的关系,并详细展示了如何利用WxGL绘制三者的动态轨道模型。内容涵盖天体的起源、大小、运行轨迹及关键数据,帮助读者直观理解四季变化、日月食等自然现象。通过代码实现,模型可演示天体运动规律,适合科普与教学应用。

166 0
|
4月前
|
机器学习/深度学习 人工智能 测试技术
|

【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选

近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。

334 1
来自: 人工智能平台PAI  版块
|
4月前
|
人工智能 数据可视化 Java
|

性能提升 10 倍, DIFY 模式迁移至 Spring AI Alibaba 模式 零改造实现

将 Dify 应用迁移至 Spring AI Alibaba,可兼顾可视化开发效率与代码工程灵活性,显著提升系统性能与扩展能力,适用于复杂 AI 业务场景。

574 0
|
8月前
|
监控 数据挖掘 开发工具
|

淘宝天猫商品详情数据接口采集攻略

本文详细介绍如何通过淘宝天猫商品详情数据接口采集商品信息。首先概述了常用接口(如taobao.item.get、tmall.item.get)的功能,可获取商品基础信息、描述及评价等。接着说明接入准备,包括注册认证、创建应用与申请权限,以及开发环境配置。最后提供采集流程指引,如通过商品链接或搜索接口获取ID,并以Python示例展示接口调用方法,助力开发者高效挖掘电商数据价值。

698 1
|
8月前
|
JSON 数据管理 Java
|

淘宝买家订单列表、订单详情、订单物流 API 接口全攻略

淘宝订单相关API接口是电商自动化的核心工具,提供订单数据管理和物流追踪功能。开发者可通过HTTP协议调用,支持Python、Java等语言,响应JSON格式数据。主要功能包括:订单列表查询、订单详情获取和物流轨迹追踪。申请流程:注册账号(c0b.cc/R4rbK2),创建应用并生成App Key,申请所需接口权限如taobao.trades.sold.get、taobao.trade.fullinfo.get等。

1286 7
|
9月前
|
人工智能 自然语言处理 物联网
|

阿里万相重磅开源,人工智能平台PAI一键部署教程来啦

阿里云视频生成大模型万相2.1(Wan)重磅开源!Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,轻松实现高质量的视频生成。同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署阿里万相重磅开源的4个模型,可获得您的专属阿里万相服务。

1239 13
来自: 人工智能平台PAI  版块
|
9月前
|
SQL 存储 HIVE
|

鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。

916 1
来自: 实时计算 Flink  版块
|
12月前
|
机器学习/深度学习 人工智能 算法
|

国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评

阿里云人工智能平台 PAI 顺利通过中国信通院组织的 ITU-T AICP-GA国际标准和《智算工程平台能力要求》国内标准一致性测评,成为国内首家通过该标准的企业。阿里云人工智能平台 PAI 参与完成了智算安全、AI 能力中心、数据工程、模型开发训练、模型推理部署等全部八个能力域,共计220余个用例的测试,并100%通过测试要求,获得了 ITU 国际标准和国内可信云标准评估通过双证书。

884 14
来自: 人工智能平台PAI  版块
|
JavaScript 数据安全/隐私保护 Python
|

python爬取m3u8实战!!

本文详细介绍了如何抓取和处理m3u8视频文件,包括从网页源代码中提取m3u8文件地址、下载m3u8文件及其对应的ts片段、处理加密的ts文件以及使用ffmpeg合并视频片段。通过多线程下载和文件路径处理,确保了高效和准确的视频抓取与合并。文中还提供了具体的Python代码示例,帮助读者理解和实现整个过程。

1012 1
|
移动开发 数据可视化 Python
|

【10月更文挑战第13天】「Mac上学Python 24」小学奥数篇10 - 数列求和

本篇将通过 Python 和 Cangjie 双语实现数列求和的计算。通过这个题目,学生将学会如何通过公式法和循环法求解等差数列与等比数列的和。

370 3
|
机器学习/深度学习 边缘计算 PyTorch
|

PyTorch 与 ONNX:模型的跨平台部署策略

【8月更文第27天】深度学习模型的训练通常是在具有强大计算能力的平台上完成的,比如配备有高性能 GPU 的服务器。然而,为了将这些模型应用到实际产品中,往往需要将其部署到各种不同的设备上,包括移动设备、边缘计算设备甚至是嵌入式系统。这就需要一种能够在多种平台上运行的模型格式。ONNX(Open Neural Network Exchange)作为一种开放的标准,旨在解决模型的可移植性问题,使得开发者可以在不同的框架之间无缝迁移模型。本文将介绍如何使用 PyTorch 将训练好的模型导出为 ONNX 格式,并进一步探讨如何在不同平台上部署这些模型。

1323 2
|
敏捷开发 数据可视化 持续交付
|

敏捷开发方法:理论与实践

【8月更文第22天】随着信息技术的发展,软件项目的复杂度不断提高,传统的瀑布式开发模式越来越难以适应快速变化的市场需求。为了解决这些问题,敏捷开发方法应运而生。本文将探讨敏捷开发的核心理念、敏捷宣言与原则、Scrum框架、Kanban方法以及相关的敏捷实践与工具。

1525 2
|
Java 开发者 Python
|

Python中,字符串(String)是一种不可变的数据类型

Python中,字符串(String)是一种不可变的数据类型

427 5
|
存储 缓存 DataWorks
|

DataWorks操作报错合集之配置项目连通oss数据源 , 报The request signature we calculated does not match the signature you provided.如何解决

DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

4100 5
|
数据采集 机器学习/深度学习 编解码
|

视频生成框架EasyAnimate正式开源!

EasyAnimate是人工智能平台PAI自主研发的DiT-based视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等。可以使用EasyAnimate进行任意风格视频模型的训练和推理,还可以在预训练模型的基础上,通过少量图片的LoRA微调来改变生成视频的风格。

66970 64
来自: 人工智能平台PAI  版块
|
数据采集 Web App开发 JavaScript
|

爬虫技术升级:如何结合DrissionPage和Auth代理插件实现数据采集

本文介绍了在Python中使用DrissionPage库和Auth代理Chrome插件抓取163新闻网站数据的方法。针对许多爬虫框架不支持代理认证的问题,文章提出了通过代码生成包含认证信息的Chrome插件来配置代理。示例代码展示了如何创建插件并利用DrissionPage进行网页自动化,成功访问需要代理的网站并打印页面标题。该方法有效解决了代理认证难题,提高了爬虫的效率和安全性,适用于各种需要代理认证的网页数据采集。

1062 0
|
Docker 容器
|

两个docker能用同一个端口吗 - 蓝易云

然后,你可以在另一个容器中运行相同的应用,让它监听容器的80端口,并将其映射到主机的8081端口。

639 0
|
消息中间件 安全 Kafka
|

2024年了,如何更好的搭建Kafka集群?

我们基于Kraft模式和Docker Compose同时采用最新版Kafka v3.6.1来搭建集群。

3489 2

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

10
今日
67370
内容
127
活动
439361
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 日志服务
  • 检索分析服务 Elasticsearch版