|
2月前
|
数据采集 JSON 文字识别
|

图像与视频页面的数据提取

随着小红书、抖音等视觉平台崛起,传统采集难以应对图像视频内容。本文详解多模态采集架构:通过OCR识别图文、关键帧抽取视频信息,结合元数据融合,实现对视觉内容的精准理解与结构化提取,推动数据采集从“抓取”迈向“认知”。

176 7
|
2月前
|
JSON 监控 API
|

京东商品详情API接口(标题|主图|SKU|价格)

京东商品详情API提供标准化接口,支持通过HTTPS获取商品标题、价格、库存、销量等120+字段,数据实时更新至分钟级。包含jd.item.get和jd.union.open.goods.detail.query等接口,支持批量查询200个SKU,适用于价格监控、竞品分析等电商场景。

283 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|

当医生“上云端”:AI让远程医疗诊断更懂人心

当医生“上云端”:AI让远程医疗诊断更懂人心

279 8
|
2月前
|
数据采集 运维 监控
|

爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南

本文系统解析爬虫与自动化核心技术,涵盖HTTP请求、数据解析、分布式架构及反爬策略,结合Scrapy、Selenium等框架实战,助力构建高效、稳定、合规的数据采集系统。

470 0
|
2月前
|
Cloud Native Serverless API
|

微服务架构实战指南:从单体应用到云原生的蜕变之路

🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。

345 4
|
3月前
|
Java 数据库 Android开发
|

基于Android的电子记账本系统

本项目研究开发一款基于Java与Android平台的开源电子记账系统,采用SQLite数据库和Gradle工具,实现高效、安全、便捷的个人财务管理,顺应数字化转型趋势。

272 1
|
4月前
|
人工智能 测试技术 芯片
|

AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试

本文介绍了使用四块Framework主板构建AI推理集群的过程,并基于AMD Ryzen AI Max+ 395处理器进行大语言模型推理性能测试,重点评估其并行推理能力及集群表现。

327 0
|
6月前
|
人工智能 Apache 流计算
|

FFA 2025 新加坡站全议程上线|The Future of AI is Real-Time

Flink Forward Asia 2025将于7月3日在新加坡举办,主题为“实时智能的未来”。大会聚焦实时AI、实时湖仓与实时分析,展示Apache Flink及社区项目如Paimon、Fluss的最新成果。来自阿里云、AWS、TikTok等企业专家将分享洞见,现场及直播观众均可参与互动抽奖,共襄技术盛宴。

523 14
来自: 实时计算 Flink  版块
|
6月前
|
JSON API 开发者
|

深入浅出:拼多多商品列表API接口Python攻略

拼多多是中国领先的社交电商平台,为开发者提供了丰富的API接口,用于集成商品数据到第三方应用。通过Python可以轻松调用这些API获取商品列表。主要步骤包括:1) 安装必要库(如`requests`);2) 使用AppKey和AppSecret获取访问令牌;3) 调用商品列表API,传入参数如商品ID、页码等;4) 解析返回的JSON数据提取所需信息。按照此流程,开发者能够快速实现与拼多多平台的数据交互。

454 3
|
6月前
|
资源调度 Kubernetes 流计算
|

Flink在B站的大规模云原生实践

本文基于哔哩哔哩资深开发工程师丁国涛在Flink Forward Asia 2024云原生专场的分享,围绕Flink On K8S的实践展开。内容涵盖五个部分:背景介绍、功能及稳定性优化、性能优化、运维优化和未来展望。文章详细分析了从YARN迁移到K8S的优势与挑战,包括资源池统一、环境一致性改进及隔离性提升,并针对镜像优化、Pod异常处理、启动速度优化等问题提出解决方案。此外,还探讨了多机房容灾、负载均衡及潮汐混部等未来发展方向,为Flink云原生化提供了全面的技术参考。

379 9
来自: 实时计算 Flink  版块
|
7月前
|
数据采集 存储 Web App开发
|

自动化爬虫:requests定时爬取前程无忧最新职位

自动化爬虫:requests定时爬取前程无忧最新职位

262 4
|
7月前
|
人工智能 数据挖掘 API
|

基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充

基于neo4j数据库和dify大模型框架的rag模型搭建——后续补充

799 21
|
7月前
|
数据可视化 数据挖掘 数据安全/隐私保护
|

Python实现时间序列动量策略:波动率标准化让量化交易收益更平稳

时间序列动量策略(TSMOM)是一种基于资产价格趋势的量化交易方法,通过建立多头或空头头寸捕捉市场惯性。然而,传统TSMOM策略因风险敞口不稳定而面临收益波动问题。波动率调整技术通过动态调节头寸规模,维持恒定风险水平,优化了策略表现。本文系统分析了波动率调整TSMOM的原理、实施步骤及优势,强调其在现代量化投资中的重要地位,并探讨关键参数设定与实际应用考量,为投资者提供更平稳的风险管理体验。

340 4
|
8月前
|
开发者
|

云上玩转DeepSeek系列之六:DeepSeek云端加速版发布,具备超高推理性能

作为国内首个千亿级开源 MoE 模型,DeepSeek-R1 凭借其卓越的代码生成与复杂推理能力,已成为开发者构建智能应用的首选。然而,原始模型在产业落地中面临严峻挑战,部署 671B 满血版模型不仅硬件门槛要求很高,同时吞吐效率和响应延迟也受到了制约。PAI 正式推出了优化版 DeepSeek-R1 模型 DeepSeek-R1-PAI-optimized,将大模型推理效率推向了 Next Level。

351 11
来自: 人工智能平台PAI  版块
|
8月前
|
数据采集 算法 数据挖掘
|

CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用

英伟达提出的CLIMB框架,是一种自动化优化大型语言模型(LLM)预训练数据混合的创新方法。通过语义嵌入与聚类技术,CLIMB能系统地发现、评估并优化数据混合策略,无需人工干预。该框架包含数据预处理、迭代自举及最优权重确定三大阶段,结合小型代理模型与性能预测器,高效搜索最佳数据比例。实验表明,基于CLIMB优化的数据混合训练的模型,在多项推理任务中显著超越现有方法,展现出卓越性能。此外,研究还构建了高质量的ClimbMix数据集,进一步验证了框架的有效性。

371 0
|
8月前
|
数据采集 Web App开发 文字识别
|

Python爬虫多次请求后被要求验证码的应对策略

Python爬虫多次请求后被要求验证码的应对策略

675 7
|
8月前
|
人工智能 安全 数据安全/隐私保护
|

本地部署DeepSeek教程:一键远程访问,还能解决Ollama安全隐患

本教程详细介绍如何使用Ollama+Open WebUI本地部署DeepSeek模型,并借助贝锐花生壳内网穿透实现安全远程访问。首先,安装Ollama并下载DeepSeek模型,根据显存选择合适参数(如4G选1.5B)。接着,通过Docker部署Open WebUI以获得图形化交互界面。最后,利用贝锐花生壳简单三步完成远程访问设置,支持HTTPS加密传输,保障数据安全。整个过程无需云服务器,轻松打造专属AI助手。

995 5
|
9月前
|
JSON 自然语言处理 API
|

合合信息TextIn大模型加速器2.0发布:智能图表解析测评

随着人工智能技术的飞速发展,大规模语言模型(LLM)在自然语言处理、图像识别、语音合成等领域的应用日益广泛。然而,大模型的计算复杂度和资源消耗问题也日益凸显。为了解决这一问题,合合信息TextIn推出了大模型加速器2.0,旨在提升大模型的训练和推理效率,降低计算成本,完成智能问答与对话式交互,深度概括与定位等。本文将对合合信息TextIn大模型加速器2.0进行详细测评,重点关注其在智能图表解析任务中的表现。

547 0
|
9月前
|
人工智能 自然语言处理 Cloud Native
|

快速使用Milvus MCP Server,0代码搭建智能搜索Agent

阿里云向量检索服务Milvus版是一款云原生向量检索引擎。目前Milvus提供了milvus-mcp-server来对接各种AI Agent,支持包括:更新向量数据、创建索引、混合检索(向量+全文)、多向量列检索等多种能力。本文介绍了如何使用Milvus-mcp-server来搭建智能搜索Agent,并分别使用Cline和Cursor进行部署展示。

1117 6
|
9月前
|
机器学习/深度学习 运维 数据挖掘
|

时间序列特征提取:18 种高效工具库及其应用分析

时间序列特征提取是数据科学的重要环节,可将原始数据转化为分析价值高的特征表示。本文介绍18个Python库,涵盖通用与专业领域(如医疗、金融)的特征提取工具。这些库包括tsfeatures、tsfresh、librosa等,各自针对特定任务(如预测、分类、异常检测)提供独特功能。通过结合不同库的特点,数据科学家能更高效地进行特征工程,提升模型性能与分析深度。文章总结了各库的优势及适用场景,为实际应用提供了全面指导。

519 0
|
9月前
|
存储 SQL Java
|

Flink CDC + Hologres高性能数据同步优化实践

本文整理自阿里云高级技术专家胡一博老师在Flink Forward Asia 2024数据集成(二)专场的分享,主要内容包括:1. Hologres介绍:实时数据仓库,支持毫秒级写入和高QPS查询;2. 写入优化:通过改进缓冲队列、连接池和COPY模式提高吞吐量和降低延迟;3. 消费优化:优化离线场景和分区表的消费逻辑,提升性能和资源利用率;4. 未来展望:进一步简化用户操作,支持更多DDL操作及全增量消费。Hologres 3.0全新升级为一体化实时湖仓平台,提供多项新功能并降低使用成本。

709 1
来自: 实时计算 Flink  版块
|
10月前
|
编解码 算法 数据安全/隐私保护
|

一维信号的小波变换与重构算法matlab仿真

本程序使用MATLAB2022A实现一维信号的小波变换与重构,对正弦测试信号进行小波分解和重构,并计算重构信号与原信号的误差。核心步骤包括:绘制分解系数图像、上抽取与滤波重构、对比原始与重构信号及误差分析。小波变换通过多分辨率分析捕捉信号的局部特征,适用于非平稳信号处理,在信号去噪、压缩等领域有广泛应用。

407 4
|
10月前
|
存储 分布式数据库 Apache
|

小米基于 Apache Paimon 的流式湖仓实践

本文整理自Flink Forward Asia 2024流式湖仓专场分享,由计算平台软件研发工程师钟宇江主讲。内容涵盖三部分:1)背景介绍,分析当前实时湖仓架构(如Flink + Talos + Iceberg)的痛点,包括高成本、复杂性和存储冗余;2)基于Paimon构建近实时数据湖仓,介绍其LSM存储结构及应用场景,如Partial-Update和Streaming Upsert,显著降低计算和存储成本,简化架构;3)未来展望,探讨Paimon在流计算中的进一步应用及自动化维护服务的建设。

577 0
来自: 实时计算 Flink  版块
|
10月前
|
SQL 数据可视化 atlas
|

低空经济新基建!DataV Atlas 如何用大模型玩转空间数据?

阿里云DataV Atlas推出搭载通义千问最新2.5 Max大模型「时空SQL智能小助手」,通过自然语言生成专业SQL,简化空间数据分析流程,助力智慧农田、城市低空交通及应急调度等领域,推动精准决策和智能化管理。零门槛体验空间智能分析革命,开启“会思考的天空网络”新时代。

703 5
来自: 数据可视化DataV  版块
|
10月前
|
存储 分布式计算 物联网
|

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。

795 58
|
10月前
|
SQL 人工智能 数据可视化
|

数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式

数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。

595 142
来自: 数据可视化DataV  版块
|
10月前
|
JSON API 数据安全/隐私保护
|

虾皮(shopee)商品详情接口(虾皮 API 系列)

Shopee 商品详情接口(item_get)用于获取商品的标题、价格、描述、库存和图片等详细信息。开发者需使用 Shopee 提供的 API 密钥进行认证,通过 GET 请求访问指定 URL。请求参数包括 partner_id、shopid、itemid、timestamp 和 sign。签名生成需按字母顺序排序参数,拼接后与 API 密钥进行 HMAC-SHA256 加密。响应为 JSON 格式,包含商品详细信息及错误提示。注意妥善保管 API 密钥,并遵守请求频率限制。

731 2
|
11月前
|
并行计算 安全 Java
|

Python GIL(全局解释器锁)机制对多线程性能影响的深度分析

在Python开发中,GIL(全局解释器锁)一直备受关注。本文基于CPython解释器,探讨GIL的技术本质及其对程序性能的影响。GIL确保同一时刻只有一个线程执行代码,以保护内存管理的安全性,但也限制了多线程并行计算的效率。文章分析了GIL的必要性、局限性,并介绍了多进程、异步编程等替代方案。尽管Python 3.13计划移除GIL,但该特性至少要到2028年才会默认禁用,因此理解GIL仍至关重要。

852 16
|
11月前
|
SQL 弹性计算 分布式计算
|

阿里云 EMR 发布托管弹性伸缩功能,支持自动调整集群大小,最高降本60%

阿里云开源大数据平台 E-MapReduce 重磅推出托管弹性伸缩功能,基于 EMR 托管弹性伸缩功能,您可以指定集群的最小和最大计算限制,EMR 会持续对与集群上运行的工作负载相关的关键指标进行采样,自动调整集群大小,以获得最佳性能和资源利用率。

541 15
|
12月前
|
机器学习/深度学习 算法 数据可视化
|

无监督学习与数据聚类:从理论到实践

无监督学习与数据聚类:从理论到实践

482 12
|
12月前
|
机器学习/深度学习 数据采集 DataWorks
|

数据分析经典案例重现:使用DataWorks Notebook 实现Kaggle竞赛之房价预测,成为数据分析大神!

Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合DataWorks Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。

733 8
|
12月前
|
存储 SQL 人工智能
|

Apache Flink 2.0:Streaming into the Future

本文整理自阿里云智能高级技术专家宋辛童、资深技术专家梅源和高级技术专家李麟在 Flink Forward Asia 2024 主会场的分享。三位专家详细介绍了 Flink 2.0 的四大技术方向:Streaming、Stream-Batch Unification、Streaming Lakehouse 和 AI。主要内容包括 Flink 2.0 的存算分离云原生化、流批一体的 Materialized Table、Flink 与 Paimon 的深度集成,以及 Flink 在 AI 领域的应用。

1471 13
来自: 实时计算 Flink  版块
|
人工智能 边缘计算 JSON
|

DistilQwen2 蒸馏小模型在 PAI-QuickStart 的训练、评测、压缩及部署实践

本文详细介绍在 PAI 平台使用 DistilQwen2 蒸馏小模型的全链路最佳实践。

684 11
来自: 人工智能平台PAI  版块
|
数据采集 机器学习/深度学习 数据挖掘
|

10种数据预处理中的数据泄露模式解析:识别与避免策略

在机器学习中,数据泄露是一个常见问题,指的是测试数据在数据准备阶段无意中混入训练数据,导致模型在测试集上的表现失真。本文详细探讨了数据预处理步骤中的数据泄露问题,包括缺失值填充、分类编码、数据缩放、离散化和重采样,并提供了具体的代码示例,展示了如何避免数据泄露,确保模型的测试结果可靠。

893 2
|
人工智能
|

精通歌词结构技巧:写歌词的方法与实践,妙笔生词AI智能写歌词软件

歌词创作是音乐的灵魂,掌握其结构技巧至关重要。开头需迅速吸引听众,主体部分需结构清晰、情感丰富,结尾则要余韵悠长。无论是叙事还是抒情,妙笔生词智能写歌词软件都能助你一臂之力,提供AI智能创作、优化及解析等多功能支持,助你轻松驾驭歌词创作。

653 5
|
存储 人工智能 前端开发
|

前端大模型应用笔记(三):Vue3+Antdv+transformers+本地模型实现浏览器端侧增强搜索

本文介绍了一个纯前端实现的增强列表搜索应用,通过使用Transformer模型,实现了更智能的搜索功能,如使用“番茄”可以搜索到“西红柿”。项目基于Vue3和Ant Design Vue,使用了Xenova的bge-base-zh-v1.5模型。文章详细介绍了从环境搭建、数据准备到具体实现的全过程,并展示了实际效果和待改进点。

1053 14
来自: 智能搜索推荐  版块
|
人工智能 算法 测试技术
|

PAI 大语言模型评测平台现已支持裁判员模型评测

本文将为您介绍如何在 PAI 大语言模型评测平台,基于裁判员模型,评价开源模型或者微调后模型的性能。该功能限时免费,欢迎使用。

686 8
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 TensorFlow 算法框架/工具
|

使用Python实现深度学习模型:智能质量检测与控制

使用Python实现深度学习模型:智能质量检测与控制 【10月更文挑战第8天】

857 62
|
机器学习/深度学习 存储 自然语言处理
|

从理论到实践:如何使用长短期记忆网络(LSTM)改善自然语言处理任务

【10月更文挑战第7天】随着深度学习技术的发展,循环神经网络(RNNs)及其变体,特别是长短期记忆网络(LSTMs),已经成为处理序列数据的强大工具。在自然语言处理(NLP)领域,LSTM因其能够捕捉文本中的长期依赖关系而变得尤为重要。本文将介绍LSTM的基本原理,并通过具体的代码示例来展示如何在实际的NLP任务中应用LSTM。

1209 4
ly~
|
安全 生物认证 数据库
|

有哪些常见的身份验证错误和漏洞?

本文介绍了常见的网络安全问题,包括弱密码、密码重用、身份验证流程缺陷、会话管理问题和社会工程学攻击。具体涉及简单密码易被破解、多平台使用同一密码、缺乏多因素认证、身份验证绕过、会话劫持与固定、钓鱼攻击和伪装攻击等。这些问题可能导致用户信息泄露和系统安全风险。

1447 5
|
Web App开发 前端开发 测试技术
|

Selenium 4新特性解析:关联定位器及其他创新功能

【10月更文挑战第6天】Selenium 是一个强大的自动化测试工具,广泛用于Web应用程序的测试。随着Selenium 4的发布,它引入了许多新特性和改进,使得编写和维护自动化脚本变得更加容易。本文将深入探讨Selenium 4的一些关键新特性,特别是关联定位器(Relative Locators),以及其他一些重要的创新功能。

850 2
|
BI Linux API
|

掌握 SkiaSharp 轻松实现 .NET 跨平台绘图

.NET 框架的发展,我们越来越多地寻求能够在多个平台上无缝运行的应用解决方案。

2109 2
|
SQL 人工智能 DataWorks
|

【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台

在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。

962 0
|
机器学习/深度学习 数据可视化 算法
|

图特征工程实践指南:从节点中心性到全局拓扑的多尺度特征提取

本文详细介绍了如何利用NetworkX库从图结构中提取重要特征。首先,通过定义辅助函数设置了图的可视化选项,并以Zachary网络数据集为例进行了可视化展示。接着,文章深入探讨了三类图特征:基于节点的特征(如节点度、中心性等)、基于边的特征(如最短路径、邻域重叠等)以及基于图的特征(如Graphlets、Weisfeiler-Leman特征等)。通过这些特征的提取与分析,可以全面理解网络结构,识别关键节点,分析信息流动模式,并发现潜在的隐藏模式。本文不仅展示了如何应用这些特征来揭示社交网络中的角色和联系,还强调了其在交通网络分析和生物系统研究等领域的广泛应用潜力。

672 12
|
机器学习/深度学习 安全 数据挖掘
|

安全地运行 Jupyter 服务

【8月更文第29天】Jupyter Notebook 是一种流行的交互式计算环境,广泛应用于数据分析、机器学习等领域。然而,随着 Jupyter 服务越来越多地被部署在网络环境中,安全问题变得日益重要。本文将介绍一些最佳实践,帮助您保护 Jupyter 服务器免受攻击和数据泄露的风险。

739 0

Unity精华☀️一、从旋转到万向锁之:Unity的旋转

Unity精华☀️一、从旋转到万向锁之:Unity的旋转

1054 3
|
开发工具 图形学 Android开发
|

Unity与安卓丨unity报错:SDK Tools version 0.0 < 26.1.1

Unity与安卓丨unity报错:SDK Tools version 0.0 < 26.1.1

957 2
|
监控 安全 数据安全/隐私保护
|

确保数据安全与隐私保护的数据治理最佳实践

【8月更文第13天】随着数据成为企业最重要的资产之一,数据安全和隐私保护变得至关重要。本文将探讨数据治理中的一些最佳实践,并提供具体的代码示例来说明如何实施这些策略。

2554 4
|
SQL 人工智能 分布式计算
|

飞天发布时刻:大数据AI平台产品升级发布

阿里云飞天发布时刻产品发布会围绕阿里云大数据AI平台的新能力和新产品进行详细介绍。人工智能平台PAI、云原生大数据计算服务MaxCompute、开源大数据平台E-MapReduce、实时数仓Hologres、阿里云Elasticsearch、向量检索Milvus等产品均带来了相关发布的深度解读。

674 8
|
存储 人工智能 数据处理
|

Elasticsearch 8 RAG 技术分享

本文介绍了Elasticsearch 8 在RAG场景方面的发展历程、技术演进、未来发展方向和产品能力。

1009 8

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

4
今日
67643
内容
128
活动
439476
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务