|
8月前
|
Ubuntu Linux Windows
|

Ventoy 是一款开源的多系统启动U盘工具

Ventoy是一款开源多系统启动U盘工具,支持Legacy BIOS和UEFI模式,可直接启动多个ISO文件(无需解压),兼容Windows、Linux等系统。只需下载安装Ventoy到U盘,拷贝ISO文件即可实现多系统启动。官网:https://www.ventoy.net,GitHub:https://github.com/ventoy/Ventoy。制作需8GB以上U盘及Win7以上系统。

1340 154
|
8月前
|
Linux 虚拟化 Docker
|

win11怎么安装docker的必要设置自学软硬件工程师778天

win11怎么安装docker的必要设置自学软硬件工程师778天

628 4
|
8月前
|
前端开发 Linux Docker
|

docker的安装使用0废话版本自学软硬件工程师778天

win11怎么安装docker的必要设置自学软硬件工程师778天

166 0
|
8月前
|
数据采集 存储 监控
|

Python 原生爬虫教程:网络爬虫的基本概念和认知

网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。

1174 31
|
8月前
|
人工智能 搜索推荐 自然语言处理
|

大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台

本文分享了大模型落地的关键:如何用阿里云 AI 搜索开放平台 打造更智能的 AI 搜索。

607 8
来自: 智能搜索推荐  版块
|
8月前
|
机器学习/深度学习 数据采集 算法
|

如何用大数据与机器学习挖掘瞪羚企业认定标准

本文探讨如何利用大数据与机器学习技术挖掘瞪羚企业认定标准。通过阿里云的大数据平台和政策宝资源整合能力,结合机器学习算法分析政策文本,提取关键信息,助力企业精准理解认定标准。文章对比了传统获取方式的局限性与新技术的优势,并以案例说明政策宝在申报中的作用,强调数据整合、模型选择及数据安全的重要性,为企业提供发展方向和政策支持。

233 1
|
8月前
|
数据采集 存储 Web App开发
|

轻量级爬虫框架Feapder入门:快速搭建企业级数据管道

本教程基于Feapder框架,讲解如何构建轻量级爬虫采集豆瓣电影数据。通过配置代理IP、Cookie与User-Agent,实现企业级数据管道能力,包括动态请求与信息提取(如电影名称、导演、演员等)。适合具备Python基础及爬虫原理知识的读者,提供从环境搭建到代码实现的完整流程,并分析常见错误与解决方法,助力高效开发。

392 1
|
8月前
|
JavaScript Serverless
|

怎么用js实现大数字求和?

在数学运算中,处理超出机器数值范围的大数字是一个常见问题。通过将数字以字符串形式表示,可逐位模拟人工加法过程,避免溢出。本文介绍的 `bigNumberSum` 函数,接收两个字符串形式的大数字,利用数组操作逐位相加并处理进位,最终返回正确和值。此方法简单直观,适用于任意长度数字的加法运算,在金融与科学计算领域具有重要价值。

206 0
|
8月前
|
缓存 并行计算 PyTorch
|

PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制

本文深入探讨了PyTorch中GPU内存管理的核心机制,特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因,并通过实际案例(如Llama 1B模型训练)展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术,显著提升了内存使用效率,减少了系统调用开销。此外,文章还介绍了高级优化方法,包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。

1623 0
|
8月前
|
机器学习/深度学习 人工智能 算法
|

PeptideBERT:基于Transformer用于肽性质预测的语言模型

本文介绍了PeptideBERT模型及其在昇腾设备上的部署方法。PeptideBERT是一种基于Transformer架构的蛋白质语言模型,通过微调预训练模型ProtBERT,可预测肽的溶血性、溶解性和抗非特异性吸附性等关键性质。其输入表示包括词嵌入、物理化学属性编码和位置编码,并采用多头自注意力机制捕捉序列依赖关系。

381 4
|
8月前
|
传感器 人工智能 搜索推荐
|

教育随身而行——可穿戴设备如何赋能未来课堂?

教育随身而行——可穿戴设备如何赋能未来课堂?

261 16
|
8月前
|
机器学习/深度学习 数据采集 人工智能
|

从数据海洋中“淘金”——数据挖掘的魔法与实践

从数据海洋中“淘金”——数据挖掘的魔法与实践

197 13
|
8月前
|
传感器 存储 算法
|

基于ECC簇内分组密钥管理算法的无线传感器网络matlab性能仿真

本程序基于ECC(椭圆曲线密码学)簇内分组密钥管理算法,对无线传感器网络(WSN)进行MATLAB性能仿真。通过对比网络通信开销、存活节点数量、网络能耗及数据通信量四个关键指标,验证算法的高效性和安全性。程序在MATLAB 2022A版本下运行,结果无水印展示。算法通过将WSN划分为多个簇,利用ECC生成和分发密钥,降低计算与通信成本,适用于资源受限的传感器网络场景,确保数据保密性和完整性。

215 5
|
8月前
|
人工智能 物联网 Apache
|

Flink Forward Asia 2025 新加坡站议题征集开启|The future of AI is Real-Time

Flink Forward Asia 2025 将于7月3日在新加坡盛大召开!作为Apache Flink社区顶级会议,大会聚焦实时AI、实时湖仓、实时分析等前沿方向,汇聚全球顶尖技术实践。即日起开放议题征集,诚邀开发者与数据专家分享创新经验。席位有限,立即行动!扫码或访问官网报名参与这场年度技术盛宴,共话实时计算未来。

582 17
来自: 实时计算 Flink  版块
|
8月前
|
SQL API Apache
|

Dinky 和 Flink CDC 在实时整库同步的探索之路

本次分享围绕 Dinky 的整库同步技术演进,从传统数据集成方案的痛点出发,探讨了 Flink CDC Yaml 作业的探索历程。内容分为三个部分:起源、探索、未来。在起源部分,分析了传统数据集成方案中全量与增量割裂、时效性低等问题,引出 Flink CDC 的优势;探索部分详细对比了 Dinky CDC Source 和 Flink CDC Pipeline 的架构与能力,深入讲解了 YAML 作业的细节,如模式演变、数据转换等;未来部分则展望了 Dinky 对 Flink CDC 的支持与优化方向,包括 Pipeline 转换功能、Transform 扩展及实时湖仓治理等。

967 12
来自: 实时计算 Flink  版块
|
8月前
|
数据采集 存储 JSON
|

用Python爬虫抓取数据并保存为JSON的完整指南

用Python爬虫抓取数据并保存为JSON的完整指南

565 3
|
8月前
|
SQL 数据可视化 BI
|

Quick BI产品测评:从数据连接到智能分析的全流程体验

瓴羊智能商业分析-Quick BI是阿里云旗下的云端智能BI平台,连续五年入选Gartner ABI魔力象限。它提供从数据接入到决策的全链路服务,支持零代码操作、40+可视化组件与OLAP分析,实现跨终端呈现。其创新点包括云原生架构、企业级安全体系及智能决策引擎,适用于零售、金融等行业。评测中,通过免费试用与官方文档,体验了数据准备、仪表板搭建及智能小Q功能,发现智能化能力强大但部分文档需更新优化。

855 67
|
8月前
|
前端开发
|

自学软硬件工程师777天首次开发客户管理系统踩坑实录01

对第一次实践做一个记录,试图通过知识碎片拼凑齐完整的项目经验。

137 6
|
8月前
|
数据采集 JavaScript 前端开发
|

Pyppeteer实战:基于Python的无头浏览器控制新选择

本文详细讲解了如何使用 Pyppeteer 结合爬虫代理高效采集小红书热点推荐信息。通过设置代理 IP、Cookie 和自定义 User-Agent,突破目标网站的反爬机制,实现标题、内容和评论的数据提取。文章结合代码示例与技术关系图谱,清晰展示从数据采集到分析的全流程,为复杂网站的数据获取提供参考。读者可在此基础上优化异常处理、并发抓取等功能,提升爬虫性能。

578 8
|
8月前
|
数据采集 SQL 人工智能
|

长文详解|DataWorks Data+AI一体化开发实战图谱

DataWorks是一站式智能大数据开发治理平台,内置阿里巴巴15年大数据建设方法论,深度适配阿里云MaxCompute、EMR、Hologres、Flink、PAI 等数十种大数据和AI计算服务,为数仓、数据湖、OpenLake湖仓一体数据架构提供智能化ETL开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理。

1366 5
|
8月前
|
存储 人工智能 自然语言处理
|

LangChain RAG入门教程:构建基于私有文档的智能问答助手

本文介绍如何利用检索增强生成(RAG)技术与LangChain框架构建基于特定文档集合的AI问答系统。通过结合检索系统和生成机制,RAG能有效降低传统语言模型的知识局限与幻觉问题,提升回答准确性。文章详细展示了从环境配置、知识库构建到系统集成的全流程,并提供优化策略以改进检索与响应质量。此技术适用于专业领域信息检索与生成,为定制化AI应用奠定了基础。

2721 5
|
8月前
|
存储 JSON API
|

深入研究:淘宝天猫商品详情查询API详解

淘宝开放平台提供一系列API接口,帮助开发者获取淘宝商品的详细信息并集成到自有应用中。主要功能包括:获取单个商品详情(item_get)、评论信息(item_review)、快递费用(item_fee)、等。此外,还支持搜索商品(item_search)、按图搜索(item_search_img)、优惠券查询(item_search_coupon)、类目信息(item_cat_get)等功能。返回数据通常为JSON格式,包含商品标题、价格、库存、主图链接等基本信息,以及HTML格式的详细描述内容,方便开发者解析与展示。

315 5
|
8月前
|
传感器 数据采集 搜索推荐
|

重新定义未来:可穿戴设备的创新设计与制造

重新定义未来:可穿戴设备的创新设计与制造

372 9
|
8月前
|
机器学习/深度学习 传感器 大数据
|

大数据如何化解城市交通拥堵的难题?

大数据如何化解城市交通拥堵的难题?

321 5
|
8月前
|
数据采集 存储 监控
|

实时比分更新系统的搭建

这是一套完整的实时比分更新系统方案,涵盖系统架构、扩展功能、部署策略及注意事项。通过数据获取(API与爬虫)、处理(清洗验证)、存储(Redis/MySQL)、服务(RESTful/WebSocket)和展示(Web/移动端)等层次构建,支持推送通知、数据分析和多平台扩展(小程序/Discord)。同时注重数据合法性、性能优化与用户体验,适合从个人到商业级应用。示例代码展示了比赛数据的基本处理逻辑,确保关注与计划状态的准确传递。

206 7
|
8月前
|
机器学习/深度学习 人工智能 JSON
|

【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。

478 63
来自: 人工智能平台PAI  版块
|
8月前
|
数据采集 存储 NoSQL
|

如何避免Python爬虫重复抓取相同页面?

如何避免Python爬虫重复抓取相同页面?

352 1
|
8月前
|
人工智能 数据可视化 前端开发
|

自学软硬件工程师776天精简版github项目同步推送步骤

注意 这篇文章不是水内容的,虽然我之前也写过 github推送同步的内容。

210 0
|
8月前
|
API PHP 索引
|

这插件太危险了!PDFParser自动扒取PDF每天躺赚300+的暴利搬运术

本文介绍了如何使用PHP提取PDF文档中的文字内容。为解决PDF文档“不可编辑”或“文本无法复制”的问题,推荐使用免费的PHP库——PDFParser。通过Composer安装后,可利用其简单强大的API解析PDF文件,提取文本内容。文章详细演示了获取PDF基本信息、全文内容、指定页内容及循环输出每页文本的方法,并附带中英文PDF示例,操作简便实用。

312 3
|
8月前
|
数据采集 存储 消息中间件
|

数据应用:从采集到分析 —— 构建端到端数据管道

本文分享了一个针对亚洲航空官网的爬虫项目实践,从需求提出到最终优化,详细记录了故障解决与架构改进的过程。初期因频繁访问被限制后,通过引入代理IP、伪装User-Agent和Cookie等技术突破反爬机制。随后采用分布式爬虫架构、智能代理切换及容错重试机制提升系统稳定性。示例代码展示了如何配置代理并解析航班信息,为类似项目提供了完整的技术参考与经验总结。

193 9
|
8月前
|
前端开发 JavaScript
|

Vue2下载二进制文件

Vue2下载二进制文件

121 6
|
8月前
|
人工智能 自然语言处理 安全
|

基于LlamaIndex实现CodeAct Agent:代码执行工作流的技术架构与原理

CodeAct是一种先进的AI辅助系统范式,深度融合自然语言处理与代码执行能力。通过自定义代码执行代理,开发者可精准控制代码生成、执行及管理流程。本文基于LlamaIndex框架构建CodeAct Agent,解析其技术架构,包括代码执行环境、工作流定义系统、提示工程机制和状态管理系统。同时探讨安全性考量及应用场景,如软件开发、数据科学和教育领域。未来发展方向涵盖更精细的代码生成、多语言支持及更强的安全隔离机制,推动AI辅助编程边界拓展。

471 3
|
8月前
|
数据采集 机器学习/深度学习 人工智能
|

数据治理:让大数据成为真正的“金矿”

数据治理:让大数据成为真正的“金矿”

197 10
|
8月前
|
传感器 人工智能 物联网
|

智能鞋:从脚下开始的科技革命

智能鞋:从脚下开始的科技革命

575 6
|
8月前
|
机器学习/深度学习 人工智能 前端开发
|

Explore AI Ghibli: Creating Enchanting Ghibli Style Images with Artificial Intelligence

探索AI吉卜力:用人工智能创造迷人的吉卜力风格图像。吉卜力工作室以独特的动画风格著称,每一部作品都充满宁静的魔力。近年来,随着AI技术的发展,“AI吉卜力”现象兴起,通过OpenAI等技术生成模仿宫崎骏经典艺术风格的图像。尽管AI能复制吉卜力的视觉美学,但是否能捕捉其灵魂仍存争议。宫崎骏曾批评AI动画“是对生命的侮辱”。本文探讨了AI吉卜力的技术原理、工具应用及伦理问题,同时展示了其在个人创作、游戏开发和营销等领域的潜力。在享受AI带来的便利时,我们也需尊重原创艺术的价值。

332 6
|
8月前
|
存储 算法 调度
|

基于和声搜索优化算法的机器工作调度matlab仿真,输出甘特图

本程序基于和声搜索优化算法(Harmony Search, HS),实现机器工作调度的MATLAB仿真,输出甘特图展示调度结果。算法通过模拟音乐家即兴演奏寻找最佳和声的过程,优化任务在不同机器上的执行顺序,以最小化完成时间和最大化资源利用率为目标。程序适用于MATLAB 2022A版本,运行后无水印。核心参数包括和声记忆大小(HMS)等,适应度函数用于建模优化目标。附带完整代码与运行结果展示。

245 24
|
8月前
|
数据采集 机器学习/深度学习 数据挖掘
|

Python爬虫生成CSV文件的完整流程

Python爬虫生成CSV文件的完整流程

259 4
|
8月前
|
SQL 人工智能 数据挖掘
|

quickbi使用总结以及问题反馈

本文总结了使用QuickBI高级版及电子表格的功能体验与改进建议。内容涵盖具体报表使用(如趋势分析表、多维趋势表)、函数及其他模块(如LOD函数、自助取数)、AI智能问数模块以及数据集使用的优缺点。指出趋势分析表在复合指标处理上的不足,多维趋势表对比周期限制,以及1万条明细数据限制对年同比的影响等问题。同时提出未来期望,希望建立结合企业知识库的大模型,优化数据分析与建议能力。

721 46
来自: 数据可视化DataV  版块
|
8月前
|
人工智能 监控 算法
|

借助商品比价,深挖原数据宝藏,助力品牌维权升级

在电商时代,品牌维权面临新挑战与机遇。商品比价技术可实时监控价格异常,挖掘原数据揭示侵权真相,助力品牌从被动应对转向主动防御。通过智能化分析,品牌能优化策略、提升竞争力,并联合多方打击侵权行为。未来,随着AI和大数据发展,这一领域将更高效,推动品牌稳健成长。

180 44
|
8月前
|
数据采集 人工智能 监控
|

探讨 AI 驱动自适应数据采集技术

在当今互联网环境下,网页结构动态变化日益复杂,传统数据采集技术面临巨大挑战。本文探讨了基于AI算法的自适应数据采集方法,结合爬虫代理、Cookie与User-Agent设置等关键技术,应对动态页面变更。通过Python示例代码,展示如何稳定抓取目标网站数据,并分析该技术的优势、挑战及实际应用注意事项,为未来数据采集提供了新思路。

424 44
|
8月前
|
搜索推荐 数据挖掘 数据安全/隐私保护
|

频率派与贝叶斯统计在营销组合建模中的应用比较:隐私优先时代的方法选择

营销组合建模(MMM)是量化营销渠道贡献的核心工具,在数字营销进入隐私优先时代后焕发新生。文章探讨了频率派与贝叶斯统计学在MMM中的应用,前者实现简单、结果直观,适合数据充足场景;后者能整合先验知识、量化不确定性,适应复杂和数据稀缺情况。两者各有优劣,选择需结合业务需求与数据条件。贝叶斯方法在隐私保护趋势下尤为重要,为未来营销分析提供新思路。

247 47
|
8月前
|
机器学习/深度学习 人工智能 算法
|

AI鱼类识别技术原理及示例代码

本文详细解析了AI鱼类识别的代码示例,涵盖深度学习框架选择、数据集处理、模型构建与训练优化全流程。内容包括技术选型对比(如TensorFlow、PyTorch、YOLO系列)、数据准备流程(开源数据集与标注规范)、完整代码示例(以PyTorch版ResNet50改进模型为例)以及模型优化策略(如量化压缩、知识蒸馏)。此外,还提供了典型应用场景(如渔业资源监测系统)、模型评估指标及开源项目推荐,并针对常见问题(小样本、水下模糊、类别不平衡等)提出解决方案。

629 5
|
8月前
|
机器学习/深度学习 人工智能 运维
|

智能可穿戴设备如何革新职业健康管理?

智能可穿戴设备如何革新职业健康管理?

261 6
|
8月前
|
数据采集 分布式计算 数据可视化
|

大数据项目成功的秘诀——不只是技术,更是方法论!

大数据项目成功的秘诀——不只是技术,更是方法论!

226 8
|
8月前
|
数据可视化 Python
|

【负荷预测】基于变分模态分解(VMD-CNN-LSTM)的短期电力负荷预测【Python】

本项目实现了一种基于变分模态分解(VMD)的短期电力负荷预测模型——VMD-CNN-LSTM。通过VMD技术将原始电力负荷数据分解为多个平稳子序列,结合温度和时间等特征构建矩阵,输入CNN-LSTM模型训练,最终叠加重构得到预测结果。此方法有效应对非线性和非平稳性引起的误差,精度高且稳定性强。程序采用Python编写,注释清晰,运行稳定,并提供直观的可视化结果。附带部分代码及详细运行结果展示,下载链接已提供。

516 15
|
8月前
|
机器学习/深度学习 传感器 自然语言处理
|

基于Transformer架构的时间序列数据去噪技术研究

本文介绍了一种基于Transformer架构的时间序列去噪模型。通过生成合成数据训练,模型在不同噪声条件下展现出强去噪能力。文章详细解析了Transformer的输入嵌入、位置编码、自注意力机制及前馈网络等关键组件,并分析实验结果与注意力权重分布。研究为特定任务的模型优化和专业去噪模型开发奠定了基础。

543 14
|
8月前
|
机器学习/深度学习 编解码 人工智能
|

计算机视觉五大技术——深度学习在图像处理中的应用

深度学习利用多层神经网络实现人工智能,计算机视觉是其重要应用之一。图像分类通过卷积神经网络(CNN)判断图片类别,如“猫”或“狗”。目标检测不仅识别物体,还确定其位置,R-CNN系列模型逐步优化检测速度与精度。语义分割对图像每个像素分类,FCN开创像素级分类范式,DeepLab等进一步提升细节表现。实例分割结合目标检测与语义分割,Mask R-CNN实现精准实例区分。关键点检测用于人体姿态估计、人脸特征识别等,OpenPose和HRNet等技术推动该领域发展。这些方法在效率与准确性上不断进步,广泛应用于实际场景。

1093 64

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

21
今日
67707
内容
128
活动
439498
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务