|
存储 数据采集 分布式计算
|

大数据是什么?用浅显的语言揭开神秘面纱

大数据是什么?用浅显的语言揭开神秘面纱

1257 11
|
机器学习/深度学习 存储 数据管理
|

面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现

循环状态空间模型(Recurrent State Space Models, RSSM)由 Danijar Hafer 等人提出,是现代基于模型的强化学习(MBRL)中的关键组件。RSSM 旨在构建可靠的环境动态预测模型,使智能体能够模拟未来轨迹并进行前瞻性规划。本文介绍了如何用 PyTorch 实现 RSSM,包括环境配置、模型架构(编码器、动态模型、解码器和奖励模型)、训练系统设计(经验回放缓冲区和智能体)及训练器实现。通过具体案例展示了在 CarRacing 环境中的应用,详细说明了数据收集、训练过程和实验结果。

1116 13
|
移动开发 JSON API
|

1688 商品详情数据接口(H5、APP 端)

1688商品详情数据接口是1688平台提供的数据交互通道,支持H5和APP端,提供商品的全面信息(如标题、价格、库存、销量等),并实时更新。开发者可通过HTTP/HTTPS协议调用接口,使用GET或POST方法获取数据。示例代码展示了如何用Python请求该接口,需替换API密钥和商品ID。

568 2
|
人工智能 自然语言处理 安全
|

新浪微博AIGC业务应用探索-AIGC应用平台助力业务提效实践

本次分享围绕AIGC技术在新浪微博的应用展开,涵盖四个部分。首先分析AIGC为微博带来的机遇与挑战,特别是在内容安全和模型幻觉等问题上的应对策略;其次介绍通过工程架构快速实现AIGC技术落地的方法,包括统一部署模型和服务编排;接着展示AIGC在微博的具体应用场景,如评论互动、视频总结和智能客服等;最后展望未来,探讨大模型的发展趋势及其在多模态和特定业务场景中的应用前景。

866 6
|
Web App开发 移动开发 安全
|

h5页面的优缺点(浅谈)

H5页面优点包括:跨平台性,易于传播,丰富的多媒体支持,开发成本低,更新便捷,良好的交互性。缺点则有:性能受限,功能受限,高度依赖网络,存在安全风险,用户体验一致性差。确保H5页面在不同设备上的兼容性,需遵循HTML5标准,使用响应式设计,并进行多设备测试。优化H5页面性能的方法包括减少HTTP请求,压缩文件大小,利用缓存机制,优化代码执行效率等。

2604 4
|
机器学习/深度学习 数据采集 供应链
|

使用Python实现智能食品消费需求预测的深度学习模型

使用Python实现智能食品消费需求预测的深度学习模型

389 10
|
JSON API 开发工具
|

淘宝实时 API 接口丨淘宝商品详情接口(Taobao.item_get)

淘宝商品详情接口(Taobao.item_get)允许开发者获取商品的详细信息,包括基本信息、描述、卖家资料、图片、属性及销售情况等。开发者需注册账号、创建应用并获取API密钥,通过构建请求获取JSON格式数据,注意遵守平台规则,合理使用接口,确保数据准确性和时效性。

1389 9
|
传感器 数据采集 监控
|

物联网 GE-PREDIX

GE-Predix 是一个由通用电气公司开发的工业互联网平台,旨在为工业设备提供连接、分析和管理服务。它支持设备数据的收集与分析,帮助企业优化运营效率,实现智能化转型。

1160 2
|
存储 编解码 搜索推荐
|

如何在Windows和Mac上免费将蓝光转换为MKV?

蓝光光盘因能提供高质量的视频和音频内容而备受青睐,但其使用上的局限性却不容忽视。相比之下,MKV作为一种广受支持的视频格式,与大多数播放设备和平台都能完美兼容,为用户带来了更大的便利性和灵活性。

2628 0
|
人工智能 算法 物联网
|

企业级RAG全链路优化关键技术

本文深入解析了企业级RAG全链路的关键技术、效果优化、性能优化及应用实践。

3061 2
|
Python
|

【10月更文挑战第10天】「Mac上学Python 20」小学奥数篇6 - 一元一次方程求解

本篇将通过 Python 和 Cangjie 双语讲解如何求解一元一次方程。通过这道题,学生将掌握如何用编程实现方程求解,并体验基本的代数计算。

780 1
ly~
|
Ubuntu Linux C语言
|

SDL 图形库安装常见错误及解决方法

SDL(Simple DirectMedia Layer)图形库安装过程中可能会遇到编译错误、运行时错误、依赖库缺失等问题。本文总结了在 Linux 和 Windows 系统上常见的错误及解决方法,包括检查和安装依赖库、配置 SDL 子系统、处理 X11 错误等,帮助用户顺利完成 SDL 的安装和配置。

3361 8
|
Web App开发 前端开发 JavaScript
|

探索Python科学计算的边界:利用Selenium进行Web应用性能测试与优化

【10月更文挑战第6天】随着互联网技术的发展,Web应用程序已经成为人们日常生活和工作中不可或缺的一部分。这些应用不仅需要提供丰富的功能,还必须具备良好的性能表现以保证用户体验。性能测试是确保Web应用能够快速响应用户请求并处理大量并发访问的关键步骤之一。本文将探讨如何使用Python结合Selenium来进行Web应用的性能测试,并通过实际代码示例展示如何识别瓶颈及优化应用。

903 5
|
机器学习/深度学习 数据可视化 数据挖掘
|

【10月更文挑战第4天】「Mac上学Python 5」入门篇5 - Jupyter 环境配置与高效使用技巧

本篇将介绍如何在Mac系统上安装和配置Jupyter,并详细介绍Jupyter Notebook的一些常用“神奇函数”。Jupyter是一个支持交互式计算的工具,广泛用于数据分析、机器学习等领域,通过学习本篇,用户将能够在Python项目中高效使用Jupyter Notebook。

702 3
|
监控 安全 Apache
|

构建安全的URL重定向策略:确保从Web到App平滑过渡的最佳实践

【10月更文挑战第2天】URL重定向是Web开发中常见的操作,它允许服务器根据请求的URL将用户重定向到另一个URL。然而,如果重定向过程没有得到妥善处理,可能会导致安全漏洞,如开放重定向攻击。因此,确保重定向过程的安全性至关重要。

784 1
|
机器学习/深度学习 PyTorch 算法框架/工具
|

图像数据增强库综述:10个强大图像增强工具对比与分析

在深度学习和计算机视觉领域,数据增强是提升模型性能和泛化能力的关键技术。本文全面介绍了10个广泛使用的图像数据增强库,分析其特点和适用场景,帮助研究人员和开发者选择最适合需求的工具。这些库包括高性能的GPU加速解决方案(如Nvidia DALI)、灵活多功能的Albumentations和Imgaug,以及专注于特定框架的Kornia和Torchvision Transforms。通过详细比较各库的功能、特点和适用场景,本文为不同需求的用户提供丰富的选择,助力深度学习项目取得更好的效果。选择合适的数据增强库需考虑性能需求、任务类型、框架兼容性及易用性等因素。

2275 10
|
存储 大数据 测试技术
|

用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响

在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。

1926 1
|
SQL Java 关系型数据库
|

实时数仓 Hologres产品使用合集之如何安装和使用Java SDK

实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。

583 3
来自: 实时数仓 Hologres  版块
|
机器学习/深度学习 人工智能 算法
|

AI入门必读:Java实现常见AI算法及实际应用,有两下子!

本文全面介绍了人工智能(AI)的基础知识、操作教程、算法实现及其在实际项目中的应用。首先,从AI的概念出发,解释了AI如何使机器具备学习、思考、决策和交流的能力,并列举了日常生活中的常见应用场景,如手机助手、推荐系统、自动驾驶等。接着,详细介绍了AI在提高效率、增强用户体验、促进技术创新和解决复杂问题等方面的显著作用,同时展望了AI的未来发展趋势,包括自我学习能力的提升、人机协作的增强、伦理法规的完善以及行业垂直化应用的拓展等...

2316 3
|
分布式计算 Java Serverless
|

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

本文以 ECS 连接 EMR Serverless Spark 为例,介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。

1144 7
|
机器学习/深度学习 资源调度 自然语言处理
|

Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE

在NLP中,位置编码如RoPE、CoPE等增强模型对序列顺序的理解。RoPE通过旋转矩阵编码位置,适应不同距离的相对位置。线性旋转、NTK和YaRN是RoPE的变体,优化长序列处理。CoPE是动态的,根据序列内容调整位置编码,改善长距离依赖的捕捉。这些技术提升了模型在处理复杂语言任务时的性能。

1126 5
|
机器学习/深度学习 数据采集 算法
|

Python实现Catboost分类模型(CatBoostClassifier算法)项目实战

Python实现Catboost分类模型(CatBoostClassifier算法)项目实战

1271 0
来自: 人工智能平台PAI  版块
|
IDE PHP 开发工具
|

「Python入门」python环境搭建及VScode使用python运行方式

**Python 概述与环境搭建摘要** Python是一种解释型、面向对象、交互式的脚本语言,以其简单易学和丰富库著称。安装Python时,推荐在Windows上选择.exe安装程序,记得勾选“Add Python to PATH”。安装完成后,通过环境变量配置确保Python可被系统识别。验证安装成功,可在CMD中输入`python --version`。Visual Studio Code (VScode)是流行的Python IDE,安装Python插件并选择解释器后,可直接在VScode内编写和运行Python代码。

1153 0
|
机器学习/深度学习 算法 开发工具
|

通义千问2(Qwen2)大语言模型在PAI-QuickStart的微调、评测与部署实践

阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对Qwen2模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现Qwen2系列模型的微调、评测和快速部署。

62733 19
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 算法 算法框架/工具
|

e - 一个神奇的存在

本文介绍了数学常数e,即自然对数的底,约等于2.71828,由欧拉命名。e是一个无限不循环小数,可通过级数1 + 1/n!表示。e在数学、物理、工程和计算机科学等领域有广泛应用,尤其在微积分、复利、概率统计和算法分析中扮演关键角色。它是自然界和科学研究中的基本概念。

2122 1
|
SQL 关系型数据库 MySQL
|

SQLAlchemy使用指南

**SQLAlchemy 指南**:Python SQL 工具包,提供数据库高级抽象。安装:`pip install sqlalchemy`,加上数据库驱动(如 MySQL: `pip install mysql-connector-python`)。基础使用包括:创建数据库连接、定义模型、创建表、添加/查询/更新/删除数据。高级功能涉及关系映射、原生 SQL 语句及 SQLAlchemy Core。推荐阅读官方文档以深入了解。

1474 1
|
SQL 存储 分布式计算
|

流批一体技术简介

本文由阿里云 Flink 团队苏轩楠老师撰写,旨在向 Flink 用户整体介绍 Flink 流批一体的技术和挑战。

51718 3
来自: 实时计算 Flink  版块
|
SQL 分布式计算 资源调度
|

一文看懂 Hive 优化大全(参数配置、语法优化)

以下是对提供的内容的摘要,总长度为240个字符: 在Hadoop集群中,服务器环境包括3台机器,分别运行不同的服务,如NodeManager、DataNode、NameNode等。集群组件版本包括jdk 1.8、mysql 5.7、hadoop 3.1.3和hive 3.1.2。文章讨论了YARN的配置优化,如`yarn.nodemanager.resource.memory-mb`、`yarn.nodemanager.vmem-check-enabled`和`hive.map.aggr`等参数,以及Map-Side聚合优化、Map Join和Bucket Map Join。

1387 0
|
存储 NoSQL 关系型数据库
|

索引!索引!!索引!!!到底什么是索引?

**索引是数据库中的数据结构,类似书籍目录,加速数据查找和访问。优点包括提升查询性能、数据检索速度、支持唯一性约束及优化排序和连接操作。缺点在于增加写操作开销、占用存储空间、高维护成本和过多索引可能降低性能。常见的索引类型有单值、复合、唯一、聚集和非聚集索引等,实现方式涉及B树、B+树和哈希表。B树和B+树适合磁盘存储,B+树尤其适用于范围查询,哈希索引则适用于快速等值查询。**

2102 0
|
存储 搜索推荐 算法
|

C语言数据结构算法,常用10种排序实战

插入排序(Insertion Sort) 希尔排序(Shell Sort) 选择排序(Selection Sort) 冒泡排序(Bubble Sort) 归并排序(Merge Sort) 快速排序(Quick Sort) 堆排序(Heap Sort) 基数排序(Radix Sort)

475 1
|
Linux 编译器 Shell
|

eBPF动手实践系列三:基于原生libbpf库的eBPF编程改进方案

为了简化 eBPF程序的开发流程,降低开发者在使用 libbpf 库时的入门难度,libbpf-bootstrap 框架应运而生。本文详细介绍基于原生libbpf库的eBPF编程改进方案。

2110 1
来自: 大数据运维SREWorks  版块
|
编解码 自然语言处理 数据挖掘
|

Nomic Embed:能够复现的SOTA开源嵌入模型

Nomic-embed-text是2月份刚发布的,并且是一个完全开源的英文文本嵌入模型,上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型,如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。

1406 1
|
机器学习/深度学习 人工智能 算法
|

AI+组合优化 |机器学习顶会ICLR/ICML/NeurIPS'23最新进展-MIP求解篇(附原文源码)

本文梳理了ICLR 2023、ICML 2023、NeurIPS 2023有关机器学习+混合整数规划问题求解加速求解加速的研究成果,总共包含8篇文章。

2017 0
|
机器学习/深度学习 PyTorch TensorFlow
|

TensorRT 模型加速——输入、输出、部署流程

本文首先简要介绍 Tensor RT 的输入、输出以及部署流程,了解 Tensor RT 在部署模型中起到的作用。然后介绍 Tensor RT 模型导入流程,针对不同的深度学习框架,使用不同的方法导入模型。

3886 1

浅谈RISC-V指令集的基本指令格式和立即数操作

在以前的文章中,我分享了RISC-V在设计的初衷,除了可以被通用软件开发使用之外,还有一个目的就是,可以支持更多定制化的设计。也就是说,用户可以在基本指令集上面,进行一个或者多个的指令集扩展操作,但是有一个条件,不能再重新定义基本指令集。也就是说,任何一款基于RISC-V指令集的处理器,都要能够支撑整数基本指令集。可以看出基本指令集的重要性。

2081 0
|
算法 Java 决策智能
|

运筹优化工具库介绍(一)

运筹优化问题有时候极其复杂,我们可以使用运筹优化工具库帮助数学建模,解决复杂的最优化问题,本文介绍几个常见的运筹优化工具库。

2873 0
|
SQL 分布式计算 大数据
|

MaxCompute元数据使用实践 -- 数据下载审计

通过MaxCompute租户级别Information Schema的“TUNNELS_HISTORY”视图可以统计查看通过Tunnel通道进行数据上传下载的相关详细信息,方便您进行数据流转的审计排查。

1224 0
来自: 大数据计算 MaxCompute  版块
|
Linux 网络安全 文件存储
|

本地部署Jellyfin影音服务器 - 公网远程影音库

随着移动智能设备的普及,各种各样的使用需求也被开发出来,从最早的移动听音乐、看图片(MP3时代),到之后的移动视频需求(MP4时代)到现在的移动流媒体需求(智能手机看视频)。但当我们习惯这些需求后,忽然发现自己不知不觉间成了待割的韭菜(3台设备就要加钱)。作为一颗倔强的韭菜,自然不会甘愿被割,因此打算自建一个私人影音媒体平台。现在,笔者就向大家展示,使用cpolar内网穿透+ Jellyfin,自建私人影音平台的全过程。

1102 0
|
存储 监控 数据可视化
|

2023年19款最佳3D打印软件

3D打印软件程序是高质量打印,设计和监控的关键 - 没有软件,3D打印机只是没有方向的机器。3D 打印机软件采用各种不同的形式:用于设计 3D 模型的 3D 软件建模工具、用于切片 STL 文件以进行打印的 3D 切片器,以及用于修复模型中错误的专业软件。 为了让您更轻松,我们将每种类型的3D打印机软件分成几个部分。在每个部分中,我们都有免费的3D打印软件选项,以及高级付费选项。

2805 0
|
人工智能 搜索推荐 测试技术
|

如何使用聊天GPT自定义说明

探索 ChatGPT 自定义说明功能。了解如何微调响应,探索教师、企业家和内容创建者的用例。

777 0
|
Kubernetes 持续交付 开发者
|

使用 Docker 和 Kubernetes 实现持续集成和持续部署(CI/CD)

使用 Docker 和 Kubernetes 实现持续集成和持续部署,可以为开发团队带来更高效、稳定的交付流程。这种自动化的部署方式能够显著提高交付速度、降低发布风险,并为应用的扩展和管理提供了强大的工具。然而,构建一个完善的 CI/CD 环境需要根据团队的需求和实际情况进行调整和优化。

3039 1
|
存储 缓存 分布式计算
|

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

本篇文章介绍了 Gluten 项目的背景和目标,以及它如何解决基于 Apache Spark 的数据负载场景中的 CPU 计算瓶颈。此外,还详细介绍了 Gluten 与 Celeborn 的集成。Celeborn 采用了 Push Shuffle 的设计,通过远端存储、数据重组、内存缓存、多副本等设计,不仅进一步提升 Gluten Shuffle 的性能和稳定性,还使得 Gluten 拥有更好的弹性,从而更好的拥抱云原生。

3351 4
|
XML JSON 编解码
|

Thrift 介绍

Thrift 介绍

782 0
|
机器学习/深度学习 测试技术
|

机器学习系列 | 01:多类别分类任务(multi-class)中为何precision,recall和F1相等?

在 multi-class 分类任务中,如果使用 micro 类指标,那么 micro-precision, micro-recall和micro-F1值都是相等的。本文主要针对这个现象进行解释。

2138 0
|
机器学习/深度学习 数据采集 自然语言处理
|

【Deep Learning A情感文本分类实战】2023 Pytorch+Bert、Roberta+TextCNN、BiLstm、Lstm等实现IMDB情感文本分类完整项目(项目已开源)

亮点:代码开源+结构清晰+准确率高+保姆级解析 🍊本项目使用Pytorch框架,使用上游语言模型+下游网络模型的结构实现IMDB情感分析 🍊语言模型可选择Bert、Roberta 🍊神经网络模型可选择BiLstm、LSTM、TextCNN、Rnn、Gru、Fnn共6种 🍊语言模型和网络模型扩展性较好,方便读者自己对模型进行修改

1767 0
|
自然语言处理 搜索推荐 算法
|

阿里云OpenSearch重磅推出LLM问答式搜索产品,助力企业高效构建对话式搜索服务

OpenSearch推出LLM智能问答版,面向行业搜索场景,提供企业专属问答搜索服务,基于内置的LLM大模型提供问答能力,一站式快速搭建问答搜索系统。

13394 7
来自: 智能搜索推荐  版块
|
安全 5G 定位技术
|

IM开发者的零基础通信技术入门(十二):上网卡顿?网络掉线?一文即懂!

本文将详细介绍生活中遇到的常见网络问题,及可能的解决方法,虽说是一篇技术文章,但内容将一如既往地通俗易懂,简单实用。

765 0
|
存储 SQL 弹性计算
|

实时数仓Hologres新一代弹性计算组实例技术揭秘

实时数仓Hologres新一代弹性计算组实例技术揭秘

3180 57
来自: 实时数仓 Hologres  版块
|
机器学习/深度学习 自然语言处理 算法
|

跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA

本⽂简要介绍我们在电商下对CLIP模型的优化,以及上述模型在公开数据集上的评测结果。最后,我们介绍如何在EasyNLP框架中调用上述电商CLIP模型。

3351 0
来自: 人工智能平台PAI  版块
|
消息中间件 存储 SQL
|

阿里云Flink x Hologres:构建企业级一站式实时数仓

阿里云Flink x Hologres:构建企业级一站式实时数仓

4413 0
来自: 实时数仓 Hologres  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

1
今日
69521
内容
128
活动
439954
关注
你好!
登录掌握更多精彩内容

活跃用户

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务