|
Web App开发 缓存 安全
|

Chrome浏览器启动参数大全

这是一组用于定制浏览器行为的命令行参数,包括但不限于:不停用过期插件、放行非安全内容、允许应用中心脚本、停用GPU加速视频、禁用桌面通知、禁用拓展及各类API、调整缓存设置、启用打印预览、隐身模式启动、设定语言、使用代理服务器、无头模式运行等。通过这些参数,用户可以根据需求灵活调整浏览器功能与性能。

2430 0
ly~
|
分布式计算 Java 大数据
|

什么是“Java”

Java 是一种广泛应用的高级编程语言,以其简单性、面向对象、分布式、健壮性、安全性、平台独立性与可移植性、多线程、动态性著称。Java 主要应用于企业级信息系统(如 CRM 和 ERP)、安卓应用、大数据处理(如 Hadoop 和 Spark)及 Web 开发等领域。其运行机制包括两个阶段:首先是将源代码编译为字节码,然后字节码在 Java 虚拟机(JVM)上运行,通过解释执行或即时编译提高运行效率,实现跨平台特性。

1765 9
|
人工智能 分布式计算 数据处理
|

Big Data for AI实践:面向AI大模型开发和应用的大规模数据处理套件

文叙述的 Big Data for AI 最佳实践,基于阿里云人工智能平台PAI、MaxCompute自研分布式计算框架MaxFrame、Data-Juicer等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。

2141 7
来自: 人工智能平台PAI  版块
|
缓存 Shell 网络安全
|

Git Bash⭐二、与仓库建立连接、提交与下拉项目

Git Bash⭐二、与仓库建立连接、提交与下拉项目

1680 2
|
弹性计算 Kubernetes 开发者
|

利用容器化服务实现游戏服务器的动态资源配置

【8月更文第12天】在游戏行业中,用户基数的变化往往呈现出明显的波动性,特别是在推广活动期间,用户基数会显著增加,而在非推广期则会有所下降。为了应对这种变化,游戏开发者需要一种能够根据用户基数动态调整服务器资源的解决方案,以确保用户体验的同时最大限度地节省成本。容器化服务因其灵活的资源管理和成本控制能力,成为了理想的解决方案。

402 2
|
搜索推荐
|

想要刻录蓝光光盘吗? 快来了解最好的蓝光刻录软件!

在数字娱乐蓬勃发展的今天,追求高清震撼的视听体验已成为趋势。面对众多高清视频制作工具的选择难题,DVDFab Blu-ray Creator脱颖而出,被誉为最佳蓝光刻录软件。它不仅支持多种视频格式输入(如MP4, MKV)及高清1080p输出,还能制作个性化菜单,兼容不同输出介质(BD-R, BD-RE等)。只需几步即可完成从视频导入到成品输出的全过程,无论是家庭回忆还是专业项目都能完美呈现。

2263 0
|
弹性计算 人工智能 运维
|

60分钟深度测评阿里云基于大模型构建的操作系统智能助手

OS Copilot 概要 OS Copilot 是阿里巴巴云针对Linux操作系统开发的智能助手,集成在Alibaba Cloud Linux中,利用大模型技术提供自然语言问答、命令行辅助、阿里云CLI调用和系统运维功能。它尤其适合新手,直观的交互方式提升效率。此外,OS Copilot支持在操作系统内直接管理阿里云资源,简化运维任务。目前,该助手仅在特定版本的Alibaba Cloud Linux上可用。体验者可以通过提供的链接和指南进行实操,体验其功能,如命令行的自然语言交互和环境变量配置。OS Copilot在提高用户体验和工作流集成方面的创新,预示着未来AI在操作系统中的广泛应用。

747 1
来自: 人工智能平台PAI  版块
|
数据采集 DataWorks 监控
|

DataWorks产品使用合集之一直等待云端的gateway资源,该如何解决

DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

247 0
|
分布式计算 大数据 Java
|

MaxCompute产品使用合集之在datawoks的datastudio和odpscmd里执行时间没有问题,但是用jdbc连接大数据计算MaxCompute获取getdate()时间就不对,该怎么办

MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

275 2
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 人工智能 自然语言处理
|

NLP基础知识

自然语言处理(NLP)是计算机科学的交叉领域,涉及语言学、计算机科学和人工智能,用于让计算机理解、生成和处理人类语言。核心任务包括文本预处理、语言模型、文本分类、信息提取和机器翻译。常用工具有NLTK、spaCy和Hugging Face Transformers。深度学习,尤其是Transformer模型,极大地推动了NLP的进步。应用场景广泛,如搜索引擎、智能助手和医疗分析。未来趋势将聚焦多模态学习、跨语言理解和情绪识别,同时追求模型的可解释性和公平性。

1363 1
|
机器学习/深度学习 数据采集 分布式计算
|

【机器学习】Spark ML 对数据进行规范化预处理 StandardScaler 与向量拆分

标准化Scaler是数据预处理技术,用于将特征值映射到均值0、方差1的标准正态分布,以消除不同尺度特征的影响,提升模型稳定性和精度。Spark ML中的StandardScaler实现此功能,通过`.setInputCol`、`.setOutputCol`等方法配置并应用到DataFrame数据。示例展示了如何在Spark中使用StandardScaler进行数据规范化,包括创建SparkSession,构建DataFrame,使用VectorAssembler和StandardScaler,以及将向量拆分为列。规范化有助于降低特征重要性,提高模型训练速度和计算效率。

802 6
|
SQL HIVE
|

【Hive SQL】字符串操作函数你真的会用吗?

本文介绍了SQL中判断字符串是否包含子串的几种方法。`IN`函数判断元素是否完全等于给定元素组中的某项,而非包含关系。`INSTR`和`LOCATE`函数返回子串在字符串中首次出现的位置,用于检测是否存在子串。`SUBSTR`则用于提取字符串的子串。`LIKE`用于模糊匹配,常与通配符配合使用。注意`IN`并非用于判断子串包含。

1592 3
|
存储 Linux 虚拟化
|

Hyper-V 安装 CentOS 8.5

本文档介绍了在 Windows 10 上使用 Hyper-V 安装 CentOS 8.5.2111 的详细步骤

1105 3
|
Oracle 关系型数据库 MySQL
|

实时计算 Flink版操作报错之使用oracle-cdc的,遇到错误:ORA-01292: no log file has been specified for the current LogMiner session,该如何处理

在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

1084 0
来自: 实时计算 Flink  版块
|
监控 数据处理 索引
|

整合LlamaIndex与LangChain构建高级的查询处理系统

该文阐述了如何结合LlamaIndex和LangChain构建一个扩展性和定制性强的代理RAG应用。LlamaIndex擅长智能搜索,LangChain提供跨平台兼容性。代理RAG允许大型语言模型访问多个查询引擎,增强决策能力和多样化回答。文章通过示例代码展示了如何设置LLM、嵌入模型、LlamaIndex索引及查询引擎,并将它们转换为LangChain兼容的工具,实现高效、精准的问题解答。通过多代理协作,系统能处理复杂查询,提高答案质量和相关性。

1166 0
|
消息中间件 Docker 索引
|

【一文解读】阿里自研开源核心搜索引擎 Havenask简介及发展历史

本次分享内容为Havenask的简介及发展历史,由下面五个部分组成(Havenask整体介绍、名词解释、架构、代码结构、编译与部署),希望可以帮助大家更好了解和使用Havenask。

73406 0
来自: 智能搜索推荐  版块
|
人工智能 自然语言处理 搜索推荐
|

文本向量化模型新突破——acge_text_embedding勇夺C-MTEB榜首

在人工智能的浪潮中,大型语言模型(LLM)无疑是最引人注目的潮头。在支撑这些大型语言模型应用落地方面,文本向量化模型(Embedding Model)的重要性也不言而喻。 近期,我在浏览huggingface发现,国产自研文本向量化模型acge_text_embedding(以下简称“acge模型”)已经在业界权威的中文语义向量评测基准C-MTEB(Chinese Massive Text Embedding Benchmark)中获得了第一名。

4428 1
|
存储 机器学习/深度学习 算法
|

如何准确的估计llm推理和微调的内存消耗

最近发布的三个大型语言模型——Command-R+ (104B参数), Mixtral-8x22b (141B参数的MoE模型), 和 Llama 3 70b (70.6B参数)——需要巨大的内存资源。推理时,Command-R+需193.72GB GPU RAM,Mixtral-8x22B需262.63GB,Llama 370b需131.5GB。激活的内存消耗根据序列长度、批大小等因素变化。文章详细介绍了计算这些模型内存需求的方法,并探讨了如何通过量化、优化器优化和梯度检查点减少内存使用,以适应微调和推理。

2545 0
|
监控 Shell 开发工具
|

Debian安装与基本使用:详细指南及常见问题解析

【4月更文挑战第13天】本文档介绍了Debian的安装步骤、基本使用、问题解析及进阶技巧。首先,安装Debian涉及下载ISO镜像,制作启动介质,设置BIOS,然后进行安装过程,包括选择语言、分区、网络配置、软件包选择和用户账户设置。安装完成后,学会基本操作,如命令行使用、软件管理(apt)、系统更新和维护。遇到问题时,解决无线网络、分辨率、输入法和依赖问题。进阶技巧包括自定义Shell环境、使用虚拟化技术(Docker、LXC/LXD)、系统监控与性能调优,以及Git和自动化脚本的高级应用。通过学习这些技巧,可提升在Debian系统上的工作效率。

2475 0
|
Prometheus 监控 数据可视化
|

面试分享:Airflow工作流调度系统架构与使用指南

【4月更文挑战第10天】Apache Airflow是关键的工作流调度系统,本文结合面试经验,深入探讨其核心架构和使用技巧。重点包括:1) Airflow的Scheduler、Web Server、Worker和Metadata Database组件;2) DAG、Task和Operator的概念;3) DAG编写、调度及错误处理策略;4) 监控与扩展性,如自定义Operator和最佳实践。通过学习,助你在面试中应对Airflow相关问题,并提升实际工作中的数据工程能力。

1056 5
|
Linux 编译器 Shell
|

eBPF动手实践系列三:基于原生libbpf库的eBPF编程改进方案

为了简化 eBPF程序的开发流程,降低开发者在使用 libbpf 库时的入门难度,libbpf-bootstrap 框架应运而生。本文详细介绍基于原生libbpf库的eBPF编程改进方案。

1903 1
来自: 大数据运维SREWorks  版块
|
存储 BI 关系型数据库
|

数仓学习---数仓开发之DWS层

数仓学习---数仓开发之DWS层

1578 4
来自: 大数据计算 MaxCompute  版块
|
Windows
|

Coze开源软件Windows客户端-coze_desk

Coze开源软件Windows客户端-coze_desk

2411 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 人工智能 自然语言处理
|

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

视觉和语言模型的交叉导致了人工智能的变革性进步,使应用程序能够以类似于人类感知的方式理解和解释世界。大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。

950 0
|
消息中间件 安全 Kafka
|

一文搞懂Kafka中的listeners配置策略

1. listeners中的plaintext controller external是什么意思? 2. Kraft模式下controller和broker有何区别? 3. 集群节点之间同步什么数据,通过哪个端口,是否可以自定义端口? 4. 客户端通过哪个端口连接到kafka,通过9092连接的是什么,broker还是controller? 5. 为controller配置了单独的端口有什么用? 6. control.plane.listener.name与controller.listener.names有何区别?

3117 2
|
存储 消息中间件 搜索推荐
|

【前沿技术】 阿里开源搜索引擎Havenask的消息系统

Havenask是阿里巴巴智能引擎事业部自研的开源高性能搜索引擎,深度支持了包括淘宝、天猫、菜鸟、高德、饿了么在内几乎整个阿里的搜索业务。本文针对性介绍了Havenask的消息系统--Swift,它是一个设计用于处理大规模的数据流和实时消息传递的高性能、可靠的消息系统。

61392 3
来自: 智能搜索推荐  版块
|
存储 分布式计算 关系型数据库
|

离线数仓6.0--- 数据仓库概述

大数据学习

587 1
|
数据采集 存储 前端开发
|

pdd 商品详情数据接口Python

pdd 商品详情数据接口Python

1811 0
|
监控 搜索推荐 数据挖掘
|

淘宝关键词设置:技巧与实战指南

淘宝关键词设置:技巧与实战指南

2346 1
|
Linux 网络虚拟化
|

Debian系统安装OpenVPN

Debian系统安装OpenVPN

2289 0
|
存储 缓存 Java
|

ElasticSearch优化指南

ElasticSearch优化指南

640 1
|
数据可视化 决策智能 Python
|

三种常用的风险价值(VaR)计算方法总结

风险价值(VaR)是金融领域广泛使用的风险度量,它量化了在特定时间范围内和给定置信度水平下投资或投资组合的潜在损失。它提供了一个单一的数字,代表投资者在正常市场条件下可能经历的最大损失。VaR是风险管理、投资组合优化和法规遵从的重要工具。

2109 0
|
算法 自动驾驶 开发者
|

Cityscapes数据集(智能驾驶场景的语义分割)

面向智能驾驶(辅助驾驶、自动驾驶)场景下的语义分割任务,由于非结构化场景的复杂性,是一个非常具有挑战性的任务,所以有许多研究者和研究机构公开了很多相关的数据集推动语义分割领域的发展。本文主要介绍Cityscapes数据集。

1774 0
|
算法 数据挖掘 开发工具
|

以阿里云OpenSearch为例谈向量检索技术选型

本文从向量检索应用场景、常见的向量检索方法、向量检索性能优化、功能性能对比介绍了向量检索的业务应用场景和技术选型方式。

4773 3
来自: 智能搜索推荐  版块
|
Python
|

相关系数 r 和决定系数 R2 的那些事

有人说相关系数(correlation coefficient, r)和决定系数(coefficient of determination, R2,读作R-Squared)都是评价两个变量相关性的指标,且相关系数的平方就是决定系数?这种说法对不对呢?请听下文分解!

2914 0
|
机器学习/深度学习 人工智能 API
|

LabVIEW AI开发者福音:LabVIEW OpenVINO AI加速工具包,不来看看?

LabVIEW AI开发者福音:LabVIEW OpenVINO AI加速工具包,不来看看?

825 1
|
数据安全/隐私保护 数据格式 Python
|

python爬取快手商品数据

python爬取快手商品数据

1121 1
|
存储 编解码 自然语言处理
|

史诗级计算机字符编码知识分享,万字长文,一文即懂!

前一阵跟同事碰到了字符乱码的问题,了解后发现这个问题存在两年了,我们程序员每天都在跟编码打交道,但大家对字符编码都是一知半解:“天天吃猪肉却很少见过猪跑”,今天我就把它彻底讲透!

11304 3
|
SQL JSON 分布式计算
|

数据一致性比对(番外)

我写过很多如何去对数、如何批量对数的技术文档,最近项目遇到这个问题,我才发现在官方博客上还没有发布过这个课题的文章。这就像灯下黑,太长用到的知识点,反而没有意识到其重要性。

29120 0
|
机器学习/深度学习 人工智能 编解码
|

【DSW Gallery】基于EasyNLP-Diffusion模型的中文文图生成

EasyNLP提供多种模型的训练及预测功能,旨在帮助自然语言开发者方便快捷地构建模型并应用于生产。本文简要介绍文图生成的技术,以及如何在PAI-DSW中基于EasyNLP使用diffusion model进行finetune和预测评估。

1027 0
来自: 人工智能平台PAI  版块
|
存储 机器学习/深度学习 并行计算
|

vivo 推荐业务 x DeepRec:全链路优化实践

DeepRec提供大量的解决方案帮助vivo用户快速实施GPU推理,便于业务快速构建推荐服务及算法策略高效迭代。

1687 0
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 编解码 算法
|

BEVFormer-accelerate:基于EasyCV加速BEVFormer

BEVFormer是一种纯视觉的自动驾驶感知算法,通过融合环视相机图像的空间和时序特征显式的生成具有强表征能力的BEV特征,并应用于下游3D检测、分割等任务,取得了SOTA的结果。

1449 3
来自: 人工智能平台PAI  版块
|
机器学习/深度学习 人工智能 Cloud Native
|

阿里云机器学习平台 PAI宣布集成国产深度学习框架 OneFlow

在云栖大会上,阿里云机器学习PAI平台宣布集成自研深度学习框架OneFlow,进一步提升对国产算法框架的支持。PAI可以在架构上实现包括对国际主流、国内自研在内的任何第三方深度学习框架的支持。

915 0
来自: 人工智能平台PAI  版块
|
存储 运维 分布式计算
|

云原生离线实时一体化数仓建设与实践

本篇内容分享了云原生离线实时一体化数仓建设与实践。 分享人:刘一鸣 Hologres 产品经理

2211 1
来自: 大数据计算 MaxCompute  版块
|
机器学习/深度学习 存储 人工智能
|

浙江大学、达摩院、阿里云获中国电子学会科技进步一等奖

1月14日消息,中国电子学会公布“2021中国电子学会科学技术奖”名单,浙江大学、达摩院、阿里云完成的“超大规模高性能图神经网络计算平台及其应用”获得科技进步一等奖。

1450 0
来自: 人工智能平台PAI  版块
|
SQL 关系型数据库 MySQL
|

Flink CDC 系列 - 实现 MySQL 数据实时写入 Apache Doris

Flink CDC 结合 Doris Flink Connector 实现 MySQL 数据实时入 Apache Doris。

4803 1
来自: 实时计算 Flink  版块
|
数据采集 人工智能 运维
|

《一站式大数据开发治理DataWorks使用宝典》官方电子书开放下载

零基础入门大数据开发治理,上手DataWorks 10大模块

39931 2
|
JSON 编解码 缓存
|

Search template — Elastic Stack 实战手册

Elasticsearch 允许使用模板语言 mustache 来预设搜索逻辑,在实际搜索时,通过参数中的键值,对来替换模板中的占位符,最终完成搜索

965 0
|
canal 消息中间件 关系型数据库
|

Flink 最佳实践之使用 Canal 同步 MySQL 数据至 TiDB

本文将介绍如何将 MySQL 中的数据,通过 Binlog + Canal 的形式导入到 Kafka 中,继而被 Flink 消费的案例。

4820 0
来自: 实时计算 Flink  版块
|
存储 消息中间件 缓存
|

腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践

当业务发展到一定规模,实时数据仓库是一个必要的基础服务。从数据驱动方面考虑,多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下,拿腾讯看点来说,一天上报的数据量达到万亿级的规模,要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。

8021 0
来自: 实时计算 Flink  版块

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

0
今日
69153
内容
128
活动
439721
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务