|
15天前
|
人工智能 算法 云栖大会
|
置顶

开启云上 AIGC 动手实践,探索技术创意

面向 GenAI 时代,阿里云人工智能平台 PAI 平台自带海量开箱即用、实时更新的大模型最佳实践,提供高性能、高稳定的大模型工程化能力。本电子书精选 2024 云栖大会动手实践教程,覆盖大语言模型应用、多模态大模型微调训练、低代码 AIGC 创意设计等热门领域,为您带来 AIGC 开发全新体验。

57
来自: 人工智能平台PAI  版块
|
1小时前
|
分布式计算 资源调度 Hadoop
|

【赵渝强老师】基于ZooKeeper实现Hadoop HA

本文介绍了如何在4个节点(bigdata112、bigdata113、bigdata114和bigdata115)上部署HDFS高可用(HA)架构,并同时部署Yarn的HA。详细步骤包括环境变量设置、配置文件修改、ZooKeeper集群启动、JournalNode启动、HDFS格式化、ZooKeeper格式化以及启动Hadoop集群等。最后通过jps命令检查各节点上的后台进程,确保部署成功。

4 0
|
1小时前
|
大数据
|

【赵渝强老师】大数据主从架构的单点故障

大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。

7 0
|
1小时前
|
SQL 分布式计算 大数据
|

【赵渝强老师】大数据生态圈中的组件

本文介绍了大数据体系架构中的主要组件,包括Hadoop、Spark和Flink生态圈中的数据存储、计算和分析组件。数据存储组件包括HDFS、HBase、Hive和Kafka;计算组件包括MapReduce、Spark Core、Flink DataSet、Spark Streaming和Flink DataStream;分析组件包括Hive、Spark SQL和Flink SQL。文中还提供了相关组件的详细介绍和视频讲解。

6 0
|
1小时前
|
存储 编解码 搜索推荐
|

如何在Windows和Mac上免费将蓝光转换为MKV?

蓝光光盘因能提供高质量的视频和音频内容而备受青睐,但其使用上的局限性却不容忽视。相比之下,MKV作为一种广受支持的视频格式,与大多数播放设备和平台都能完美兼容,为用户带来了更大的便利性和灵活性。

6 0
|
1小时前
|
存储 分布式计算 NoSQL
|

【赵渝强老师】大数据技术的理论基础

本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。

4 0
|
2小时前
|
存储 分布式计算 并行计算
|

【赵渝强老师】Spark中的RDD

RDD(弹性分布式数据集)是Spark的核心数据模型,支持分布式并行计算。RDD由分区组成,每个分区由Spark Worker节点处理,具备自动容错、位置感知调度和缓存机制等特性。通过创建RDD,可以指定分区数量,并实现计算函数、依赖关系、分区器和优先位置列表等功能。视频讲解和示例代码进一步详细介绍了RDD的组成和特性。

6 0
|
2小时前
|
存储 缓存 分布式计算
|

【赵渝强老师】基于RBF的HDFS联邦架构

最新版Hadoop实现了基于Router的联盟架构,增强了集群管理能力。Router将挂载表从客户端中分离,解决了ViewFS的问题。RBF架构包括Router和State Store两个模块,其中Router作为代理服务,负责解析ViewFS并转发请求至正确子集群,State Store则维护子集群的状态和挂载表信息。

4 0
|
2小时前
|
分布式计算 流计算 Spark
|

【赵渝强老师】Spark Streaming中的DStream

本文介绍了Spark Streaming的核心概念DStream,即离散流。DStream通过时间间隔将连续的数据流转换为一系列不连续的RDD,再通过Transformation进行转换,实现流式数据的处理。文中以MyNetworkWordCount程序为例,展示了DStream生成RDD的过程,并附有视频讲解。

4 0
|
2小时前
|
SQL JSON 分布式计算
|

【赵渝强老师】Spark SQL的数据模型:DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

6 0
来自: 大数据计算 MaxCompute  版块
|
3小时前
|
存储 分布式计算 负载均衡
|

【赵渝强老师】基于ViewFS的HDFS联邦架构

本文介绍了HDFS联盟(Federation)的概念及其在大数据存储中的应用。HDFS联盟通过允许多个NameNode管理不同的命名空间,实现了负载均衡和NameNode的水平扩展。文章还详细解释了基于ViewFS的联盟架构,以及该方案的局限性。附带的视频进一步讲解了相关概念。

6 0
|
3小时前
|
消息中间件 负载均衡 Kafka
|

【赵渝强老师】Kafka的主题与分区

Kafka 中的消息按主题分类,生产者发送消息到特定主题,消费者订阅主题消费。主题可分多个分区,每个分区仅属一个主题。消息追加到分区时,Broker 分配唯一偏移量地址,确保消息在分区内的顺序性。Kafka 保证分区有序而非主题有序。示例中,Topic A 有 3 个分区,分区可分布于不同 Broker 上,支持负载均衡和容错。视频讲解及图示详见原文。

7 2
|
3小时前
|
消息中间件 Kafka
|

【赵渝强老师】Kafka分区的副本机制

在Kafka中,每个主题可有多个分区,每个分区有多个副本。其中仅有一个副本为Leader,负责对外服务,其余为Follower。当Leader所在Broker宕机时,Follower可被选为新的Leader,实现高可用。文中附有示意图及视频讲解。

5 0
|
3小时前
|
数据采集 存储 前端开发
|

Puppeteer教程:使用CSS选择器点击和爬取动态数据

本文介绍如何使用Puppeteer结合CSS选择器爬取动态网页数据,以贝壳网的二手房价格为例,通过代理IP提高爬虫成功率。文章详细讲解了Puppeteer的安装和配置、代码实现及数据趋势分析,帮助读者掌握动态网页爬取技术。

8 1
|
4小时前
|
SQL 分布式计算 Java
|

【赵渝强老师】Hive的体系架构

Hive是基于Hadoop的数据仓库平台,提供SQL-like的HQL语言进行数据分析,无需编写复杂的Java代码。Hive支持丰富的数据模型,可将SQL语句转换为MapReduce任务在Yarn上运行,底层依赖HDFS存储数据。Hive可通过CLI、JDBC和Web界面执行SQL查询。

8 2
|
4小时前
|
消息中间件 存储 负载均衡
|

【赵渝强老师】Kafka的体系架构

Kafka消息系统是一个分布式系统,包含生产者、消费者、Broker和ZooKeeper。生产者将消息发送到Broker,消费者从Broker中拉取消息并处理。主题按分区存储,每个分区有唯一的偏移量地址,确保消息顺序。Kafka支持负载均衡和容错。视频讲解和术语表进一步帮助理解。

7 0
|
6小时前
|
消息中间件 安全 Java
|

Java“NoInitialContextException”问题解决

Java中“NoInitialContextException”异常通常发生在JNDI(Java命名和目录接口)查找时缺少初始上下文配置。解决方法包括:确保JNDI提供者URL正确、添加必要的库文件、配置jndi.properties文件或在代码中显式指定InitialContext环境属性。

7 1
|
6小时前
|
分布式计算 资源调度 Hadoop
|

【赵渝强老师】部署Hadoop的本地模式

本文介绍了Hadoop的目录结构及本地模式部署方法,包括解压安装、设置环境变量、配置Hadoop参数等步骤,并通过一个简单的WordCount程序示例,演示了如何在本地模式下运行MapReduce任务。

4 0
|
6小时前
|
存储 分布式计算 Hadoop
|

【赵渝强老师】HDFS数据上传和下载的过程

本文介绍了Hadoop的HDFS中客户端如何通过NameNode上传和下载数据。上传时,数据按块保存至DataNode并实现冗余;下载时,客户端从DataNode获取数据块。文中配有详细流程图及B站视频讲解。

9 3
|
6小时前
|
SQL 存储 数据库
|

【赵渝强老师】基于Flink的流批一体架构

本文介绍了Flink如何实现流批一体的系统架构,包括数据集成、数仓架构和数据湖的流批一体方案。Flink通过统一的开发规范和SQL支持,解决了传统架构中的多套技术栈、数据链路冗余和数据口径不一致等问题,提高了开发效率和数据一致性。

15 7
来自: 实时计算 Flink  版块
|
7小时前
|
SQL 机器学习/深度学习 分布式计算
|

【赵渝强老师】Spark生态圈组件

本文介绍了Spark的生态圈体系架构,包括其核心执行引擎Spark Core、结构化数据处理模块Spark SQL、实时数据流处理模块Spark Streaming,以及机器学习框架MLlib和图计算框架GraphX。文中通过图片和视频详细解析了各模块的功能及访问接口。

8 2
来自: 大数据计算 MaxCompute  版块
|
7小时前
|
SQL 机器学习/深度学习 大数据
|

【赵渝强老师】Flink生态圈组件

Flink 是一个大数据计算引擎,支持批处理和流处理。其优势在于流处理引擎 DataStream。Flink 的生态圈分为三层:平台部署层、核心引擎层和 API&Library 层。平台部署层支持多种部署模式,核心引擎层负责任务执行,API&Library 层提供丰富的开发工具。

6 1
来自: 实时计算 Flink  版块
|
8小时前
|
SQL 分布式计算 Hadoop
|

【赵渝强老师】Hadoop生态圈组件

本文介绍了Hadoop生态圈的主要组件及其关系,包括HDFS、HBase、MapReduce与Yarn、Hive与Pig、Sqoop与Flume、ZooKeeper和HUE。每个组件的功能和作用都进行了简要说明,帮助读者更好地理解Hadoop生态系统。文中还附有图表和视频讲解,以便更直观地展示这些组件的交互方式。

14 5
|
8小时前
|
存储 编译器
|

使用尾调用的好处

尾调用优化可以避免函数调用栈的增加,减少内存消耗,提高程序性能,使递归等操作更加高效。

10 6
|
8小时前
|
资源调度 分布式计算 调度
|

【赵渝强老师】Yarn的资源调度策略

Yarn作为资源和任务调度平台,支持多个应用程序同时运行,如MapReduce、Spark和Flink等。Yarn的资源调度方式主要包括FIFO Scheduler(先来先服务)、Capacity Scheduler(容量调度)和Fair Scheduler(公平调度)。FIFO Scheduler按任务提交顺序调度;Capacity Scheduler通过队列管理资源,支持多租户共享;Fair Scheduler则根据任务权重动态分配资源,确保公平性。

18 8
|
8小时前
|
机器学习/深度学习 计算机视觉 网络架构
|

为什么卷积现在不火了:CNN研究热度降温的深层原因分析

纵观近年的顶会论文和研究热点,我们不得不承认一个现实:CNN相关的研究论文正在减少,曾经的"主角"似乎正逐渐淡出研究者的视野。

17 11
|
9小时前
|
SQL 数据采集 分布式计算
|

【赵渝强老师】基于大数据组件的平台架构

本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。

17 3
|
21小时前
|
算法
|

基于HASM模型的高精度建模matlab仿真

本课题使用HASM进行高精度建模,介绍HASM模型及其简化实现方法。HASM模型基于层次化与自适应统计思想,通过多层结构捕捉不同尺度特征,自适应调整参数,适用于大规模、高维度数据的分析与预测。MATLAB2022A版本运行测试,展示运行结果。

12 6
|
1天前
|
JSON 数据挖掘 API
|

电商信息指南:API接口淘宝关键词、店铺所有商品获取

要获取淘宝关键词商品数据和店铺所有商品的API接口,需先注册淘宝开放平台账号并创建应用,获取API密钥。接着,使用密钥获取访问令牌,详细阅读API文档,构造并发送API请求,解析响应数据。特别地,使用`item_search_shop`接口可获取店铺内所有商品信息。

12 2
|
1天前
|
API 开发者
|

京东关键词API接口获取

获取京东关键词 API 接口需完成三个步骤:1. 注册京东开发者账号;2. 创建应用并获取 key 和 secret;3. 查阅 API 文档,了解请求参数和示例。示例如下: ``` curl -i "https://api-gw.onebound.cn/jd/item_get/?key=<您的apiKey>&secret=<您的apiSecret>&num_iid=10335871600" ```

8 0
|
1天前
|
SQL 数据可视化 关系型数据库
|

阿里云DataV“山海计划” x Epic Fab:“中国风AIGC”助力智慧城市建设

DataV“山海计划”根据中国城市规划特色,建立城市地块、建筑、道路等“城市要素知识库”,基于AI大模型技术生成更贴近“中国特色”的城市场景。基于DataV“山海计划”的UE引擎插件已经登陆Epic Fab,广大UE引擎开发者可以通过该插件免费体验城市历史悠久的广州场景三维资产。除了三维城市场景生成,DataV为智慧城市提供完整的数据看板解决方案,提供200+基础图表、支持API、MySQL、SQL Server、人大金仓、达梦等30+数据源,通过DataV与UE引擎,广大开发者可以低成本获得“智慧城市”开发方案,将更多精力放在满足用户业务需求上,从而提升智慧城市项目的交付质量。

22 2
来自: 数据可视化DataV  版块
|
1天前
|
人工智能 Apache 流计算
|

参与Flink社区活动,免费赢取FFA大会两日通票~

Flink Forward Asia 2024 将于 11 月 29-30 日在上海举行,庆祝 Apache Flink 诞生十周年。大会将回顾 Flink 的技术成就,展望未来十年的发展,并介绍 Flink 2.0 版本。通过三种参与方式,您有机会免费赢取大会两日通票和 Flink 专属周边。

98 5
来自: 实时计算 Flink  版块
|
1天前
|
机器学习/深度学习 数据采集 TensorFlow
|

使用Python实现智能食品加工优化的深度学习模型

使用Python实现智能食品加工优化的深度学习模型

90 59
|
1天前
|
传感器 IDE 开发工具
|

如何在 Arduino 和 Raspberry Pi 上实现相同的功能

本文介绍了如何在Arduino和Raspberry Pi上实现相同的功能,通过对比两种平台的硬件和软件特性,帮助读者选择最适合项目的开发板,并提供实用的编程技巧和示例代码。

7 2
|
1天前
|
数据采集 运维 DataWorks
|

DataWorks on EMR StarRocks,打造标准湖仓新范式

本文整理自阿里云计算平台产品专家周硕(簌篱)在阿里云DataWorks on EMR StarRocks解决方案介绍中的分享。介绍了阿里云DataWorks与EMR Serverless StarRocks的结合使用,详细阐述了在数据同步、数据消费、数据治理三大场景中的核心能力。DataWorks作为大数据开发治理平台,提供了从数据建模、数据集成、数据开发到数据治理的全链路解决方案,结合StarRocks的高性能分析能力,帮助企业实现OLAP分析、湖仓一体开发及数据综合治理,满足复杂业务场景下的需求,提升数据处理和分析效率。

12 4
|
1天前
|
数据采集 人工智能 文字识别
|

如何绕过Captcha并使用OCR技术抓取数据

在现代网页数据抓取中,Captcha作为一种防止爬虫和恶意访问的措施,广泛应用于各种网站。本文介绍如何使用OCR技术绕过文字Captcha,并通过代理IP技术提高爬虫的隐蔽性。具体实现包括下载Captcha图片、使用Tesseract OCR识别文字、通过代理IP抓取目标数据。示例代码展示了如何抓取大众点评的商家信息。

12 0
|
1天前
|
监控
|

SMoA: 基于稀疏混合架构的大语言模型协同优化框架

通过引入稀疏化和角色多样性,SMoA为大语言模型多代理系统的发展开辟了新的方向。

13 6
|
1天前
|
运维 算法
|

基于Lipschitz李式指数的随机信号特征识别和故障检测matlab仿真

本程序基于Lipschitz李式指数进行随机信号特征识别和故障检测。使用MATLAB2013B版本运行,核心功能包括计算Lipschitz指数、绘制指数曲线、检测故障信号并标记异常区域。Lipschitz指数能够反映信号的局部动态行为,适用于机械振动分析等领域的故障诊断。

16 4
|
1天前
|
人工智能 架构师
|

活动火热报名中|阿里云&Elastic:AI Search Tech Day

2024年11月22日,阿里云与Elastic联合举办“AI Search Tech Day”技术思享会活动。

31 2
|
1天前
|
流计算 消息中间件 Kafka
|

flink接入Kafka断点续传问题

14 0
来自:实时计算 Flink 版块
|
2天前
|
UED
|

淘宝上货接口(淘宝发货接口)

淘宝上货接口是商家实现订单发货和物流跟踪的重要工具,可自动化处理订单,减少人工错误,提升用户体验。本文从接口概述、功能、使用方法及优缺点四方面详细介绍。

9 0
|
2天前
|
人工智能 算法 物联网
|

企业级RAG全链路优化关键技术

本文深入解析了企业级RAG全链路的关键技术、效果优化、性能优化及应用实践。

19 0
|
2天前
|
数据采集 Web App开发 JavaScript
|

如何在Puppeteer中实现表单自动填写与提交:问卷调查

本文介绍了如何使用 Puppeteer 和代理 IP 技术实现在线问卷调查的自动填写与提交。Puppeteer 是一个基于 Node.js 的无头浏览器自动化库,能够模拟用户行为,填写表单并提交数据。通过配置代理 IP,可以提高匿名性和爬取效率,避免因频繁请求而被封禁。本文提供了详细的代码示例和技术分析,帮助读者理解和应用这一技术。

12 0
|
2天前
|
机器学习/深度学习 自然语言处理 C++
|

TSMamba:基于Mamba架构的高效时间序列预测基础模型

TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。

15 4
|
2天前
|
机器学习/深度学习 数据采集 数据库
|

使用Python实现智能食品营养分析的深度学习模型

使用Python实现智能食品营养分析的深度学习模型

21 6
|
2天前
|
算法 调度
|

基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图

车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。

21 9
|
3天前
|
缓存 监控 Java
|

如何运用JAVA开发API接口?

本文详细介绍了如何使用Java开发API接口,涵盖创建、实现、测试和部署接口的关键步骤。同时,讨论了接口的安全性设计和设计原则,帮助开发者构建高效、安全、易于维护的API接口。

16 4
|
3天前
|
存储 人工智能 自然语言处理
|

高效档案管理案例介绍:文档内容批量结构化解决方案解析

档案文件内容丰富多样,传统人工管理耗时低效。思通数科AI平台通过自动布局分析、段落与标题检测、表格结构识别、嵌套内容还原及元数据生成等功能,实现档案的高精度分块处理和结构化存储,大幅提升管理和检索效率。某历史档案馆通过该平台完成了500万页档案的数字化,信息检索效率提升60%。

23 5

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

28
今日
64610
内容
110
活动
438170
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版
  • 日志服务