大数据产品管理平台Apache Ambari研究

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在项目中,客户要求使用开源大数据平台,为实现开源大数据平台可管可控,满足企业级服务要求,特选型研究Ambari,预期简化部署,提升平台稳定运行和日常监控能力。个人观点,在企业级服务中尽量选用阿里云飞天平台这类稳定输出的商业级产品,其稳定性,管控能力均拥有较高的水平,不是开源产品可以比拟的。因此本文研究内容,仅作为备选技术方案。

1、环境准备

1.1、配置时间同步

centos7开始使用chrony进行始终同步,安装chrony并配置始终同步,设置为开机启动

yum -y install chrony  #系统默认已经安装,如未安装,请执行以下命令安装

1.2、配置主机名、映射

  • 设置主机名:
[root@cdh1 ~]hostnamectl set-hostname hdp1
[root@cdh2 ~]hostnamectl set-hostname hdp3
[root@cdh3 ~]hostnamectl set-hostname hdp5
  • 设置主机映射:
vi /etc/hosts,添加以下内容【每台都需要】
10.10.101.1 hdp1
10.10.101.3 hdp3
10.10.101.5 hdp5

1.3、取消大叶内存

注意:【所有节点都需要】

sysctl -w vm.swappiness=0echo"vm.swappiness=0" >>/etc/sysctl.conf echo never > /sys/kernel/mm/transparent_hugepage/defrag echo never > /sys/kernel/mm/transparent_hugepage/enabled

1.4、数据库驱动配置

注意:【所有节点都需要】

第一步:重命名Mysql驱动包,把版本号去掉

mv mysql-connector-java-5.1.44-bin.jar mysql-connector-java.jar

第二步:将jar包移到java共享目录下

mv mysql-connector-java.jar /usr/share/java/

第三步:将Mysql驱动包分发到另外两台服务器

scp mysql-connector-java.jar admin@10.10.101.3:/home/admin/
scp mysql-connector-java.jar admin@10.10.101.5:/home/admin/
sudomkdir /usr/share/java/
sudocp /home/admin/mysql-connector-java.jar /usr/share/java/

1.5、安装JDK/etc/profile

注意:要设置java环境变量,每个机器都要配置

10.10.101.4scp目录:/usr/local/jdk1.8.0_112,可以自行下载解压

  • cd /usr/local/
  • 设置软连接:sudo ln -s jdk1.8.0_112 jdk
  • 设置环境变量:
  1. sudo vi /etc/profile
  • export JAVA_HOME=/usr/local/jdk
  • export PATH=$PATH:$JAVA_HOME/bin
  1. source /etc/profile

1.6、免密

切换rootsudo -i -uroot

查看密钥:cat ~/.ssh/id_rsa

生成密钥:ssh-keygen

ssh-copy-id hdp1

 

ssh-copy-id -i

1.7、关闭防火墙

查看防火墙状态:firewall-cmd -state

停止firewall

systemctl stop firewalld.service

禁止firewall开机启动:

systemctl disable firewalld.service

1.8、关闭selinux

  • 获取当前selinux状态:getenforce
  1. Enforcing为开启
  2. Disabled为关闭
  • sudo vim /etc/sysconfig/selinux
  • 替换:SELINUX=disabled
  • 重启:reboot

1.9、设置unlimit参数

注意:【所有节点】

官方建议大于等于10000

cd /etc/security/limits.d/
sudovi hadoop.conf
  • 输入以下内容
*        soft    noproc 65535*        hard    noproc 65535*        soft    nofile 65535*        hard    nofile 65535
  • 退出当前会话,重新登录生效

 

2、制作本地yum

使用10.10.101.251】,我的实验环境服务器,需替换。

2.1、安装包准备

2.2、yum文件准备

下载方式:

本地方式:

在各自的安装包中存在。比如:ambari中:ambari/centos7/2.6.2.2-1/ambari.repo

2.3、安装http

yum install httpd
systemctl start httpd
systemctl enable httpd

2.4、制作源

mkdir /var/www/html/ambari/HDP -Pmkdir /var/www/html/ambari/HDP-UTILS
cd

2.5、编辑yum文件

cd /etc/yum.repos.d
sudovi ambari.repo
#VERSION_NUMBER=2.6.2.2-1[ambari-2.6.2.2]
name=ambari Version - ambari-2.6.2.2
baseurl=http://10.10.101.251/hdp/ambari/centos7/2.6.2.2-1/
gpgcheck=1gpgkey=http://10.10.101.251/hdp/ambari/centos7/2.6.2.2-1/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins
enabled=1priority=1
sudovi hdp.repo
#VERSION_NUMBER=2.6.5.0-292[HDP-2.6.5.0]
name=HDP Version - HDP-2.6.5.0
baseurl=http://10.10.101.251/hdp/HDP/centos7/2.6.5.0-292/
gpgcheck=1gpgkey=http://10.10.101.251/hdp/HDP/centos7/2.6.5.0-292/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins
enabled=1priority=1[HDP-UTILS-1.1.0.22]
name=HDP-UTILS Version - HDP-UTILS-1.1.0.22
baseurl=http://10.10.101.251/hdp/HDP-UTILS/centos7/1.1.0.22/
gpgcheck=1gpgkey=http://10.10.101.251/hdp/HDP-UTILS/centos7/1.1.0.22/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins
enabled=1priority=1

 

sudovi hdp.gpl.repo
#VERSION_NUMBER=2.6.5.0-292[HDP-GPL-2.6.5.0]
name=HDP-GPL Version - HDP-GPL-2.6.5.0
baseurl=http://10.10.101.251/hdp/HDP-GPL/centos7/2.6.5.0-292/
gpgcheck=1gpgkey=http://10.10.101.251/hdp/HDP-GPL/centos7/2.6.5.0-292/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins
enabled=1priority=1

3、数据库准备

此处不再赘述,实验环境使用存在的数据库:ambari_dianxin

  • 地址:10.10.101.10
  • Userambari_dianxin
  • Pwdambari_dianxin
  • 进入数据库:mysql -uambari_dianxin -pambari_dianxin

4、安装ambari-server

  • 下载:
sudo yum install -y ambari-server
  • 设置:
sudo ambari-server setup
[admin@hdp1 yum.repos.d]$ sudo ambari-server reset
Using python  /usr/bin/python
Resetting ambari-server
**** WARNING **** You are about to reset and clear the Ambari Server database. This will remove all cluster host and configuration information from the database. You will be required to re-configure the Ambari server and re-run the cluster wizard.
Are you SURE you want to perform the reset [yes/no] (no)? yesERROR: Exiting with exit code 1.
REASON: Ambari doesn't support resetting exernal DB automatically. To reset Ambari Server schema you must first drop and then create it using DDL scripts from "/var/lib/ambari-server/resources/"[admin@hdp1 yum.repos.d]$ sudo ambari-server setupUsing python  /usr/bin/pythonSetup ambari-serverChecking SELinux...SELinux status is 'disabled'Ambari-server daemon is configured to run under user 'ambari'. Change this setting [y/n] (n)?Adjusting ambari-server permissions and ownership...Checking firewall status...WARNING: iptables is running. Confirm the necessary Ambari ports are accessible. Refer to the Ambari documentation for more details on ports.OK to continue [y/n] (y)?Checking JDK...Do you want to change Oracle JDK [y/n] (n)? y[1] Oracle JDK 1.8 + Java Cryptography Extension (JCE) Policy Files 8[2] Oracle JDK 1.7 + Java Cryptography Extension (JCE) Policy Files 7[3] Custom JDK==============================================================================Enter choice (1): 3WARNING: JDK must be installed on all hosts and JAVA_HOME must be valid on all hosts.WARNING: JCE Policy files are required for configuring Kerberos security. If you plan to use Kerberos,please make sure JCE Unlimited Strength Jurisdiction Policy Files are valid on all hosts.Path to JAVA_HOME: /usr/local/jdkValidating JDK on Ambari Server...done.Checking GPL software agreement...Completing setup...Configuring database...Enter advanced database configuration [y/n] (n)? yConfiguring database...==============================================================================Choose one of the following options:[1] - PostgreSQL (Embedded)[2] - Oracle[3] - MySQL / MariaDB[4] - PostgreSQL[5] - Microsoft SQL Server (Tech Preview)[6] - SQL Anywhere[7] - BDB==============================================================================Enter choice (3):Hostname (10.10.101.10):Port (3309):Database name (ambari_dianxin):Username (ambari_dianxin):Enter Database Password (ambari_dianxin):Configuring ambari database...Configuring remote database connection properties...WARNING: Before starting Ambari Server, you must run the following DDL against the database to create the schema: /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sqlProceed with configuring remote database connection properties [y/n] (y)? yExtracting system views...............Adjusting ambari-server permissions and ownership...Ambari Server 'setup' completed successfully.


  • 执行sql:由于sql文件与数据库不在一个节点,所以需要转发过去。
scp /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sql admin@10.10.101.10:/home/admin/
  • 执行ambari的建表语句:
source /home/admin/Ambari-DDL-MySQL-CREATE.sql
  • 启动服务:
ambari-server start
  • 成功提示:Ambari Server 'start' completed successfully
  • 在界面验证:http://10.10.1.1:8080账户:admin,密码:admin
  • 失败查看日志:/var/log/ambari-server/ambari-server.log

5、搭建集群

登录Ambari界面:http://10.10.1.1:8080

image.png

image.png

image.png

image.png

输入地址:(IP是我的实验环境服务器,需替换)

http://10.10.101.251/hdp/HDP/centos7/2.6.5.0-292/

http://10.10.101.251/hdp/HDP-UTILS/centos7/1.1.0.22/

image.png

查看密钥:

cat ~/.ssh/id_rsa

然后输入到文本框

image.png

如果这一步出现如下错误,通过以下方式解决,

错误:

ERROR 2018-05-30 00:12:25,280 NetUtil.py:96 - EOF occurred in violation of protocol (_ssl.c:579)

ERROR 2018-05-30 00:12:25,280 NetUtil.py:97 - SSLError: Failed to connect. Please check openssl library versions.

解决方式:

1.修改/etc/python/cert-verification.cfg配置文件:
# vim /etc/python/cert-verification.cfg[https]
verify=disable
2、编辑 /etc/ambari-agent/conf/ambari-agent.ini 配置文件,在 [security] 节部分,确保设置如下两个值,其它值保持不变:
    [root@ambari ~]# vi /etc/ambari-agent/conf/ambari-agent.ini    [security]
ssl_verify_cert=0force_https_protocol=PROTOCOL_TLSv1_2
保存退出,重启 ambari-agent:
    [root@ambari ~]# ambari-agent restart

若还是不能注册ambari-agent,使用下面介绍的方式。

如果上面方式还不能注册,说明jdk版本不对,使用默认oraclejdk,(2.6.2.2版本ambari需要使用java version "1.8.0_112")


如果一个节点重启后agent无法连接的话解决方法如下

ambari管理大数据集群,节点失去心跳,操作方法:
1、systemctl stop ambari-agent
2、在失去心跳节点打开配置
vi /etc/ambari-agent/conf/ambari-agent.ini
在[security] 下添加
force_https_protocol=PROTOCOL_TLSv1_2
3、关闭状态
vi /etc/python/cert-verification.cfg
如下:
[https]
verify=disable
4、systemctl stop ambari-agent


5.1、安装HDP

选择服务,全部为默认配置【除开密码配置以及数据库配置】

image.png

image.png

image.png

image.png

如果测试的时候报错,则设置mysql驱动:

ambari-server setup --jdbc-db=mysql --jdbc-driver=/usr/share/java/mysql-connector-java.jar

image.png

5.2、设置oozie

image.png

image.png

image.png

image.png

image.png

image.png

image.png

等待安装即可。

6、卸载Ambari

停服务

sudo ambari-agent stopsudo ambari-server stop

卸载所有组件:

sudo yum remove -y hadoop_2* hdp-select* ranger_2* zookeeper* bigtop*atlas-metadata* ambari* spark* slide* strom* hive* oozie_2*

如有遗漏自行添加

查看ambari是否被卸载

rpm -qa|grep ambari
rpm -e ambari-server-2.6.2.2-1.x86_64

删除目录:

sudorm-rf /var/lib/ambari*
sudorm-rf /usr/lib/python2.6/site-packages/ambari_*
sudorm-rf /usr/lib/python2.6/site-packages/resource_management
sudorm-rf /usr/lib/ambari-*
sudorm-rf /etc/ambari-*
sudorm-rf /etc/hadoop
sudorm-rf /etc/hbase
sudorm-rf /etc/hive
sudorm-rf /etc/hive2
sudorm-rf /etc/oozie
sudorm-rf /etc/sqoop
sudorm-rf /etc/zookeeper
sudorm-rf /etc/flume
sudorm-rf /etc/storm
sudorm-rf /etc/tez_hive2
sudorm-rf /etc/spark2
sudorm-rf /etc/phoenix
sudorm-rf /etc/pig
sudorm-rf /etc/hive-hcatalog
sudorm-rf /etc/tez
sudorm-rf /etc/falcon
sudorm-rf /etc/knox
sudorm-rf /etc/hive-webhcat
sudorm-rf /etc/kafka
sudorm-rf /etc/slider
sudorm-rf /etc/storm-slider-client
sudorm-rf /etc/spark
sudorm-rf /var/run/spark
sudorm-rf /var/run/hadoop
sudorm-rf /var/run/hbase
sudorm-rf /var/run/zookeeper
sudorm-rf /var/run/flume
sudorm-rf /var/run/storm
sudorm-rf /var/run/webhcat
sudorm-rf /var/run/hadoop-yarn
sudorm-rf /var/run/hadoop-mapreduce
sudorm-rf /var/run/kafka
sudorm-rf /var/run/hive        
sudorm-rf /var/run/oozie      
sudorm-rf /var/run/sqoop     
sudorm-rf /var/run/hive-hcatalog
sudorm-rf /var/run/falcon     
sudorm-rf /var/run/hadoop-hdfs  
sudorm-rf /var/run/ambari-metrics-collector
sudorm-rf /var/run/ambari-metrics-monitor        
sudorm-rf /var/log/hadoop-hdfs   
sudorm-rf /var/log/hive-hcatalog
sudorm-rf /var/log/ambari-metrics-monitor
sudorm-rf /var/log/hadoop
sudorm-rf /var/log/hbase
sudorm-rf /var/log/flume
sudorm-rf /var/log/sqoop
sudorm-rf /var/log/ambari-server
sudorm-rf /var/log/ambari-agent
sudorm-rf /var/log/storm
sudorm-rf /var/log/hadoop-yarn
sudorm-rf /var/log/hadoop-mapreduce
sudorm-rf /var/log/knox
sudorm-rf /var/lib/slider
sudorm-rf /var/lib/pgsql/
sudorm-rf /usr/lib/flume
sudorm-rf /usr/lib/storm
sudorm-rf /var/lib/hive
sudorm-rf /var/lib/oozie
sudorm-rf /var/lib/flume
sudorm-rf /var/lib/hadoop-yarn
sudorm-rf /var/lib/hadoop-mapreduce
sudorm-rf /var/lib/hadoop-hdfs
sudorm-rf /var/lib/zookeeper
sudorm-rf /var/lib/knox
sudorm-rf /var/log/hive
sudorm-rf /var/log/oozie
sudorm-rf /var/log/zookeeper
sudorm-rf /var/log/falcon
sudorm-rf /var/log/webhcat
sudorm-rf /var/log/spark
sudorm-rf /var/tmp/oozie
sudorm-rf /tmp/ambari-qa
sudorm-rf /tmp/hive
sudorm-rf /var/hadoop
sudorm-rf /hadoop/falcon
sudorm-rf /tmp/hadoop
sudorm-rf /tmp/hadoop-hdfs
sudorm-rf /usr/hdp
sudorm-rf /usr/hadoop
sudorm-rf /opt/hadoop
sudorm-rf /tmp/hadoop
sudorm-rf /var/hadoop
sudorm-rf /hadoop
sudorm-rf /usr/bin/worker-lanucher
sudorm-rf /usr/bin/zookeeper-client
sudorm-rf /usr/bin/zookeeper-server
sudorm-rf /usr/bin/zookeeper-server-cleanup
sudorm-rf /usr/bin/yarn
sudorm-rf /usr/bin/storm
sudorm-rf /usr/bin/storm-slider
sudorm-rf /usr/bin/worker-lanucher
sudorm-rf /usr/bin/storm
sudorm-rf /usr/bin/storm-slider
sudorm-rf /usr/bin/sqoop
sudorm-rf /usr/bin/sqoop-codegen
sudorm-rf /usr/bin/sqoop-create-hive-table
sudorm-rf /usr/bin/sqoop-eval
sudorm-rf /usr/bin/sqoop-export
sudorm-rf /usr/bin/sqoop-help
sudorm-rf /usr/bin/sqoop-import
sudorm-rf /usr/bin/sqoop-import-all-tables
sudorm-rf /usr/bin/sqoop-job
sudorm-rf /usr/bin/sqoop-list-databases
sudorm-rf /usr/bin/sqoop-list-tables
sudorm-rf /usr/bin/sqoop-merge
sudorm-rf /usr/bin/sqoop-metastore
sudorm-rf /usr/bin/sqoop-version
sudorm-rf /usr/bin/slider
sudorm-rf /usr/bin/ranger-admin-start
sudorm-rf /usr/bin/ranger-admin-stop
sudorm-rf /usr/bin/ranger-kms
sudorm-rf /usr/bin/ranger-usersync-start
sudorm-rf /usr/bin/ranger-usersync-stop
sudorm-rf /usr/bin/pig
sudorm-rf /usr/bin/phoenix-psql
sudorm-rf /usr/bin/phoenix-queryserver
sudorm-rf /usr/bin/phoenix-sqlline
sudorm-rf /usr/bin/phoenix-sqlline-thin
sudorm-rf /usr/bin/oozie
sudorm-rf /usr/bin/oozied.sh
sudorm-rf /usr/bin/mapred
sudorm-rf /usr/bin/mahout
sudorm-rf /usr/bin/kafka
sudorm-rf /usr/bin/hive
sudorm-rf /usr/bin/hiveserver2
sudorm-rf /usr/bin/hbase
sudorm-rf /usr/bin/hcat
sudorm-rf /usr/bin/hdfs
sudorm-rf /usr/bin/hadoop
sudorm-rf /usr/bin/flume-ng
sudorm-rf /usr/bin/falcon
sudorm-rf /usr/bin/beeline
sudorm-rf /usr/bin/atlas-start
sudorm-rf /usr/bin/atlas-stop
sudorm-rf /usr/bin/accumulo

如有遗漏自行添加


如果安装过程中在某个组件报错,那么直接删除对应组件的所有东西,重新安装即可,比如:symlink target /usr/hdp/current/oozie-client for oozie already exists and it is not a symlink.

删除安装包:

sudo yum remove oozie_2* -y

找到oozierpm

rpm -qa|grep oozie

删除包

sudo rpm -e oozie_2_6_5_0_292-4.2.0.2.6.5.0-292.noarch

如果报错:/var/tmp/rpm-tmp.YhTbCT: line 1: pushd: /usr/hdp/2.6.5.0-292/oozie: No such file or directory

先创建目录:

sudomkdir –p /usr/hdp/2.6.5.0-292/oozie

再删除:

sudo rpm -e oozie_2_6_5_0_292-4.2.0.2.6.5.0-292.noarch


删除目录:

sudorm-rf /usr/hdp/current/oozie-client/
sudorm-rf /usr/hdp/2.6.5.0-292/oozie
sudorm-rf /etc/oozie/
sudorm-rf /var/lib/oozie/
sudorm-rf /var/log/oozie/
sudo userdel oozie
sudorm-rf /home/oozie


THE END




相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
zdl
|
2月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
167 56
|
14天前
|
数据采集 分布式计算 大数据
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
53 13
|
14天前
|
机器学习/深度学习 分布式计算 数据处理
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame 产品评测报告
30 4
|
17天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
25天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
12天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
66 0
|
2月前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
3月前
|
分布式计算 大数据 Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
66 1
|
3月前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
65 0
|
3月前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
147 0

推荐镜像

更多