大数据产品管理平台Apache Ambari研究

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在项目中,客户要求使用开源大数据平台,为实现开源大数据平台可管可控,满足企业级服务要求,特选型研究Ambari,预期简化部署,提升平台稳定运行和日常监控能力。个人观点,在企业级服务中尽量选用阿里云飞天平台这类稳定输出的商业级产品,其稳定性,管控能力均拥有较高的水平,不是开源产品可以比拟的。因此本文研究内容,仅作为备选技术方案。

1、环境准备

1.1、配置时间同步

centos7开始使用chrony进行始终同步,安装chrony并配置始终同步,设置为开机启动

yum -y install chrony  #系统默认已经安装,如未安装,请执行以下命令安装

1.2、配置主机名、映射

  • 设置主机名:
[root@cdh1 ~]hostnamectl set-hostname hdp1
[root@cdh2 ~]hostnamectl set-hostname hdp3
[root@cdh3 ~]hostnamectl set-hostname hdp5
  • 设置主机映射:
vi /etc/hosts,添加以下内容【每台都需要】
10.10.101.1 hdp1
10.10.101.3 hdp3
10.10.101.5 hdp5

1.3、取消大叶内存

注意:【所有节点都需要】

sysctl -w vm.swappiness=0echo"vm.swappiness=0" >>/etc/sysctl.conf echo never > /sys/kernel/mm/transparent_hugepage/defrag echo never > /sys/kernel/mm/transparent_hugepage/enabled

1.4、数据库驱动配置

注意:【所有节点都需要】

第一步:重命名Mysql驱动包,把版本号去掉

mv mysql-connector-java-5.1.44-bin.jar mysql-connector-java.jar

第二步:将jar包移到java共享目录下

mv mysql-connector-java.jar /usr/share/java/

第三步:将Mysql驱动包分发到另外两台服务器

scp mysql-connector-java.jar admin@10.10.101.3:/home/admin/
scp mysql-connector-java.jar admin@10.10.101.5:/home/admin/
sudomkdir /usr/share/java/
sudocp /home/admin/mysql-connector-java.jar /usr/share/java/

1.5、安装JDK/etc/profile

注意:要设置java环境变量,每个机器都要配置

10.10.101.4scp目录:/usr/local/jdk1.8.0_112,可以自行下载解压

  • cd /usr/local/
  • 设置软连接:sudo ln -s jdk1.8.0_112 jdk
  • 设置环境变量:
  1. sudo vi /etc/profile
  • export JAVA_HOME=/usr/local/jdk
  • export PATH=$PATH:$JAVA_HOME/bin
  1. source /etc/profile

1.6、免密

切换rootsudo -i -uroot

查看密钥:cat ~/.ssh/id_rsa

生成密钥:ssh-keygen

ssh-copy-id hdp1

 

ssh-copy-id -i

1.7、关闭防火墙

查看防火墙状态:firewall-cmd -state

停止firewall

systemctl stop firewalld.service

禁止firewall开机启动:

systemctl disable firewalld.service

1.8、关闭selinux

  • 获取当前selinux状态:getenforce
  1. Enforcing为开启
  2. Disabled为关闭
  • sudo vim /etc/sysconfig/selinux
  • 替换:SELINUX=disabled
  • 重启:reboot

1.9、设置unlimit参数

注意:【所有节点】

官方建议大于等于10000

cd /etc/security/limits.d/
sudovi hadoop.conf
  • 输入以下内容
*        soft    noproc 65535*        hard    noproc 65535*        soft    nofile 65535*        hard    nofile 65535
  • 退出当前会话,重新登录生效

 

2、制作本地yum

使用10.10.101.251】,我的实验环境服务器,需替换。

2.1、安装包准备

2.2、yum文件准备

下载方式:

本地方式:

在各自的安装包中存在。比如:ambari中:ambari/centos7/2.6.2.2-1/ambari.repo

2.3、安装http

yum install httpd
systemctl start httpd
systemctl enable httpd

2.4、制作源

mkdir /var/www/html/ambari/HDP -Pmkdir /var/www/html/ambari/HDP-UTILS
cd

2.5、编辑yum文件

cd /etc/yum.repos.d
sudovi ambari.repo
#VERSION_NUMBER=2.6.2.2-1[ambari-2.6.2.2]
name=ambari Version - ambari-2.6.2.2
baseurl=http://10.10.101.251/hdp/ambari/centos7/2.6.2.2-1/
gpgcheck=1gpgkey=http://10.10.101.251/hdp/ambari/centos7/2.6.2.2-1/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins
enabled=1priority=1
sudovi hdp.repo
#VERSION_NUMBER=2.6.5.0-292[HDP-2.6.5.0]
name=HDP Version - HDP-2.6.5.0
baseurl=http://10.10.101.251/hdp/HDP/centos7/2.6.5.0-292/
gpgcheck=1gpgkey=http://10.10.101.251/hdp/HDP/centos7/2.6.5.0-292/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins
enabled=1priority=1[HDP-UTILS-1.1.0.22]
name=HDP-UTILS Version - HDP-UTILS-1.1.0.22
baseurl=http://10.10.101.251/hdp/HDP-UTILS/centos7/1.1.0.22/
gpgcheck=1gpgkey=http://10.10.101.251/hdp/HDP-UTILS/centos7/1.1.0.22/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins
enabled=1priority=1

 

sudovi hdp.gpl.repo
#VERSION_NUMBER=2.6.5.0-292[HDP-GPL-2.6.5.0]
name=HDP-GPL Version - HDP-GPL-2.6.5.0
baseurl=http://10.10.101.251/hdp/HDP-GPL/centos7/2.6.5.0-292/
gpgcheck=1gpgkey=http://10.10.101.251/hdp/HDP-GPL/centos7/2.6.5.0-292/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins
enabled=1priority=1

3、数据库准备

此处不再赘述,实验环境使用存在的数据库:ambari_dianxin

  • 地址:10.10.101.10
  • Userambari_dianxin
  • Pwdambari_dianxin
  • 进入数据库:mysql -uambari_dianxin -pambari_dianxin

4、安装ambari-server

  • 下载:
sudo yum install -y ambari-server
  • 设置:
sudo ambari-server setup
[admin@hdp1 yum.repos.d]$ sudo ambari-server reset
Using python  /usr/bin/python
Resetting ambari-server
**** WARNING **** You are about to reset and clear the Ambari Server database. This will remove all cluster host and configuration information from the database. You will be required to re-configure the Ambari server and re-run the cluster wizard.
Are you SURE you want to perform the reset [yes/no] (no)? yesERROR: Exiting with exit code 1.
REASON: Ambari doesn't support resetting exernal DB automatically. To reset Ambari Server schema you must first drop and then create it using DDL scripts from "/var/lib/ambari-server/resources/"[admin@hdp1 yum.repos.d]$ sudo ambari-server setupUsing python  /usr/bin/pythonSetup ambari-serverChecking SELinux...SELinux status is 'disabled'Ambari-server daemon is configured to run under user 'ambari'. Change this setting [y/n] (n)?Adjusting ambari-server permissions and ownership...Checking firewall status...WARNING: iptables is running. Confirm the necessary Ambari ports are accessible. Refer to the Ambari documentation for more details on ports.OK to continue [y/n] (y)?Checking JDK...Do you want to change Oracle JDK [y/n] (n)? y[1] Oracle JDK 1.8 + Java Cryptography Extension (JCE) Policy Files 8[2] Oracle JDK 1.7 + Java Cryptography Extension (JCE) Policy Files 7[3] Custom JDK==============================================================================Enter choice (1): 3WARNING: JDK must be installed on all hosts and JAVA_HOME must be valid on all hosts.WARNING: JCE Policy files are required for configuring Kerberos security. If you plan to use Kerberos,please make sure JCE Unlimited Strength Jurisdiction Policy Files are valid on all hosts.Path to JAVA_HOME: /usr/local/jdkValidating JDK on Ambari Server...done.Checking GPL software agreement...Completing setup...Configuring database...Enter advanced database configuration [y/n] (n)? yConfiguring database...==============================================================================Choose one of the following options:[1] - PostgreSQL (Embedded)[2] - Oracle[3] - MySQL / MariaDB[4] - PostgreSQL[5] - Microsoft SQL Server (Tech Preview)[6] - SQL Anywhere[7] - BDB==============================================================================Enter choice (3):Hostname (10.10.101.10):Port (3309):Database name (ambari_dianxin):Username (ambari_dianxin):Enter Database Password (ambari_dianxin):Configuring ambari database...Configuring remote database connection properties...WARNING: Before starting Ambari Server, you must run the following DDL against the database to create the schema: /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sqlProceed with configuring remote database connection properties [y/n] (y)? yExtracting system views...............Adjusting ambari-server permissions and ownership...Ambari Server 'setup' completed successfully.


  • 执行sql:由于sql文件与数据库不在一个节点,所以需要转发过去。
scp /var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sql admin@10.10.101.10:/home/admin/
  • 执行ambari的建表语句:
source /home/admin/Ambari-DDL-MySQL-CREATE.sql
  • 启动服务:
ambari-server start
  • 成功提示:Ambari Server 'start' completed successfully
  • 在界面验证:http://10.10.1.1:8080账户:admin,密码:admin
  • 失败查看日志:/var/log/ambari-server/ambari-server.log

5、搭建集群

登录Ambari界面:http://10.10.1.1:8080

image.png

image.png

image.png

image.png

输入地址:(IP是我的实验环境服务器,需替换)

http://10.10.101.251/hdp/HDP/centos7/2.6.5.0-292/

http://10.10.101.251/hdp/HDP-UTILS/centos7/1.1.0.22/

image.png

查看密钥:

cat ~/.ssh/id_rsa

然后输入到文本框

image.png

如果这一步出现如下错误,通过以下方式解决,

错误:

ERROR 2018-05-30 00:12:25,280 NetUtil.py:96 - EOF occurred in violation of protocol (_ssl.c:579)

ERROR 2018-05-30 00:12:25,280 NetUtil.py:97 - SSLError: Failed to connect. Please check openssl library versions.

解决方式:

1.修改/etc/python/cert-verification.cfg配置文件:
# vim /etc/python/cert-verification.cfg[https]
verify=disable
2、编辑 /etc/ambari-agent/conf/ambari-agent.ini 配置文件,在 [security] 节部分,确保设置如下两个值,其它值保持不变:
    [root@ambari ~]# vi /etc/ambari-agent/conf/ambari-agent.ini    [security]
ssl_verify_cert=0force_https_protocol=PROTOCOL_TLSv1_2
保存退出,重启 ambari-agent:
    [root@ambari ~]# ambari-agent restart

若还是不能注册ambari-agent,使用下面介绍的方式。

如果上面方式还不能注册,说明jdk版本不对,使用默认oraclejdk,(2.6.2.2版本ambari需要使用java version "1.8.0_112")


如果一个节点重启后agent无法连接的话解决方法如下

ambari管理大数据集群,节点失去心跳,操作方法:
1、systemctl stop ambari-agent
2、在失去心跳节点打开配置
vi /etc/ambari-agent/conf/ambari-agent.ini
在[security] 下添加
force_https_protocol=PROTOCOL_TLSv1_2
3、关闭状态
vi /etc/python/cert-verification.cfg
如下:
[https]
verify=disable
4、systemctl stop ambari-agent


5.1、安装HDP

选择服务,全部为默认配置【除开密码配置以及数据库配置】

image.png

image.png

image.png

image.png

如果测试的时候报错,则设置mysql驱动:

ambari-server setup --jdbc-db=mysql --jdbc-driver=/usr/share/java/mysql-connector-java.jar

image.png

5.2、设置oozie

image.png

image.png

image.png

image.png

image.png

image.png

image.png

等待安装即可。

6、卸载Ambari

停服务

sudo ambari-agent stopsudo ambari-server stop

卸载所有组件:

sudo yum remove -y hadoop_2* hdp-select* ranger_2* zookeeper* bigtop*atlas-metadata* ambari* spark* slide* strom* hive* oozie_2*

如有遗漏自行添加

查看ambari是否被卸载

rpm -qa|grep ambari
rpm -e ambari-server-2.6.2.2-1.x86_64

删除目录:

sudorm-rf /var/lib/ambari*
sudorm-rf /usr/lib/python2.6/site-packages/ambari_*
sudorm-rf /usr/lib/python2.6/site-packages/resource_management
sudorm-rf /usr/lib/ambari-*
sudorm-rf /etc/ambari-*
sudorm-rf /etc/hadoop
sudorm-rf /etc/hbase
sudorm-rf /etc/hive
sudorm-rf /etc/hive2
sudorm-rf /etc/oozie
sudorm-rf /etc/sqoop
sudorm-rf /etc/zookeeper
sudorm-rf /etc/flume
sudorm-rf /etc/storm
sudorm-rf /etc/tez_hive2
sudorm-rf /etc/spark2
sudorm-rf /etc/phoenix
sudorm-rf /etc/pig
sudorm-rf /etc/hive-hcatalog
sudorm-rf /etc/tez
sudorm-rf /etc/falcon
sudorm-rf /etc/knox
sudorm-rf /etc/hive-webhcat
sudorm-rf /etc/kafka
sudorm-rf /etc/slider
sudorm-rf /etc/storm-slider-client
sudorm-rf /etc/spark
sudorm-rf /var/run/spark
sudorm-rf /var/run/hadoop
sudorm-rf /var/run/hbase
sudorm-rf /var/run/zookeeper
sudorm-rf /var/run/flume
sudorm-rf /var/run/storm
sudorm-rf /var/run/webhcat
sudorm-rf /var/run/hadoop-yarn
sudorm-rf /var/run/hadoop-mapreduce
sudorm-rf /var/run/kafka
sudorm-rf /var/run/hive        
sudorm-rf /var/run/oozie      
sudorm-rf /var/run/sqoop     
sudorm-rf /var/run/hive-hcatalog
sudorm-rf /var/run/falcon     
sudorm-rf /var/run/hadoop-hdfs  
sudorm-rf /var/run/ambari-metrics-collector
sudorm-rf /var/run/ambari-metrics-monitor        
sudorm-rf /var/log/hadoop-hdfs   
sudorm-rf /var/log/hive-hcatalog
sudorm-rf /var/log/ambari-metrics-monitor
sudorm-rf /var/log/hadoop
sudorm-rf /var/log/hbase
sudorm-rf /var/log/flume
sudorm-rf /var/log/sqoop
sudorm-rf /var/log/ambari-server
sudorm-rf /var/log/ambari-agent
sudorm-rf /var/log/storm
sudorm-rf /var/log/hadoop-yarn
sudorm-rf /var/log/hadoop-mapreduce
sudorm-rf /var/log/knox
sudorm-rf /var/lib/slider
sudorm-rf /var/lib/pgsql/
sudorm-rf /usr/lib/flume
sudorm-rf /usr/lib/storm
sudorm-rf /var/lib/hive
sudorm-rf /var/lib/oozie
sudorm-rf /var/lib/flume
sudorm-rf /var/lib/hadoop-yarn
sudorm-rf /var/lib/hadoop-mapreduce
sudorm-rf /var/lib/hadoop-hdfs
sudorm-rf /var/lib/zookeeper
sudorm-rf /var/lib/knox
sudorm-rf /var/log/hive
sudorm-rf /var/log/oozie
sudorm-rf /var/log/zookeeper
sudorm-rf /var/log/falcon
sudorm-rf /var/log/webhcat
sudorm-rf /var/log/spark
sudorm-rf /var/tmp/oozie
sudorm-rf /tmp/ambari-qa
sudorm-rf /tmp/hive
sudorm-rf /var/hadoop
sudorm-rf /hadoop/falcon
sudorm-rf /tmp/hadoop
sudorm-rf /tmp/hadoop-hdfs
sudorm-rf /usr/hdp
sudorm-rf /usr/hadoop
sudorm-rf /opt/hadoop
sudorm-rf /tmp/hadoop
sudorm-rf /var/hadoop
sudorm-rf /hadoop
sudorm-rf /usr/bin/worker-lanucher
sudorm-rf /usr/bin/zookeeper-client
sudorm-rf /usr/bin/zookeeper-server
sudorm-rf /usr/bin/zookeeper-server-cleanup
sudorm-rf /usr/bin/yarn
sudorm-rf /usr/bin/storm
sudorm-rf /usr/bin/storm-slider
sudorm-rf /usr/bin/worker-lanucher
sudorm-rf /usr/bin/storm
sudorm-rf /usr/bin/storm-slider
sudorm-rf /usr/bin/sqoop
sudorm-rf /usr/bin/sqoop-codegen
sudorm-rf /usr/bin/sqoop-create-hive-table
sudorm-rf /usr/bin/sqoop-eval
sudorm-rf /usr/bin/sqoop-export
sudorm-rf /usr/bin/sqoop-help
sudorm-rf /usr/bin/sqoop-import
sudorm-rf /usr/bin/sqoop-import-all-tables
sudorm-rf /usr/bin/sqoop-job
sudorm-rf /usr/bin/sqoop-list-databases
sudorm-rf /usr/bin/sqoop-list-tables
sudorm-rf /usr/bin/sqoop-merge
sudorm-rf /usr/bin/sqoop-metastore
sudorm-rf /usr/bin/sqoop-version
sudorm-rf /usr/bin/slider
sudorm-rf /usr/bin/ranger-admin-start
sudorm-rf /usr/bin/ranger-admin-stop
sudorm-rf /usr/bin/ranger-kms
sudorm-rf /usr/bin/ranger-usersync-start
sudorm-rf /usr/bin/ranger-usersync-stop
sudorm-rf /usr/bin/pig
sudorm-rf /usr/bin/phoenix-psql
sudorm-rf /usr/bin/phoenix-queryserver
sudorm-rf /usr/bin/phoenix-sqlline
sudorm-rf /usr/bin/phoenix-sqlline-thin
sudorm-rf /usr/bin/oozie
sudorm-rf /usr/bin/oozied.sh
sudorm-rf /usr/bin/mapred
sudorm-rf /usr/bin/mahout
sudorm-rf /usr/bin/kafka
sudorm-rf /usr/bin/hive
sudorm-rf /usr/bin/hiveserver2
sudorm-rf /usr/bin/hbase
sudorm-rf /usr/bin/hcat
sudorm-rf /usr/bin/hdfs
sudorm-rf /usr/bin/hadoop
sudorm-rf /usr/bin/flume-ng
sudorm-rf /usr/bin/falcon
sudorm-rf /usr/bin/beeline
sudorm-rf /usr/bin/atlas-start
sudorm-rf /usr/bin/atlas-stop
sudorm-rf /usr/bin/accumulo

如有遗漏自行添加


如果安装过程中在某个组件报错,那么直接删除对应组件的所有东西,重新安装即可,比如:symlink target /usr/hdp/current/oozie-client for oozie already exists and it is not a symlink.

删除安装包:

sudo yum remove oozie_2* -y

找到oozierpm

rpm -qa|grep oozie

删除包

sudo rpm -e oozie_2_6_5_0_292-4.2.0.2.6.5.0-292.noarch

如果报错:/var/tmp/rpm-tmp.YhTbCT: line 1: pushd: /usr/hdp/2.6.5.0-292/oozie: No such file or directory

先创建目录:

sudomkdir –p /usr/hdp/2.6.5.0-292/oozie

再删除:

sudo rpm -e oozie_2_6_5_0_292-4.2.0.2.6.5.0-292.noarch


删除目录:

sudorm-rf /usr/hdp/current/oozie-client/
sudorm-rf /usr/hdp/2.6.5.0-292/oozie
sudorm-rf /etc/oozie/
sudorm-rf /var/lib/oozie/
sudorm-rf /var/log/oozie/
sudo userdel oozie
sudorm-rf /home/oozie


THE END




相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 运维 监控
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
中信银行信用卡中心每日新增日志数据 140 亿条(80TB),全量归档日志量超 40PB,早期基于 Elasticsearch 构建的日志云平台,面临存储成本高、实时写入性能差、文本检索慢以及日志分析能力不足等问题。因此使用 Apache Doris 替换 Elasticsearch,实现资源投入降低 50%、查询速度提升 2~4 倍,同时显著提高了运维效率。
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
|
1月前
|
存储 SQL 监控
计算效率提升 10 倍,存储成本降低 60%,灵犀科技基于 Apache Doris 建设统一数据服务平台
灵犀科技早期基于 Hadoop 构建大数据平台,在战略调整和需求的持续扩增下,数据处理效率、查询性能、资源成本问题随之出现。为此,引入 [Apache Doris](https://doris.apache.org/) 替换了复杂技术栈,升级为集存储、加工、服务为一体的统一架构,实现存储成本下降 60%,计算效率提升超 10 倍的显著成效。
计算效率提升 10 倍,存储成本降低 60%,灵犀科技基于 Apache Doris 建设统一数据服务平台
|
3月前
|
消息中间件 监控 数据可视化
Apache Airflow 开源最顶级的分布式工作流平台
Apache Airflow 是一个用于创作、调度和监控工作流的平台,通过将工作流定义为代码,实现更好的可维护性和协作性。Airflow 使用有向无环图(DAG)定义任务,支持动态生成、扩展和优雅的管道设计。其丰富的命令行工具和用户界面使得任务管理和监控更加便捷。适用于静态和缓慢变化的工作流,常用于数据处理。
Apache Airflow 开源最顶级的分布式工作流平台
|
5月前
|
人工智能 分布式计算 大数据
超级计算与大数据:推动科学研究的发展
【9月更文挑战第30天】在信息时代,超级计算和大数据技术正成为推动科学研究的关键力量。超级计算凭借强大的计算能力,在尖端科研、国防军工等领域发挥重要作用;大数据技术则提供高效的数据处理工具,促进跨学科合作与创新。两者融合不仅提升了数据处理效率,还推动了人工智能、生物科学等领域的快速发展。未来,随着技术进步和跨学科合作的加深,超级计算与大数据将在科学研究中扮演更加重要的角色。
|
6月前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
302 4
大数据环境下的房地产数据分析与预测研究的设计与实现
|
6月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究,提供了问题一的建模方案、代码实现以及相关性分析,并对问题二的建模方案进行了阐述。
128 0
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
|
6月前
|
机器学习/深度学习 自然语言处理 数据可视化
基于Python大数据的京东产品评论的情感分析的研究,包括snwonlp情感分析和LDA主题分析
本文探讨了基于Python大数据技术对京东产品评论进行情感分析的研究,涵盖了文本预处理、情感分类、主题建模等步骤,并运用了snwonlp情感分析和LDA主题分析方法,旨在帮助电商企业和消费者做出更明智的决策。
238 1
基于Python大数据的京东产品评论的情感分析的研究,包括snwonlp情感分析和LDA主题分析
|
6月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题二建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的问题二的建模方案和Python代码实现,包括数据预处理、特征工程、模型训练以及预测结果的输出,旨在通过数据分析与建模方法帮助中国移动北京公司提升客户满意度。
103 2
|
7月前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用合集之使用临时查询创建的表,在表管理和公共表没有找到,是什么原因
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
138 0
|
7月前
|
分布式计算 DataWorks NoSQL
MaxCompute产品使用合集之如何操作和管理节点
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
193 0

推荐镜像

更多