GoAlaaa_社区达人页

备案控制台

GoAlaaa

已加入开发者社区2375天

勋章更多

个人头像照片

专家博主

专家博主

个人头像照片

星级博主

星级博主

个人头像照片

技术博主

技术博主

个人头像照片

初入江湖

初入江湖

成就

已发布192篇文章

2条评论

已回答0个问题

0条评论

已发布0个视频

github地址

https://github.com/GoAlers

我关注的人更多

代码bug生产队

代码bug生产队

粉丝更多

游客z65hcr6zw24ae

游客z65hcr6zw24ae

游客3ym4cxnwslang

游客3ym4cxnwslang

aliyun4290304611-28741

aliyun4290304611-28741

游客ks7o4f2qytzii

游客ks7o4f2qytzii

游客2xcxhuhvvxrqg

游客2xcxhuhvvxrqg

游客zswgxx7dthxm6

游客zswgxx7dthxm6

游客yuwvsmjshg3j2

游客yuwvsmjshg3j2

游客2ang5tirofkam

游客2ang5tirofkam

技术能力

兴趣领域

擅长领域

技术认证

暂时未有相关云产品技术能力~

专注大数据与人工智能技术分享，个人博客：https://blog.csdn.net/qq_36816848

精选

文章
问答
视频

暂无更多

暂无更多信息

2022年10月

10.19 15:35:33

发表了文章 2022-10-19 15:35:33

深度学习推荐模型-DeepFM

在DeepFM提出之前，已有LR，FM，FFM，FNN，PNN（以及三种变体：IPNN,OPNN,PNN*）,Wide&Deep模型，这些模型在CTR或者是推荐系统中被广泛使用。
10.19 15:33:21

发表了文章 2022-10-19 15:33:21

深度学习推荐模型-Wide&Deep

Wide部分主要作用是让模型具备较强的“记忆能力”；Deep部分的主要作用是让模型具有“泛化能力”。
10.19 15:32:00

发表了文章 2022-10-19 15:32:00

大数据常见运维问题汇总

大数据常见运维问题汇总
10.19 15:27:50

发表了文章 2022-10-19 15:27:50

深度学习推荐模型-DeepCrossing

2016年，微软提出Deep Crossing模型，旨在解决特征工程中特征组合的难题，降低人力特征组合的时间开销，通过模型自动学习特征的组合方式，也能达到不错的效果，且在各种任务中表现出较好的稳定性。与之前介绍的FNN、PNN不同的是，Deep Crossing并没有采用显式交叉特征的方式，而是利用残差网络结构挖掘特征间的关系。本文将对DeepCrossing从原理到实现细节进行详细分析。
10.19 13:59:07

发表了文章 2022-10-19 13:59:07

情感分析-SnowNLP

SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和TextBlob不同的是，这里没有用NLTK，所有的算法都是自己实现的，并且自带了一些训练好的字典。
10.19 13:56:00

发表了文章 2022-10-19 13:56:00

leetcode笔记（Python版）待更新

leetcode笔记（Python版）待更新
10.19 13:54:00

发表了文章 2022-10-19 13:54:00

TF-IDF算法

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).
10.19 13:51:18

发表了文章 2022-10-19 13:51:18

机器学习-决策树（ID3、C4.5、CART）

决策树是一个非常常见并且优秀的机器学习算法，它易于理解、可解释性强，其可作为分类算法，也可用于回归模型。
10.19 13:47:22

发表了文章 2022-10-19 13:47:22

大数据开发笔记（九）：Flink综合学习）（二）

Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务
10.19 13:47:18

发表了文章 2022-10-19 13:47:18

大数据开发笔记（九）：Flink综合学习）（一）

Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务
10.19 13:39:40

发表了文章 2022-10-19 13:39:40

大数据开发笔记（九）：Flink基础

Flink: 分布式、高性能框架，支持实时模式和批处理模式
10.19 13:37:34

发表了文章 2022-10-19 13:37:34

协同过滤算法实战

协同过滤算法是一种较为著名和常用的推荐算法，它基于对用户历史行为数据的挖掘发现用户的喜好偏向，并预测用户可能喜好的产品进行推荐。也就是常见的“猜你喜欢”，和“购买了该商品的人也喜欢”等功能。
10.19 13:34:20

发表了文章 2022-10-19 13:34:20

大数据电商数仓项目

大数据电商数仓项目
10.19 13:26:37

发表了文章 2022-10-19 13:26:37

Spark案例实战教程

实战代码参考：GitHub - GoAlers/Bigdata_project: 电商大数据项目-推荐系统(java和scala语言)
10.19 13:23:02

发表了文章 2022-10-19 13:23:02

Flume+Kafka+Spark Streaming+MySQL实时日志分析

网络发展迅速的时代，越来越多人通过网络获取跟多的信息或通过网络作一番自己的事业，当投身于搭建属于自己的网站、APP或小程序时会发现，经过一段时间经营和维护发现浏览量和用户数量的增长速度始终没有提升。在对其进行设计改造时无从下手，当在不了解用户的浏览喜欢和个用户群体的喜好。虽然服务器日志中明确的记载了用户访浏览的喜好但是通过普通方式很难从大量的日志中及时有效的筛选出优质信息。Spark Streaming是一个实时的流计算框架，该技术可以对数据进行实时快速的分析，通过与Flume、Kafka的结合能够做到近乎零延迟的数据统计分析。
10.19 13:17:24

发表了文章 2022-10-19 13:17:24

Python实现对nginx日志access.log统计

Nginx服务器日志相关指令主要有两条：一条是log_format，用来设置日志格式；另外一条是access_log，用来指定日志文件的存放路径、格式和缓存大小，可以参加ngx_http_log_module。一般在nginx的配置文件中日记配置
10.19 13:10:44

发表了文章 2022-10-19 13:10:44

大数据开发笔记（四）：Hive分区详解

在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。
10.19 13:02:32

发表了文章 2022-10-19 13:02:32

数据仓库总结

数据仓库，英文名为Data Warehouse，简写为DW或DWH。数据仓库，是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。
10.19 12:54:20

发表了文章 2022-10-19 12:54:20

大数据开发笔记（八）：Sparkstreaming

Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据，可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，处理结果保存到HDFS，数据库等。
10.19 12:49:47

发表了文章 2022-10-19 12:49:47

大数据开发笔记（七）：Kafka分布式流式处理

Kafka分布式流式处理
10.19 12:46:29

发表了文章 2022-10-19 12:46:29

Kafka概念及组件介绍

1、分布式消息队列系统，先入先出，同时提供数据分布式缓存功能 2、消息持久化：数据读取速度可以达到O(1)——预读，后写（按顺序，ABCDE，正读A,预读B；尾部追加写）对磁盘的顺序访问比内存访问还快）
10.19 12:40:03

发表了文章 2022-10-19 12:40:03

大数据开发笔记（六）：Flume基础学习

Flume是数据采集，日志收集的框架，通过分布式形式进行采集,(高可用分布式)
10.19 11:22:24

发表了文章 2022-10-19 11:22:24

电商热门商品统计

针对常规电商网站进行大数据分析，通过完整大数据处理流程最终对每个区域热门商品进行统计，支持用户决策。
10.19 10:12:46

发表了文章 2022-10-19 10:12:46

Scala学习总结

Scala学习总结
10.18 23:30:03

发表了文章 2022-10-18 23:30:03

Spark实现协同过滤CF算法实践

UI矩阵–>II矩阵–>排序
10.18 23:28:14

发表了文章 2022-10-18 23:28:14

Mysql数据库知识总结

如果没有显式定义主键，则InnoDB会选择第一个不包含有NULL值的唯一索引作为主键索引。
10.18 23:26:09

发表了文章 2022-10-18 23:26:09

Python知识笔记总结

Python知识笔记总结
10.18 23:23:07

发表了文章 2022-10-18 23:23:07

Hadoop大数据生态组件环境安装

首先安装Centos系统修改网络配置我的三台机器： master 192.168.179.10 slave1 192.168.179.11 slava2 192.168.179.12
10.18 23:16:21

发表了文章 2022-10-18 23:16:21

Hadoop常见端口总结

大数据常见端口汇总：
10.18 23:12:33

发表了文章 2022-10-18 23:12:33

大数据开发笔记（五）：Zookeeper（二）

ZooKeeper 是一个开源的分布式协调服务。它是一个为分布式应用提供一致性服务的软件，分布式应用程序可以基于 Zookeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。 ZooKeeper 的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
10.18 23:12:26

发表了文章 2022-10-18 23:12:26

大数据开发笔记（五）：Zookeeper（一）

ZooKeeper 是一个开源的分布式协调服务。它是一个为分布式应用提供一致性服务的软件，分布式应用程序可以基于 Zookeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。 ZooKeeper 的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。
10.18 23:06:30

发表了文章 2022-10-18 23:06:30

大数据开发笔记（十）：Hbase实践

(要求先配置好hadoop环境，版本hadoop2皆可，先启动zookeeper)
10.18 23:02:05

发表了文章 2022-10-18 23:02:05

大数据开发笔记（十）：Hbase列存储数据库总结

HBase 本质上是一个数据模型，可以提供快速随机访问海量结构化数据。利用 Hadoop 的文件系统（HDFS）提供的容错能力。它是 Hadoop 的生态系统，使用 HBase 在 HDFS 读取消费/随机访问数据，是 Hadoop 文件系统的一部分。
10.18 22:05:40

发表了文章 2022-10-18 22:05:40

大数据开发笔记（四）：Hive数仓调优

Hive调优策略
10.18 22:01:08

发表了文章 2022-10-18 22:01:08

大数据开发笔记（四）：Hive数据仓库

Hive主要解决海量结构化日志的数据统计分析，它是hadoop上的一种数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类似于SQL的查询方式，本质上来说是将Hive转化成MR程序。
10.18 21:59:25

发表了文章 2022-10-18 21:59:25

大数据开发笔记（三）：Mapreduce

MapReduce是采用一种分而治之的思想设计出来的分布式计算框架，它由两个阶段组成：map阶段和reduce阶段。
10.18 21:56:31

发表了文章 2022-10-18 21:56:31

大数据开发笔记（二）：Yarn分布式集群操作系统

Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目，为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式，不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架，不再强迫使用MapReduce框架。
10.18 21:52:14

发表了文章 2022-10-18 21:52:14

大数据开发笔记（一）：HDFS介绍

总结：Hadoop由三部分组成：HDFS、分布式计算MapReduce和资源调度引擎Yarn。
10.18 19:42:31

发表了文章 2022-10-18 19:42:31

Hive电商数仓实战

以电商数据为基础，详细介绍数据处理流程，结合hive数仓、spark开发采用多种方式实现大数据分析。
10.18 19:36:23

发表了文章 2022-10-18 19:36:23

数据分析流程总结

学习：数据处理流程总结
10.18 19:33:46

发表了文章 2022-10-18 19:33:46

Flink基础知识

Flink快速上手 --链接：百度网盘请输入提取码提取码：1234 Flink: 分布式、高性能框架，支持实时模式和批处理模式
10.18 19:30:23

发表了文章 2022-10-18 19:30:23

大数据知识点总结

数据仓库：英文Data WareHouse，数据仓库是面向主题，为分析数据而设计的，是一个各种数据(包括历史数据和当前数据)的中心存储系统，主要服务于商业智能(也就是BI)和企业决策管理。
10.18 19:25:15

发表了文章 2022-10-18 19:25:15

Sparkstreaming实时开发详解（二）

Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据，可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，处理结果保存到HDFS，数据库等。
10.18 19:25:12

发表了文章 2022-10-18 19:25:12

Sparkstreaming实时开发详解（一）

Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据，可以使用诸如map、reduce、join等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，处理结果保存到HDFS，数据库等。
10.18 19:17:10

发表了文章 2022-10-18 19:17:10

推荐系统理论与实践

推荐系统是利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。
10.18 19:13:06

发表了文章 2022-10-18 19:13:06

Spark常见优化原则

提交任务参数请参考这篇文章(包括优化建议)：Spark部署模式、任务提交 - GoAl
10.18 19:05:52

发表了文章 2022-10-18 19:05:52

SparkSQL实践

SparkSQL实战：统计用户及商品数据指标，包含以下三张表
10.18 18:58:02

发表了文章 2022-10-18 18:58:02

Springboot构建Echarts数据可视化

pring boot集成了tomcat等容器，效率更高，要实现数据的可视化，需要构建spring Boot框架架构web项目。同时使用注意的方式，就可以轻松建立前端访问路径与后端controller方法的映射关系，而不用像servlet一样维护繁琐的xml映射配置表。
10.18 18:50:33

发表了文章 2022-10-18 18:50:33

SparkSQL概念介绍

Spark SQL：将sql转换成spark任务

1

2

3

4

发表了文章 2022-10-24

深度学习系列资料总结(二)
发表了文章 2022-10-21

深度学习系列资料总结(一)
发表了文章 2022-10-21

深度学习知识点全面总结（二）
发表了文章 2022-10-21

深度学习知识点全面总结（一）
发表了文章 2022-10-21

Pytorch学习笔记总结
发表了文章 2022-10-21

机器学习知识点全面总结
发表了文章 2022-10-21

大数据电商数仓分析项目
发表了文章 2022-10-21

大数据开发面试知识点总结（三）
发表了文章 2022-10-21

大数据开发面试知识点总结（二）
发表了文章 2022-10-21

大数据开发面试知识点总结
发表了文章 2022-10-21

Python数据分析与挖掘实战总结(二)
发表了文章 2022-10-21

Python数据分析与挖掘实战总结(一)
发表了文章 2022-10-21

音乐推荐系统（二）
发表了文章 2022-10-21

音乐推荐系统（一）
发表了文章 2022-10-20

大数据电影可视化系统
发表了文章 2022-10-20

论文笔记系列：主干网络（二）-- DenseNet
发表了文章 2022-10-20

论文笔记系列：主干网络（一）-- ResNet
发表了文章 2022-10-20

数学建模笔记总结
发表了文章 2022-10-20

基于PaddleOCR的体检报告识别（二）
发表了文章 2022-10-20

基于PaddleOCR的体检报告识别（一）

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

勋章

关注

粉丝