【BABY夜谈大数据】神经网络

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 你需要挑选芒果,你不知道什么样的芒果最好吃,所以你就尝遍了所有的芒果,然后自己总结出个大深黄色的比较好吃,以后再去买的时候,就可以直接挑选这种。 那什么是机器学习呢,就是你让机器“尝”一遍所有芒果。神经网络就是机器学习中常见的领域。本文简单阐述了什么是神经网络,帮助大家快速理解。
+关注继续查看

前言

如果你喜欢《BABY夜谈大数据》这本书,或者想要及时收到更新,可以到豆瓣上订阅和购买哦!

https://read.douban.com/column/3346397/


神经网络旨在模拟人的思考方式,思维学普遍认为,人类大脑的思维分为抽象(逻辑)思维、形象(直观)思维和灵感(顿悟)思维三种基本方式。而神经网络主要就是模拟人类的逻辑思维。

逻辑思维是人们在认识事物的过程中借助于概念、判断、推理等思维形式能动地反映客观现实的理性认识过程,又称抽象思维。它是作为对认识者的思维及其结构以及起作用的规律的分析而产生和发展起来的。只有经过逻辑思维,人们对事物的认识才能达到对具体对象本质规定的把握,进而认识客观世界。它是人的认识的高级阶段,即理性认识阶段。

同时,逻辑思维是思维的一种高级形式。是指符合世间事物之间关系(合乎自然规律)的思维方式,我们所说的逻辑思维主要指遵循传统形式逻辑规则的思维方式。常称它为“抽象思维(Abstract thinking)”或“闭上眼睛的思维”。

例如由笛卡尔提出的著名的“我思故我在”,我无法否认自己的存在,因为当我否认、怀疑时,我就已经存在!”因为我在思考在怀疑的时候,肯定有一个执行“思考”的“思考者”,这个作为主体的“我”是不容怀疑的,这个我并非广延的肉体的“我”,而是思维者的我。所以,否认自己的存在是自相矛盾的。

这个“我思故我在”就是典型的逻辑思维产物。

神经网络可以算是人工智能领域中一个小小的部分,简单来说就是通过一些列函数的串行和并行来拟合一个已经产生了一系列数据(x,y)的黑箱系统。

因为神经网络的这种特性,让人很难追溯产生的结果的原因,所以一般很少会用于推荐、运营相关方面。

作为一个数学不太好的设计师,神经网络的入门可以说是对数学要求没有那么高对我等相对来说比较友好的一个方向。

神经网络的点和点通过权重连接。把神经网络训练好了(就是权重调整好)。然后,让它去识别一个输入,把一个输入从神经网络出来后,就会被映射到一个输出(一个分类)。 所以也很适合做分类器。

我这里引用PararthShah在Quora(贾伟 翻译)上对机器学习(神经网络是机器学习的一部分)的解释:

你需要挑选芒果,你不知道什么样的芒果最好吃,所以你就尝遍了所有的芒果,然后自己总结出个大深黄色的比较好吃,以后再去买的时候,就可以直接挑选这种。
那什么是机器学习呢,就是你让机器“尝”一遍所有芒果,当然,也假设它知道哪些好吃,让机器去总结一套规律(个大深黄色),这就是机器学习。具体操作,就是你描述给机器每一个芒果的特征(颜色,大小,软硬……),描述给机器其输出(味道如何,是否好吃),剩下的就等机器去学习出一套规则。

神经网络特别适合用于分类,比如图像识别、垃圾邮件识别等等。这种能自动对输入的东西进行分类的机器,也可以叫做分类器。

每进行一次分类就被称为一个神经元,理论上只要足够多次的分类就可以把任何复杂的东西都能分类。相似的神经元构成一层。

当一层神经元搞不定的时候,怎么办?两层呗,两层搞不定就三层呗,如此反复叠加。上一层的结果可以当做下一层神经元的输入,直到最后一层再输出结果。

比如:

第一层分类出是一只狗。

第二层分类出是一只黄色的狗。

第三层分类出是一只黄色的金毛。

看到上面的例子,我相信大家都大概明白了神经网络的运作原理吧。神经网络虽然听起来特别高深、让人肃然起敬,但其实并不是特别的难。让人容易想起一个弹幕-“什么都好,就是有点傻”。

不得不说神经网络从某种程度上来说是有点傻,在实际应用上一般是不会设计超过五层的神经网络,因为层数越多越复杂、性能越低。

想要训练神经网络认识狗的话,就给它看几百万只狗、几百万只猫并标识什么是狗什么是猫,让神经网络自己提取共用特征。然后让神经网络分批看几十万张随机挑选的动物图片,每张图片可以附带一个标注(人为标注出是什么),如果神经网络得出的结果与人为标注的结果不同则自动修正。

如此反复找到识别率最高的批次。

讲到这就不得不提BP了,BP算法是一种计算偏导数的有效方法,它的基本原理是:利用前向传播最后输出的结果来计算误差的偏导数,再用这个偏导数和前面的隐藏层进行加权求和,如此一层一层的向后传下去,直到输入层(不计算输入层),最后利用每个节点求出的偏导数来更新权重。

BP神经网络可以用作分类、聚类、预测等。需要有一定量的历史数据,通过历史数据的训练,网络可以学习到数据中隐含的知识。在你的问题中,首先要找到某些问题的一些特征,以及对应的评价数据,用这些数据来训练神经网络。

BP神经网络主要是在实践的基础上逐步完善起来的系统,并不完全是建立在仿生学上的。并且里面的某些算法,例如如何选择初始值、如何确定隐藏层的节点个数、使用何种激活函数等问题,并没有确凿的理论依据,只有一些根据实践经验总结出的有效方法或经验公式。

BP神经网络虽然是一种非常有效的计算方法,但它也以计算超复杂、计算速度超慢、容易陷入局部最优解等多项弱点著称,因此人们提出了大量有效的改进方案,一些新的神经网络形式也层出不穷。

决策树和神经网络都可以用来做预测,线性回归、逻辑回归也是可以做预测。方法还挺多,但一般我们选择准确率最好的那个模型。

决策树因为其特性可以清晰和直观的知道整个决策流程,而神经网路则是通过算法产生一个最终的结果,这个结果是一些权重数据。所以在大数据的应用领域我更赞成决策树。可能这个跟自己的一些理念有关。

由于本书并不希望讲得太过高深,所以我就不在这里讲太多神经网络相关的,神经网络的学习还是需要一定时间和尝试的。本篇文章主要是给大家继决策树后补充下相关的知识。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3天前
|
存储 SQL 数据挖掘
某工商信息商业查询平台基于阿里云数据库 SelectDB 版内核 Apache Doris 的湖仓一体建设实践
从传统 Lambda 架构到基于 Doris Multi-Catalog 的湖仓一体架构实践,保证了数据的准确性和实时性、高效处理和分析了大规模数据,推动信息服务行业发展创新!
某工商信息商业查询平台基于阿里云数据库 SelectDB 版内核 Apache Doris 的湖仓一体建设实践
|
7天前
|
存储 人工智能 大数据
【2023云栖】陈守元:阿里云开源大数据产品年度发布
阿里云计算平台事业部开源大数据产品总监陈守元围绕EMR、Flink Streaming Lakehouse、 Elasticsearch、Milvus等产品发布展开分享介绍。
70 2
|
29天前
|
SQL 分布式计算 Java
阿里云国际站代理商:阿里云使用 odps-jdbc 接入 ODPS是如何操作的?
@luotuoemo飞机@TG 阿里云国际站代理商:阿里云使用 odps-jdbc 接入 ODPS是如何操作的?在代码中,你需要使用`Class.forName`加载odps-jdbc驱动类,然后通过`DriverManager.getConnection`方法建立与ODPS的数据库连接:
|
1月前
|
分布式计算 运维 大数据
MaxCompute,原名ODPS,是阿里云提供的一种大数据计算服务
MaxCompute,原名ODPS,是阿里云提供的一种大数据计算服务
31 1
|
2月前
|
存储 分布式计算 数据可视化
阿里云大数据ACA及ACP复习题(541~550)
最近事务繁忙确实没有时间整理,题库的话也剩的不多了,最后再更新几期吧,主要是现在时间不太够,又得忙着备考ACE,后面准备整点ACE的选择题和实操题。
|
2月前
|
分布式计算 数据可视化 数据挖掘
阿里云大数据ACA及ACP复习题(531~540)
本人备考阿里云大数据考试时自行收集准备的题库,纯手工整理的,因为是纯手工整理解析所以可能出现答案打错的情况,题库是能够覆盖到今年7月份,应该是目前最新的,发成文章希望大家能一起学习,不要花冤枉钱去买题库背了,也希望大家能够顺利通关ACA和ACP考试(自己整理解析也需要时间,可能有更新不及时的情况哈)
|
2月前
|
存储 分布式计算 供应链
阿里云大数据ACA及ACP复习题(521~530)
本人备考阿里云大数据考试时自行收集准备的题库,纯手工整理的,因为是纯手工整理解析所以可能出现答案打错的情况,题库是能够覆盖到今年7月份,应该是目前最新的,发成文章希望大家能一起学习,不要花冤枉钱去买题库背了,也希望大家能够顺利通关ACA和ACP考试(自己整理解析也需要时间,可能有更新不及时的情况哈)
|
人工智能 算法 大数据
【BABY夜谈大数据】决策树
最近阿法狗好火,所以就特地讲下决策树。决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。学会可以帮你选择女朋友!
2265 0
|
人工智能 自然语言处理 算法
【BABY夜谈大数据】计算文本相似度
文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。本文讲解了常见的文本相似度算法。
2635 0
|
算法 大数据 搜索推荐
【BABY夜谈大数据】基于内容的推荐
基于内容的推荐算法是非常常见的推荐引擎算法。 这种算法常用于根据用户的行为历史信息,如评价、分享、点赞等行为并将这些行为整合计算出用户的喜好兵进行推荐。本文简单讲述了基于内容的推荐的原理
1417 0
相关产品
机器翻译
推荐文章
更多