专访唐亘:计算机编程和数学建模缺一不可

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:



点击图片购书


参与文末话题讨论,每日赠送异步图书

——异步小编



异步社区:可以介绍一下自己吗?目前正在做哪些事情?


唐亘:大家好,我叫唐亘,是《精通数据科学:从线性回归到深度学习》一书的作者,现就职于一家叫finogeeks的创业公司。在这家创业公司里面,我主要负责两个项目,一是利用市场上的各种信息,在金融领域里搭建知识图谱;二是构建量化指标体系用于刻画客户的投资行为,并以此为基础搭建个人专属的智能投顾机器人。

异步社区:是什么初衷开始创作《精通数据科学:从线性回归到深度学习》一书?这本书写给哪些人看?


唐亘:现在回想起来,有3个主要的原因促成我开始写这本书吧:
目前大热的数据科学(data science)是一门新兴学科,它涉及计算机、计量经济学、机器学习等多方面的内容但比较遗憾的是,将这3门学科融汇在一起的图书比较少见(在我有限的认知里),因此想通过自己的写作将这点遗憾弥补掉。

网上有关数据科学的资料很多,但这些资料都比较碎片化,不成体系。所以我希望能成体系地写一本书勾勒出有关数据科学的全景图。

从学习经历上来讲,我是一个比较喜欢自学和分享的人,因此很想将自己的学习心得和对学科的体会写出来,分享给大家。

这本书,我觉得比较适合两类人群吧,一是初学者,可以帮助他们了解什么是数据科学;二是对数据建模有一定基础的技术人员,可以帮助他们更好地理解模型(特别是在模型稳定性和可信度方面)。

异步社区:除了写作,您有开设视频课程的计划吗?


唐亘:长期有这样的打算,之前也尝试过比较短时间的公开课。但是,系统的视频课程需要比较长的准备时间,所以近期没有具体的计划。

异步社区:有一种说法,数据分析的工作终将被机器淘汰?您认同吗?
不认同。


唐亘:我觉得数据分析工作包含3个部分:业务知识、分析模型搭建、模型计算。其中前两个部分都是机器无法替代的,因为这些需要人的经验积累以及人对模型假设的理解。而最后一个部分是机器可以胜任的事实上,目前各种开源算法库比如scikit-learn、Tensorflow,它们做的事情就是让模型计算变得愈发自动化。

异步社区:对于刚入行的小白,您有什么建议?


唐亘:结合个人经历,我的建议是:多动手写代码提高自己工程实现的能力。多学一点高等数学的知识以便加深对模型的理解。多与业务人员接触了解业务场景,加深对数据的理解。

 

异步社区:数据科学家必备的职业素养您认为最重要的3点是什么?为什么?


唐亘:在我看来,数学科学家必备的3点职业素养是:模型理解、工程实现以及沟通技巧。通俗点讲就是既懂数学,又懂代码,还会讲故事。

模型理解强调的是对模型数学细节和模型假设的深刻理解。只能真正地理解了模型,才能根据实际情况,选择适当的模型分析数据。

工程实现强调的是数据科学家的代码能力。在这个计算机无处不在的时代,没有良好的代码能力,再好的模型设计也只能是空中楼阁,无法落地。沟通技巧强调的是如何将模型结果(或者其他一些技术细节)清楚明白地解释给业务人员。这往往是一个数据分析项目成功的关键因素。


异步社区:您曾说,就像“一千个人眼里有一千个哈姆雷特”一样,对于什么是数据科学也有很多种不同的解读,并由此衍生出很多相关概念,比如数据驱动(data driven)、大数据(big data)、分布式计算(distributed computing)等。这些概念的应用场景有什么不同?为什么这么说? 


唐亘:数据科学涉及的面特别广,也影响了人类社会的方方面面。不同的人对数据科学的关注点是不同的,因此衍生出很多侧重点不同的概念。比如数据驱动(data driven),它的侧重点是企业文化或者企业架构,指的是公司的决策应该从数据分析结果出发,而不应依赖于领导的个人经验;分布式计算(distributed computing)是一个技术概念,指的是如何利用计算机集群解决大数据量下的计算问题;大数据(big data)则是一个更加泛化的概念,更侧重于描述数据(数量越来越多,精细程度越来越高的数据)对人们生活的影响。

异步社区:数据科学所面临的工程挑战是什么? 


唐亘:我认为在工程实现上,面临的挑战主要有3个:

特征提取。一个数据分析项目的成功在很大程度上依赖于分析前期的特征提取,而且在一个典型的数据分析项目中,这部分花费的时间远远大于选择和编写模型算法的时间。为了能较好地完成这部分工作,需要优秀的代码能力。

矩阵运算。在模型训练时(也就是估算模型参数时),往往涉及矩阵运算。使用传统的CPU架构来进行这样的运算往往速度太慢,因此需要将这部分计算移植到GPU或者特制的计算芯片上,比如TPU。

分布式计算。在实际的应用中,往往需要面对海量的数据,这些数据是一台计算机无法处理的,因此要将原本在一台机器上运行的模型算法改写成能在计算机集群上分布式运行的算法。

异步社区:您是如何平衡写作、工作和生活时间的?有什么心得可以分享吗?


唐亘:写作是一件极其耗费时间的工作,因此只能尽可能地挤压自己的休息时间来完成。要说有什么心得的话,就是在写作的时候(其实工作的时候也一样),最好断网断手机,在较长的时间内专心做一件事,不要写不到几个字就刷一次朋友圈。

异步社区:2018年的目标是什么?可以跟异步社区的读者分享下吗?


唐亘:2018年的目标是锻炼身体,成功减肥,还有就是多读几本历史书。



《精通数据科学:从线性回归到深度学习》





《精通数据科学:从线性回归到深度学习》

唐亘


京东购书  当当购书

数据科学入门到实战,介绍数据科学常用的工具——Python、数学基础及模型,讨论数据科学的前沿领域——大数据和人工智能,包括机器学习领域经典的模型、分布式机器学习、神经网络和深度学习等。 

在数据学科的角度,融合了数学、计算机科学、计量经济学的精髓

为读者阐释了数据科学所要解决的核心问题—数据模型、算法模型的理论内涵和适用范围 

以常用的IT工具—Python为基础,教会读者如何建模以及通过算法实现数据模型,具有很强的实操性。 

本书还为读者详解了分布式机器学习、神经网络、深度学习等大数据和人工智能的前沿技术。

今日互动

你对本书的看法?为什么?截止时间6月8日17时,留言+转发本活动到朋友圈,小编将抽奖选出3名读者赠送纸书1本和2张e读版100元异步社区代金券,(留言点赞最多的自动获得一张)。

异步图书微信后台回复“5月新书”进入新书交流群,获得第一手新书信息


推荐阅读

2018年5月新书书单(文末福利)

2018年4月新书书单

异步图书最全Python书单

一份程序员必备的算法书单

第一本Python神经网络编程图书


长按二维码,可以关注我们哟

每天与你分享IT好文。

在“异步图书”微信后台回复“关注”,即可免费获得2000门在线视频课程;推荐朋友关注根据提示获取赠书链接,免费得异步e读版图书一本。赶紧来参加哦!

点击阅读原文,购买《精通数据科学 从线性回归到深度学习》

阅读原文


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 算法 Java
编码之舞:我的编程之旅与技术感悟
【8月更文挑战第19天】 在数字的海洋中航行,我以代码为桨,算法为帆。本文是我个人编程旅程的缩影,记录了从初识编程的迷茫到深入探索的喜悦,再到实践中不断成长的过程。我将分享那些令我眼前一亮的技术洞见,以及在解决问题时灵光乍现的瞬间。这不仅是对技术理解的展示,更是一段自我探索和超越的心路历程。
30 1
|
3月前
|
算法 程序员
代码之舞:编程艺术与技术感悟
在数字世界的广阔舞台上,编程不仅是逻辑的堆砌与算法的运行,它更像是一场精心编排的舞蹈。本文将通过个人的技术旅程,探讨编程之美,揭示如何将枯燥的代码转变为优雅的解决方案,并分享在技术探索中收获的深刻感悟。
36 2
|
3月前
|
机器学习/深度学习 设计模式 开发框架
编程之舞:技术感悟与实践
在数字世界的舞台上,编程不仅是技术的展示,更是一种艺术的体现。本文将通过个人的技术旅程,探讨如何将编程从一项技能转变为一种创造性的实践。我们将一起探索代码背后的哲学,学习如何在解决复杂问题时保持创新和灵活性,并讨论持续学习的重要性以及它如何塑造我们的技术之路。
代码之舞:我的编程之旅与技术感悟
在数字世界的无限舞台上,每一行代码都像是精心编排的舞步,共同谱写着技术的交响曲。本文将带领读者穿梭于编程的世界,探索那些隐藏在逻辑严谨与创新自由之间的奥秘。从最初的迷茫到渐渐的熟练,每一次的挑战都是自我提升的机会。文章旨在分享个人的技术成长历程,展现编程之美,并鼓励更多的技术爱好者踏上属于自己的代码之旅。我们将一同见证,如何在细节中追求完美,在复杂中寻找简单,最终在技术的海洋里找到自己的航道。
|
3月前
|
算法
编程之舞:技术感悟与生活哲学的交织
【8月更文挑战第16天】在数字世界的舞台上,编程不仅是技术的展示,更是思考的艺术。它如同一场精心编排的舞蹈,每一个动作、每一次旋转都蕴含着深远的意义。本文将带领读者走进编程的内在世界,探索那些看似晦涩难懂的代码背后所隐藏的生活哲学和情感表达。通过个人的技术感悟,我们将一同见证编程如何超越语言的界限,成为一种独特的沟通方式,连接着人与人、人与机器之间的思想与灵魂。
|
5月前
|
机器学习/深度学习 算法 搜索推荐
编程之舞:探索算法的优雅与力量
【6月更文挑战第10天】在软件的世界里,算法是构筑数字宇宙的基石。它们如同精心编排的舞蹈,每一个步骤都充满着逻辑的美感和解决问题的力量。本文将带领读者走进算法的世界,一起感受那些精妙绝伦的编程思想如何转化为解决现实问题的钥匙。
34 3
|
11月前
|
设计模式 架构师 Java
牛皮了!世界级架构师,图解面向对象编程,小学生都能看得懂
面向对象编程(Object-oriented Programming,缩写:OOP)是软件工程中一种具有对象概念的编程范式(Programming Paradigm),同时也是一种程序开发的抽象方针,与之对应的编程范式还有:函数式编程(Functional Programming)、过程式编程(Procedural Programming)、响应式编程(Reactive Programming)等。
|
程序员
《长安三万里》给程序员的启发
前段时间陪孩子一起看了《长安三万里》,结合这些年自己走过的路,内心有不少感触。不论电影评价怎样,也不论事实如何,单从程序员的角度,来说说三点启发
|
文字识别 算法 NoSQL
读书分享:《程序员修炼之道:通向务实的最高境界》的思想经验
相较于全书众多的干货笔记,这篇文章是个别思想经验的总结,希望和大家交流。 ETC;DRY不仅限于编码;维护一个项目概念列表;帮助业务方理解他想要什么;防御性编程;继承税;学会沟通;小实验
读书分享:《程序员修炼之道:通向务实的最高境界》的思想经验
|
存储 监控 安全
从平凡到非凡 阿里云李克的技术进阶之路
人物简介:李克 阿里云边缘云计算领域技术负责人 2009年硕士毕业加入阿里至今,一直从事CDN及边缘云领域的技术研发工作,在CDN、边缘计算等方向上有丰富的行业经验,全程参与了阿里云CDN商业化转型,边缘云中台体系的建设,研究方向包括数据智能、分布式架构和性能优化、云计算等领域。目前主要负责边缘云的技术研发以及架构演进。
921 1
从平凡到非凡 阿里云李克的技术进阶之路