专访唐亘:计算机编程和数学建模缺一不可

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:



点击图片购书


参与文末话题讨论,每日赠送异步图书

——异步小编



异步社区:可以介绍一下自己吗?目前正在做哪些事情?


唐亘:大家好,我叫唐亘,是《精通数据科学:从线性回归到深度学习》一书的作者,现就职于一家叫finogeeks的创业公司。在这家创业公司里面,我主要负责两个项目,一是利用市场上的各种信息,在金融领域里搭建知识图谱;二是构建量化指标体系用于刻画客户的投资行为,并以此为基础搭建个人专属的智能投顾机器人。

异步社区:是什么初衷开始创作《精通数据科学:从线性回归到深度学习》一书?这本书写给哪些人看?


唐亘:现在回想起来,有3个主要的原因促成我开始写这本书吧:
目前大热的数据科学(data science)是一门新兴学科,它涉及计算机、计量经济学、机器学习等多方面的内容但比较遗憾的是,将这3门学科融汇在一起的图书比较少见(在我有限的认知里),因此想通过自己的写作将这点遗憾弥补掉。

网上有关数据科学的资料很多,但这些资料都比较碎片化,不成体系。所以我希望能成体系地写一本书勾勒出有关数据科学的全景图。

从学习经历上来讲,我是一个比较喜欢自学和分享的人,因此很想将自己的学习心得和对学科的体会写出来,分享给大家。

这本书,我觉得比较适合两类人群吧,一是初学者,可以帮助他们了解什么是数据科学;二是对数据建模有一定基础的技术人员,可以帮助他们更好地理解模型(特别是在模型稳定性和可信度方面)。

异步社区:除了写作,您有开设视频课程的计划吗?


唐亘:长期有这样的打算,之前也尝试过比较短时间的公开课。但是,系统的视频课程需要比较长的准备时间,所以近期没有具体的计划。

异步社区:有一种说法,数据分析的工作终将被机器淘汰?您认同吗?
不认同。


唐亘:我觉得数据分析工作包含3个部分:业务知识、分析模型搭建、模型计算。其中前两个部分都是机器无法替代的,因为这些需要人的经验积累以及人对模型假设的理解。而最后一个部分是机器可以胜任的事实上,目前各种开源算法库比如scikit-learn、Tensorflow,它们做的事情就是让模型计算变得愈发自动化。

异步社区:对于刚入行的小白,您有什么建议?


唐亘:结合个人经历,我的建议是:多动手写代码提高自己工程实现的能力。多学一点高等数学的知识以便加深对模型的理解。多与业务人员接触了解业务场景,加深对数据的理解。

 

异步社区:数据科学家必备的职业素养您认为最重要的3点是什么?为什么?


唐亘:在我看来,数学科学家必备的3点职业素养是:模型理解、工程实现以及沟通技巧。通俗点讲就是既懂数学,又懂代码,还会讲故事。

模型理解强调的是对模型数学细节和模型假设的深刻理解。只能真正地理解了模型,才能根据实际情况,选择适当的模型分析数据。

工程实现强调的是数据科学家的代码能力。在这个计算机无处不在的时代,没有良好的代码能力,再好的模型设计也只能是空中楼阁,无法落地。沟通技巧强调的是如何将模型结果(或者其他一些技术细节)清楚明白地解释给业务人员。这往往是一个数据分析项目成功的关键因素。


异步社区:您曾说,就像“一千个人眼里有一千个哈姆雷特”一样,对于什么是数据科学也有很多种不同的解读,并由此衍生出很多相关概念,比如数据驱动(data driven)、大数据(big data)、分布式计算(distributed computing)等。这些概念的应用场景有什么不同?为什么这么说? 


唐亘:数据科学涉及的面特别广,也影响了人类社会的方方面面。不同的人对数据科学的关注点是不同的,因此衍生出很多侧重点不同的概念。比如数据驱动(data driven),它的侧重点是企业文化或者企业架构,指的是公司的决策应该从数据分析结果出发,而不应依赖于领导的个人经验;分布式计算(distributed computing)是一个技术概念,指的是如何利用计算机集群解决大数据量下的计算问题;大数据(big data)则是一个更加泛化的概念,更侧重于描述数据(数量越来越多,精细程度越来越高的数据)对人们生活的影响。

异步社区:数据科学所面临的工程挑战是什么? 


唐亘:我认为在工程实现上,面临的挑战主要有3个:

特征提取。一个数据分析项目的成功在很大程度上依赖于分析前期的特征提取,而且在一个典型的数据分析项目中,这部分花费的时间远远大于选择和编写模型算法的时间。为了能较好地完成这部分工作,需要优秀的代码能力。

矩阵运算。在模型训练时(也就是估算模型参数时),往往涉及矩阵运算。使用传统的CPU架构来进行这样的运算往往速度太慢,因此需要将这部分计算移植到GPU或者特制的计算芯片上,比如TPU。

分布式计算。在实际的应用中,往往需要面对海量的数据,这些数据是一台计算机无法处理的,因此要将原本在一台机器上运行的模型算法改写成能在计算机集群上分布式运行的算法。

异步社区:您是如何平衡写作、工作和生活时间的?有什么心得可以分享吗?


唐亘:写作是一件极其耗费时间的工作,因此只能尽可能地挤压自己的休息时间来完成。要说有什么心得的话,就是在写作的时候(其实工作的时候也一样),最好断网断手机,在较长的时间内专心做一件事,不要写不到几个字就刷一次朋友圈。

异步社区:2018年的目标是什么?可以跟异步社区的读者分享下吗?


唐亘:2018年的目标是锻炼身体,成功减肥,还有就是多读几本历史书。



《精通数据科学:从线性回归到深度学习》





《精通数据科学:从线性回归到深度学习》

唐亘


京东购书  当当购书

数据科学入门到实战,介绍数据科学常用的工具——Python、数学基础及模型,讨论数据科学的前沿领域——大数据和人工智能,包括机器学习领域经典的模型、分布式机器学习、神经网络和深度学习等。 

在数据学科的角度,融合了数学、计算机科学、计量经济学的精髓

为读者阐释了数据科学所要解决的核心问题—数据模型、算法模型的理论内涵和适用范围 

以常用的IT工具—Python为基础,教会读者如何建模以及通过算法实现数据模型,具有很强的实操性。 

本书还为读者详解了分布式机器学习、神经网络、深度学习等大数据和人工智能的前沿技术。

今日互动

你对本书的看法?为什么?截止时间6月8日17时,留言+转发本活动到朋友圈,小编将抽奖选出3名读者赠送纸书1本和2张e读版100元异步社区代金券,(留言点赞最多的自动获得一张)。

异步图书微信后台回复“5月新书”进入新书交流群,获得第一手新书信息


推荐阅读

2018年5月新书书单(文末福利)

2018年4月新书书单

异步图书最全Python书单

一份程序员必备的算法书单

第一本Python神经网络编程图书


长按二维码,可以关注我们哟

每天与你分享IT好文。

在“异步图书”微信后台回复“关注”,即可免费获得2000门在线视频课程;推荐朋友关注根据提示获取赠书链接,免费得异步e读版图书一本。赶紧来参加哦!

点击阅读原文,购买《精通数据科学 从线性回归到深度学习》

阅读原文


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
开发者
从代码中汲取智慧——我的编程之旅与技术感悟
【9月更文挑战第24天】在数字世界的迷宫中,代码是指引我们前行的罗盘。它不仅仅是冷冰冰的指令集合,更是一扇窗,透过它,我们可以看到逻辑的严谨、问题的解决以及创新的火花。本文将分享我在编程旅途中的一些深刻体会,从最初的困惑与挫败,到逐渐掌握编程语言的乐趣,再到通过代码解决问题的成就感。我将探讨如何通过编程提升思维能力,以及编程对个人成长和职业发展的重要性。无论你是编程新手还是资深开发者,这段旅程都将启发你去思考和探索技术的深层次意义。
36 1
|
4月前
|
Python
编程之禅的奇幻之旅:探寻代码世界与生活万象的惊世共鸣,颠覆你的认知!
【8月更文挑战第7天】编程不仅是技术活,更融汇艺术与哲学。它启示我们在生活里追求简洁高效,如Python列表推导式的优雅;教会我们面对挑战时冷静分析,正如调试代码;体现分工合作的重要性,像模块化设计;并鼓励持续优化,提升效能。编程所蕴含的生活智慧,能引导我们创造更美好、有序的人生。
50 1
|
程序员
编程高手,都在培养自己的“硬核力”
编程高手,都在培养自己的“硬核力”
122 0
|
4月前
掌握这 3 个诀窍,你也能成为一个技术大牛
掌握这 3 个诀窍,你也能成为一个技术大牛
|
缓存 Java 编译器
初入编程之门的个人建议1.0
初入编程之门的个人建议1.0
48 0
|
程序员
《长安三万里》给程序员的启发
前段时间陪孩子一起看了《长安三万里》,结合这些年自己走过的路,内心有不少感触。不论电影评价怎样,也不论事实如何,单从程序员的角度,来说说三点启发
|
文字识别 算法 NoSQL
读书分享:《程序员修炼之道:通向务实的最高境界》的思想经验
相较于全书众多的干货笔记,这篇文章是个别思想经验的总结,希望和大家交流。 ETC;DRY不仅限于编码;维护一个项目概念列表;帮助业务方理解他想要什么;防御性编程;继承税;学会沟通;小实验
读书分享:《程序员修炼之道:通向务实的最高境界》的思想经验
|
程序员
程序员成长第四篇:程序员的职业天花板
程序员成长第四篇:程序员的职业天花板
144 0