深入探索Scala的Option-阿里云开发者社区

深入探索Scala的Option

2023-02-07 93

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 深入探索Scala的Option

程序员最深恶痛绝并力求避免的异常是NullPointerException，很不幸，我们往往又会忽略这个错误。不知是谁设计了Null这样的对象。我在文章《并非null这么简单》中已经阐释了这个问题。然而不仅仅是空指针异常，当程序代码中出现各种错误时，我们的处理方式该如何呢？

现在，让我们再看看Scala语法层面的Option。Option对象并没有从根本上解决程序错误的问题，但只要使用得当，就能有效地将错误往程序的外层推，这实际上是消除副作用的惯常做法。正如Paul Chiusano等人的著作《Scala函数式编程》描述的那样：

对函数式程序员而言，程序的实现，应该有一个纯的内核和一层很薄的外围来处理副作用。

REA的Scala程序员Ken Scambler在YOW!大会上有一个很棒的演讲2 Year of Real World FP at REA。演讲中提到REA选择函数式编程的三个原因：

模块化(Modularity)
抽象(Abstraction)
可组合性(Composability)

模块化的一个重要特征是设计没有副作用的纯函数，这样就不会影响调用该纯函数的上下文，也就是所谓的“引用透明(Reference Transparency)”概念，即针对任何函数都可以使用它的返回值来代替（substitution）。

Ken Scambler使用了一个解析字符串的例子来阐释这种纯函数特质。如下代码所示：

def parseLocation(str: String): Location = { 
  val parts = str.split(",") 
  val secondStr = parts(1) 
  val parts2 = secondStr.split(“ “) 
  Location( parts(0), parts2(0), parts(1).toInt)
}

这段代码可能存在如下错误：

作为input的str可能为null
parts(0)和parts(1)可能导致索引越界
parts2(0)可能导致索引越界
parts(1)未必是整数，调用toInt可能导致类型转换异常

仅仅从函数的定义来看，我们其实看不到这些潜在的负面影响。那么，想像一下当这样的方法被系统中许多地方直接或间接调用，可能会造成什么样的灾难？！假设这样的代码被放到安全要求极高的系统中，你是否会感到不寒而栗？——程序员，应该在道义上肩负为自己所写每行代码承担自己的责任，这是基本的职业素养。我所谓的承担责任，并不是事后追究，而是在每次写完代码后都要再三推敲，力求每行代码都是干净利落，没有歧义，没有潜在的错误。

然而，针对以上代码，要怎样才能保证程序调用的健壮性呢？就是要对可能出现的错误（空对象，索引越界，类型转换异常）进行判断。这就需要在parseLocation函数体中加入一堆if语句，短短的六行代码可能会膨胀一倍，而分支语句也会让程序的逻辑变得凌乱，正常逻辑与异常逻辑可能会像麻花一样扭在一起。当然，我们可以运用防御式编程，将可能的错误防御在正常逻辑代码之前，但它带来的阅读体验却会非常糟糕。

即使针对这些错误进行判断，仍然无法解决的一个问题是当对象真的出现错误时，函数实现究竟该如何处理？多数语言不支持多返回值（乃至不支持类似Scala的Pair），经典的解决办法就是抛出异常，可惜，异常却存在副作用。许多程序员更习惯性的返回了null。这是最要命的做法，就好像是慕容复的“以彼之道，还施彼身”，典型地损人利己！

引入Option，会让代码在保证健壮性的同时还保证了简洁性，例如：

def parseLocation(str: String): Option[Location] = {
  val parts = str.split(",")
  for {
    locality <- parts.optGet(0)
    theRestStr <- parts.optGet(1)
    theRest = theRestStr.split(" ")
    subdivision <- theRest.optGet(0)
    postcodeStr <- theRest.optGet(1)
    postcode <- postcodeStr.optToInt
} yield Location(locality, subdivision, postcode)}

本质上，Option是一个Monad；简单来说，是一个定义了flatMap与map的容器，故而能够支持Scala中可读性更佳的for comprehension。如上代码简单明了，你甚至可以忽略当Option为None的情形，只考虑正常的字符串解析逻辑，它自然地隐含了None的语义，因为在代码中通过optGet与optToInt返回的值（为Option类型），只要其中一个为None，整个函数就将即刻返回一个None对象，而非一个包裹了Location的Some对象。这样既避免了使用分支语句，还能使得函数没有任何副作用，规避了抛出异常的逻辑。

如上的改进仍然存在一个问题，那就是缺乏对输入的str进行判断。一个好的API设计者或者函数实现者，要怀着“性本恶”的悲观主义道德观，对任何输入持怀疑态度，且不惮于怀疑调用者的恶意。对于输入的这个str，我们仍然要避免使用条件判断的方式，因而可以修改函数的接口为：

def parseLocation(str: Option[String]): Option[Location] = ???

如此，我们可以将对str的解析逻辑也挪动到for comprehension中：

def parseLocation(str: Option[String]): Option[Location] = {
  for {
    val parts = str.split(",")
    locality <- parts.optGet(0)
    theRestStr <- parts.optGet(1)
    theRest = theRestStr.split(" ")
    subdivision <- theRest.optGet(0)
    postcodeStr <- theRest.optGet(1)
    postcode <- postcodeStr.optToInt
} yield Location(locality, subdivision, postcode)}

使用Option的唯一问题是：你虽然指定了Option这样的游戏规则，但其他API的设计者却未必按照你设计的规则出牌。这也是如上代码中optGet之类函数的由来。即使是Scala的内置库，如String的split函数，返回的也并非一个Option，而是一个普通的数组。当我们给一个错误的下标值去访问数组时，有可能会抛出ArrayIndexOutOfBoundsException异常。

Scala提供的解决方案是隐式转换（implicit conversion）。split()函数返回的类型为Array[String]，该类型自身是没有optGet()函数的。但是我们可以为Array[String]定义隐式转换：

implicit class ArrayWrapper(array: Array[String]) {
  def optGet(index:Int): Option[String] = 
    if (array.length > index) Some(array(index)) else None
}

optToInt方法可以如法炮制。

惯常说来，当我们在使用Option时，习惯于利用模式匹配（pattern match）以运用“分而治之”的思想来编写代码。然而，多数时候我们应该使用定义在Option中的函数，这些函数可以让代码变得更简单。例如使用flatMap、map、isDefined、isEmpty、forAll、exists、orElse、getOrElse等函数。Tony Morris整理的scala.Option Cheat Sheet总结了这些函数的用法，可供参考。

深入探索Scala的Option

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

深入探索Scala的Option

热门文章

最新文章

相关课程

相关电子书