Update: Strings && Characters
This commit is contained in:
@ -1,22 +1,30 @@
|
||||
# 字符串和字符 (Strings and Characters)
|
||||
|
||||
**String** 是一个有序的字符集合,例如 "hello, world", "albatross"。Swift 字符串通过 **String** 类型来表示,也可以表示为 **Character** 类型值的集合。
|
||||
**String** 是一个有序的字符集合,例如 "hello, world", "albatross"。
|
||||
Swift 字符串通过 **String** 类型来表示,也可以表示为 **Character** 类型值的集合。
|
||||
|
||||
Swift 的 **String** 和 **Character** 类型提供了一个快速的,兼容 Unicode 的方式来处理代码中的文本信息。创建和操作字符串的语法与 C的操作方式相似,轻量并且易读。字符串连接操作只需要简单地通过 `+` 号将两个字符串相连即可。与 Swift 中其他值一样,能否更改字符串的值,取决于其被定义为常量还是变量。
|
||||
Swift 的 **String** 和 **Character** 类型提供了一个快速的,兼容 Unicode 的方式来处理代码中的文本信息。
|
||||
创建和操作字符串的语法与 C的操作方式相似,轻量并且易读。
|
||||
字符串连接操作只需要简单地通过 `+` 号将两个字符串相连即可。
|
||||
与 Swift 中其他值一样,能否更改字符串的值,取决于其被定义为常量还是变量。
|
||||
|
||||
尽管语法简易,但 **String** 类型是一种快速、现代化的字符串实现。每一个字符串都是由独立编码的 Unicode 字符组成,并提供了用于访问这些字符在不同的Unicode表示的支持。
|
||||
尽管语法简易,但 **String** 类型是一种快速、现代化的字符串实现。
|
||||
每一个字符串都是由独立编码的 Unicode 字符组成,并提供了用于访问这些字符在不同的Unicode表示的支持。
|
||||
|
||||
**String** 也可以用于在常量、变量、字面量和表达式中进行字符串插值,这使得创建用于展示、存储和打印的字符串变得轻松自如。
|
||||
|
||||
> 注意:
|
||||
>
|
||||
> Swift 的 **String** 类型与 Foundation NSString 类进行了无缝桥接。如果您利用 Cocoa 或 Cocoa Touch 中的 Foundation 框架进行工作,整个 NSString API 都可以调用您创建的任意 String 类型的值,您额外还可以在任意 API 中使用本章介绍的 **String** 特性。您也可以在任意要求传入NSString 实例作为参数的 API 中使用 **String** 类型的值进行替换。
|
||||
> Swift 的 **String** 类型与 Foundation NSString 类进行了无缝桥接。
|
||||
> 如果您利用 Cocoa 或 Cocoa Touch 中的 Foundation 框架进行工作,整个 NSString API 都可以调用您创建的任意 String 类型的值,您额外还可以在任意 API 中使用本章介绍的 **String** 特性。
|
||||
> 您也可以在任意要求传入NSString 实例作为参数的 API 中使用 **String** 类型的值进行替换。
|
||||
>
|
||||
>更多关于在 Foundation 和 Cocoa 中使用 **String** 的信息请查看 [Using Swift with Cocoa and Objective-C](https://developer.apple.com/library/prerelease/ios/documentation/Swift/Conceptual/BuildingCocoaApps/index.html#//apple_ref/doc/uid/TP40014216)。
|
||||
|
||||
### 字符串字面量
|
||||
|
||||
您可以在您的代码中包含一段预定义的字符串值作为字符串字面量。字符串字面量是由双引号包裹着的具有固定顺序的文本字符集。
|
||||
您可以在您的代码中包含一段预定义的字符串值作为字符串字面量。
|
||||
字符串字面量是由双引号包裹着的具有固定顺序的文本字符集。
|
||||
|
||||
字符串字面量可以用于为常量和变量提供初始值。
|
||||
|
||||
@ -49,7 +57,8 @@ let sparklingHeart = "\U0001F496" // 💖, Unicode scalar U+1F496
|
||||
|
||||
### 初始化空字符串
|
||||
|
||||
为了构造一个很长的字符串,可以创建一个空字符串作为初始值。可以将空的字符串字面量赋值给变量,也可以初始化一个新的 **String** 实例:
|
||||
为了构造一个很长的字符串,可以创建一个空字符串作为初始值。
|
||||
可以将空的字符串字面量赋值给变量,也可以初始化一个新的 **String** 实例:
|
||||
|
||||
```
|
||||
var emptyString = "" // empty string literal
|
||||
@ -85,19 +94,25 @@ constantString += " and another Highlander"
|
||||
|
||||
### 字符串是值类型
|
||||
|
||||
Swift 的 **String** 类型是值类型。如果您创建了一个新的字符串,那么当其进行常量、变量赋值操作或在函数/方法中传递时,会进行值拷贝。任何情况下,都会对已有字符串值创建新副本,并对该新副本进行传递或赋值。值类型在 [Structures and Enumerations Are Value Types](https://developer.apple.com/library/prerelease/ios/documentation/Swift/Conceptual/Swift_Programming_Language/ClassesAndStructures.html#//apple_ref/doc/uid/TP40014097-CH13-XID_104) 中进行了说明。
|
||||
Swift 的 **String** 类型是值类型。
|
||||
如果您创建了一个新的字符串,那么当其进行常量、变量赋值操作或在函数/方法中传递时,会进行值拷贝。
|
||||
任何情况下,都会对已有字符串值创建新副本,并对该新副本进行传递或赋值。
|
||||
值类型在 [Structures and Enumerations Are Value Types](https://developer.apple.com/library/prerelease/ios/documentation/Swift/Conceptual/Swift_Programming_Language/ClassesAndStructures.html#//apple_ref/doc/uid/TP40014097-CH13-XID_104) 中进行了说明。
|
||||
|
||||
> 注意:
|
||||
>
|
||||
> 与 Cocoa 中的 NSString 不同,当您在 Cocoa 中创建了一个 NSString 实例,并将其传递给一个函数/方法,或者赋值给一个变量,您永远都是传递或赋值同一个 NSString 实例的一个引用。除非您特别要求其进行值拷贝,否则字符串不会进行赋值新副本操作。
|
||||
> 与 Cocoa 中的 NSString 不同,当您在 Cocoa 中创建了一个 NSString 实例,并将其传递给一个函数/方法,或者赋值给一个变量,您永远都是传递或赋值同一个 NSString 实例的一个引用,除非您特别要求其进行值拷贝,否则字符串不会进行赋值新副本操作。
|
||||
|
||||
Swift 默认字符串拷贝的方式保证了在函数/方法中传递的是字符串的值,其明确了无论该值来自于哪里,都是您独自拥有的。您可以放心您传递的字符串本身不会被更改。
|
||||
Swift 默认字符串拷贝的方式保证了在函数/方法中传递的是字符串的值,其明确了无论该值来自于哪里,都是您独自拥有的。
|
||||
您可以放心您传递的字符串本身不会被更改。
|
||||
|
||||
在实际编译时,Swift编译器会优化字符串的使用,使实际的复制只发生在绝对必要的情况下,这意味着您始终可以将字符串作为值类型的同时获得极高的性能。
|
||||
|
||||
#### 使用字符(Characters)
|
||||
|
||||
Swift 的 **String** 类型表示特定序列的字符值的集合。每一个字符值代表一个 Unicode 字符。您可利用 for-in 循环来遍历字符串中的每一个字符:
|
||||
Swift 的 **String** 类型表示特定序列的字符值的集合。
|
||||
每一个字符值代表一个 Unicode 字符。
|
||||
您可利用 for-in 循环来遍历字符串中的每一个字符:
|
||||
|
||||
```
|
||||
for character in "Dog!🐶" {
|
||||
@ -128,11 +143,16 @@ println("unusualMenagerie has \(countElements(unusualMenagerie)) characters")
|
||||
// prints "unusualMenagerie has 40 characters"
|
||||
```
|
||||
|
||||
>注意:
|
||||
> 注意:
|
||||
>
|
||||
>不同的 Unicode 字符以及相同 Unicode 字符的不同表示方式可能需要不同数量的内存空间来存储,所以Swift 中的字符在一个字符串中并不一定占用相同的内存空间。因此,字符串的长度不得不通过迭代字符串中每一个字符的长度来进行计算。如果您正在处理一个长字符串,需要注意 `countElements` 函数必须遍历字符串中的字符以精准计算字符串的长度。
|
||||
> 不同的 Unicode 字符以及相同 Unicode 字符的不同表示方式可能需要不同数量的内存空间来存储。
|
||||
> 所以Swift 中的字符在一个字符串中并不一定占用相同的内存空间。
|
||||
> 因此字符串的长度不得不通过迭代字符串中每一个字符的长度来进行计算。
|
||||
> 如果您正在处理一个长字符串,需要注意 `countElements` 函数必须遍历字符串中的字符以精准计算字符串的长度。
|
||||
>
|
||||
>另外需要注意的是通过 `countElements` 返回的字符数量并不总是与包含相同字符的 NSString 的 `length` 属性相同。NSString 的 `length` 属性是基于利用 UTF-16 表示的十六位代码单元数字,而不是基于 Unicode 字符。为了解决这个问题,NSString 的 `length` 属性在被 Swift的 **String** 访问时会成为 `utf16count`。
|
||||
> 另外需要注意的是通过 `countElements` 返回的字符数量并不总是与包含相同字符的 NSString 的 `length` 属性相同。
|
||||
> NSString 的 `length` 属性是基于利用 UTF-16 表示的十六位代码单元数字,而不是基于 Unicode 字符。
|
||||
> 为了解决这个问题,NSString 的 `length` 属性在被 Swift的 **String** 访问时会成为 `utf16count`。
|
||||
|
||||
### 连接字符串和字符
|
||||
|
||||
@ -168,7 +188,8 @@ welcome += character1
|
||||
|
||||
### 字符串插值
|
||||
|
||||
字符串插值是一种全新的构建字符串的方式,可以在其中包含常量、变量、字面量和表达式。您插入的字符串字面量的每一项都被包裹在以反斜线为前缀的圆括号中:
|
||||
字符串插值是一种全新的构建字符串的方式,可以在其中包含常量、变量、字面量和表达式。
|
||||
您插入的字符串字面量的每一项都被包裹在以反斜线为前缀的圆括号中:
|
||||
|
||||
```
|
||||
let multiplier = 3
|
||||
@ -176,9 +197,12 @@ let message = "\(multiplier) times 2.5 is \(Double(multiplier) * 2.5)"
|
||||
// message is "3 times 2.5 is 7.5"
|
||||
```
|
||||
|
||||
在上面的例子中,`multiplier` 作为 `\(multiplier)` 被插入到一个字符串字面量中。当创建字符串执行插值计算时此占位符会被替换为 `multiplier` 实际的值。
|
||||
在上面的例子中,`multiplier` 作为 `\(multiplier)` 被插入到一个字符串字面量中。
|
||||
当创建字符串执行插值计算时此占位符会被替换为 `multiplier` 实际的值。
|
||||
|
||||
`multiplier` 的值也作为字符串中后面表达式的一部分。该表达式计算 `Double(multiplier) * 2.5` 的值并将结果 (7.5) 插入到字符串中。在这个例子中,表达式写为 `\(Double(multiplier) * 2.5)` 并包含在字符串字面量中。
|
||||
`multiplier` 的值也作为字符串中后面表达式的一部分。
|
||||
该表达式计算 `Double(multiplier) * 2.5` 的值并将结果 (7.5) 插入到字符串中。
|
||||
在这个例子中,表达式写为 `\(Double(multiplier) * 2.5)` 并包含在字符串字面量中。
|
||||
|
||||
>注意:
|
||||
>
|
||||
@ -203,7 +227,9 @@ if quotation == sameQuotation {
|
||||
|
||||
##### 前缀/后缀相等
|
||||
|
||||
通过调用字符串的 `hasPrefix`/`hasSuffix` 方法来检查字符串是否拥有特定前缀/后缀。两个方法均需要以字符串作为参数传入并传出 **Boolean** 值。两个方法均执行基本字符串和前缀/后缀字符串之间逐个字符的比较操作。
|
||||
通过调用字符串的 `hasPrefix`/`hasSuffix` 方法来检查字符串是否拥有特定前缀/后缀。
|
||||
两个方法均需要以字符串作为参数传入并传出 **Boolean** 值。
|
||||
两个方法均执行基本字符串和前缀/后缀字符串之间逐个字符的比较操作。
|
||||
|
||||
下面的例子以一个字符串数组表示莎士比亚话剧 `罗密欧与朱丽叶` 中前两场的场景位置:
|
||||
|
||||
@ -250,13 +276,15 @@ let whispered = normal.lowercaseString
|
||||
|
||||
### Unicode
|
||||
|
||||
Unicode 是文本编码和表示的国际标准。它使您可以用标准格式表示来自任意语言几乎所有的字符,并能够对文本文件或网页这样的外部资源中的字符进行读写操作。
|
||||
Unicode 是文本编码和表示的国际标准。
|
||||
它使您可以用标准格式表示来自任意语言几乎所有的字符,并能够对文本文件或网页这样的外部资源中的字符进行读写操作。
|
||||
|
||||
Swift 的字符串和字符类型是完全兼容 Unicode 的,它支持如下所述的一系列不同的 Unicode 编码。
|
||||
|
||||
###### Unicode 术语(Terminology)
|
||||
|
||||
Unicode 中每一个字符都可以被解释为一个或多个 unicode 标量。字符的 unicode 标量是一个唯一的21位数字(和名称),例如 `U+0061` 表示小写的拉丁字母A ("a"),`U+1F425` 表示 ("🐥")
|
||||
Unicode 中每一个字符都可以被解释为一个或多个 unicode 标量。
|
||||
字符的 unicode 标量是一个唯一的21位数字(和名称),例如 `U+0061` 表示小写的拉丁字母A ("a"),`U+1F425` 表示小幺鸡表情 ("🐥")
|
||||
|
||||
当 Unicode 字符串被写进文本文件或其他存储结构当中,这些 unicode 标量将会按照 Unicode 定义的集中格式之一进行编码。其包括 `UTF-8` (以8位代码单元进行编码) 和 `UTF-16` (以16位代码单元进行编码)。
|
||||
|
||||
@ -264,7 +292,8 @@ Unicode 中每一个字符都可以被解释为一个或多个 unicode 标量。
|
||||
|
||||
Swift 提供了几种不同的方式来访问字符串的 Unicode 表示。
|
||||
|
||||
您可以利用 `for-in` 来对字符串进行遍历,从而以 Unicode 字符的方式访问每一个字符值。该过程在 [Working with Characters](https://developer.apple.com/library/prerelease/ios/documentation/Swift/Conceptual/Swift_Programming_Language/StringsAndCharacters.html#//apple_ref/doc/uid/TP40014097-CH7-XID_376) 中进行了描述。
|
||||
您可以利用 `for-in` 来对字符串进行遍历,从而以 Unicode 字符的方式访问每一个字符值。
|
||||
该过程在 [Working with Characters](https://developer.apple.com/library/prerelease/ios/documentation/Swift/Conceptual/Swift_Programming_Language/StringsAndCharacters.html#//apple_ref/doc/uid/TP40014097-CH7-XID_376) 中进行了描述。
|
||||
|
||||
另外,能够以其他三种 Unicode 兼容的方式访问字符串的值:
|
||||
|
||||
@ -280,7 +309,8 @@ let dogString = "Dog!🐶"
|
||||
|
||||
##### UTF-8
|
||||
|
||||
您可以通过遍历字符串的 `utf8` 属性来访问它的 `UTF-8` 表示。其为 **UTF8View** 类型的属性,**UTF8View** 是无符号8位 (`UInt8`) 值的集合,每一个 `UIn8` 都是一个字符的 UTF-8 表示:
|
||||
您可以通过遍历字符串的 `utf8` 属性来访问它的 `UTF-8` 表示。
|
||||
其为 **UTF8View** 类型的属性,**UTF8View** 是无符号8位 (`UInt8`) 值的集合,每一个 `UIn8` 都是一个字符的 UTF-8 表示:
|
||||
|
||||
```
|
||||
for codeUnit in dogString.utf8 {
|
||||
@ -290,11 +320,13 @@ print("\n")
|
||||
// 68 111 103 33 240 159 144 182
|
||||
```
|
||||
|
||||
上面的例子中,前四个10进制代码单元值 (68, 111, 103, 33) 代表了字符 `D` `o` `g` 和 `!` ,他们的 UTF-8 表示与 ASCII 表示相同。后四个代码单元值 (240, 159, 144, 182) 是 `狗脸表情` 的4位 UTF-8 表示。
|
||||
上面的例子中,前四个10进制代码单元值 (68, 111, 103, 33) 代表了字符 `D` `o` `g` 和 `!` ,他们的 UTF-8 表示与 ASCII 表示相同。
|
||||
后四个代码单元值 (240, 159, 144, 182) 是 `狗脸表情` 的4位 UTF-8 表示。
|
||||
|
||||
##### UTF-16
|
||||
|
||||
您可以通过遍历字符串的 `utf16` 属性来访问它的 `UTF-16` 表示。其为 **UTF16View** 类型的属性,**UTF16View** 是无符号16位 (`UInt16`) 值的集合,每一个 `UInt16` 都是一个字符的 UTF-16 表示:
|
||||
您可以通过遍历字符串的 `utf16` 属性来访问它的 `UTF-16` 表示。
|
||||
其为 **UTF16View** 类型的属性,**UTF16View** 是无符号16位 (`UInt16`) 值的集合,每一个 `UInt16` 都是一个字符的 UTF-16 表示:
|
||||
|
||||
```
|
||||
for codeUnit in dogString.utf16 {
|
||||
@ -306,11 +338,14 @@ print("\n")
|
||||
|
||||
同样,前四个代码单元值 (68, 111, 103, 33) 代表了字符 `D` `o` `g` 和 `!` ,他们的 UTF-16 代码单元和 UTF-8 完全相同。
|
||||
|
||||
第五和第六个代码单元值 (55357 and 56374) 是 `狗脸表情` 字符的UTF-16 表示。第一个值为 `U+D83D` (十进制值为 55357),第二个值为 `U+DC36` (十进制值为 56374)。
|
||||
第五和第六个代码单元值 (55357 and 56374) 是 `狗脸表情` 字符的UTF-16 表示。
|
||||
第一个值为 `U+D83D` (十进制值为 55357),第二个值为 `U+DC36` (十进制值为 56374)。
|
||||
|
||||
##### Unicode 标量 (Scalars)
|
||||
|
||||
您可以通过遍历字符串的 `unicodeScalars` 属性来访问它的 Unicode 标量表示。其为 **UnicodeScalarView** 类型的属性, **UnicodeScalarView** 是 `UnicodeScalar` 的集合。`UnicodeScalar` 是21位的 Unicode 代码点。
|
||||
您可以通过遍历字符串的 `unicodeScalars` 属性来访问它的 Unicode 标量表示。
|
||||
其为 **UnicodeScalarView** 类型的属性, **UnicodeScalarView** 是 `UnicodeScalar` 的集合。
|
||||
`UnicodeScalar` 是21位的 Unicode 代码点。
|
||||
|
||||
每一个 `UnicodeScalar` 拥有一个值属性,可以返回对应的21位数值,用 `UInt32` 来表示。
|
||||
|
||||
@ -322,7 +357,9 @@ print("\n")
|
||||
// 68 111 103 33 128054
|
||||
```
|
||||
|
||||
同样,前四个代码单元值 (68, 111, 103, 33) 代表了字符 `D` `o` `g` 和 `!` 。第五位数值,128054,是一个十六进制1F436的十进制表示。其等同于 `狗脸表情` 的Unicode 标量 U+1F436。
|
||||
同样,前四个代码单元值 (68, 111, 103, 33) 代表了字符 `D` `o` `g` 和 `!` 。
|
||||
第五位数值,128054,是一个十六进制1F436的十进制表示。
|
||||
其等同于 `狗脸表情` 的Unicode 标量 U+1F436。
|
||||
|
||||
作为查询字符值属性的一种替代方法,每个 `UnicodeScalar` 值也可以用来构建一个新的字符串值,比如在字符串插值中使用:
|
||||
|
||||
|
||||
Reference in New Issue
Block a user