CS61B 课程笔记（Lecture 32 Basic Sorting Algorithms)

排序问题

排序问题可以被非正式地定义为将一组给定的项目按特定顺序排列。排序不仅在自身有用，也可以作为更大算法问题的子问题。排序可以应用于查找重复项（排序后，相同的项相邻）、二分搜索和数据结构平衡等问题。

排序提供了处理计算问题的一般思路。解决排序问题的过程通常会涉及到之前部分讨论过的数据结构。

排序的定义

一个关于键 ( $a, b, c$ ) 的顺序关系 ($ < $) 具有以下属性：

三分律（$Law of Trichotomy$）：对于任意两个元素 ($ a$ ) 和 ( $b $)，以下三者中恰好有一个为真：( $a < b$ )、( $a = b$ )、( $b < a$ )。
传递性（$Law of Transitivity$）：如果 ( $a < b$ ) 且 ( $b < c$ )，则 ($ a < c$ )。

具有上述属性的排序关系称为全序（$Total Order$）。

一个排序是对一组元素的一个排列，使得键按照给定的顺序关系按非递减顺序排列，即 ( $x_1 x_2 x_3 ... x_N $)。

示例：字符串长度

使用字符串长度作为排序关系的例子：

三分律：对于两个字符串 ( $a$ ) 和 ($ b$ )，只有以下三种情况之一可以为真：($ (a) < (b) $)、( $\text{len}(a) = \text{len}(b)$ )、或 ( $\text{len}(a) > \text{len}(b)$ )。
传递性：如果 ( $(a) < (b) $) 且 ( $(b) < (c) ，那么  (a) < (c) $)。

例如，对于数组 ["cows", "get", "going", "the"]，有效的排序可以是 ["the", "get", "cows", "going"] 或 ["get", "the", "cows", "going"]。

Java中的排序关系

在Java中，排序关系通常通过 compareTo 或 compare 方法来定义。例如：

import java.util.Comparator;

public class LengthComparator implements Comparator<String> {
    public int compare(String x, String b) {
        return x.length() - b.length();
    }
}

在这个例子中，"the" 和 "get" 在排序中是相等的，但不相等于 .equals() 方法。

逆序对

另一种看待排序的方法是修复序列中的逆序。逆序是指相对于定义的顺序关系而错位的一对元素。例如，在11个元素的序列中，最多有55个逆序（11选2），而该序列实际有6个逆序。

排序可以被视为：给定一个有 ( Z ) 个逆序的元素序列，通过某些操作将逆序总数减少到零。

排序算法的性能

排序算法的运行时效率称为时间复杂度。例如，Dijkstra算法的时间复杂度为 ($ O(E V)$ )。

算法的额外内存使用称为空间复杂度。例如，Dijkstra的空间复杂度为 ($ (V) $)，用于存储队列、distTo 和 edgeTo 数组。

选择排序（Selection Sort）

选择排序的算法步骤如下：

找到最小的元素。
将该元素交换到前面。
重复以上步骤，直到所有元素固定（没有逆序）。

选择排序的时间复杂度为 ( $\Theta(N^2)$ )，在使用数组或类似数据结构时，效率较低，因为每次都需要遍历剩余数组寻找最小值。

堆排序（Heapsort）

基本堆排序（Naive Heapsort）

为了避免选择排序中的低效，我们可以利用最大堆（max-heap）来改进：

将所有元素插入最大堆中，创建输出数组。
重复删除最大堆中的最大元素，并将其放在输出数组的末尾。

基本堆排序的整体运行时间为 ( $(N N) $)，主要包含三个部分：

将 ( $N$ ) 个元素插入堆：( $O(N \log N)$ )
选择最大元素：($ (1) $)
移除最大元素：( $O(\log N)$ )

原地堆排序（In-place Heapsort）

我们可以使用输入数组本身来形成堆和输出数组。通过反向层序遍历的底部堆化（bottom-up heapification）过程，可以将输入数组转化为堆。堆化后，重复弹出最大元素并放置到数组末尾。

原地堆排序的时间复杂度仍为 ( $O(N \log N)$)。
使用原地堆排序时，内存使用降至 ( $\Theta(1)$ )，因为我们复用了输入数组。

合并排序（Mergesort）

合并排序的算法步骤如下：

将元素分为两半。
对每一半递归调用合并排序。
合并两个已排序的部分，形成最终结果。

合并排序的运行时间为 ($ (N N)$ )，在合并步骤中需要 ($ (N) $) 的额外空间。

插入排序（Insertion Sort）

朴素插入排序

在插入排序中，我们从输入中选择元素，将其插入到正确的位置。朴素方法是创建一个单独的输出数组，将输入中的元素放入。

原地插入排序（In-place Insertion Sort）

通过使用原地交换而不是创建新的输出数组，可以提高插入排序的时间和空间复杂度。原地插入排序的算法如下：

从左到右遍历数组。
选择每个元素，并将其交换到前面尽可能远的位置。

插入排序的运行时间：

最好情况下：( $(N) $)（没有交换）。
最坏情况下：( $\Theta(N^2)$ )（逆序数组）。

插入排序的优点：在已排序或几乎已排序的数组上，插入排序的工作量很少。

总结

逆序：序列中的逆序对数目。
选择排序：通过选择极值并将其移动到未排序部分末尾。
堆排序：利用堆数据结构进行排序，相较于选择排序大幅提高效率。
合并排序：分而治之的方法，较复杂但效率较高。
插入排序：对于小规模或几乎排序的数组非常高效。

以下是选择排序、堆排序、合并排序和插入排序的Java代码实现