排序、查找
912-数组排序(快速排序算法)
归并排序:原始数组 [4, 1, 3, 2]
;先排序左半边、再排序右半边,得到 [1, 4, 2, 3]
;最后合并成 [1, 2, 3, 4]
。
class Solution:
def sortArray(self, nums: List[int]) -> List[int]:
N = len(nums)
aux = [0] * N # auxiliary 辅助数组,归并排序需要额外 N 的存储空间
self.sort(nums, aux, 0, N-1)
return nums
def sort(self, nums, aux, lo, hi):
if lo >= hi: return
mid = lo + (hi-lo)//2
self.sort(nums, aux, lo, mid)
self.sort(nums, aux, mid+1, hi)
self.merge(nums, aux, lo, mid, hi)
def merge(self, nums, aux, lo, mid, hi):
# copy to aux
for i in range(lo, hi+1):
aux[i] = nums[i]
# merge back to nums
i = lo
j = mid + 1
for k in range(lo, hi+1):
if i > mid: # 左半边的数取完了,取右半边的
nums[k] = aux[j]
j += 1
elif j > hi: # 右半边的数取完了,取左半边的
nums[k] = aux[i]
i += 1
elif aux[i] <= aux[j]:
nums[k] = aux[i]
i += 1
else:
nums[k] = aux[j]
j += 1
快速排序:
class Solution {
public:
int partition(vector<int>& nums, int lo, int hi) {
int i = lo + 1;
int j = hi;
while (true) {
while (i <= j && nums[i] <= nums[lo]) ++i;
while (i <= j && nums[j] >= nums[lo]) --j;
if (i >= j) break;
swap(nums[i], nums[j]);
}
swap(nums[lo], nums[j]);
return j;
}
void sort(vector<int>& nums, int lo, int hi) {
if (lo >= hi) return;
int pa = partition(nums, lo, hi);
sort(nums, lo, pa - 1);
sort(nums, pa + 1, hi);
}
vector<int> sortArray(vector<int>& nums) {
sort(nums, 0, nums.size() - 1);
return nums;
}
};
快速排序算法在平均状况下有着不错的表现,但是对于基准值的选择十分敏感,最坏情况下的算法复杂度是 O(n^2)。C++ std sort 的实现选择了首部、中部、尾部三个元素的中值作为 pivot。
现实中应用的排序,往往根据数据集的特征,采用多种排序算法的混合。比如 C++ std sort 的实现被称为 Introspective Sorting(内省式排序),使用快速排序算法、分段排序;当分段的元素个数小于 16 时,采用插入排序,插入排序对“大部分有序”的数据集效率非常好;当递归层次过深、分割行为有恶化倾向时,采用堆排序,堆排序最坏时间复杂度也能保证 O(NlogN)。参考 std::sort 源码剖析。
215-第 k 大的数
找到数组中第 k 大的数,最容易想到的,用 O(NlogN) 排序,再用 O(1) 取第 k-1 个元素。
方案一:快速选择算法
与快速排序一样,都是由计算机科学家托尼·霍尔发明的。
快速排序中,有一个子过程称为分区,可以在线性时间里将一个列表分为两部分,分别是小于基准和大于等于基准的元素。
与快速排序一样,快速选择算法对于基准值的选择非常敏感,可以在切分函数的一开始,随机交换第一个元素与它后面的任意一个元素的位置。
它的时间代价的期望是 O(n),证明过程可以参考「《算法导论》9.2:期望为线性的选择算法」。
class Solution {
public:
int partition(vector<int>& nums, int lo, int hi) {
int i = lo + 1;
int j = hi;
while (true) {
while (i <= j && nums[i] <= nums[lo]) ++i;
while (i <= j && nums[j] >= nums[lo]) --j;
if (i >= j) break;
swap(nums[i], nums[j]);
}
swap(nums[lo], nums[j]);
return j;
}
int findKthLargest(vector<int>& nums, int k) {
int N = nums.size();
k = N - k; // to find kth largest, means nums[N-k]
int lo = 0;
int hi = N - 1;
while (lo <= hi) {
int pa = partition(nums, lo, hi);
if (pa == k) {
return nums[k];
} else if (pa < k) {
lo = pa + 1;
} else {
hi = pa - 1;
}
}
return nums[k];
}
};
方案二:优先队列
优先队列天然就是解决 TopK 这种问题的。
考虑从 10 亿个数中找到最大/最小的 100 个数。首先空间上,样本数据如果特别大(例如 10 亿这种级别),并不适合一次性将所有数据读到内存中进行处理;第二时间上,可以将数据集分拆,充分利用多核 CPU 并行处理,提高效率。
以找最大的 100 个数为例(找最大则构建最小堆,找最小则构建最大堆),将样本集分成 1,000,000,000 / 100 = 1,000,000 份,每份找到最大的 100 个数,最终整体的最大 100 个数必定在这中间产生。对每一份,用前 100 个数构建最小堆,再遍历剩余的数,如果小于堆顶则直接跳过;如果大于堆顶则将它放到堆里,同时调整堆。这样遍历完之后,这个最小堆就是这一份样本中最大的 100 个数。
- 当父节点的键值总是大于或等于任何一个子节点的键值时为最大堆。
- 当父节点的键值总是小于或等于任何一个子节点的键值时为最小堆。
class Solution {
public:
int findKthLargest(vector<int>& nums, int k) {
priority_queue<int, vector<int>, greater<int>> topK;
for (int i : nums) {
if (topK.size() < k) {
topK.push(i);
} else if (i > topK.top()) {
topK.push(i);
topK.pop();
}
}
return topK.top();
}
};
347-Top K 高频元素
给定一个数组,返回其中出现频率前 k 高的元素。
优先队列天然就是解决 TopK 这种问题的。
class Solution {
public:
vector<int> topKFrequent(vector<int>& nums, int k) {
unordered_map<int, int> um;
for (int i = 0; i < nums.size(); ++i) {
um[nums[i]] += 1;
}
auto cmp = [&um](int lhs, int rhs) { return um[lhs] > um[rhs]; };
priority_queue<int, vector<int>, decltype(cmp)> topK(cmp);
for (const auto &kv : um) {
if (topK.size() < k) {
topK.push(kv.first);
} else if (kv.second > um[topK.top()]) {
topK.pop();
topK.push(kv.first);
}
}
vector<int> res;
while (!topK.empty()) {
res.push_back(topK.top());
topK.pop();
}
return res;
}
};
973-最接近原点的 K 个点
class Solution {
public:
vector<vector<int>> kClosest(vector<vector<int>>& points, int k) {
auto cmp = [](const vector<int> &lhs, const vector<int> &rhs) {
return (pow(lhs[0], 2) + pow(lhs[1], 2)) < (pow(rhs[0], 2) + pow(rhs[1], 2));
};
priority_queue<vector<int>, vector<vector<int>>, decltype(cmp)> topK(cmp);
for (vector<int> &point : points) {
if (topK.size() < k) {
topK.push(point);
} else if (cmp(point, topK.top())) {
topK.pop();
topK.push(point);
}
}
vector<vector<int>> res;
while (!topK.empty()) {
res.emplace_back(std::move(topK.top()));
topK.pop();
}
return res;
}
};
295-从数据流中找中位数
设计一个支持以下两种操作的数据结构:添加一个整数到容器中;返回容器中所有元素的中位数。
方案一:插入排序可以将一个数字插入到列表中并继续保持列表有序。二分查找的时间复杂度是 O(logN);插入时因为要移动插入位置后面的所有元素,因此时间复杂度是 O(N)。总时间复杂度是 O(N)。
class MedianFinder {
public:
void addNum(int num) {
if (vec.empty()) {
vec.push_back(num);
} else {
auto ite = lower_bound(vec.begin(), vec.end(), num); // 二分查找
vec.insert(ite, num); // 插入
}
}
double findMedian() {
int n = static_cast<int>(vec.size());
if (n % 2 == 0) {
return (vec[n/2-1] + vec[n/2]) * 0.5; // 注意整型相除结果 3 / 2 = 1,所以要用 * 0.5
} else {
return vec[n/2];
}
}
private:
vector<int> vec;
};
方案二:这题我们关心的仅仅是中位数,并不需要保持整个数组有序,因此方案一肯定是有优化空间的。我们使用两个堆,将所有比中位数小的数放在 small 堆(大根堆、根最大),比中位数大的数放在 big 堆(小根堆、根最小),并且保证两堆容量之差小于等于 1。那么,中位数就一定在两个堆的堆顶之中。
class MedianFinder {
public:
void addNum(int num) {
if (small.empty()) {
small.push(num);
++N;
return;
}
if (num <= small.top()) {
small.push(num);
} else {
big.push(num);
}
if (small.size() > 1 + big.size()) { // 注意 size_type 是无符号数,不要相减!!
big.push(small.top());
small.pop();
} else if (big.size() > 1 + small.size()) {
small.push(big.top());
big.pop();
}
++N;
}
double findMedian() {
if (N % 2 == 0) {
return (small.top() + big.top()) * 0.5;
} else {
return small.size() > big.size() ? small.top() : big.top();
}
}
private:
priority_queue<int> small;
priority_queue<int, vector<int>, greater<int>> big;
int N = 0;
};
方案三:能够同时满足高效插入、搜索的数据结构是什么?——红黑树。红黑树可以以 O(logN) 时间插入元素并保持自平衡;而中位数就是根节点、或根节点与它的一个子树的均值。
红黑树在 C++ 的实现是 set
,由于本题可能出现相同数字,因此我们需要用 multiset
,并维护一个指针:当数组大小为奇数时,指向中位数;当数组大小为偶数时,指向中间两个数值中较大的那个。
class MedianFinder {
public:
void addNum(int num) {
const size_t N = data.size();
data.insert(num);
if (N == 0) {
mid = data.begin();
} else if (num < *mid) {
mid = N & 1 ? mid : prev(mid);
} else {
mid = N & 1 ? next(mid) : mid;
}
}
double findMedian() {
const size_t N = data.size();
if (N & 1) {
return *mid;
} else {
return (*prev(mid) + *mid) * 0.5;
}
}
private:
multiset<int> data;
multiset<int>::iterator mid;
};
27-移除数组中指定元素(同向双指针)
给定一个数组,在原地删除数值等于 val 的元素,返回移除后数组的新长度。
class Solution {
public:
int removeElement(vector<int>& nums, int val) {
int i = 0; // [0, i] 区间是符合条件的结果
for (int j = 0; j < nums.size(); ++j) {
if (nums[j] != val) {
nums[i] = nums[j];
++i;
}
}
return i;
}
};
26-删除排序数组中的重复项(同向双指针)
给定一个非递减数组,在原地删除重复的元素,使得每个元素只出现一次,返回移除后数组的新长度。
这个思路可以总结为“同向双指针”,即两个指针朝同一个方向移动,一快一慢。快指针用于遍历,慢指针在每个循环体中,始终保持满足题目条件。
此题中,慢指针 i 始终指向结果数组的右边界,始终保持 nums[0, i] 是符合题目条件的数组。
由于数组有序,i 始终指向最后找到的非重复元素,当 j 遍历到一个与 i 不相同的值,就代表找到了一个新值,此时移动慢指针到下一个位置,并覆盖。
class Solution {
public:
int removeDuplicates(vector<int>& nums) {
if (nums.empty())
return 0;
int i = 1;
for (int j = 1; j < nums.size(); ++j) {
if (nums[j] != nums[j-1]) {
nums[i] = nums[j];
++i;
}
}
return i;
}
};
80-删除排序数组中的重复项 II(同向双指针)
给定一个非递减数组,在原地删除重复的元素,使得每个元素最多出现两次,返回移除后数组的新长度。
与上题思路一样,注意初始时慢指针的边界,以及移动慢指针的条件即可。拓展到每个元素最多出现 k 次,也是一样的做法。
class Solution {
public:
int removeDuplicates(vector<int>& nums) {
if (nums.size() <= 2)
return static_cast<int>(nums.size());
int i = 2;
for (int j = 2; j < nums.size(); ++j) {
if (nums[i-2] != nums[j]) {
nums[i] = nums[j];
++i;
}
}
return i;
}
};
283-移动零(同向双指针)
给定一个数组,将所有 0 移动到数组的末尾。
class Solution {
public:
void moveZeroes(vector<int>& nums) {
int i = 0;
for (int j = 0; j < nums.size(); ++j) {
if (nums[j] != 0) {
nums[i] = nums[j];
++i;
}
}
for (int j = i; j < nums.size(); ++j) {
nums[j] = 0;
}
}
};
75-颜色排序
这是计算机科学经典的荷兰国旗问题。1, 2, 3 代表红白蓝三色,给定数组 [2,0,2,1,1,0],排序成 [0,0,1,1,2,2]。
要把数组分成三个颜色,我们可以用双指针 left, right 框定好 “1” 的范围,最终的结果是,nums[left...right] 都是 1、left 的左边都是 0、right 的右边都是 2。
class Solution {
public:
void sortColors(vector<int>& nums) {
int lo = 0;
int hi = static_cast<int>(nums.size()) - 1;
int i = 0;
while (i <= hi) {
if (nums[i] == 0) {
std::swap(nums[lo], nums[i]);
++lo;
++i;
} else if (nums[i] == 1) {
++i;
} else {
std::swap(nums[i], nums[hi]);
--hi;
}
}
}
};
如果扩展到四色呢?有一种遍历两次的方法,第一次遍历先记录每个颜色的个数,第二次遍历将每个颜色放到对应位置即可。
class Solution {
public:
void sortColors(vector<int>& nums) {
unordered_map<int, int> um;
for (int i : nums) {
++um[i];
}
for (int i = 0; i < nums.size(); ++i) {
if (um[0] > 0) {
nums[i] = 0;
--um[0];
} else if (um[1] > 0) {
nums[i] = 1;
--um[1];
} else {
nums[i] = 2;
--um[2];
}
}
}
};
977-有序数组的平方
给定非递减数组 A,返回每个数字的平方组成的新数组,要求也按非递减排序。
遇到的阿里面试真题。如果直接乘方然后排序,计算次数是 N + NLogN,复杂度是 O(NLogN)。本题中可以利用有序数组、求平方这两个特性,做一些技巧,降低计算次数。
方案一:找到第一个大于零的数,用两个指针分别向左右遍历。
方案二:利用原数组的特性:两边的平方大,中间的平方小。
class Solution {
public:
vector<int> sortedSquares(vector<int>& nums) {
int N = nums.size();
vector<int> res(N, 0);
int lo = 0;
int hi = N - 1;
for (int i = N - 1; i >= 0; --i) {
if (abs(nums[lo]) > abs(nums[hi])) {
res[i] = pow(nums[lo], 2);
++lo;
} else {
res[i] = pow(nums[hi], 2);
--hi;
}
}
return res;
}
};
34-在排序数组中查找元素的第一个和最后一个位置
给定一个非递减数组,找出目标值在数组中的开始位置和结束位置。
输入:nums = [5,7,7,8,8,10], target = 8;输出:[3,4]。
二分法+线性查找:
class Solution:
def binarySearch(self, nums, target, lo, hi):
if lo > hi: return -1
mid = (lo + hi) // 2
if nums[mid] == target:
return mid
elif nums[mid] > target:
return self.binarySearch(nums, target, lo, hi-1)
else:
return self.binarySearch(nums, target, lo+1, hi)
def searchRange(self, nums: List[int], target: int) -> List[int]:
index = self.binarySearch(nums, target, 0, len(nums)-1)
i = index - 1
j = index + 1
while i >= 0 and nums[i] == target:
i -= 1
while j < len(nums) and nums[j] == target:
j += 1
return [i+1, j-1]
69-平方根
方案一,一个数的平方根不会超过它除以二,因此我们可以在 [2, x/2] 范围内进行二分查找。
class Solution {
public:
int mySqrt(int x) {
if (x <= 1) return x;
long hi = x / 2;
long lo = 0;
while (lo <= hi) {
long mid = lo + (hi - lo) / 2;
long y = mid * mid; // mid * mid 可能会超出 int 的范围
if (y > x) {
hi = mid - 1;
} else if (y < x) {
lo = mid + 1;
} else {
return static_cast<int>(mid);
}
}
return static_cast<int>(hi);
}
};
方案二,牛顿迭代法。