【每日算法】两种二分基本思路(附二分目录) |Python 主题月

简介: 【每日算法】两种二分基本思路(附二分目录) |Python 主题月

网络异常,图片无法展示
|

本文正在参加「Python主题月」,详情查看 活动链接

题目描述

这是 LeetCode 上的 275. H 指数 II ,难度为 中等

Tag : 「二分」

给定一位研究者论文被引用次数的数组(被引用次数是非负整数),数组已经按照 升序排列 。编写一个方法,计算出研究者的 h 指数。

h 指数的定义: “h 代表“高引用次数”(high citations),一名科研人员的 h 指数是指他(她)的 (N 篇论文中)总共有 h 篇论文分别被引用了至少 h 次。(其余的 N - h 篇论文每篇被引用次数不多于 h 次。)"

示例:

输入: citations = [0,1,3,5,6]
输出: 3 
解释: 给定数组表示研究者总共有 5 篇论文,每篇论文相应的被引用了 0, 1, 3, 5, 6 次。
     由于研究者有 3 篇论文每篇至少被引用了 3 次,其余两篇论文每篇被引用不多于 3 次,所以她的 h 指数是 3。
复制代码

说明:

如果 h 有多有种可能的值 ,h 指数是其中最大的那个。

 

进阶:

  • 这是 H 指数 的延伸题目,本题中的 citations 数组是保证有序的。
  • 你可以优化你的算法到对数时间复杂度吗?

基本分析

本题与 274. H 指数 的主要不同有两方面:

  1. 数据范围不同:切换成英文可以发现,在 274. H 指数nn 的范围为 50005000,而本题 nn 的范围为 10^5105
  2. 给定数组是否有序:在 274. H 指数 中数组不一定有序,本题则是有序。

显然,增加了数组有序特性,扩大了数据范围。可以猜到利用此特性,存在时间复杂度更低的算法实现。

二分答案(线性 check

(题解) 274. H 指数 中,我们使用了 O(n\log{n})O(nlogn) 的二分做法,算法的主要瓶颈在于 O(n)O(n) 复杂度的 check

当然对于 10^5105 的数据量,使用 O(n\log{n})O(nlogn) 复杂度没有任何问题。

Java 代码:

class Solution {
    public int hIndex(int[] cs) {
        int n = cs.length;
        int l = 0, r = n;
        while (l < r) {
            int mid = l + r + 1 >> 1;
            if (check(cs, mid)) l = mid;
            else r = mid - 1;
        }
        return r;
    }
    boolean check(int[] cs, int mid) {
        int ans = 0;
        for (int i : cs) if (i >= mid) ans++;
        return ans >= mid;
    }
}
复制代码

Python 3 代码:

class Solution:
    def hIndex(self, citations: List[int]) -> int:
        def check(cs, mid):
            return sum(i>=mid for i in cs) >= mid
        n = len(citations)
        l, r = 0, n
        while l < r:
            mid = l + r + 1 >> 1
            if check(citations, mid):
                l = mid
            else:
                r = mid - 1
        return r
复制代码
  • 时间复杂度:对 [0, n][0,n] 做二分,复杂度为 O(\log{n})O(logn)check 函数需要对数组进行线性遍历,复杂度为 O(n)O(n)。整体复杂度为 O(n\log{n})O(nlogn)
  • 空间复杂度:O(1)O(1)

二分下标(根据与 citations[i]citations[i] 关系)

在解法一中,显然我们没有利用本题的「数组有序」的特性。

根据对 H 指数 定义,如果 citationscitations 升序,在最大的符合条件的分割点 xx 的右边(包含分割点),必然满足 citations[i] >= xcitations[i]>=x,我们应当对其进行计数,对于分割点的左边,必然不满足 citations[i] >= xcitations[i]>=x,无需进行计数。

因此,我们可以利用 分割点右边书的个数与分割点 citations[x]citations[x] 的大小关系进行二分

假设存在真实分割点下标 xx,其值大小为 citations[x]citations[x],分割点右边的数值个数为 n - xnx,根据 H 指数 的定义,必然有 citations[x] >= n - xcitations[x]>=nx 关系:

  • 在分割点 xx 的右边:citations[i]citations[i] 非严格单调递增,而书的个数严格单调递减,仍然满足 citations[i] >= n - icitations[i]>=ni 关系;
  • 在分割点 xx 的左边:citations[i]citations[i] 非严格单调递减,书的个数严格单调递增,xx 作为真实分割点,因此必然不满足 citations[i] >= n - icitations[i]>=ni 关系。

利用此「二段性」进行二分即可,二分出下标后,再计算出书的个数。

Java 代码:

class Solution {
    public int hIndex(int[] cs) {
        int n = cs.length;
        int l = 0, r = n - 1;
        while (l < r) {
            int mid = l + r >> 1;
            if (cs[mid] >= n - mid) r = mid;
            else l = mid + 1;
        }
        return cs[r] >= n - r ? n - r : 0;
    }
}
复制代码

Python 3 代码:

class Solution:
    def hIndex(self, citations: List[int]) -> int:
        n = len(citations)
        l, r = 0, n - 1
        while l < r:
            mid = l + r >> 1
            if citations[mid] >= n - mid:
                r = mid
            else:
                l = mid + 1
        return n - r if citations[r] >= n - r else 0
复制代码


  • 时间复杂度:O(\log{n})O(logn)
  • 空间复杂度:O(1)O(1)


其他「二分」相关内容



题目 题解 难度 推荐指数
4. 寻找两个正序数组的中位数 LeetCode 题解链接 困难 🤩🤩🤩🤩
29. 两数相除 LeetCode 题解链接 中等 🤩🤩🤩
33. 搜索旋转排序数组 LeetCode 题解链接 中等 🤩🤩🤩🤩🤩
34. 在排序数组中查找元素的第一个和最后一个位置 LeetCode 题解链接 中等 🤩🤩🤩🤩🤩
35. 搜索插入位置 LeetCode 题解链接 简单 🤩🤩🤩🤩🤩
74. 搜索二维矩阵 LeetCode 题解链接 中等 🤩🤩🤩🤩
81. 搜索旋转排序数组 II LeetCode 题解链接 中等 🤩🤩🤩🤩
153. 寻找旋转排序数组中的最小值 LeetCode 题解链接 中等 🤩🤩🤩
154. 寻找旋转排序数组中的最小值 II LeetCode 题解链接 困难 🤩🤩🤩
220. 存在重复元素 III LeetCode 题解链接 中等 🤩🤩🤩
274. H 指数 LeetCode 题解链接 中等 🤩🤩🤩
278. 第一个错误的版本 LeetCode 题解链接 简单 🤩🤩🤩🤩
354. 俄罗斯套娃信封问题 LeetCode 题解链接 困难 🤩🤩🤩
363. 矩形区域不超过 K 的最大数值和 LeetCode 题解链接 困难 🤩🤩🤩
374. 猜数字大小 LeetCode 题解链接 简单 🤩🤩🤩
778. 水位上升的泳池中游泳 LeetCode 题解链接 困难 🤩🤩🤩
852. 山脉数组的峰顶索引 LeetCode 题解链接 简单 🤩🤩🤩🤩🤩
981. 基于时间的键值存储 LeetCode 题解链接 中等 🤩🤩🤩🤩
1004. 最大连续1的个数 III LeetCode 题解链接 中等 🤩🤩🤩
1011. 在 D 天内送达包裹的能力 LeetCode 题解链接 中等 🤩🤩🤩🤩
1208. 尽可能使字符串相等 LeetCode 题解链接 中等 🤩🤩🤩
1438. 绝对差不超过限制的最长连续子数组 LeetCode 题解链接 中等 🤩🤩🤩
1482. 制作 m 束花所需的最少天数 LeetCode 题解链接 中等 🤩🤩🤩
1707. 与数组中元素的最大异或值 LeetCode 题解链接 困难 🤩🤩🤩
1751. 最多可以参加的会议数目 II LeetCode 题解链接 困难 🤩🤩🤩


最后



这是我们「刷穿 LeetCode」系列文章的第 No.275 篇,系列开始于 2021/01/01,截止于起始日 LeetCode 上共有 1916 道题目,部分是有锁题,我们将先把所有不带锁的题目刷完。


在这个系列文章里面,除了讲解解题思路以外,还会尽可能给出最为简洁的代码。如果涉及通解还会相应的代码模板。


为了方便各位同学能够电脑上进行调试和提交代码,我建立了相关的仓库:github.com/SharingSour…


在仓库地址里,你可以看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其他优选题解。

相关文章
|
2天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
15 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
2天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
11 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
2天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
10 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
7天前
|
算法 Python
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果;贪心算法在每一步选择局部最优解,追求全局最优;动态规划通过保存子问题的解,避免重复计算,确保全局最优。这三种算法各具特色,适用于不同类型的问题,合理选择能显著提升编程效率。
24 2
|
1月前
|
存储 机器学习/深度学习 算法
蓝桥杯练习题(三):Python组之算法训练提高综合五十题
蓝桥杯Python编程练习题的集合,涵盖了从基础到提高的多个算法题目及其解答。
57 3
蓝桥杯练习题(三):Python组之算法训练提高综合五十题
|
18天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
62 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
23天前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
1月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
52 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
1月前
|
Python
Python实用记录(四):os模块-去后缀或者改后缀/指定目录下图片或者子目录图片写入txt/csv
本文介绍了如何使用Python的os模块来操作文件,包括更改文件后缀、分割文件路径和后缀、将指定目录下的所有图片写入txt文档,以及将指定目录下所有子目录中的图片写入csv文档,并为每个子目录分配一个标签。
16 1
|
1月前
|
编解码 UED Python
Python批量修改指定目录下图片的大小名文章
Python批量修改指定目录下图片的大小名文章
15 1