如何清洗 Git Repo 代码仓库

简介:

相信不少团队的代码仓库 Git Repo 变得越来越大。除了代码的提交外,时常有人会把二进制文件比如 Jar 包或者不小心把不该提交到代码库的文件提交到代码库中,比如用户名密码之类的保密信息。如何清洗代码仓库 Git Repo,彻底从历史中删除此类文件呢?

手动清理

如果你们的代码仓库问题比较少,只有几个不该提交的文件,可以参考 Atlassian 的一篇关于维护 Git Repo 的文章

大致过程如下:

首先进行 Git 垃圾回收:


 
 
  1. git gc --auto

其次查看 Git 仓库占用空间:


 
 
  1. $ du -hs .git/objects
  2. 45M .git/objects

然后找出历史中超过一定大小的文件,最后在历史中删除并且提交。如果感兴趣手动处理这个过程可以参照文章后边的链接。

相关的几个命令:

清理历史中的文件:


 
 
  1. git filter-branch --force --index-filter 'git rm --cached --ignore-unmatch ****/nohup.out' --prune-empty --tag-name-filter cat -- --all
  2. git filter-branch --index-filter 'git rm --cached --ignore-unmatch ****/nohup.out' HEAD
  3. git for-each-ref --format="%(refname)" refs/original/ | xargs -n 1 git update-ref -d

强制提交覆盖:


 
 
  1. git reflog expire --expire=now --all
  2. git gc --prune=now
  3. git push --all --force
  4. git push --all --tags --force

但是这个方案有 2 个问题:

  1. 处理速度慢,尝试清理 2G 大小的代码库,用了一晚上还没跑完。
  2. 只能按文件名清理,如果不同的路径有同样的文件名就无法处理了,可能误删文件或者忽略某些文件。

当然有个非常好的解决方案完美解决了这个问题。如下:

自动清理

答案就是 bfg-repo-cleaner,这是一个 Java 写的清理工具,多线程处理清理过程,命令很简单,只需要几分钟就清理了之前 一晚上都跑不完的任务:


 
 
  1. java -jar bfg-1.11.7.jar --delete-files *.zip myrepo.git
  2. java -jar bfg-1.11.7.jar --delete-files *.log myrepo.git
  3. java -jar bfg-1.11.7.jar --delete-files *.out myrepo.git
  4. java -jar bfg-1.11.7.jar --strip-blobs-bigger-than 1M myrepo.git

附上几个常用的但又不常见的 git 小技巧:

复制代码仓库:


 
 
  1. git clone --bare /var/www/html/myrepo.git

Git 后悔药,覆盖最后一次修改:


 
 
  1. git add .
  2. git commit --amend
  3. git push origin master -f

Git 放弃本地修改:


 
 
  1. git checkout .

Git 销毁最后一次提交:


 
 
  1. git reset --hard HEAD^
  2. git push -f origin HEAD^:master

打包时候嵌入版本号:


 
 
  1. git rev-parse HEAD > version.txt

 


原文发布时间为:2015-07-07


本文来自云栖社区合作伙伴“Linux中国”

目录
相关文章
|
1月前
|
项目管理 开发工具 Android开发
repo跟git的关系
Repo与Git不是替代关系,而是相互补充。Git关注于单个仓库的版本控制,而Repo在此基础上提供了一套管理多个Git仓库的框架,特别适合处理大规模、多组件协同开发的项目。通过Repo,开发者可以更高效地处理复杂的项目结构,同时享受Git带来的版本控制优势,两者结合,为大型软件项目管理提供了强大的支撑。
89 1
|
6月前
|
移动开发 jenkins 持续交付
解决jenkins、git拉取代码仓库失败Please make sure you have the correct access rights
解决jenkins、git拉取代码仓库失败Please make sure you have the correct access rights
114 3
|
开发工具 git
Git二多次上传代码到代码仓库
Git二多次上传代码到代码仓库
134 0
|
6月前
|
Linux Shell 开发工具
linux 搭建git仓库 git代码仓库 (小团队内部合作)
linux 搭建git仓库 git代码仓库 (小团队内部合作)
291 1
|
6月前
|
开发工具 git
git 拉取代码仓库代码报错(合并错误 refusing to merge unrelated histories)
git 拉取代码仓库代码报错(合并错误 refusing to merge unrelated histories)
88 0
|
存储 缓存 运维
【运维知识高级篇】一篇文章带你搞懂Git!(Git安装+全局配置+Git初始化代码仓库+Git四大区域+Git四种状态+Git常用命令+Git分支+Git测试代码回滚)
【运维知识高级篇】一篇文章带你搞懂Git!(Git安装+全局配置+Git初始化代码仓库+Git四大区域+Git四种状态+Git常用命令+Git分支+Git测试代码回滚)
256 0
|
Linux Shell 网络安全
CentOS7上使用GitLab搭建私有git代码仓库(超详细)(下)
CentOS7上使用GitLab搭建私有git代码仓库(超详细)(下)
215 1
|
Linux 网络安全 开发工具
CentOS7上使用GitLab搭建私有git代码仓库(超详细)(上)
CentOS7上使用GitLab搭建私有git代码仓库(超详细)(上)
438 0
|
Devops 网络安全 开发工具
git代码仓库
git:分布式版本控制系统,是当前最流行的版本控制软件。
755 0
|
存储 开发工具 Android开发
git repo工具详细使用教程
git repo工具详细使用教程