马春杰杰博客
致力于深度学习经验分享!

Linux下快速删除大量文件

文章目录
[隐藏]

问题描述(Problem Statement)

Ubuntu系统下,遇到删除文件的场景,我们一般直接想到的就是使用rm命令,或者直接delete掉。那么如果我们要删除数十万甚至数百万的文件(数量特别多,尺寸特别大)时,使用rm -rf *就可能不太好用,因为要等待很长一段时间。

也许你也能想到并行使用rm命令删除:

->有没有更好的方案呢?

在这种情况之下我们可以使用linux系统命令rsync来巧妙的处理。rsync实际上用的是替换原理,处理数十万个文件也是秒删。

1.rsync安装,有些系统默认安装有该命令

2. rsync提供了一些跟删除有关的参数

3.使用示例

先建立 一个空目录

mkdir /tmp/blank

rsync删除目标目录

rsync --delete-before -a -H -v --progress --stats /tmp/blank/ /root/files/

原理:为什么rsync能够快速删除大量文件?

1)rm命令大量调用了lstat64和unlink,可以推测删除每个文件前都从文件系统中做过一次lstat操作。过程:正式删除工作的第一阶段,需要通过getdirentries64调用,分批读取目录(每次大约为4K),在内存中建立rm的文件列表;第二阶段,lstat64确定所有文件的状态;第三阶段,通过unlink执行实际删除。这三个阶段都有比较多的系统调用和文件系统操作。

2)rsync所做的系统调用很少:没有针对单个文件做lstat和unlink操作。命令执行前期,rsync开启了一片共享内存,通过mmap方式加载目录信息。只做目录同步,不需要针对单个文件做unlink。

另外,在其他人的评测里,rm的上下文切换比较多,会造成System CPU占用较多——对于文件系统的操作,简单增加并发数并不总能提升操作速度。

总结:频繁做减法不如直接从头来过

把文件系统的目录与书籍的目录做类比,rm删除内容时,将目录的每一个条目逐个删除(unlink),需要循环重复操作很多次;rsync删除内容时,建立好新的空目录,替换掉老目录,基本没开销。

本文最后更新于2023年3月1日,已超过 1 年没有更新,如果文章内容或图片资源失效,请留言反馈,我们会及时处理,谢谢!

如果你对这篇文章有什么疑问或建议,欢迎下面留言提出,我看到会立刻回复!

打赏
未经允许不得转载:马春杰杰 » Linux下快速删除大量文件
超级便宜的原生ChatGPT4.0

留个评论吧~ 抢沙发 评论前登陆可免验证码!

私密评论
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址(选填,便于回访^_^)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

登录

忘记密码 ?

切换登录

注册