关于LINUX FILE命令是如何判断文件字符集的

简介: 今天在使用file -i 查看MYSQLDUMP文件的时候其输出为 charset=us-ascii with very long lines 我导出的文件应该是utf8的,为什么会显示ASCII呢,我们知道ASCII并没有中文编码,那么真的有问题吗? 然后用如...
今天在使用file -i 查看MYSQLDUMP文件的时候其输出为
charset=us-ascii with very long lines
我导出的文件应该是utf8的,为什么会显示ASCII呢,我们知道ASCII并没有中文编码,那么真的有问题吗?
然后用如下2个小程序测试了一下

点击(此处)折叠或打开

  1. #include<stdio.h>


  2. int main(void)
  3. {
  4.         FILE *p;
  5.         int i=0;
  6.         p=fopen("test11.txt","w+");
  7.         fputs("高鹏\n",p);
  8.         while(i<50000000)
  9.         {
  10.                 fputs("test",p);
  11.                 i++;
  12.         }

  13.         fputs("\n",p);
  14.         fclose(p);
  15.         return 0;
  16. }


点击(此处)折叠或打开

  1. #include<stdio.h>


  2. int main(void)
  3. {
  4.         FILE *p;
  5.         int i=0;
  6.         p=fopen("test10.txt","w+");
  7.         while(i<50000000)
  8.         {
  9.                 fputs("test",p);
  10.                 i++;
  11.         }

  12.         fputs("\n",p);
  13.         fputs("高鹏\n",p);
  14.         fclose(p);
  15.         return 0;
  16. }
实际上并没有什么不同这两个文件 test10 和test11 都有2行其中一个很长的行全部是test字符串,第二行是高鹏
明显他们应该返回UTF8编码,但是并不是
gaopeng@bogon:~fileitest10.txttest10.txt:text/plain;charset=usasciigaopeng@bogon:  file -i test11.txt 
test11.txt: text/plain; charset=utf-8

可以看到如果"高鹏"字符串在第二行返回为ASCII而在第一行为UTF-8,我们可以推测出 file 命令是检测文件开头的某些字符而返回的,并没有全部查看,或者有什么其他算法,但是他不是全部查看。试想如果全部查看一遍 一个200G的备份文件瞬间就返回了结果也是不可能的。
在file的帮助中也明确的写着
   Once file has determined the character set used in a text-type file, it will attempt to determine in what language the file is written.  The language tests
     look for particular strings (cf.  ) that can appear anywhere in the first few blocks of a file.

当然要知道具体的方法估计只有源码。

所以file -i检测的并不一定是正确的字符集。


目录
打赏
0
0
0
0
91
分享
相关文章
|
24天前
|
Linux系统之whereis命令的基本使用
Linux系统之whereis命令的基本使用
58 23
Linux系统之whereis命令的基本使用
Linux|Transfer.sh 轻松实现文件共享
Linux|Transfer.sh 轻松实现文件共享
20 2
Linux|Transfer.sh 轻松实现文件共享
|
10天前
|
Linux中yum、rpm、apt-get、wget的区别,yum、rpm、apt-get常用命令,CentOS、Ubuntu中安装wget
通过本文,我们详细了解了 `yum`、`rpm`、`apt-get`和 `wget`的区别、常用命令以及在CentOS和Ubuntu中安装 `wget`的方法。`yum`和 `apt-get`是高层次的包管理器,分别用于RPM系和Debian系发行版,能够自动解决依赖问题;而 `rpm`是低层次的包管理工具,适合处理单个包;`wget`则是一个功能强大的下载工具,适用于各种下载任务。在实际使用中,根据系统类型和任务需求选择合适的工具,可以大大提高工作效率和系统管理的便利性。
72 25
【Linux】进程IO|系统调用|open|write|文件描述符fd|封装|理解一切皆文件
本文详细介绍了Linux中的进程IO与系统调用,包括 `open`、`write`、`read`和 `close`函数及其用法,解释了文件描述符(fd)的概念,并深入探讨了Linux中的“一切皆文件”思想。这种设计极大地简化了系统编程,使得处理不同类型的IO设备变得更加一致和简单。通过本文的学习,您应该能够更好地理解和应用Linux中的进程IO操作,提高系统编程的效率和能力。
67 34
|
15天前
|
Linux文件与目录的日常
目录的切换 一般使用(”pwd“)显示当前所在的目录 比如:当前目录是在home下面的,与用户名相同的文件夹,可以使用(”cd“)命令来切换目录; 进入下载目录(”cd home/a/下载“)这种从给目录开头的一长串路经”叫做绝对路径“; 进入图片目录(”cd .. /图片/“)".."代表当前路径的上级路径,相对于当前的目录而言的”叫做相对路径“,(”.“)代表当前路径; 如果,想快速切换,上一个所在目录可以(”cd - / cd..“); 如果,想快速切换,追原始的目录可以(”cd --“); 查看目录及文件
36 14
|
9天前
|
Linux查看内存命令
1. free free命令是最常用的查看内存使用情况的命令。它显示系统的总内存、已使用内存、空闲内存和交换内存的总量。 free -h • -h 选项:以易读的格式(如GB、MB)显示内存大小。 输出示例: total used free shared buff/cache available Mem: 15Gi 4.7Gi 4.1Gi 288Mi 6.6Gi 9.9Gi Swap: 2.0Gi 0B 2.0Gi • to
23 2
|
10天前
|
Linux 将所有文件和目录名重命名为小写
Linux 将所有文件和目录名重命名为小写
23 3
深入解析:Linux网络配置工具ifconfig与ip命令的全面对比
虽然 `ifconfig`作为一个经典的网络配置工具,简单易用,但其功能已经不能满足现代网络配置的需求。相比之下,`ip`命令不仅功能全面,而且提供了一致且简洁的语法,适用于各种网络配置场景。因此,在实际使用中,推荐逐步过渡到 `ip`命令,以更好地适应现代网络管理需求。
49 11
Linux部署04-ls命令的参数和选项,主体,参数,选项,ls / 查看根目录下的文件夹,-a的意思是列出全部选项 ls -a home全部文件,.代表着隐藏的文件夹,-l 选项,以列表竖向的形式展
Linux部署04-ls命令的参数和选项,主体,参数,选项,ls / 查看根目录下的文件夹,-a的意思是列出全部选项 ls -a home全部文件,.代表着隐藏的文件夹,-l 选项,以列表竖向的形式展
Linux部署 cd-pwd命令,cd 不写参数 就直接回到用户的HOME目录,pwd 查看当前的工作目录,pwd是常看当前目录的路径,无参数
Linux部署 cd-pwd命令,cd 不写参数 就直接回到用户的HOME目录,pwd 查看当前的工作目录,pwd是常看当前目录的路径,无参数