FREEBSD上如何使用c语言和libxml2简单解析XML

简介: 由于我们的前台使用C语言编写CGI,如果对方提供XML接口给我们传递数据,就必须有解析的程序,这也可能是今后数据接口的最通用的办法。经过研究,正如使用C语言来生成页面一样,显然使用C语言解析XML要比PHP和ASP要麻烦很多。
由于我们的前台使用C语言编写CGI,如果对方提供XML接口给我们传递数据,就必须有解析的程序,这也可能是今后数据接口的最通用的办法。经过研究,正如使用C语言来生成页面一样,显然使用C语言解析XML要比PHP和ASP要麻烦很多。
同其它语言一样,解析的方法一般都是调用现有的解析器,因为这样省时省力。PHP4是内置的EXPAT,PHP5是内置的LIBXML2,WIN平台可以调用MSXML。FREEBSD上使用C语言,最流行的就是调用EXPAT和LIBXML2,由于PHP基于某些原因放弃了EXPAT,所以我主要试用了LIBXML2。
  
LIBXML2主页是 http://xmlsoft.org

安装过程:(需要ROOT权限)
gunzip -c libxml2-2.6.22.tar.gz | tar xvf -
cd libxml2-2.6.22
./configure
make

su
make install
exit

安装完成后就可以使用简单的代码解析XML文件,包括本地和远程的文件,但是在编码上有一些问题。LIBXML默认只支持UTF-8的编码,无论输入输出都是UTF-8,所以如果你解析完一个XML得到的结果都是UTF-8的,如果需要输出GB2312或者其它编码,需要ICONV来做转码(生成UTF-8编码的文件也可以用它做)。

ICONV的安装过程和LIBXML2一样。

下面是一些例子,包括解析XML和转码
# i nclude <stdio.h>
# i nclude < string.h>
# i nclude <stdlib.h>
# i nclude <libxml/xmlmemory.h>
# i nclude <libxml/parser.h>

#i nclude <iconv.h>

// *********************************************************************** //
// * d_ConvertCharset: 编码转换函数,可以转换任意两种编码格式
// * ddr/2005-11-10
// * 此函数需要库libiconv,编译时需加-liconv,如果找不到库,编译时加-L/usr/local/lib
//  其中/usr/local/lib为安装库文件的目录
//  使用时需要#i nclude <iconv.h>,如果找不到此头文件请在编译时加-I/usr/local/include
//  其中/usr/local/include为安装头文件的目录
// * 需要使用static变量作为输出的缓冲区,这里设置的最大长度是1024,可以根据需要修改,以避免溢出
//  由于使用了static变量,所以这个函数是不可重入的,非线程安全的
//  可以改用new的方式来实现可重入
// *********************************************************************** //
static  char s_strBufOut[1024];
char *d_ConvertCharset( char *cpEncodeFrom,  char *cpEncodeTo,  const  char *cpInput)
{

  char *cpOut;
  size_t iInputLen, iOutLen, iReturn;

  iconv_t c_pt;
  if ((c_pt = iconv_open(cpEncodeTo, cpEncodeFrom)) == (iconv_t)-1)
  {
    printf("iconv_open failed!\n");
    return NULL;
  }

  iconv(c_pt, NULL, NULL, NULL, NULL);

  iInputLen = strlen(cpInput) + 1;
  iOutLen = 1024;
  cpOut = s_strBufOut;
  iReturn = iconv(c_pt, &cpInput, &iInputLen, &cpOut, &iOutLen);

  if (iReturn == -1)
  {
    return NULL;
  }

  
  iconv_close(c_pt);
  return s_strBufOut;
}


// 输出每一项的内容,使用GB2312编码输出
void parseItem (xmlDocPtr doc, xmlNodePtr cur) 
{
  xmlChar *key;
  cur = cur->xmlChildrenNode;
  while (cur != NULL) 
  {
   if ((!xmlStrcmp(cur->name, (const xmlChar *)"songname"))) 
   {
     key = xmlNodeListGetString(doc, cur->xmlChildrenNode, 1);
     printf("songname: %s\n", d_ConvertCharset("utf-8", "gb2312", (char *)key));
     xmlFree(key);
   }
    
   else if ((!xmlStrcmp(cur->name, (const xmlChar *)"songurl"))) 
   {
     key = xmlNodeListGetString(doc, cur->xmlChildrenNode, 1);
     printf("songurl: %s\n", d_ConvertCharset("utf-8", "gb2312", (char *)key));
     xmlFree(key);
   }
    
   else if ((!xmlStrcmp(cur->name, (const xmlChar *)"singer"))) 
   {
     key = xmlNodeListGetString(doc, cur->xmlChildrenNode, 1);
     printf("singer: %s\n", d_ConvertCharset("utf-8", "gb2312", (char *)key));
     xmlFree(key);
   }
    
   else if ((!xmlStrcmp(cur->name, (const xmlChar *)"singerurl"))) 
   {
     key = xmlNodeListGetString(doc, cur->xmlChildrenNode, 1);
     printf("singerurl: %s\n", d_ConvertCharset("utf-8", "gb2312", (char *)key));
     xmlFree(key);
   }

   
      cur = cur->next;
  }

  
return;
}


void parseDoc( char *docname) 
{

  xmlDocPtr doc;  //解析树
  xmlNodePtr cur;  //当前节点
  
  doc = xmlParseFile(docname);
  
  if (doc == NULL ) 
  {
    fprintf(stderr,"Document not parsed successfully. \n");
    return;
  }

  
  //得到根节点
  cur = xmlDocGetRootElement(doc);
  
  if (cur == NULL) 
  {
    fprintf(stderr,"empty document\n");
    xmlFreeDoc(doc);
    return;
  }

  
  //判断根节点是不是mp3
  if (xmlStrcmp(cur->name, (const xmlChar *) "mp3")) 
  {
    fprintf(stderr,"document of the wrong type, root node != mp3");
    xmlFreeDoc(doc);
    return;
  }

  
  //得到当前节点的第一个子节点,即第一个ITEM
  cur = cur->xmlChildrenNode;
  while (cur != NULL) 
  {
    if ((!xmlStrcmp(cur->name, (const xmlChar *)"item")))
    {
      //输出每个ITEM
      parseItem (doc, cur);
    }

     
    cur = cur->next;
  }

  
  xmlFreeDoc(doc);
  return;
}


// 入参可以是一个文件,也可以是一个URL,要求必须是UTF-8编码
int main( int argc,  char **argv) 
{
  char *docname;
    
  if (argc <= 1) 
  {
    printf("Usage: %s docname\n", argv[0]);
    return(0);
  }


  docname = argv[1];
  parseDoc (docname);

  return 0;
}
目录
相关文章
|
6月前
|
存储 Java 文件存储
微服务——SpringBoot使用归纳——Spring Boot使用slf4j进行日志记录—— logback.xml 配置文件解析
本文解析了 `logback.xml` 配置文件的详细内容,包括日志输出格式、存储路径、控制台输出及日志级别等关键配置。通过定义 `LOG_PATTERN` 和 `FILE_PATH`,设置日志格式与存储路径;利用 `&lt;appender&gt;` 节点配置控制台和文件输出,支持日志滚动策略(如文件大小限制和保存时长);最后通过 `&lt;logger&gt;` 和 `&lt;root&gt;` 定义日志级别与输出方式。此配置适用于精细化管理日志输出,满足不同场景需求。
1300 1
|
6月前
|
XML JavaScript Android开发
【Android】网络技术知识总结之WebView,HttpURLConnection,OKHttp,XML的pull解析方式
本文总结了Android中几种常用的网络技术,包括WebView、HttpURLConnection、OKHttp和XML的Pull解析方式。每种技术都有其独特的特点和适用场景。理解并熟练运用这些技术,可以帮助开发者构建高效、可靠的网络应用程序。通过示例代码和详细解释,本文为开发者提供了实用的参考和指导。
154 15
|
9月前
|
存储 网络协议 编译器
【C语言】深入解析C语言结构体:定义、声明与高级应用实践
通过根据需求合理选择结构体定义和声明的放置位置,并灵活结合动态内存分配、内存优化和数据结构设计,可以显著提高代码的可维护性和运行效率。在实际开发中,建议遵循以下原则: - **模块化设计**:尽可能封装实现细节,减少模块间的耦合。 - **内存管理**:明确动态分配与释放的责任,防止资源泄漏。 - **优化顺序**:合理排列结构体成员以减少内存占用。
619 14
|
9月前
|
存储 编译器 C语言
【C语言】数据类型全解析:编程效率提升的秘诀
在C语言中,合理选择和使用数据类型是编程的关键。通过深入理解基本数据类型和派生数据类型,掌握类型限定符和扩展技巧,可以编写出高效、稳定、可维护的代码。无论是在普通应用还是嵌入式系统中,数据类型的合理使用都能显著提升程序的性能和可靠性。
344 8
|
9月前
|
存储 算法 C语言
【C语言】深入浅出:C语言链表的全面解析
链表是一种重要的基础数据结构,适用于频繁的插入和删除操作。通过本篇详细讲解了单链表、双向链表和循环链表的概念和实现,以及各类常用操作的示例代码。掌握链表的使用对于理解更复杂的数据结构和算法具有重要意义。
2665 6
|
9月前
|
存储 网络协议 算法
【C语言】进制转换无难事:二进制、十进制、八进制与十六进制的全解析与实例
进制转换是计算机编程中常见的操作。在C语言中,了解如何在不同进制之间转换数据对于处理和显示数据非常重要。本文将详细介绍如何在二进制、十进制、八进制和十六进制之间进行转换。
569 5
|
9月前
|
C语言 开发者
【C语言】断言函数 -《深入解析C语言调试利器 !》
断言(assert)是一种调试工具,用于在程序运行时检查某些条件是否成立。如果条件不成立,断言会触发错误,并通常会终止程序的执行。断言有助于在开发和测试阶段捕捉逻辑错误。
177 5
|
2月前
|
安全 C语言
C语言中的字符、字符串及内存操作函数详细讲解
通过这些函数的正确使用,可以有效管理字符串和内存操作,它们是C语言编程中不可或缺的工具。
224 15
|
8月前
|
存储 算法 C语言
【C语言程序设计——函数】素数判定(头歌实践教学平台习题)【合集】
本内容介绍了编写一个判断素数的子函数的任务,涵盖循环控制与跳转语句、算术运算符(%)、以及素数的概念。任务要求在主函数中输入整数并输出是否为素数的信息。相关知识包括 `for` 和 `while` 循环、`break` 和 `continue` 语句、取余运算符 `%` 的使用及素数定义、分布规律和应用场景。编程要求根据提示补充代码,测试说明提供了输入输出示例,最后给出通关代码和测试结果。 任务核心:编写判断素数的子函数并在主函数中调用,涉及循环结构和条件判断。
353 23
|
7月前
|
人工智能 Java 程序员
一文彻底搞清楚C语言的函数
本文介绍C语言函数:函数是程序模块化的工具,由函数头和函数体组成,涵盖定义、调用、参数传递及声明等内容。值传递确保实参不受影响,函数声明增强代码可读性。君志所向,一往无前!
155 1
一文彻底搞清楚C语言的函数

推荐镜像

更多