`
zzy1943
  • 浏览: 50638 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

xml的"特殊字符"

    博客分类:
  • XML
阅读更多
    遇到这一方面的问题是因为我试图把一个对象序列化之后存贮到xml文件中,然后从xml文件中读取字符串,并反序列化对象(hadoop mapreduce程序中通过JobConf向tasktracker传送对象)。有关序列化:http://zzy1943.iteye.com/blog/634418
     当我把序列化之后的数据直接存在xml中后,在解析xml时遇到解析错误,原因是有非法字符。在详细阅读xml的说明之后才发现:< > ' " &是不允许作为xml的PCDATA的。要使用这几个字符,必须要把他们替换为内建实体:

实体引用  字符
&lt; <
&gt; >
&amp; &
&quot; "
&apos; '

所以,最直接的方法就是自己控制,在写入xml文件时把特殊字符转为实体引用,在读取的时候,再转回来。当然还有另外一个方法就是不把字符串当PCDATA,而是当成CDATA来使用(没有测试)。

   用实体引用的方法太麻烦,而我的应用xml的格式不能自己规定,所以只好寻找另外的方法:BASE64编码。这是一种常用在网络传输数据的编码方式。把存在这些非法字符的字符编码成base64编码,就不会有这些字符了。最重要的是java api中提供了这种编码的编码器和解码器,位于sun.misc的BASE64Encoder和BASE64Decoder。这样就可以把序列化之后得到的字节流转化成字符串了。并且也可以存贮在xml文件中。
   不过这两个类并不是sun的开放api,编译会有警告。
1
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics