1. 概述
XML(可扩展标记语言)是用于跨不同平台和应用程序存储和传输数据的最广泛使用的格式之一。然而,尽管其具有强大的功能,XML并非没有问题,处理XML文档中的无效字符就是一个挑战。
在本文中,我们将探讨不同的无效字符以及如何在XML处理中处理它们。
2. XML中有效字符
XML规范定义了允许在元素内容和属性值中的字符。根据XML 1.0规范,可接受的字符如下所示。XML将这些范围之外的任何字符视为无效字符:
| 描述 | 范围 | 示例 |
|---|---|---|
| 制表符(水平制表) | 9 (TAB) | \t |
| 换行符(新行) | 10 (LF) | \n |
| 回车符(回到行首) | 13 (CR) | \r |
| 基本多语言平面(BMP)中的字符,不包括代理块 | 32 to 55295 | A, b, &, 1, α(希腊字母α) |
| 辅助私用区A(SMP)中的字符,不包括代理块 | 57344 to 65533 | 😊(笑脸),🎉(派对彩带) |
| 辅助平面中的BMP之外的字符 | 65536 to 1114111 | 🌍(带有经线的地球),🚀(火箭) |
大约 4 分钟