| 操作系统 办公 实用知识 设计 开发 WEB开发 移动开发 数据库 软件工程 网管 安全 管理 信息化 答疑 渠道 |
用 C# 读取二进制文件当想到所有文件都转换为 XML时,确实是一件好事。但是,这并非事实。仍旧还有大量的文件格式不是XML,甚至也不是ASCII。二进制文件仍然在网络中传播,储存在磁盘上,在应用程序之间传递。相比之下,在处理这些问题方面,它们比文本文件显得更有效率些。
问题的所在 如上所述的那样把数据写成文件,同时如果你也知道其正确的数据结构的话,那么也就意味着读取文件也很容易。你只要使用 fread() 函数,并提供下列参数:一个文件句柄,一个指向数据的指针,读取多少个数据,每一个数据的长度。 fread() 函数帮你把其余的事都做了。突然,数据又回到了内存中。没有采用解析以及也没有对象模型的方式,它只是把文件直接的读到内存中。 在C和C++中,最大的两个问题就是数据对齐(structure alignment)和字节交换(byte swapping)。数据对齐指的是有时编译器会跳过数据中间的字节,因为如果处理器访问到那些字节,就不再处于最优化状态下了,要花费更多的时间(一般情况,处理器访问未对齐数据花费的时间是访问对齐数据的两倍),花费更多的指令。因此,编译器要为了执行速度而进行优化,跳过了那些字节并重新进行排序。另一方面,字节交换指的是:由于不同处理器对字节排序的方式不同,需要对数据的字节重新排序的过程。 数据对齐 第一种,它们可以选择在数据中添加一些无用的白空格符,这样可以使整数的开始地址能被4除尽。这是一种最普遍的做法。第二种,它们可以对字段重新排序,以便使整数处于4位的边界上。因为这样会造成其它有趣的问题,因此,这种方式较少使用。第三种选择是,允许数据中的整数不处于4位的边界上,但是把代码复制到一个合适的地方从而使那些整数处于4位的边界上。这种方式需要一些额外的时间花费,但是,如果必须压缩的话,那么它就很有用了。 以上所说的这些大都是编译器的细节问题,你用不着过多的担心。如果你对写数据的程序和读数据的程序使用同样的编译器,同样的设定,那么,这些就不成其为问题了。编译器用同样的方法来处理同样的数据,一切都OK。但是当你涉及到跨平台文件转换问题时,用正确的方式来排列所有数据就显得很重要了,这样才能保证信息能被转换。另外,一些程序员还了解怎样让编译器不用理睬他们的数据。 不同的处理器用不同的方式储存整数。Intel 处理器一般用低位优先方式来储存整数,换句话说,低位首先被读写。大多数其它处理器用高位优先方式来储存整数。因此,当二进制文件在不同平台上读写时,你就有可能不得不对字节重新排序以便得到正确的顺序。 在 UNIX 平台上,还有一种特殊的问题,因为UNIX可以在Sun Sparc处理器、HP处理器、IBM Power PC、Inter的芯片等多种处理器上运行。当从一种处理器转移到另一种处理器上时,就意味着那些变量的字节排列顺序必须翻转,以便于它们能满足新处理器所要求的顺序。 用 C# 处理二进制文件 类型破坏(type breaking) 在 Usenet (注:世界性的新闻组网络系统)的文档中搜寻,你会找到几个构架在 microsoft.public.dotnet层次上的一组程序,它们可以容许你把任何对象转换为一系列字节,并可以重新转换回对象。它们可以在下面地址找到 Listing A 复杂的数据类型 幸好, .NET 提供了一种方式来解决这种问题。你可以告诉 C# ,你想怎样处理你的字符串(string)和其它类型的数组。这将通过 MarshalAs 属性来完成。下面这个例子,就是在 C# 中使用字符串,这属性必须要在所控制的数据使用之前被使用: [MarshalAs(UnmanagedType.ByValTStr, SizeConst = 50)] 包装(pack) [StructLayout(LayoutKind.Sequential, Pack = 1)] 这样做可以使数据忽略边界对齐,让数据尽可能的紧凑包装。这个属性应当和你从二进制文件中读取的任何数据的属性都保持一致(即:你写到文件中的属性应和从文件读出来属性保持不变)。 你也许会发现,即使给你的数据加上了这个属性后,也没有完全解决问题。在某些情况下,你可能不得不进行沉闷冗长的反复实验。由于不同计算机和编译器在二进制层次上的有着不同的运行处理方式,这就是引起上述问题的原因。特别是在跨平台时,我们都必须特别小心的处理二进制数据。 .NET 是个好工具,适合其它二进制文件,但是也并不是一个完美的工具。 字节排列顺序的翻转(endian flipping) 一旦你得知对象的类型,你能够获得数据里的每个部分,并开始检查每一个部分,并确定其是否是一个16位或32位的无符号整数。在任何一种上述情况下,你都可以改变字节的排序顺序,而且不会破坏数据。 注意:你不是用字符串类(string)来完成所有的事。是采用高位优先还是低位优先,并不会影响到字符串类。那些字段是不受翻转代码的影响。你也只是要注意无符号整数而已。因为,负数在不同的系统上,并不是使用同一种表示方式的。负数可以只用一个记号(一位字节)表示,但是更常用的,却是使用两个记号(两位字节)表示。这使得负数在跨平台时有些更困难。幸运的是,负数在二进制文件中极少使用。 这只是多说几句了,同样的,浮点数有时并不是用标准方式表示的。尽管大多数系统是以IEEE格式为基础来设置浮点数的,但是还是有一小部分老的系统使用了其它的格式来设置浮点数的。 克服困难
今日推荐
|
重点推荐
领军企业技术文库
+更多领军技术文库
最新专题
电子杂志订阅
| ||||||||