注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

_

_

 
 
 

日志

 
 

Alignment Trap error  

2014-06-26 23:08:48|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

2) go through your source code and find all places where the codes assumes that it can access 16 and 32 bit words on 8 bit aligned addresses and fix them. The X86 allows for unaligned access but an ARM does not and therefore traps - the kernel can catch this exception and patch this manually but of course it is really slow.

?

看一下ARM Architecture Manual会有更大收获,印象中应该是ARMv5之前,非对齐访问会直接导致DataAbort,原因就是非对齐。也就是说,如果一个32Bit数据的地址不是Bit[1:0]==0的话,ARM内核是不支持这种访问的。ARMv6还是哪个开始,支持非对齐访问,但也是只读一次,非对齐部分0填充,并不如X86那样的可以随便玩。
ucOS因为是源代码,没有用到外部定义的数据结构,编译器产生的对齐Padding对程序的数据访问没有影响。所以无所谓。只不过Padding之后多费一点内存罢了。这个调节结构体的成员位置就能解决。
对齐很明显的例子是LwIP之类的东西在ARM上的移植,必须根据编译器去修改Packed一类的关键词。

?

原文地址:http://georgezhu.spaces.live.com/blog/cns!ce8d4a9e5bf7552e!333.entry
ARM上的对齐问题[ZZ]
ARM流行已久,做嵌入式开发的不知道ARM不大可能。鉴于其所具备的较低功耗下的较高性能,也就成了大多数嵌入式设备的首选了。
不过对于刚上手的人来说,有可能会遇到一些稀奇古怪的问题。毕竟大部分人都习惯了IA-32下的程序设计,虽然两者都是32位的处理器,但是体系架构完全不同,于是也导致了一些隐含的问题。这里想描述一下一个有点蛊惑的问题,即在ARM上访问非对齐地址内容,会出现所谓“不可预料”结果的问题。
ARM内存访问的对齐问题
按照ARM文档上的描述,其访问规则如下:
1. 一次访问4字节内容,该内容的起始地址必须是4字节对齐的位置上;
2. 一次访问2字节内容,该内容的起始地址必须是2字节对齐的位置上;
(单字节的没有这个问题,就不用考虑啦。 )
好,既然规则如此,那应该遵守。不过么,不安分的人往往喜欢破坏规则,喜欢看看不遵守规则会有什么结果;另外么,即便遵规蹈距的人,有时也难免考虑不周,犯个错也是正常现象。好,那么让我们来看看犯错的结果吧。例如下面的代码:
char??? buff[8] = {0x12, 0x34, 0x56, 0x78, 0x9a, 0xab, 0xbc, 0xcd};
int????? v32, *p32;
short?? v16, *p16;
p32 = (int*)&( buff[1] );?? //unalignment
p16 = (short*)&( buff[1] );? //unalignment
v32 = *p32;? //what’s the result?
v16 = *p16;? //what’s the result?
如果上面这段代码在IA-32上运行,那么结果应该如下:
v32 = 0x9a785634
v16 = 0x5634
即便非对齐地址上访问,IA-32也就是牺牲一点性能,但是结果保证是正确的。恩,这也是我们所期望的……
可是…… 换到ARM上呢?我们来看看在ADS1.2编译后,执行的结果如下:
v32 = 0x12785634
v16 = 0x1234
这个结果有点奇怪了吧。照理说指向0x34,那么如果是Big-Endian的话,v32应该是0x3456789a,如果是Little-Endian的话,就是前面IA-32的结果。可现在的结果呢?两者都不是,莫名地把更低地址的0x12给凑进来了…… 而如果看看编译生成的汇编code的话,这两个赋值很简单,分别用了ldr和ldrsh指令,指令没有问题,分别用于读取32位和16位数据,都是最基本的指令。嗯,嗯,这就是我们所要描述的访问非对齐地址的问题了。
问题的缘由(个人猜测,非官方资料……)
个人感觉呢,这是ARM体系架构实现的问题,或者说这本来就是By Design的。这样做简化了处理器的实现,IA-32实现的时候肯定会对读取地址是否对齐进行判断,然后转换为相应的操作 ,而ARM呢?没有做这个事情,默认认为大家都按照规矩办事,你要是胆敢破坏,俺就给你好看~~~
那有没有办法解决呢?
这个问题其实ARM自己也知道,所以呢,它在编译器里面,已经添加了部分支持。不过有人会问,那上面那个情况呢?为什么结果还是不对呢?好像没有添加什么支持嘛……
嗯,其实ARM是做了一定的努力的,只是这个情况它没办法解决…… 它做的事情就是:在编译器能够的得知的情况下,尽量保证访问内容的正确。这句话有点笼统,那么把具体情况一个个来看看吧。
编译器的努力(1)—— 所有局部/全局/静态等变量都放在4字节对齐的地址上
其实这个努力很常见,由于在32位平台上,一次访问4字节是效率最高的,所以大多数32平台的编译器都如此处理,ARM的ADS也不例外。
编译器的努力(2)—— 填充、填充、再填充
这个事情么,其实也是常见的。各类编译器上,对于某些结构定义中会产生不对齐的情况,自动填充,以提高访问效率(例如IA-32上访问非对齐的,会加1个周期的)。而ARM的编译器也一样操作,不过感觉这里不单单是为了提高效率,也能够顺带解决这个不对齐的问题。
编译器的努力(3)—— 产生特殊代码
嗯,这个就是关键了,也是ARM编译器的与众不同之处。先来看一段代码:
__packed typedef struct _test
{
??? char a;
??? short c;
??? int d;
} test;
char??? buff[8] = {0x12, 0x34, 0x56, 0x78, 0x9a, 0xab, 0xbc, 0xcd};
test??? *p = (test *)buff;
v32 =? p->d;?? //这里的v32借用上面的定义;
貌似多了个限定为__packed的struct,以此来造成不对齐的状况,看不出多大区别嘛。可是运行一下的话,就会发现这里的结果是正确的。我们来看看ADS生成的汇编代码吧。
??? v32 = q->d;
[0xe2890003]?? add????? r0,r9,#3
[0xeb000088]?? bl?????? __rt_uread4
[0xe1a05000]?? mov????? r5,r0
看到这里的那条"bl?????? __rt_uread4"的指令了吧。对ARM指令有一定了解的都知道bl其实就是一个函数调用。所以,这里的代码其实是调用了ADS自己提供的__rt_uread4函数,该函数完成的操作就是读取四个字节。ADS提供了类似的一系列函数,针对signed/unsigned,以及4字节/2字节的读取/写入操作。
估计看到这里,大家会问,如果没有__packed限定符呢?猜对了,没有__packed限定符,那么编译器会对上面的情况pending,所以这个struct里面的d所在的位置是4字节对齐的(编译期信息,而非实际运行期信息)。所以就回到类似最初的例子了。
那么,还有一种情况,就是在有__packed的情况下,而struct里的字段都是符合对齐要求的,那么生成的代码会是怎么样的呢?从实际生成的代码来看,和上面的这段汇编代码,唯一的区别就是第一条指令把#3改成了#4,而后面仍旧调用__rt_uread4函数。嗯,这样结论就出来了:
编译器会在使用__packed的情况下,自动对其中的4字节/2字节访问添加特殊代码,以保证其结果的正确。
好了,这个关于这个问题描述得差不多了,可能的话,尽量倚赖编译器的这些功能,而对于编译器无能为力的部分,就要靠万分小心了……
p.s. 其实这里有很多事情可以来尽量预防此类问题,比如嵌入式项目往往喜欢自己管理内存分配,那么自己写的内存分配函数就保证返回的地址都是4字节对齐位置上的……

  评论这张
 
阅读(388)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017