ARMアセンブラ勉強中(4) - melpon日記 - HaskellもC++もまともに扱えないへたれのページ

さらに高速化です(｀へ´)。

LDM,STM命令を使えば、４バイト単位で複数のロード・ストアが出来て、しかも高速です。
ただし、４バイト単位でロードされるため、２バイト単位でストアするために透過色を上位・下位ワードにセットしてEORしてマスクを生成してANDしてADDして……とかやっていると、逆にクロック数が増えます。
これはまあ、ロードだけLDMでしておいて、ストアはハーフバイトで転送すればいいでしょう。

    // アセンブラルーチンに入る前に計算しておく
    uint32 iend8d = (width & 7) * sizeof( PixelTypeRGB565 );
    uint32 iend,iend8;
    
    // 下位ビット、上位ビットを取り出すためのマスク
    uint32 mask = 0xffff;
    
    ADD      iend,src,width,LSL #1
    SUB      iend8,iend,iend8d      ;８ループ展開の終了値を計算
    
    B        icomp8
iloop8:
    LDMIA    src!,{r1-r4}   ;4バイト×4をsrcから一気にロード。
                            ;しかもライトバック付き
    
    AND      r0,mask,r1
    CMP      r0,key
    STRNEH   r0,[dst,#0]
    
    AND      r0,mask,r1,LSR #16
    CMP      r0,key
    STRNEH   r0,[dst,#2]
    
    ....
    
    ADD      dst,dat,#16
icomp8:
    CMP      src,iend8
    BGE      iloop8

これで、ループ内のクロック数は、１回の転送が3.5クロックとして、それが８回。LDMIAが６クロック、ADD,CMP,BGEで５クロック。合計３９クロック。
最初と比べると、半分以下までクロック数が落ちましたヽ(´ー｀)ノ

でも、これにはちょっと問題があって、ARMだとソースビットマップのクリッピング位置が奇数の場合、端末リセットが掛かる可能性があります。
なんでかというと、ARMはLDR命令を４バイト境界でしか読み込めないからです。
なので、事前に４バイト境界まで転送した後に、↑のコードを書くことになります。

今度はインデックスカラーの最適化をするぞーヽ(´ー｀)ノ

追記：

    uint32 key2 = key << 16;
    
    
    EORS     r0,key2,r1,LSL #16
    STRNEH   r1,[dst,#0]
    
    AND      r0,mask,r1,LSR #16
    CMP      r0,key
    STRNEH   r0,[dst,#2]

さらに８クロック減ったー(ﾟ∀ﾟ)ー！

……でもこれ、もしかしてレジスタの数足りないんじゃなかろか（;´Д｀）