ARMアセンブラ勉強中(2) - melpon日記 - HaskellもC++もまともに扱えないへたれのページ

前の、RGB565→RGB565の転送を透過転送用functorで組んだルーチンをアセンブラで出力してみると、８ループ展開の内部は次のようになってました。

 1    LDRH     r5,[r1,#-2]
 2    LDRH     r12,[r13,#0x38]
 3    CMP      r5,r12
 4    STRNEH   r5,[r9,#0]
 5    SUB      r9,r9,#2
 6    LDRH     r5,[r1,#-4]
 7    LDRH     r12,[r13,#0x38]
 8    CMP      r5,r12
 9    STRNEH   r5,[r9,#0]
10    SUB      r9,r9,#2
11    LDRH     r5,[r1,#-0xc]
      ....
41    SUB      r1,r1,#16
42    SUB      r0,r0,#8
43    CMP      r0,#8
44    BGE      0xe2b0    ;１行目へ

１行目でsrcのデータをロード。
２行目で透過色をロード。
３行目でその２つを比較して、両方が同じ値ではないときだけ
４行目の、転送先へのストアを実行し、
５行目で転送先のオフセットをずらす、と。
んで後はその繰り返しを８回やってるわけですね。

このループ内のクロック数を数えてみると、一回の転送が実際に転送する場合は１０クロックで、転送しない場合は９クロック。とりあえず平均を取って9.5クロックとして、それを８回。最後にSUB,SUB,CMP,BGEで６クロックなので、合計８２クロックですね。
これを出来る限り最適化したいと思います。

まずめちゃめちゃもったいないのが透過色を毎回ロードしてるところですね。
ロード命令は３クロックも消費するので、これは事前にロードしておいて、常にそれを使うようにします。
そうすれば３×８＝２４クロックも減ります。うひょーヽ(´ー｀)ノ

      LDRH     r12,[r13,#0x38]    ;事前にロードしておく
      ;↑ループの外側
 1    LDRH     r5,[r1,#-2]
 3    CMP      r5,r12
 4    STRNEH   r5,[r9,#0]
 5    SUB      r9,r9,#2
 6    LDRH     r5,[r1,#-4]
 8    CMP      r5,r12
 9    STRNEH   r5,[r9,#0]
10    SUB      r9,r9,#2
11    LDRH     r5,[r1,#-0xc]
      ....
41    SUB      r1,r1,#16
42    SUB      r0,r0,#8
43    CMP      r0,#8
44    BGE      0xe2b0    ;１行目へ

次に、毎回転送先のアドレスを減算しているのがもったいないです。こいつは最後にまとめて引いてやることにしましょう。７クロック減ります。

      LDRH     r12,[r13,#0x38]    ;事前にロードしておく
      ;↑ループの外側
 1    LDRH     r5,[r1,#-2]
 3    CMP      r5,r12
 4    STRNEH   r5,[r9,#-2]
 6    LDRH     r5,[r1,#-4]
 8    CMP      r5,r12
 9    STRNEH   r5,[r9,#-4]     ;オフセットを指定して転送
11    LDRH     r5,[r1,#-0xc]
      ....
      SUB      r9,r9,#16 ;ここでまとめて引く
41    SUB      r1,r1,#16
42    SUB      r0,r0,#8
43    CMP      r0,#8
44    BGE      0xe2b0    ;１行目へ

１ピクセルの転送を平均5.5クロックとすれば、合計５１クロックになり、約４０％ぐらい速くなる……はずです。
実測はしてないからわかんない（;´Д｀）