ハードウェア実装¶

実装の特長¶

静的、固定長な実装
- 定数（constや定数のテンプレート）を使い、関数内のループなど全て固定サイズ
  
  高位合成のテクニック
  
  Vivado 2017.1では可変ループ最適化が対応したらしいので、このような工夫をしなくても最適化される？？
テンプレートによる汎用化
- 各レイヤーに特化した、静的な関数を効率よく実装する仕組み
- MVTUの関数定義は1箇所だが、テンプレートの変数を変えることでコンパイル時に静的な関数を複数生成できる
pragmaによる最適化
- ループの並列化や、C/C++上の配列をFPGAのどのリソースにあてるかなど指定
- （使われているpragmaと説明をあとでまとめる）
Hardware Library
- BNNのアクセラレータの共通部品は、Hardware Libraryとして独立している
- LFC, CNVともに、Hardware Libraryを使ってモデルを記述する（高位合成ターゲットとなるTop関数だけ記述）
- ファイルは、 bnn/src/hls 以下

Hardware Libraryのファイル名と、その簡単な説明。

ファイルは、 bnn/src/hls 以下
streamtools.h
- streamのBit幅変換APIなど
dma.h
- メモリ上の配列データとAXI4-Streamの相互変換API
matrixvector.h
- MVTUの実装
fclayer.h
- Fully Connectedレイヤー
- 行列演算そのものはMVTUがおこなう
- MVTUの入出力を前後のレイヤーに合わせてbit幅変換する
convlayer.h
- Convolution Layerの実装
- slidingwindow.hで入力ストリームを変換し、MVTUへ入力する
maxpool.h
- MAX Poolingの実装
- 入力を内部バッファにためて、そこでMax値を計算
- 二値の最大値は、OR演算で得られる(0,1どちらかあれば1が最大なので)
slidingwindow.h
- Convolutionを行列積で計算する（=MVTUで扱う）ために、入力画像を変換する