CUDA4.1 RC

いつのまにやらCUDA 4.1のRC版が出てます。
http://developer.nvidia.com/cuda-toolkit-41
http://developer.nvidia.com/content/new-cuda-now-available

さらっと見た感じ以下の3点推し。

  • 新しいLLVMベースのコンパイラによるパフォーマンスのアップ(最大10%)
  • NPPへの1000以上の関数の追加
  • Visual Profilerの強化

新しいコンパイラはコンパイル速度も早くなるみたい。NPPは使ってないし知りません。

Visual Profilerはボトルネックっぽい部分を解析してパフォーマンスアップのためのガイドを表示してくれそうな感じになってる。(ビデオのスライドだとMemcpyのスループットが低いからPinned Memory使えみたいな)

Parallel Nsightもバージョンアップ http://www.nvidia.com/object/parallel-nsight.html
Warp Watch機能とか追加されてる。シングルGPU環境だと結局Profilerしか使えないんだけど・・・

Visual ProfilerとかのスクリーンショットIntroduction to CUDA 4.1 で見れます。