up:: AIt
up:: AIt_quantization
Felo(フェロー)- 無料のAI検索エンジン
felo情報
static、imatrix、IQ Quantsなどがある。
重ねて使えるものもあるので、あんま同一に語ってはいけないが。
static
staticは以前からあるほう。少量のデータ(キャリブレーションデータ)で活性化する値を収集して圧縮する。
KはK-qunatsという新しい量子化。
imatrix
imatrixはimportant matrixの略。重要度行列で重要な部分を見つけ、その精度を優先的に保持する。こちらもキャリブレーションデータを使用するが、ここで各重みと出力で重要度を取り後で使う。
低ビット量子化でも精度が落ちにくいらしい。
たまにi1とついているモデルがあるが、これはimatrixを使用していることのしるしらしい。
システム上他の量子化と組み合わせ可能。
IQ Quants
IQ Quants。QuIP#のアイデアを取り入れた量子化。
これの低ビットの品質のため、元々imatrixは来た。
従来よりも低ビットで高性能、高速で推論可能。
代わりにCPU負荷が少し高いらしい。