(2023)
GGML
旧手法。Cで書かれており、サードパーティに依存せず、量子化をサポートする。
あとWebAssemblyサポートとか。
GGUF
Llama以外もllama.cppで使えるようになる新フォーマット。
プロンプトフォーマットを内部に設定しておける。
GPTQ
推論速度の高速化。
ExllamaとかがLlama専用でこの圧縮を行っていたが、AutoGPTQによりTransformerモデル全てで圧縮できるようになった。
量子化した後量子化そのものを学習し、元モデルとの誤差を縮めている。
AWQ
最近出てきたGPTQの上位版量子化。
(2024)
up:: tgwebui
量子化。モデルを小さくしつつ精度を落とさない技術。
GPTQ
最初期の量子化。
QuIP
Quantization with Incoherence Processing。
GPTQの改良。今はQuIP#になりさらに効率化された。
GGML
CPUでも実行できるようにしたフォーマット。
GGUF
ggmlの後継。
AQLM
Additive Quantization of Language Models。
加法を元にした量子化。QuIP#を凌ぐのが売り。
Add AQLM support (experimental) by oobabooga · Pull Request 5466 · oobabooga/text-generation-webui · GitHub
Even more quantization types? · ggerganov/llama.cpp · Discussion 5063 · GitHub
exl2
量子化ではないが。
exllamav2で使うための圧縮。早い。