LLaMA2のマルチモーダル化。
今のところ画像解析のみ。
LoRA
コントローラを起動する。たぶんバックエンド。
gradioサーバーを起動する。フロントエンド。
モデルワーカーを起動する。バックエンドのモデル読み込み部分。
その後いつも通りのLoRAかQLoRAのトレーニングを行う。
DeepSpeed構成らしい。
LoRA.md
How to fine-tune the LLaVA-7b model ? · Issue 138 · haotian-liu/LLaVA · GitHub
QLoRAは4bit NormalFloatという新たなデータ型を用いたLoRA。
QLoRA(Quantized Low-Rank Adaptation)解説:ニューラルネットワークのメモリ効率を高める革新的な手法 | Reinforz Insight
トークナイザーも別のものを使うことになる。
なおこれによると7bでもColabのT4のVRAM12GBでは出来ないっぽい。
calm2-7b-chatをファインチューニング(QLoRA)してキャラBOTを作る。|滝
GGUF
mys/ggml_llava-v1.5-7b at main
流れ
llava-v1.5-7bを調整する。scripts/v1_5/finetune_task_lora.sh
を元にqloraに変更、カスタムデータセットを用意して調整を行い、出来たモデルをさらにggufに圧縮する。
liuhaotian/llava-v1.5-7b at main
finetune_task_lora.sh
LoRA.md
MODEL_ZOO.md
Finetune_Custom_Data.md
Tutorial: How to convert HuggingFace model to GGUF format · ggerganov/llama.cpp · Discussion 2948 · GitHub