up:: AI_local
up:: AIt

LLaMA2のマルチモーダル化。
今のところ画像解析のみ。

README.md

LoRA

コントローラを起動する。たぶんバックエンド。
gradioサーバーを起動する。フロントエンド。
モデルワーカーを起動する。バックエンドのモデル読み込み部分。

その後いつも通りのLoRAかQLoRAのトレーニングを行う。
DeepSpeed構成らしい。

LoRA.md
How to fine-tune the LLaVA-7b model ? · Issue 138 · haotian-liu/LLaVA · GitHub

QLoRAは4bit NormalFloatという新たなデータ型を用いたLoRA。

QLoRA(Quantized Low-Rank Adaptation)解説:ニューラルネットワークのメモリ効率を高める革新的な手法 | Reinforz Insight

トークナイザーも別のものを使うことになる。
なおこれによると7bでもColabのT4のVRAM12GBでは出来ないっぽい。

calm2-7b-chatをファインチューニング(QLoRA)してキャラBOTを作る。|滝

GGUF

mys/ggml_llava-v1.5-7b at main

流れ

llava-v1.5-7bを調整する。scripts/v1_5/finetune_task_lora.shを元にqloraに変更、カスタムデータセットを用意して調整を行い、出来たモデルをさらにggufに圧縮する。

liuhaotian/llava-v1.5-7b at main
finetune_task_lora.sh
LoRA.md
MODEL_ZOO.md
Finetune_Custom_Data.md
Tutorial: How to convert HuggingFace model to GGUF format · ggerganov/llama.cpp · Discussion 2948 · GitHub