広範な概念だが、Transformerみたいな今までの経験から次を予測するAIをメインにする。
ざっくり言うと、transformerやRNNを使って作った適当に重みをもつニューラルネットワークに、データセットの重みを適用することでジェネレーティブAIになる。
binファイルは単なる重み。
safetensorsはそれを読み込めるモデルに変換したもの。
pickleはsafetensorsの古い奴。
Codegen
コードを類推して生成するテキストモデル。
重みしかないので、使うならpythonから呼び出すのがいい。
CodeGen
Sharing custom models
GitHub - salesforce/CodeGen2: CodeGen2 models for program synthesis
専用解説サイトっぽいとこのHowtoと、transformerのカスタムモデル読み込み(trust_remote_code=True
)を読んで動かした。
モデルは全てRAM上に展開されるっぽく、350Mでも2GBくらい持ってかれる。
Aider
チャットでAIにプログラムを組ませる。
GeminiかGroq。
GitHub - paul-gauthier/aider: aider is AI pair programming in your terminal
Cursorよさらば!これからはAIderで対話しながらプログラムを作る時代だ! |shi3z
LocalAI
OpenAIのAPIでローカルのモデルを動かせるやつ。
CogVLM
動画を認識できるオープンソースモデル。
GitHub - THUDM/CogVLM2: GPT4V-level open-source multi-modal model based on Llama3-8B
SakanaAI/TinySwallow-1.5B-Instruct-GGUF at main
1.5Bの賢い奴。とりあえず日本語の破綻はない。
mradermacher/DeepSeek-R1-Distill-Qwen-7B-Japanese-GGUF at main
Deepseekの実用サイズの日本語版。
まだ試せてない。
mmnga/RakutenAI-2.0-mini-instruct-gguf · Hugging Face
1.5b。まだ。