up:: Pygmalion_Character
どちらが良いというものでもない。検証勢によると特に有意差はないらしい。Tavernでは。
Testing W++ and Boostyle chat accuracy : r/PygmalionAI
Testing Boostyle, CatNip, and “Scrip” Chat Accuracy : r/PygmalionAI
An experiment to see which method is better for character creation : r/PygmalionAI
じゃあ何が違うのか。
そもそもこのキャラクターjsonにはトークン数制限がある。これはAI キャラクター生成の作り方に起因する。
元々、普通のテキスト生成モデルは文脈読むために今までの文章をずっと突っ込んでいる。ここに手を加え、今までの文脈に加えてこのキャラクター設定を読み込ませることでAIキャラクターは作られている。
PygmalionAI/pygmalion-2.7b · Hugging Face
で、当然今までの文を毎回読み込んでたら推論がめちゃくちゃ重くなる。なのである一定程度トークンを読み込んだら、古い方から消されていく。pygmalionの場合は2048トークンが限界。
これをキャラクター設定と会話記憶で分け合うので、実際にキャラクター設定に使えるのは900トークン程度。1148トークンもあれば10~15通程度覚えて置けるので実用的らしい。
Pygmalion Tips
なのでちょっとやそっとじゃ限界突破は難しい。
Boostyleのほうが単語は少なくいろんな要素を入れられる。一方W++は管理しやすい。
ちなみに、Cat<Nip>
とかScripとかいう書式もあるらしい。CatNipはこんなん。関連付けを教え込もうとする感じ。
CAT nip SFW guide by Covalent and Curious Nekomimi · thaalesalves/ai-games-research Wiki · GitHub
ScripはBoostyleに加え、自然言語で軽く説明を入れる書式。以下は検証勢が作ったテスト。というかScrip自体この検証勢が考えたらしい。
(Character Description that Is 150-200 Tokens): Test Template is an [age] year old, [gender] template that is [adj], [adj], and [adj], and [gender's] job is testing templates, and templating tests. [Gender] is [describe their looks and clothing here with several adjective]. Test Template is [describe their current motivations and how they reached this point, as well as any additional background information]. Her favorite things are testing, templates, template tests, and test templates.
"Gendered" + "Age" + "Age years old" + "X pounds" + "X lbs" + "Xcm" + "X Foot, Y inches" + "Clothing" + "Hair" + "Body type" + "Body detail" + "Body detail" + "Skin tone/color" + "Descriptor like Quiet" + "Descriptor like Shy" + "Descriptor like Motherly" + "Descriptor like Cowardly" + "Sexual orientation if you care" + "Test Template is a Test." + "Test Template doesn't Template much." + "Test Template secretly likes to Template Tests." + "Test Template denies being a Templated Test Template." + "Video Games" + "Anime" + "Tests" + "Templates" + "Testing Template Tests" + "Solitude" + "Cheeseburgers" + "Erect templates to test"
200トークンほど失うが、代わりに9%くらい精度が上がるらしい。
まあそもそも書式気にするくらいなら適切な言葉を探す方に時間を使えと言うのが一番。