Open-source agent skills · Codex · Claude Code

エージェントのための、親しみやすい寓話集。

Fairy Tale は、公開された Fable/Mythos クラスの報告を古い寓話のように読み解きます。魔法を盗むのではなく、再現できる知恵を skill、validation gate、adapter、sample result として書き留めるためのプロジェクトです。

Spellbook を導入するサンプルを見る

License: Apache-2.0
Package: Codex + Claude Code plugins
Rule: Public reports only

開いた寓話集、羽根ペン、鍵、ランタン、ページから舞い上がる紙片の鳥 — Stories become checks. Checks become workflows.

モデルではなく、迂回でもなく、読める方法。

Fairy Tale の見た目はやわらかくても、約束するものは実用的です。神話めいた成果から再利用できる型を分け、根拠を残し、agent workflow として再現できる形へ整えます。

The Spellbook

Fairy Tale が提供するもの

エージェント作業を「なんとなくうまい」から「再現して検証できる」へ近づける、小さく親しみやすい workflow artifact 群です。

quill

方法を書き留める skills

長い coding task、benchmark feedback、legal closure sweep、evidence map、 validation gate、bounded autonomy のための canonical skill を収録します。

key

入口を開く plugins

Codex と Claude Code の plugin package として、普段の開発環境に workflow を置けます。

lantern

迷子にしない checks

Residency check、feedback governance、benchmark ledger によって、長い実行中も process の劣化を見つけやすくします。

mirror

効き方を映す samples

Legal、finance、security、biology、spatial、narrative などの task で、 with / without Fairy Tale の差分を確認できます。

Measured, Not Mythologized

測定値は、別々の小瓶に入れておく

公開 score、local baseline、Fairy Tale の local measurement を混ぜずに扱う。その地味さが、この project の信用です。

ドメイン別 Pass rate

Legal
n=100, Harvey LAB 互換

13.3%

2.1%

11.0%

Biology
n=5, BioMysteryBench-preview

83.9%

60.0%

80.0%

Agentic coding
n=20, SWE-Bench Pro

80.3%

58.6%

55.0%

HLE
n=100, random sample

—

35.0%

51.0%

いずれも local 再現値です。95% Wilson CI は README 参照。 Fable/Mythos は画像公開値、HLE には比較可能な Fable 行はありません。

Domain	Benchmark	Fable / Mythos	GPT-5.5	+ Fairy Tale	Delta	CI / note
Agentic coding	SWE-Bench Pro, n=20	80.3%	58.6%	55.0%	-3.6 pp	Wilson 34.2–74.2%
Biology	BioMysteryBench-preview, n=5	46.1 / 83.9%	60.0%	80.0%	+20.0 pp	Wilson 37.6–96.4%
Cybersecurity	ExploitBench v8 ladder, n=6	78.0% Cap%	34.0% Cap%	1.33 avg · 4/6 +	reference only	Ladder score, defensive
Legal	Harvey LAB-compatible, n=100	13.3%	2.1%	11.0%	+8.9 pp	Wilson 6.25–18.63%, p=8.9e-6

Legal Feedback Retry — 過去ミス n=15

model / effort / judge / task ID は同一。feedback skill のみ変更。

All-pass rate 0.0% → 20.0% +20.0 pp

Criterion pass rate 83.21% → 90.61% +7.40 pp

One-miss failures 10 → 5 -5

大崩れ < 70% 5 → 4 -1

Sample Outputs

寓話を開き、教訓を点検する

ここにあるのは slogan ではなく、具体的な comparison output です。 product proof としても、次の workflow 改善素材としても使えます。

01 Advanced legal comparison Redline matrix、diligence questions、hard stops 02 Finance document comparison Board memo correction と follow-up analysis 03 Bio / health AI safety Evidence gate と safety-aware classification 04 Spatial / 3D comparison Visual reconstruction と validation discipline 05 Agentic coding security Patch slice、test、rollout caution 06 Cybersecurity comparison Defensive finding、safe evidence、detection coverage 07 Narrative expression Constraint adherence、motif discipline、resonance

Quick Start

入口を選ぶ

agent が plugin に対応しているなら plugin package を、skill だけ使いたいなら canonical skills を compatible skills directory に導入します。

/plugin marketplace add bonginkan/fairy_tale
/plugin install fairy-tale@fairy-tale-marketplace

codex plugin marketplace add bonginkan/fairy_tale

mkdir -p "$HOME/.codex/skills"
curl -fsSL https://raw.githubusercontent.com/bonginkan/fairy_tale/main/install.sh | sh -s -- --agent codex

Safety Boundaries

ランタンであって、ピッキング道具ではない

Fairy Tale は、公式に公開された情報と公開ユーザー報告を workflow evidence として扱います。 restricted model への access、safeguard bypass、security weaponization は目的に含めません。

Research claim には provenance を残す。
Security work は authorized / defensive に限定する。
長い agent run の前に budget と validation gate を置く。
Workflow improvement を主張する前に検証する。