Leanstral完全ガイド【2026年最新】Mistral AIの形式検証エージェントでバイブコーディングのバグを数学的に消す

2026年3月16日、Mistral AIが「Leanstral」を公開した。Lean 4向けの形式検証AIエージェントで、オープンソース(Apache 2.0)。AIが生成したコードの正しさを「数学的に証明」する。119Bパラメータ(アクティブ6.5B)のMixture-of-Expertsモデルで、Claude Sonnetを2.6ポイント上回りながらコストは93%安い。Hacker Newsでは775ポイント・188コメントの反響を呼んだ。この記事では技術仕様・ベンチマーク・導入方法・バイブコーディングとの関係を網羅する。

Leanstralとは何か

Leanstralは、コードを生成するだけでなく、そのコードが正しいことの「数学的証明」を同時に生成するAIエージェントだ。生成された証明はLean 4の型チェッカーが自動検証する。型チェッカーのカーネルは約10,000行で、この小さなカーネルが証明全体の正しさを保証する。つまり「コンパイルが通れば証明は正しい」という状態を作る。

Mistralは公式発表で「trustworthy vibe-codingのためのオープンソース基盤」と位置づけている。バイブコーディングで生成されたコードのバグを、テストではなく数学で排除するアプローチだ。

技術仕様

項目 詳細
モデル名 Leanstral-2603(Leanstral-120B-A6B)
総パラメータ 約119B
アクティブパラメータ 6.5B(トークンあたり)
アーキテクチャ Sparse Mixture-of-Experts(128エキスパート、4つ同時アクティブ)
ベースモデル Mistral Small 4
コンテキスト 256Kトークン(推奨200K)
入力 テキスト+画像(マルチモーダル)
ライセンス Apache 2.0
API価格 $0(期間限定無料)
Hugging Face mistralai/Leanstral-2603

特徴的なのは、Lean 4の言語サーバーと直接やり取りするためにlean-lsp-mcp(Model Context Protocol)サーバーを使用する点だ。型チェック、タクティクス実行、エラー確認、証明の反復修正を開発環境内で完結させる。

ベンチマーク: FLTEval

Mistralは既存のminiF2Fベンチマーク(孤立した競技数学の問題)ではなく、Imperial College Londonのフェルマーの最終定理形式化プロジェクト(Kevin Buzzard教授主導、55名の貢献者、EPSRC資金援助で2029年まで継続)をベースにした「FLTEval」を新たに導入した。インポート、ライブラリ依存関係、複数ファイル構造を持つ実際のリポジトリでの証明能力を評価する。

オープンソースモデル比較(FLTEval)

モデル 総パラメータ スコア
GLM5 744B 16.6
Kimi-K2.5 1T 20.1
Qwen3.5 397B 25.4(pass@4)
Leanstral 119B(6.5Bアクティブ) 29.3(pass@4)

Claude比較(FLTEval + コスト)

モデル スコア コスト
Claude Haiku 23.0 $184
Claude Sonnet 23.7 $549
Leanstral(pass@2) 26.3 $36
Leanstral(pass@16) 31.9 $290
Claude Opus 4.6 39.6 $1,650

Leanstral(pass@2)はSonnetを2.6ポイント上回りながらコストは93%安い($36 vs $549)。ただしOpus 4.6には大差をつけられている(31.9 vs 39.6)。精度最優先の場面ではOpusが依然として最強だが、コスト効率ではLeanstralが圧倒する。

Lean 4とは何か

Lean 4は、Leonardo de Moura(元Microsoft Research、現AWS)が開発した依存型の対話的定理証明器であり、関数型プログラミング言語でもある。数学的形式化(例:完全空間の定義)とソフトウェア検証の両方に使える。コミュニティが維持するMathlib4には、2025年時点で210,000以上の形式化された定理と100,000以上の定義が収録されている。

形式検証がバイブコーディングに必要な理由は明確だ。ある調査によれば、開発者の96%がAI生成コードの正確性を信頼していない。それにもかかわらずプロダクションコミットの42%がAI生成だ。テストは「バグがないこと」を証明できないが、形式検証は「バグが存在しないこと」を数学的に保証する。

バイブコーディングとの関係

ACM SIGPLAN LMPL’25で発表された論文「Vibe Coding Needs Vibe Reasoning」(Mitchell & Shaaban、arXiv:2511.00202)が理論的基盤を提示している。この論文の指摘は3点。

  1. LLMはバイブコーディングにおいて「ユーザーの指示をコードの一貫性より優先する」
  2. LLMは矛盾する制約を調整できないためバグが蓄積する
  3. 形式手法はバグの不存在を保証し、設計制約を形式化し、システム全体の不変条件を検証できる

Leanstralはこの理論を実装に落とし込んだ。開発者がコードを生成して「動くことを祈る」のではなく、要件を形式的に記述し、Leanstralが数学的証明付きのコードを生成し、Lean 4の型チェッカーが自動検証する。パラダイムが「AIの出力をデバッグする」から「仕様を書いて証明する」に変わる。

競合との比較

システム 開発元 対象 OSS
Leanstral Mistral AI リポジトリ規模の証明エンジニアリング Apache 2.0
AlphaProof Google DeepMind 数学オリンピックレベルの定理証明 非公開
DeepSeek-Prover-V2 DeepSeek 競技型の孤立した定理証明 OSS

AlphaProofとDeepSeek-Proverは孤立した数学競技問題を解く。Leanstralはインポート・ライブラリ依存関係・複数ファイル構造を持つ実際のコードベースを対象にしている。用途が根本的に異なる。

実運用事例: Lean 4形式検証

  • AWS Cedar: Amazon Verified Permissionsを支える認可言語。Lean 4で形式検証済み
  • ゼロ知識証明: LambdaClassがLean 4でzkVM検証を実施(Ethereum Foundation資金援助)
  • Microsoft SymCrypt: 形式検証済みの暗号ライブラリ
  • ブロックチェーン: コンセンサスアルゴリズムの形式検証

導入方法

1. Mistral Vibe(最も簡単)

Mistral Vibeで/leanstralコマンドを使うだけ。セットアップ不要。

2. 無料API

エンドポイントlabs-leanstral-2603を使用。期間限定で無料。

3. セルフホスト(vLLM)

vllm serve mistralai/Leanstral-2603 \
  --max-model-len 200000 \
  --tensor-parallel-size 4 \
  --attention-backend FLASH_ATTN_MLA \
  --tool-call-parser mistral \
  --enable-auto-tool-choice \
  --reasoning-parser mistral

Hacker Newsでの反応

2026年3月16日の投稿は775ポイント、188コメントを記録した。主な論点は以下の通り。

  • 仕様レビュー vs 実装レビュー: Leanの仕様書は実装の10-50分の1の長さで、型チェッカーが残りを機械的に検証する。仕様のレビューのほうが「劇的に簡単」
  • 「誰が仕様を検証するのか」問題: AIが仕様まで書く場合、人間は仕様の正しさを検証する必要がある
  • 性能ギャップ: 専用設計にもかかわらずOpusに大差をつけられている点への疑問
  • オープンソースの定義: 「オープンウェイト」と真にオープンな「オープンソース」の違いについての議論
  • EU AI主権: 欧州のAI独立性におけるMistralの役割

よくある質問(FAQ)

Q. Leanstralを使うのにLean 4の知識は必要ですか?

基本的な概念の理解は推奨されますが、Leanstral自体が証明の構築を支援します。Mistral Vibeの/leanstralコマンドを使えば、対話的に進められます。

Q. 通常のアプリ開発にも使えますか?

Lean 4はプログラミング言語としても使えますが、現時点ではPythonやTypeScriptの代替というよりも、重要なロジックの正しさを証明するための補助的なツールです。認可ロジック、暗号処理、金融計算など、バグが許されない箇所に適しています。

Q. 無料APIはいつまで使えますか?

Mistralは「期間限定」としか公表しておらず、具体的な終了日は未定です。

ソースリスト

最終更新: 2026年3月19日

コメントする

JAKO