Blog
ブログ

2026年01月20日

【10月技術ブログ】ROMA ― AIが自ら構造化し、考え、協働する時代へ

こんにちは、新入社員のK・Vです。

この記事では、注目を集めているマルチエージェントフレームワーク「ROMA」について、公開されている情報をもとにその特徴や仕組みを紹介します。

はじめに

近年、大規模言語モデル(LLM)は驚くほどの能力を持つようになりました。しかし、それでもまだ「複雑なタスクを自律的に整理して実行する」ことは苦手です。

たとえば、ビジネスプランの設計や、システム全体の構築など、人間のように段階的に考え、分担して進めることは簡単ではありません。

そんな課題を解決するために登場したのが、ROMA(Recursive Open Meta Agent)です。

ROMAとは?

ROMAは、複数のエージェント(Agent)を階層的・再帰的に協働させるためのメタエージェント・フレームワークです。つまり、「タスクを理解 → 分割 → 実行 → 統合」する流れを、AIが自律的に行えるように設計されています。

処理の流れは以下のようにシンプルです:


def solve(task):
    if is_atomic(task):
        return execute(task)
    else:
        subtasks = plan(task)
        results = [solve(subtask) for subtask in subtasks]
        return aggregate(results)

 

ROMAはこの構造を通じて、タスクを細分化し、依存関係を管理し、最終的に統合された結果を生成します。

アーキテクチャと技術スタック

ROMAは以下の技術を基盤に構築されています:

  • Python 3.12+:バックエンド開発に使用
  • FastAPI / Flask:APIとエージェント制御
  • LiteLLM:OpenAI・Anthropic・Googleなど複数のLLMをサポート
  • React + TypeScript:リアルタイムで進行を可視化するフロントエンド
  • E2B Sandbox:安全なコード実行環境(サンドボックス)
  • S3 Mount (Goofys):大規模データを即座にアクセス可能にするストレージ

サンプルエージェント

ROMAの可能性を示すため、開発チームは以下のエージェント例を公開しています:

  1. General Task Solver:あらゆるタイプのタスクを柔軟に処理する汎用エージェント。
  2. Deep Research Agent:複雑なリサーチタスクを分割し、複数ソースから情報を収集・統合。
  3. Crypto Analytics Agent:暗号資産市場のデータを解析し、洞察を生成する分析エージェント。

パフォーマンスと評価

ROMAは、SEAL-0FRAMESSimpleQAといったベンチマークでテストされ、再帰的なタスク分解と検索+推論(reasoning)において優れた性能を発揮しています。

ROMA ベンチマーク結果
図1:ROMA ベンチマーク結果 – SEAL-0 テストの例

ROMAがもたらす未来

ROMAが目指すのは、AIを「単一のモデル」ではなく、複数の知的エージェントが協働する生態系として再定義することです。

  • 再帰的構造:タスクを自動で分解・統合
  • マルチモデル対応:任意のLLMやツールを接続可能
  • 透明性と追跡性:すべての推論過程を記録・可視化
  • オープンソース:誰でも利用・改変・商用利用が可能

まとめ

ROMAは、単なるAIフレームワークではなく、AIが自ら構造化し、学び、協働する未来のビジョンを提示しています。
複雑なタスクを扱うプロジェクトや、マルチエージェントの研究を行う方にとって、ROMAはまさに理想的な出発点です。

ご興味があれば、以下の資料をご参照ください。
https://github.com/sentient-agi/ROMA

このページの先頭へ