get tokenizer from .env

2026-05-03 02:11:48 +00:00 · 2026-02-03 14:50:37 +10:00 · 2026-02-03 14:50:37 +10:00 · 30221d8c20
commit 30221d8c20
parent b5b1fef20a
8 changed files with 97 additions and 6 deletions
--- a/atropos/envs/agent_env.py
+++ b/atropos/envs/agent_env.py
@ -23,6 +23,7 @@ from ..slots import SlotPool, SlotPoolConfig
 from ..tools import ToolRegistry, build_tool_registry
 from ..tools.tool_executor import ToolExecutor, ToolExecutorConfig

+# Main BaseEnv child classes. Child class THESE to get agent+tooling functionality easily.

 class AgentEnvConfig(BaseEnvConfig):
    tool_pool_mode: str = Field(default="nomad", description="Tool execution backend (only 'nomad' is supported)")
--- a/atropos/envs/hermes_compat_test_env.py
+++ b/atropos/envs/hermes_compat_test_env.py
@ -55,6 +55,7 @@ class HermesCompatTestEnvConfig(AgentEnvConfig):
        description="Base URL for an OpenAI-compatible chat server (without /v1).",
    )
    server_model: str = Field(default="hermes-4-36b", description="Model name")
+    tokenizer_name: str = Field(default="NousResearch/Hermes-4.3-36B", description="Tokenizer name for RL tokenization")


 class HermesCompatTestEnv(AgentEnv[HermesCompatTestEnvConfig]):
@ -83,7 +84,7 @@ class HermesCompatTestEnv(AgentEnv[HermesCompatTestEnvConfig]):
        api_key = os.getenv("ATROPOS_SERVER_API_KEY") or os.getenv("OPENAI_API_KEY") or "local"

        env_config = HermesCompatTestEnvConfig(
-            tokenizer_name="Qwen/Qwen2.5-1.5B-Instruct",  # tokenization only
+            tokenizer_name=os.getenv("ATROPOS_TOKENIZER_NAME") or "NousResearch/Hermes-4.3-36B",
            group_size=1,
            use_wandb=False,
            include_messages=True,
--- a/atropos/envs/sandbox_terminal_smoke_env.py
+++ b/atropos/envs/sandbox_terminal_smoke_env.py
@ -56,6 +56,7 @@ class SandboxTerminalSmokeEnvConfig(AgentEnvConfig):
        description="Base URL for an OpenAI-compatible chat server (without /v1).",
    )
    server_model: str = Field(default="hermes-4-36b", description="Model name")
+    tokenizer_name: str = Field(default="NousResearch/Hermes-4.3-36B", description="Tokenizer name for RL tokenization")


 class SandboxTerminalSmokeEnv(AgentEnv[SandboxTerminalSmokeEnvConfig]):
@ -84,7 +85,7 @@ class SandboxTerminalSmokeEnv(AgentEnv[SandboxTerminalSmokeEnvConfig]):
        api_key = os.getenv("ATROPOS_SERVER_API_KEY") or os.getenv("OPENAI_API_KEY") or "local"

        env_config = SandboxTerminalSmokeEnvConfig(
-            tokenizer_name="Qwen/Qwen2.5-1.5B-Instruct",  # tokenization only
+            tokenizer_name=os.getenv("ATROPOS_TOKENIZER_NAME") or "NousResearch/Hermes-4.3-36B",
            group_size=1,
            use_wandb=False,
            include_messages=True,
--- a/atropos/envs/swe_smith_oracle_env.py
+++ b/atropos/envs/swe_smith_oracle_env.py
@ -41,6 +41,9 @@ class SweSmithOracleEnvConfig(AgentEnvConfig):
    install_timeout_s: float = Field(default=600.0)
    test_timeout_s: float = Field(default=600.0)

+    # Tokenization: should match the model used for training.
+    tokenizer_name: str = Field(default="NousResearch/Hermes-4.3-36B", description="Tokenizer name for RL tokenization")
+

 class SweSmithOracleEnv(AgentEnv[SweSmithOracleEnvConfig]):
    """
@ -78,7 +81,7 @@ class SweSmithOracleEnv(AgentEnv[SweSmithOracleEnvConfig]):
        api_key = os.getenv("ATROPOS_SERVER_API_KEY") or os.getenv("OPENAI_API_KEY") or "local"

        env_config = SweSmithOracleEnvConfig(
-            tokenizer_name="Qwen/Qwen2.5-1.5B-Instruct",  # tokenization only
+            tokenizer_name=os.getenv("ATROPOS_TOKENIZER_NAME") or "NousResearch/Hermes-4.3-36B",
            group_size=1,
            use_wandb=False,
            rollout_server_url="http://localhost:8000",
--- a/atropos/envs/test_env.py
+++ b/atropos/envs/test_env.py
@ -68,6 +68,7 @@ class SimpleTestEnvConfig(AgentEnvConfig):
        default="hermes-4-36b",
        description="Model name",
    )
+    tokenizer_name: str = Field(default="NousResearch/Hermes-4.3-36B", description="Tokenizer name for RL tokenization")


 class SimpleTestEnv(AgentEnv[SimpleTestEnvConfig]):
@ -108,7 +109,7 @@ class SimpleTestEnv(AgentEnv[SimpleTestEnvConfig]):
        api_key = os.getenv("ATROPOS_SERVER_API_KEY") or os.getenv("OPENAI_API_KEY") or "local"

        env_config = SimpleTestEnvConfig(
-            tokenizer_name="Qwen/Qwen2.5-1.5B-Instruct",  # For tokenization only
+            tokenizer_name=os.getenv("ATROPOS_TOKENIZER_NAME") or "NousResearch/Hermes-4.3-36B",
            group_size=4,
            use_wandb=False,  # Disable wandb for simple testing
            rollout_server_url="http://localhost:8000",
--- a/atropos/envs/toolserver_smoke_env.py
+++ b/atropos/envs/toolserver_smoke_env.py
@ -34,6 +34,7 @@ class ToolServerSmokeEnvConfig(AgentEnvConfig):
        description="Base URL for an OpenAI-compatible chat server (without /v1).",
    )
    server_model: str = Field(default="hermes-4-36b", description="Model name")
+    tokenizer_name: str = Field(default="NousResearch/Hermes-4.3-36B", description="Tokenizer name for RL tokenization")


 class ToolServerSmokeEnv(AgentEnv[ToolServerSmokeEnvConfig]):
@ -62,7 +63,7 @@ class ToolServerSmokeEnv(AgentEnv[ToolServerSmokeEnvConfig]):
        api_key = os.getenv("ATROPOS_SERVER_API_KEY") or os.getenv("OPENAI_API_KEY") or "local"

        env_config = ToolServerSmokeEnvConfig(
-            tokenizer_name="Qwen/Qwen2.5-1.5B-Instruct",  # tokenization only
+            tokenizer_name=os.getenv("ATROPOS_TOKENIZER_NAME") or "NousResearch/Hermes-4.3-36B",
            group_size=1,
            use_wandb=False,
            include_messages=True,