Add Claude Sonnet 4.5 BabaIsAI benchmark results #2

stared · 2025-11-07T17:41:33Z

Results:

BabaIsAI: 50.0% ± 4.6%
Rank: Add Claude Sonnet 4.5 BabaIsAI benchmark results #2 on leaderboard (competitive with Gemini-2.5-Pro)
Episodes: 120 (40 tasks × 3 episodes)
Cost: ~$90 (29.6M input + 0.1M output tokens)

Configuration:

Agent: naive
Temperature: 1.0
Max tokens: 4096
Workers: 16 parallel

Key findings:

7.9% improvement over Claude 3.5 Sonnet (Oct 2024)
Lower variance (±4.6) vs Gemini-2.5-Pro (±8.2)
BabaIsAI is 7.5× more token-intensive than estimated

🤖 Generated with Claude Code

Results: - BabaIsAI: 50.0% ± 4.6% - Rank: #2 on leaderboard (competitive with Gemini-2.5-Pro) - Episodes: 120 (40 tasks × 3 episodes) - Cost: ~$90 (29.6M input + 0.1M output tokens) Configuration: - Agent: naive - Temperature: 1.0 - Max tokens: 4096 - Workers: 16 parallel Key findings: - 7.9% improvement over Claude 3.5 Sonnet (Oct 2024) - Lower variance (±4.6) vs Gemini-2.5-Pro (±8.2) - BabaIsAI is 7.5× more token-intensive than estimated 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <[email protected]>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add Claude Sonnet 4.5 BabaIsAI benchmark results #2

Add Claude Sonnet 4.5 BabaIsAI benchmark results #2

Uh oh!

stared commented Nov 7, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Add Claude Sonnet 4.5 BabaIsAI benchmark results #2

Are you sure you want to change the base?

Add Claude Sonnet 4.5 BabaIsAI benchmark results #2

Uh oh!

Conversation

stared commented Nov 7, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants