SciVisAgentBench - Dataset Collection

Current Benchmark Coverage

                                    73
                                    Test Cases
                                

                                    6
                                    Data Domains
                                

                                    3
                                    Institutions
                                

Data Categories

🔬

Simulation Data

20 cases

CFD, physics simulations, FEM

📦

Object Scans & Industrial CT

19 cases

3D scanning, industrial imaging

🏥

Medical Imaging

11 cases

CT, MRI, medical visualization

📊

Geometry & Synthetic

10 cases

Charts, I/O tests, shapes

🧬

Molecular & Biological

11 cases

Molecular dynamics, microscopy

🌍

Climate & Geospatial

4 cases

Climate science, geospatial data

Contributing Institutions

Argonne National Laboratory

ANL

20 cases

Lawrence Livermore National Laboratory

LLNL

42 cases

University of Notre Dame

Notre Dame

11 cases

Pending Contributions

Track new submissions awaiting review and incorporation into the benchmark. These statistics reflect contributions not yet included in the official benchmark above.

0 Datasets

0 Contributors

0 Test Cases

Contribute Dataset Learn More

Pending Contributions Breakdown

Application Domains

Attribute Types

Contributors

Contributor	Institution	# of Questions	Subjects
No contributions yet. Be the first to contribute!

About SciVisAgentBench

What is SciVisAgentBench?

SciVisAgentBench is a comprehensive evaluation framework for scientific data analysis and visualization agents. We aim to transform SciVis agents from experimental tools into reliable scientific instruments through systematic evaluation.

Taxonomy of SciVis agent evaluation, organized into two perspectives: outcome-based evaluation assessing the relationship between input specifications and final outputs while treating agents as black boxes, and process-based evaluation analyzing the agent's action path, decision rationale, and intermediate behaviors.

Why Contribute?

Help establish standardized evaluation metrics for visualization agents
Drive innovation in autonomous scientific visualization
Contribute to open science and reproducible research
Be recognized as a contributor to this community effort

Evaluation Taxonomy

Our benchmark evaluates agents across multiple dimensions including outcome quality, process efficiency, and task complexity. We combine LLM-as-a-judge with quantitative metrics for robust assessment.

See our GitHub repository for evaluation examples and deployment guides.

Team

The core team of this project is from the University of Notre Dame, Lawrence Livermore National Laboratory, and Vanderbilt University. Main contributors include Kuangshi Ai (kai@nd.edu), Shusen Liu (liu42@llnl.gov), and Haichao Miao (miao1@llnl.gov).

View on GitHub View on Hugging Face Read Position Paper

Current Benchmark Coverage

Data Categories

Contributing Institutions

Pending Contributions

Pending Contributions Breakdown

Application Domains

Attribute Types

Contributors

Submit Dataset

📁 About File Uploads

Contributor Information

Dataset Information

Application Domain (Data Source)

Attribute Types *

Task Description for LLM Agent *

File Uploads *

Outcome-Based Evaluation Metrics *

Additional Information

About SciVisAgentBench

What is SciVisAgentBench?

Why Contribute?

Evaluation Taxonomy

Team