FEAT: Update evaluate_scorers by varunj-msft · Pull Request #1406 · Azure/PyRIT

varunj-msft · 2026-02-26T18:27:32Z

Description

Creates a standardized scorer initialization pattern mirroring the existing AIRTTargetInitializer approach.

Created pyrit/setup/initializers/components/ subdirectory
Moved airt_targets.py → components/targets.py, renamed TargetConfig → AIRTTargetConfig
Created components/scorers.py with AIRTScorerInitializer and 21 scorer configs
Updated __init__.py exports for new module paths
Refactored evaluate_scorers.py to use TargetRegistry for base targets and wire in both initializers

Tests and Documentation

Added tests/unit/setup/test_airt_scorer_initializer.py
Updated tests/unit/setup/test_airt_targets_initializer.py for new import paths

build_scripts/evaluate_scorers.py

pyrit/setup/initializers/components/scorers.py

pyrit/setup/initializers/components/targets.py

pyrit/setup/initializers/components/scorers.py

Copilot

Pull request overview

This PR introduces a standardized “component initializer” pattern for AIRT setup by adding a scorer initializer alongside the existing target initializer approach, and refactors the scorer-evaluation script to rely on registry-registered scorers.

Changes:

Added pyrit/setup/initializers/components/ with dedicated target/scorer initializer modules and updated package exports.
Introduced AIRTScorerInitializer with a centralized SCORER_CONFIGS list for evaluation scorers.
Refactored build_scripts/evaluate_scorers.py to initialize via AIRT initializers and iterate scorers from ScorerRegistry.

Reviewed changes

Copilot reviewed 6 out of 7 changed files in this pull request and generated 1 comment.

Show a summary per file

File	Description
tests/unit/setup/test_airt_targets_initializer.py	Updates imports to the new `components.targets` module path.
tests/unit/setup/test_airt_scorer_initializer.py	Adds unit tests for `AIRTScorerInitializer` behavior and config coverage.
pyrit/setup/initializers/components/targets.py	New module defining `TARGET_CONFIGS` and `AIRTTargetInitializer` registration logic.
pyrit/setup/initializers/components/scorers.py	New module defining `SCORER_CONFIGS` and `AIRTScorerInitializer` registration logic.
pyrit/setup/initializers/components/init.py	Exposes component initializer types via `__all__`.
pyrit/setup/initializers/init.py	Re-exports `AIRTScorerInitializer` and updates `AIRTTargetInitializer` import path.
build_scripts/evaluate_scorers.py	Uses `AIRTScorerInitializer` + `ScorerRegistry` instead of hand-built scorer instances.

Comments suppressed due to low confidence (1)

build_scripts/evaluate_scorers.py:72

Scorer.evaluate_async() defaults to update_registry_behavior=SKIP_IF_EXISTS, so this script may return cached metrics without re-running evaluations (and still prints “Evaluation complete and saved!”). If the intent is to benchmark scorers on each run, pass update_registry_behavior=RegistryUpdateBehavior.ALWAYS_UPDATE (and import the enum) or adjust the status messaging to reflect when cached results were used.

        try:
            print("  Status: Running evaluations...")
            results = await scorer.evaluate_async(
                num_scorer_trials=3,
                max_concurrency=10,
            )

pyrit/setup/initializers/components/scorers.py

build_scripts/evaluate_scorers.py

pyrit/setup/initializers/components/scorers.py

pyrit/setup/initializers/__init__.py

Copilot

Pull request overview

Copilot reviewed 6 out of 7 changed files in this pull request and generated 3 comments.

Comments suppressed due to low confidence (1)

build_scripts/evaluate_scorers.py:72

This script now iterates over all registered scorers, but many registered scorers (e.g., TrueFalseCompositeScorer, FloatScaleThresholdScorer) don't configure evaluation_file_mapping, so evaluate_async() will raise ValueError for each of them. Consider filtering scorer_names up-front to only scorers with an evaluation mapping (or passing an explicit mapping), and optionally report which scorers were skipped due to missing evaluation datasets.

    registry = ScorerRegistry.get_registry_singleton()
    scorer_names = registry.get_names()

    if not scorer_names:
        print("No scorers registered. Check environment variable configuration.")
        return

    print(f"\nEvaluating {len(scorer_names)} scorer(s)...\n")

    # Use tqdm for progress tracking across all scorers
    scorer_iterator = (
        tqdm(enumerate(scorer_names, 1), total=len(scorer_names), desc="Scorers")
        if tqdm
        else enumerate(scorer_names, 1)
    )

    # Evaluate each scorer
    for i, scorer_name in scorer_iterator:
        scorer = registry.get_instance_by_name(scorer_name)
        print(f"\n[{i}/{len(scorer_names)}] Evaluating {scorer_name}...")
        print("  Status: Starting evaluation (this may take several minutes)...")

        start_time = time.time()

        try:
            print("  Status: Running evaluations...")
            results = await scorer.evaluate_async(
                num_scorer_trials=3,
                max_concurrency=10,
            )

pyrit/setup/initializers/components/scorers.py

tests/unit/setup/test_scorer_initializer.py

pyrit/setup/initializers/components/targets.py

pyrit/setup/initializers/components/scorers.py

pyrit/setup/initializers/components/targets.py

pyrit/setup/initializers/components/scorers.py

Copilot

Copilot encountered an error and was unable to review this pull request. You can try again by re-requesting a review.

pyrit/setup/initializers/components/scorers.py

pyrit/setup/initializers/components/targets.py

tests/unit/setup/test_scorer_initializer.py

build_scripts/evaluate_scorers.py

pyrit/setup/initializers/components/scorers.py

pyrit/setup/initializers/components/targets.py

…te-evaluate_scorers

rlundeen2

looks good once addressing and resolving comments!

romanlutz changed the title ~~FEAT: Update evaulate_scorers~~ FEAT: Update evaluate_scorers Feb 26, 2026

rlundeen2 reviewed Feb 26, 2026

View reviewed changes

build_scripts/evaluate_scorers.py Show resolved Hide resolved

rlundeen2 reviewed Feb 26, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Outdated Show resolved Hide resolved

rlundeen2 reviewed Feb 26, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Outdated Show resolved Hide resolved

jsong468 reviewed Feb 26, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Outdated Show resolved Hide resolved

rlundeen2 reviewed Feb 26, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Outdated Show resolved Hide resolved

rlundeen2 reviewed Feb 26, 2026

View reviewed changes

pyrit/setup/initializers/components/targets.py Outdated Show resolved Hide resolved

rlundeen2 reviewed Feb 26, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Outdated Show resolved Hide resolved

rlundeen2 reviewed Feb 26, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Outdated Show resolved Hide resolved

rlundeen2 reviewed Feb 26, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Show resolved Hide resolved

Copilot AI review requested due to automatic review settings February 27, 2026 00:02

Copilot started reviewing on behalf of varunj-msft February 27, 2026 00:03 View session

Copilot AI reviewed Feb 27, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Outdated Show resolved Hide resolved

rlundeen2 reviewed Mar 3, 2026

View reviewed changes

build_scripts/evaluate_scorers.py Show resolved Hide resolved

rlundeen2 reviewed Mar 3, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Outdated Show resolved Hide resolved

rlundeen2 self-assigned this Mar 3, 2026

jsong468 mentioned this pull request Mar 3, 2026

FEAT: Add new human labeled datasets #1436

Merged

varunj-msft force-pushed the varunj-msft/7366-Update-evaluate_scorers branch from 40e5a8c to 2667502 Compare March 4, 2026 17:30

rlundeen2 reviewed Mar 4, 2026

View reviewed changes

pyrit/setup/initializers/__init__.py Outdated Show resolved Hide resolved

rlundeen2 requested a review from Copilot March 4, 2026 17:50

Copilot started reviewing on behalf of rlundeen2 March 4, 2026 17:51 View session

Copilot AI reviewed Mar 4, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Show resolved Hide resolved

pyrit/setup/initializers/components/scorers.py Outdated Show resolved Hide resolved

tests/unit/setup/test_scorer_initializer.py Show resolved Hide resolved

jsong468 reviewed Mar 4, 2026

View reviewed changes

pyrit/setup/initializers/components/targets.py Show resolved Hide resolved

jsong468 reviewed Mar 4, 2026

View reviewed changes

pyrit/setup/initializers/components/scorers.py Show resolved Hide resolved