AI伦理测试 - AI测试知识库

← 知识库首页 | ← 博客知识库

1. 概述

1.1 AI伦理问题概述

AI伦理测试（AI Ethics Testing）是AI质量保障体系中的关键环节，旨在验证AI系统在伦理维度的合规性。随着AI系统在金融、医疗、司法等敏感领域的广泛应用，伦理问题已成为不可回避的挑战。核心伦理关注点包括以下四个维度：

偏见与公平性（Bias & Fairness）：AI系统的输出是否对不同群体存在系统性偏差？例如，信贷审批模型是否对特定性别、种族或地域的申请人存在歧视。
可解释性（Explainability）：AI系统的决策过程能否被人类理解和审计？当模型拒绝一笔贷款申请时，能否给出明确的理由。
透明度（Transparency）：用户是否知道自己正在与AI系统交互？AI系统的能力边界、数据来源和使用限制是否被充分披露。
问责性（Accountability）：当AI系统产生有害输出或错误决策时，谁应该承担责任？是否有明确的责任追溯机制。

💡 关键认知 AI伦理测试不是独立于功能测试的额外工作，而是贯穿于整个AI系统生命周期的持续验证过程。从数据收集、模型训练到上线部署、持续监控，每个环节都需要嵌入伦理考量。

1.2 伦理测试在AI测试体系中的位置

在AI测试的完整体系中，伦理测试与功能测试、性能测试、安全测试并列，但具有独特的交叉性——伦理问题往往在功能测试和安全测试中暴露。例如：

公平性问题可能表现为功能测试中的"准确率差异"
透明度问题可能表现为安全测试中的"信息泄露"
可解释性问题可能影响监管合规审计的结果

因此，伦理测试需要与各项测试活动协同开展，形成完整的质量保障闭环。

2. 公平性测试

2.1 群体公平性（Group Fairness）

群体公平性关注的是不同受保护群体（如不同性别、种族、年龄段、地域）之间AI系统表现的差异。核心原则是：系统决策结果在不同群体间应满足统计均等性。

测试维度	说明	银行场景示例
性别公平性	不同性别的用户获得相同质量的服务/决策	信贷审批通过率在男女性别间无统计显著差异
地域公平性	不同地区的用户被同等对待	一线城市与三四线城市客户的授信额度分布合理
年龄公平性	不同年龄段的群体不因年龄而被系统性排斥	老年客户在智能客服中享有同等服务优先级
收入层级公平性	中低收入群体不被系统性低估或歧视	理财推荐不因收入水平而仅推送高费率产品

2.2 个体公平性（Individual Fairness）

个体公平性要求：相似的个体应当获得相似的对待。这与群体公平性互补——群体公平性保证统计层面的平等，而个体公平性保证案例层面的公正。

例如：两位信用评分、收入水平、工作年限相同的申请人，仅在性别或居住城市不同，获得的贷款审批结果应当一致。

📖 实践建议 群体公平性和个体公平性需要同时关注。一个模型可能满足群体统计均等，但在个体层面仍存在不合理差异（例如：虽然男女审批率相同，但具体到相似个体的案例时，性别仍是决定因素）。建议使用多种指标交叉验证。

2.3 测试方法

反事实测试（Counterfactual Testing）

反事实测试是公平性测试的核心方法之一：保持其他特征不变，仅修改敏感属性（如性别、种族），观察模型输出是否发生变化。具体步骤：

构建测试对：准备一组除敏感属性外其他特征完全相同的输入样本对
执行推理：将测试对中的两个样本分别输入模型
比较输出：分析模型输出是否存在显著差异
量化偏差：统计所有测试对中输出不一致的比例

统计均等（Statistical Parity）

通过统计方法检验不同群体间的关键指标是否存在显著差异：

计算各群体的正面结果率（如审批通过率）
使用假设检验（如卡方检验、t检验）验证差异是否具有统计显著性
结合业务阈值判定不公平程度是否可接受

反事实测试脚本示例

以下Python脚本演示如何基于信贷审批数据生成反事实测试用例，并对比模型输出差异：

#!/usr/bin/env python3
"""反事实公平性测试脚本 (Counterfactual Fairness Testing)

生成反事实测试对：保持非敏感特征不变，仅翻转敏感属性（性别/地域），
对比模型输出差异，量化不公平程度。
"""

import json
import copy
import pandas as pd
import numpy as np
from typing import Any

# ============================================================
# 1. 测试数据准备
# ============================================================

# 模拟信贷审批特征模版
base_applicant = {
    "age": 35,
    "income": 150000,       # 年收入（元）
    "loan_amount": 200000,  # 贷款金额
    "loan_term": 36,        # 贷款期限（月）
    "credit_score": 680,    # 征信评分
    "employment_years": 5,
    "debt_ratio": 0.35,     # 负债率
    "has_house": True,
    "gender": "男",        # 敏感属性1 - 待翻转
    "region": "一线城市",   # 敏感属性2 - 待翻转
}

# 生成一组多样化的基础样本
base_samples = []
for credit_score in [550, 620, 680, 720, 780]:
    for income in [80000, 150000, 300000, 500000]:
        sample = copy.deepcopy(base_applicant)
        sample["credit_score"] = credit_score
        sample["income"] = income
        sample["id"] = f"SAMPLE_{credit_score}_{income}"
        base_samples.append(sample)

print(f"生成 {len(base_samples)} 个基础测试样本")

# ============================================================
# 2. 生成反事实测试对
# ============================================================

# 敏感属性翻转映射
GENDER_SWAP = {"男": "女", "女": "男"}
REGION_SWAP = {
    "一线城市": "三四线城市",
    "三四线城市": "一线城市",
    "二线城市": "三四线城市",
}

def generate_counterfactual_pairs(
    samples: list[dict],
    sensitive_attr: str,
    swap_map: dict
) -> list[dict]:
    """生成反事实测试对：每个样本生成一个仅修改敏感属性的对照样本"""
    pairs = []
    for original in samples:
        if original.get(sensitive_attr) not in swap_map:
            continue
        counterfactual = copy.deepcopy(original)
        counterfactual[sensitive_attr] = swap_map[original[sensitive_attr]]
        counterfactual["id"] = f"{original['id']}_CF_{sensitive_attr}"
        pairs.append({
            "original": original,
            "counterfactual": counterfactual,
            "flipped_attr": sensitive_attr,
        })
    return pairs

gender_pairs = generate_counterfactual_pairs(
    base_samples, "gender", GENDER_SWAP
)
region_pairs = generate_counterfactual_pairs(
    base_samples, "region", REGION_SWAP
)

print(f"性别反事实测试对: {len(gender_pairs)}")
print(f"地域反事实测试对: {len(region_pairs)}")

# ============================================================
# 3. 模拟模型推理 & 对比输出
# ============================================================

def mock_credit_model(applicant: dict) -> dict:
    """模拟信贷审批模型（实际项目中替换为真实模型调用）"""
    score = (
        applicant["credit_score"] * 0.4
        + (applicant["income"] / 10000) * 0.2
        - applicant["debt_ratio"] * 50
        + applicant["employment_years"] * 3
        + (20 if applicant["has_house"] else 0)
    )
    # 模拟性别偏见：女性评分轻微降低
    if applicant["gender"] == "女":
        score -= 15
    # 模拟地域偏见：三四线城市评分降低
    if applicant["region"] == "三四线城市":
        score -= 25
    approved = score > 300
    return {
        "approved": approved,
        "score": round(score, 1),
        "threshold": 300,
    }

def evaluate_pairs(pairs: list[dict], attr_name: str) -> dict:
    """评估反事实测试对：统计翻转率与差异分布"""
    total = len(pairs)
    flips = 0
    score_diffs = []

    for pair in pairs:
        orig_res = mock_credit_model(pair["original"])
        cf_res = mock_credit_model(pair["counterfactual"])
        score_diff = orig_res["score"] - cf_res["score"]
        score_diffs.append(score_diff)

        if orig_res["approved"] != cf_res["approved"]:
            flips += 1
            print(
                f"[翻转] {pair['original']['id']}: "
                f"{pair['original'][attr_name]} → "
                f"{pair['counterfactual'][attr_name]} | "
                f"决策: {orig_res['approved']} → {cf_res['approved']}"
            )

    return {
        "属性": attr_name,
        "测试对总数": total,
        "决策翻转数": flips,
        "翻转率": f"{flips / total * 100:.1f}%",
        "平均分数差异": f"{np.mean(score_diffs):.1f}",
        "最大分数差异": f"{np.max(score_diffs):.0f}",
    }

gender_report = evaluate_pairs(gender_pairs, "gender")
region_report = evaluate_pairs(region_pairs, "region")

# ============================================================
# 4. 输出评估报告
# ============================================================
print("\n" + "=" * 60)
print("反事实公平性测试报告")
print("=" * 60)
for report in [gender_report, region_report]:
    print(f"\n--- {report['属性']}公平性 ---")
    for k, v in report.items():
        print(f"  {k}: {v}")

# 判定是否通过
THRESHOLD = 0.05  # 翻转率阈值 5%
for report in [gender_report, region_report]:
    flip_rate = float(report["翻转率"].rstrip("%")) / 100
    status = "✅ 通过" if flip_rate <= THRESHOLD else "❌ 未通过"
    print(f"\n{report['属性']}: 翻转率 {report['翻转率']} → {status}")

2.4 评估指标

指标	公式/定义	理想值	说明
统计均等差异（SPD）	P(ŷ=1\|A=a) - P(ŷ=1\|A=b)	→ 0	不同群体获得正面结果的概率差异
机会均等差异（EOD）	TPR_a - TPR_b	→ 0	正例被正确识别的概率差异
预测均等差异（PPD）	PPV_a - PPV_b	→ 0	预测为正例时实际为正的概率差异
差异影响比（DIR）	P(ŷ=1\|A=a) / P(ŷ=1\|A=b)	≥ 0.8	正面结果率的比值，通常要求≥80%
反事实翻转率	修改敏感属性后输出翻转的比例	→ 0	敏感属性改变导致决策翻转的样本占比

公平性评估脚本示例

以下脚本计算群体统计均等指标，自动生成公平性评估报告：

#!/usr/bin/env python3
"""公平性指标计算脚本 (Fairness Metrics Calculator)

计算群体均等差异（SPD）、差异影响比（DIR）、机会均等差异（EOD），
并生成可视化对比图。
"""

import pandas as pd
import numpy as np
from scipy import stats
from typing import Optional

# ============================================================
# 1. 模拟测试数据
# ============================================================

np.random.seed(42)
N = 2000

df = pd.DataFrame({
    "applicant_id": [f"APP{i:04d}" for i in range(N)],
    "gender":       np.random.choice(["男", "女"], N, p=[0.6, 0.4]),
    "region":       np.random.choice(
                        ["一线城市", "二线城市", "三四线城市"],
                        N, p=[0.3, 0.3, 0.4]
                    ),
    "age_group":    np.random.choice(
                        ["18-30", "31-45", "46-60", "60+"],
                        N, p=[0.3, 0.35, 0.25, 0.1]
                    ),
    "credit_score": np.random.normal(650, 80, N).clip(300, 850),
    "income":       np.random.lognormal(mean=11.5, sigma=0.5, size=N),
})

# 模拟模型预测结果（含偏见）
df["model_score"] = (
    df["credit_score"] * 0.5
    + np.log(df["income"]) * 8
    - (df["gender"] == "女").astype(int) * 12   # 偏见1
    - (df["region"] == "三四线城市").astype(int) * 20  # 偏见2
    + np.random.normal(0, 10, N)
)
df["predicted"] = (df["model_score"] > 310).astype(int)

# 模拟真实标签（不含偏见）
df["true_label"] = (
    df["credit_score"] * 0.5
    + np.log(df["income"]) * 8
    + np.random.normal(0, 10, N)
)
df["true_label"] = (df["true_label"] > 310).astype(int)

print(f"数据集: {N} 条样本")
print(f"模型预测通过率: {df['predicted'].mean():.2%}")

# ============================================================
# 2. 公平性指标计算
# ============================================================

def calc_statistical_parity(
    df: pd.DataFrame,
    sensitive_attr: str,
    label_col: str = "predicted",
    privileged: Optional[str] = None,
    unprivileged: Optional[str] = None,
) -> dict:
    """计算统计均等差异 (Statistical Parity Difference)"""
    groups = df.groupby(sensitive_attr)[label_col]
    rates = groups.mean()

    if privileged and unprivileged:
        priv_rate = rates.get(privileged, rates.iloc[0])
        unpriv_rate = rates.get(unprivileged, rates.iloc[-1])
    else:
        priv_rate = rates.max()
        unpriv_rate = rates.min()

    spd = unpriv_rate - priv_rate
    dir_ratio = unpriv_rate / priv_rate if priv_rate > 0 else 0

    return {
        "敏感属性": sensitive_attr,
        "特权群体通过率": f"{priv_rate:.2%}",
        "非特权群体通过率": f"{unpriv_rate:.2%}",
        "SPD (统计均等差异)": f"{spd:.4f}",
        "DIR (差异影响比)": f"{dir_ratio:.4f}",
        "DIR阈值判断": "✅ 通过" if dir_ratio >= 0.8 else "❌ 需关注",
    }

def calc_equal_opportunity(
    df: pd.DataFrame,
    sensitive_attr: str,
    pred_col: str = "predicted",
    true_col: str = "true_label",
) -> dict:
    """计算机会均等差异 (Equal Opportunity Difference)
    
    TPR (True Positive Rate) = TP / (TP + FN)
    比较各群体正例被正确识别的概率
    """
    results = {}
    for group, subset in df.groupby(sensitive_attr):
        tp = ((subset[pred_col] == 1) & (subset[true_col] == 1)).sum()
        fn = ((subset[pred_col] == 0) & (subset[true_col] == 1)).sum()
        tpr = tp / (tp + fn) if (tp + fn) > 0 else 0
        results[group] = tpr

    tpr_max = max(results.values())
    tpr_min = min(results.values())
    return {
        "敏感属性": sensitive_attr,
        "各群体TPR": {k: f"{v:.2%}" for k, v in results.items()},
        "EOD (TPR最大差异)": f"{tpr_max - tpr_min:.4f}",
    }

def calc_predictive_parity(
    df: pd.DataFrame,
    sensitive_attr: str,
    pred_col: str = "predicted",
    true_col: str = "true_label",
) -> dict:
    """计算预测均等差异 (Predictive Parity Difference)
    
    PPV (Positive Predictive Value) = TP / (TP + FP)
    """
    results = {}
    for group, subset in df.groupby(sensitive_attr):
        tp = ((subset[pred_col] == 1) & (subset[true_col] == 1)).sum()
        fp = ((subset[pred_col] == 1) & (subset[true_col] == 0)).sum()
        ppv = tp / (tp + fp) if (tp + fp) > 0 else 0
        results[group] = ppv

    ppv_max = max(results.values())
    ppv_min = min(results.values())
    return {
        "敏感属性": sensitive_attr,
        "各群体PPV": {k: f"{v:.2%}" for k, v in results.items()},
        "PPD (PPV最大差异)": f"{ppv_max - ppv_min:.4f}",
    }

# ============================================================
# 3. 统计显著性检验
# ============================================================

def chi_squared_test(
    df: pd.DataFrame,
    sensitive_attr: str,
    label_col: str = "predicted",
) -> dict:
    """卡方检验：判断群体间通过率差异是否统计显著"""
    contingency = pd.crosstab(df[sensitive_attr], df[label_col])
    chi2, p_value, dof, _ = stats.chi2_contingency(contingency)
    return {
        "卡方统计量": f"{chi2:.2f}",
        "p值": f"{p_value:.6f}",
        "显著性": "显著差异" if p_value < 0.05 else "无显著差异",
    }

# ============================================================
# 4. 运行评估并输出报告
# ============================================================

print("\n" + "=" * 60)
print("公平性评估报告")
print("=" * 60)

for attr in ["gender", "region", "age_group"]:
    print(f"\n--- {attr} 公平性 ---")
    spd = calc_statistical_parity(df, attr)
    for k, v in spd.items():
        print(f"  {k}: {v}")

    eod = calc_equal_opportunity(df, attr)
    print(f"  EOD (TPR最大差异): {eod['EOD (TPR最大差异)']}")
    for group, tpr in eod["各群体TPR"].items():
        print(f"    {group}: TPR={tpr}")

    ppd = calc_predictive_parity(df, attr)
    print(f"  PPD (PPV最大差异): {ppd['PPD (PPV最大差异)']}")
    for group, ppv in ppd["各群体PPV"].items():
        print(f"    {group}: PPV={ppv}")

    chi2 = chi_squared_test(df, attr)
    print(f"  卡方检验: χ²={chi2['卡方统计量']}, p={chi2['p值']} → {chi2['显著性']}")

# ============================================================
# 5. 生成汇总表格
# ============================================================

print("\n" + "=" * 60)
print("公平性指标汇总")
print("=" * 60)

summary_rows = []
for attr in ["gender", "region", "age_group"]:
    spd = calc_statistical_parity(df, attr)
    summary_rows.append({
        "敏感属性": attr,
        "SPD": spd["SPD (统计均等差异)"],
        "DIR": spd["DIR (差异影响比)"],
        "DIR判定": spd["DIR阈值判断"],
    })

summary_df = pd.DataFrame(summary_rows)
print(summary_df.to_string(index=False))

3. 可解释性测试

3.1 模型决策解释方法

可解释性测试验证AI系统的决策是否可被人类理解、审计和信任。主要分为两大类方法：

内在可解释方法（Intrinsic）：模型本身结构简单、可解释，如决策树、线性回归、规则列表。适用于对可解释性要求极高的场景。
事后解释方法（Post-hoc）：在已训练模型的基础上，通过额外技术手段提供解释：
- SHAP（SHapley Additive exPlanations）：基于博弈论的特征重要性归因方法，量化每个特征对预测结果的贡献度
- LIME（Local Interpretable Model-agnostic Explanations）：在预测点附近构建局部可解释模型，解释单个预测
- 注意力可视化：对Transformer模型，可视化注意力权重分布
- 反事实解释：说明"如果某个特征改变到多少，结果就会不同"

3.2 可解释性评估指标

可解释性的评估比公平性更主观，通常需要结合定量指标和人工评审：

保真度（Fidelity）：解释模型对原模型的近似程度。解释是否准确反映了模型的实际决策逻辑？
一致性（Consistency）：对相似输入的解释是否稳定一致？不同时间对同一输入的解释是否相同？
可理解性（Comprehensibility）：非技术用户能否理解解释内容？解释是否使用了通俗的语言？
充分性（Sufficiency）：解释是否包含足够的细节来支撑决策？用户能否基于解释对决策产生信任？
完整性（Completeness）：解释是否覆盖了所有重要特征？是否存在被遗漏的关键因素？

3.3 测试方法

可解释性测试的典型流程：

选择解释方法：根据模型类型和业务需求选择合适的解释技术（SHAP/LIME等）
构建测试样本：准备覆盖边界情况、典型场景和异常的测试数据
生成解释结果：对每个测试样本生成模型解释
人工审计：邀请领域专家对解释进行合理性评审
用户测试：让终端用户评估解释的可理解性和可信度

可解释性测试脚本示例

以下脚本演示使用 SHAP 和 LIME 分析信贷审批模型的决策逻辑：

#!/usr/bin/env python3
"""可解释性测试脚本 (Explainability Testing)

使用 SHAP 进行全局特征重要性分析，使用 LIME 进行单样本局部解释，
验证模型决策是否基于合理特征（而非敏感属性）。
"""

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# ============================================================
# 1. 准备训练数据与模型
# ============================================================

np.random.seed(42)
N = 3000

# 生成含敏感属性的信贷数据
df = pd.DataFrame({
    "credit_score":   np.random.normal(650, 80, N).clip(300, 850),
    "income":         np.random.lognormal(mean=11.5, sigma=0.5, size=N),
    "debt_ratio":     np.random.beta(2, 5, N),        # 负债率 0-1
    "employment_yrs": np.random.poisson(5, N).clip(0, 30),
    "loan_amount":    np.random.uniform(50000, 500000, N),
    "has_house":      np.random.choice([0, 1], N, p=[0.6, 0.4]),
    "gender_f":       np.random.choice([0, 1], N, p=[0.6, 0.4]),  # 0=男,1=女
    "region_rural":   np.random.choice([0, 1], N, p=[0.7, 0.3]),  # 0=城市,1=乡镇
})

# 标签生成（不含偏见版本）
df["label"] = (
    (df["credit_score"] > 580).astype(int)
    & (df["debt_ratio"] < 0.5).astype(int)
).astype(int)

# 特征列：含敏感属性（用于检测模型是否学到了不公平模式）
feature_cols = [
    "credit_score", "income", "debt_ratio", "employment_yrs",
    "loan_amount", "has_house", "gender_f", "region_rural"
]

X_train, X_test, y_train, y_test = train_test_split(
    df[feature_cols], df["label"], test_size=0.3, random_state=42
)

# 训练随机森林模型
model = RandomForestClassifier(n_estimators=100, max_depth=6, random_state=42)
model.fit(X_train, y_train)

print(f"训练集样本: {len(X_train)}, 测试集样本: {len(X_test)}")
print(f"测试集准确率: {model.score(X_test, y_test):.2%}")

# ============================================================
# 2. SHAP 全局可解释性分析
# ============================================================

try:
    import shap
    import matplotlib
    matplotlib.use("Agg")  # 非交互后端
    import matplotlib.pyplot as plt

    # 创建 SHAP 解释器
    explainer = shap.TreeExplainer(model)
    shap_values = explainer.shap_values(X_test)

    # 如果 shap_values 是二分类列表，取正类
    if isinstance(shap_values, list):
        shap_values = shap_values[1]

    # 输出全局特征重要性排名
    print("\n" + "=" * 60)
    print("SHAP 全局特征重要性排名")
    print("=" * 60)

    feature_importance = np.abs(shap_values).mean(axis=0)
    importance_df = pd.DataFrame({
        "特征": feature_cols,
        "SHAP重要性": feature_importance,
    }).sort_values("SHAP重要性", ascending=False)

    for _, row in importance_df.iterrows():
        bar = "█" * int(row["SHAP重要性"] * 200)
        print(f"  {row['特征']:20s} | {row['SHAP重要性']:.4f} {bar}")

    # 检测敏感属性是否进入 Top-K
    sensitive_features = ["gender_f", "region_rural"]
    print("\n--- 敏感属性重要性检测 ---")
    for sf in sensitive_features:
        rank = importance_df["特征"].tolist().index(sf) + 1
        importance = importance_df[importance_df["特征"] == sf]["SHAP重要性"].values[0]
        status = "⚠️ 警告: 敏感属性影响过大" if rank <= 4 else "✅ 正常"
        print(f"  {sf}: 排名第{rank}/{len(feature_cols)}, 重要性={importance:.4f} → {status}")

    # 生成 Summary Plot
    shap.summary_plot(
        shap_values, X_test, feature_names=feature_cols,
        show=False, max_display=10
    )
    plt.tight_layout()
    plt.savefig("shap_summary.png", dpi=150, bbox_inches="tight")
    print("\nSHAP summary plot 已保存至: shap_summary.png")

    # 生成依赖图（观察敏感属性与SHAP值的关系）
    fig, axes = plt.subplots(1, 2, figsize=(12, 5))
    for idx, sf in enumerate(sensitive_features):
        shap.dependence_plot(
            sf, shap_values, X_test, feature_names=feature_cols,
            ax=axes[idx], show=False
        )
        axes[idx].set_title(f"SHAP 依赖图: {sf}")
    plt.tight_layout()
    plt.savefig("shap_sensitive_dependence.png", dpi=150, bbox_inches="tight")
    print("SHAP 敏感属性依赖图已保存至: shap_sensitive_dependence.png")

except ImportError:
    print("[提示] 未安装 shap，执行 pip install shap 即可启用 SHAP 分析")

# ============================================================
# 3. LIME 局部可解释性分析
# ============================================================

print("\n" + "=" * 60)
print("LIME 单样本局部解释")
print("=" * 60)

try:
    import lime
    import lime.lime_tabular

    # 创建 LIME 解释器
    lime_explainer = lime.lime_tabular.LimeTabularExplainer(
        training_data=X_train.values,
        feature_names=feature_cols,
        class_names=["拒绝", "通过"],
        mode="classification",
        discretize_continuous=True,
    )

    # 选择 3 个测试样本进行解释
    sample_indices = [0, 50, 100]
    for idx in sample_indices:
        sample = X_test.iloc[idx]
        actual = y_test.iloc[idx]

        print(f"\n--- 样本 {idx} (实际: {'通过' if actual else '拒绝'}) ---")

        exp = lime_explainer.explain_instance(
            data_row=sample.values,
            predict_fn=model.predict_proba,
            num_features=6,
        )

        # 打印 Top 特征解释
        for feature, weight in exp.as_list():
            direction = "→ 通过" if weight > 0 else "← 拒绝"
            print(f"  {feature:20s} | 权重: {weight:+.4f} {direction}")

        # 检测敏感属性是否出现在解释中
        explanation_features = [item[0] for item in exp.as_list()]
        for sf in sensitive_features:
            sf_present = any(sf in ef for ef in explanation_features)
            if sf_present:
                print(f"  ⚠️ 警告: 敏感属性 '{sf}' 出现在局部解释中！")

except ImportError:
    print("[提示] 未安装 lime，执行 pip install lime 即可启用 LIME 分析")

# ============================================================
# 4. 可解释性质量评估
# ============================================================

print("\n" + "=" * 60)
print("可解释性质量评估")
print("=" * 60)

# 4.1 特征合理性检查：敏感属性不应成为Top特征
is_ethical = True
for sf in sensitive_features:
    rank = importance_df["特征"].tolist().index(sf) + 1
    if rank <= 4:
        print(f"  ❌ {sf} 排名第{rank}，可能影响决策公平性")
        is_ethical = False
    else:
        print(f"  ✅ {sf} 排名第{rank}，未进入Top特征")

# 4.2 决策逻辑一致性检查
# 验证相同特征值但不同敏感属性的样本是否获得一致的SHAP解释
print("\n--- 决策逻辑一致性 ---")
counterfactual_sample = X_test.iloc[0].copy()
counterfactual_sample["gender_f"] = 1 - counterfactual_sample["gender_f"]
cf_shap = explainer.shap_values(
    counterfactual_sample.values.reshape(1, -1)
)
if isinstance(cf_shap, list):
    cf_shap = cf_shap[1]
orig_shap = shap_values[0]
shap_diff = np.abs(orig_shap - cf_shap).sum()
print(f"  反事实样本 SHAP 值总变化: {shap_diff:.4f}")
print(f"  判定: {'⚠️ 差异较大，需审查' if shap_diff > 0.5 else '✅ 一致性良好'}")

if is_ethical:
    print("\n✅ 可解释性测试通过：模型决策主要依赖合理的业务特征")
else:
    print("\n❌ 可解释性测试未通过：敏感属性对模型决策影响过大，建议重新训练")

💡 金融行业的特殊要求 根据《商业银行互联网贷款管理暂行办法》等监管要求，银行AI系统的信贷决策必须可解释。当模型拒绝客户时，必须能够提供明确的拒绝原因，且该原因不能包含歧视性因素。

4. 透明度测试

4.1 AI系统使用标识

透明度测试验证AI系统是否对其存在和使用进行了充分的告知和标识：

交互标识：用户是否能明确识别自己正在与AI（而非真人）交互？例如智能客服是否标注"AI助手"
内容标识：AI生成的内容（文本、图像、视频）是否被明确标注为AI生成
决策标识：当AI系统做出影响用户权益的决策时，是否标注"本决策由AI系统辅助/自动生成"

4.2 用户知情权

透明度测试需要验证以下用户知情权是否得到保障：

数据使用告知：用户是否被告知哪些个人数据被AI系统使用？是否获得了明确同意？
决策逻辑告知：用户是否有权了解AI系统做出特定决策的主要逻辑？
申诉渠道告知：用户是否被告知如何对AI系统的决策提出异议或申诉？
人工介入选项：在关键决策场景中，用户是否有请求人工审核的权利？

4.3 信息披露要求

参照国内外AI治理规范（如欧盟AI Act、中国《生成式人工智能服务管理暂行办法》），透明度测试需验证以下信息披露的完整性：

披露项目	具体要求	检查方式
服务性质说明	明确说明服务的AI属性及局限性	检查产品界面、服务协议、隐私政策
数据使用声明	说明训练数据来源、数据使用范围	审计数据来源文档、数据授权协议
能力边界声明	说明AI系统的能力范围和不适用场景	检查产品文档中是否有明确的能力声明
准确率披露	公开关键性能指标（准确率、误差率等）	验证模型评估报告的公开透明度
版本与更新日志	公布模型版本号和更新变更记录	检查是否有版本号和ChangeLog
风险提示	说明AI系统可能产生的风险和误判	审计风险提示的覆盖面和准确性

5. 银行伦理测试的特殊要求

5.1 信贷审批的公平性

信贷审批是银行业AI伦理测试的重中之重。监管机构（如银保监会、央行）明确要求银行信贷模型的公平性。测试要点包括：

拒绝推断（Reject Inference）：分析被拒客户的潜在还款能力，识别是否存在系统性误拒
边缘案例测试：针对恰好处于审批阈值附近的样本，分析决策稳定性
时间序列公平性：验证同一客户在不同时间点的审批结果一致性
跨产品公平性：同一客户在行内不同信贷产品间不应存在明显的审批结果矛盾

5.2 风险定价的歧视风险

风险定价模型（如贷款利率、信用卡额度、保险费率）需要特别关注间接歧视风险：

代理变量检测：识别与敏感属性高度相关的特征（如邮政编码与种族），评估这些特征是否在定价中产生了不公平影响
价格离散度分析：同等风险水平的客户间的价格差异是否在合理范围内
客群分层审计：按敏感属性分层后，比较各层级的平均定价水平

5.3 客户服务的平等对待

智能客服、智能投顾等面向客户的AI系统同样需要伦理测试：

服务优先级公平性：VIP客户与普通客户的智能客服响应质量差异是否合理
金融产品推荐公平性：系统推荐的理财产品是否因客户画像而产生系统性偏差
投诉处理公平性：AI辅助的投诉分类和优先级排序是否存在不公

5.4 实操建议

基于银行业AI伦理测试的实践经验，建议测试团队重点关注以下实操要点：

测试流程嵌入

需求阶段介入：在产品需求评审阶段就引入伦理测试视角，识别可能引入偏见的特征和场景。例如：在信贷审批需求中标注"不得将客户出生地作为审批因子"
数据质量前置检查：在模型训练前，对训练数据进行敏感属性分布分析。检查是否存在类别不平衡（如某群体样本占比<10%）、历史偏见标签等问题
模型卡（Model Card）制度：要求每个上线的AI模型附带模型卡，记录模型的训练数据分布、公平性指标、已知局限性和适用场景

测试工具与方法

自动化公平性流水线：将SPD、DIR、EOD等指标的计算集成到CI/CD流水线中，每次模型更新自动触发公平性检测
分层采样策略：在设计测试集时，确保敏感属性各层级的样本量充足（建议每层≥200条），以保证统计检验的有效性
A/B测试中的伦理监控：在进行线上A/B测试时，实时监控不同群体间的核心业务指标差异，设置自动熔断阈值
对抗测试：设计极端/边界测试用例（如极限年龄、极端收入、特殊地域组合），验证模型在这些场景下的公平性表现

组织与流程

伦理审查委员会：建议成立由合规、法务、业务、技术多方组成的AI伦理审查委员会，对高风险AI应用（如信贷审批、反欺诈）进行上线前强制审查
伦理测试独立报告：伦理测试结果应作为独立交付件，与功能测试报告、性能测试报告并列，提交给项目决策层
举报与申诉机制：建立客户对AI决策的申诉渠道，定期分析申诉数据中的不公平模式，反馈至模型迭代

5.5 伦理测试评估标准

以下为银行业AI伦理测试的综合评估标准，可作为测试通过/不通过的判定依据：

评估领域	评估项	通过标准	严重程度	不通过后果
公平性	差异影响比（DIR）	各敏感属性群体间DIR ≥ 0.8	🔴 高	禁止上线
	统计均等差异（SPD）	\|SPD\| ≤ 0.10	🟡 中	需提供说明并获审批
	机会均等差异（EOD）	\|EOD\| ≤ 0.08	🟡 中	需提供说明并获审批
	反事实翻转率	翻转率 ≤ 5%	🔴 高	禁止上线
可解释性	敏感属性在Top-5特征中	所有敏感属性排名 > 5	🔴 高	禁止上线
	解释一致性	相似样本的解释差异 ≤ 0.5（SHAP差异）	🟡 中	需优化后重新验证
	解释可理解性	非技术人员理解率 ≥ 80%（用户测试）	🟢 低	建议优化但不阻断上线
透明度	AI身份标识	交互界面有明确AI标识，首次交互主动告知	🔴 高	禁止上线
	人工介入入口	关键决策场景提供人工复核入口，响应时间 ≤ 30秒	🔴 高	禁止上线
	模型卡披露	公开模型卡，包含训练数据分布、已知偏差和局限性	🟡 中	需在1个月内补全
数据治理	训练数据敏感属性分布	各群体样本量 ≥ 总样本的10%	🟡 中	需补充数据后重新训练
数据治理	代理变量检测	无与敏感属性高度相关（Pearson r > 0.7）的非敏感特征	🟡 中	需移除或降权相关特征
持续监控	公平性指标监控	建立月度公平性指标看板，DIR < 0.8 时自动告警	🟡 中	需在2周内建立监控
持续监控	模型漂移检测	公平性指标月度变化 ≤ 5%（相对值）	🟢 低	触发复检流程

📖 评估标准使用建议 上述标准为推荐基线，实际项目中应根据监管要求、业务敏感度和模型风险等级进行适当调整。对于高风险场景（如信贷审批），建议在基线基础上收紧20%；对于低风险场景（如信息查询），可适当放宽。评估结果应形成正式报告，经伦理审查委员会签字确认后方可上线。

6. 案例研究

📋 案例一：银行信贷审批模型的公平性测试

背景

某股份制银行计划上线AI信贷审批模型，用于个人消费贷款的自动审批决策。该模型基于客户的基本信息、征信数据、收入水平和行为数据进行综合评分，评分超过阈值则自动通过，否则转人工复核或直接拒绝。

在模型上线前，合规部门要求测试团队进行公平性审计，确保模型不会因性别、地域、年龄段等敏感属性产生系统性歧视。

测试方法

测试团队从以下维度进行了分层公平性分析：

按性别分组：将审批数据按男女分为两组，计算各组的通过率、平均授信额度和平均利率
按地域分组：按一线城市、新一线城市、二线城市、三四线城市及以下分为四组，对比各组审批指标
按年龄段分组：按18-25、26-35、36-45、46-55、55+分为五组，分析年龄偏差
反事实验证：选取1000个被拒样本，仅翻转地域/性别后重新评估，观察决策是否翻转

测试数据

以下为测试中收集的虚构数据（模拟3个月共50,000笔申请）：

群体	申请量	通过率	平均授信(万元)	平均利率(%)	DIR	判定
男	28,000	78.2%	12.5	8.2	—	基准组
女	22,000	72.0%	10.8	8.9	0.921	✅ 通过
一线城市	15,000	85.3%	15.2	7.5	—	基准组
新一线城市	12,000	78.1%	13.1	8.1	0.915	✅ 通过
二线城市	10,000	72.4%	11.6	8.6	0.849	✅ 通过
三四线城市及以下	13,000	65.1%	8.9	9.8	0.763	❌ 未通过
18-25岁	6,000	68.5%	6.2	9.5	0.871	✅ 通过
26-35岁	18,000	82.0%	13.8	7.8	—	基准组
36-45岁	14,000	78.5%	12.9	8.1	0.957	✅ 通过
46-55岁	8,000	70.2%	10.3	8.8	0.856	✅ 通过
55岁以上	4,000	61.3%	7.5	10.2	0.748	❌ 未通过

发现的问题

三四线城市通过率显著偏低（DIR=0.763 < 0.8），通过率仅65.1%，远低于一线城市的85.3%
55岁以上群体通过率偏低（DIR=0.748 < 0.8），且平均授信额度仅为7.5万元
反事实测试显示：将三四线城市被拒客户的居住地改为一线城市后，约12%的样本决策从"拒绝"翻转为"通过"

根因分析

经过深入排查，发现问题根因并非模型算法本身存在偏见代码，而是：

训练数据分布不均：三四线城市样本仅占总训练数据的18%，且正样本（还款良好）比例较低
特征工程中的代理歧视：模型使用了"近6个月银行流水稳定性"作为特征，而三四线城市客户因收入波动较大（季节性务工），该指标系统性地偏低，间接导致了地域歧视
老年群体数据稀疏：55岁以上样本仅占总数据的6%，模型对该群体缺乏充分学习

改进措施与验证

改进措施	具体方案	验证结果
补充训练数据	从历史信贷数据中补充三四线城市样本8000条、55岁以上样本3000条	三四线城市DIR提升至0.845；55岁以上DIR提升至0.832
特征工程优化	将"银行流水稳定性"替换为"年收入稳定性"（降低季节波动影响）；新增"社保缴纳连续性"作为辅助特征	三四线城市通过率提升至72.5%，反事实翻转率降至3%
阈值分层优化	对不同地域设置差异化的审批阈值（基于区域经济差异的合理调整）	需经合规审批，暂未实施
持续监控机制	建立月度公平性指标看板，DIR低于0.8时自动告警	已部署，运行正常

经验教训

公平性测试不能仅看模型代码——数据层面的偏差往往是更隐蔽的根因
代理变量（proxy variables）的检测需要领域专家与测试人员协作
公平性不是一次性工作，需要建立持续监控机制

📋 案例二：智能客服的偏见检测

背景

某银行推出了AI智能客服系统，支持文字和语音两种交互方式，覆盖余额查询、转账、理财咨询、投诉处理等80%的常见业务场景。系统基于大语言模型（LLM）构建，配合自动语音识别（ASR）模块处理语音输入。

上线运行3个月后，客户满意度调查显示整体满意度为82%，但按客户画像细分后，发现部分群体的满意度显著偏低。测试团队被要求进行伦理偏见检测。

测试方法

测试团队设计了标准化测试方案，从以下维度进行分层检测：

语音识别准确率测试：设计50条标准化问题，邀请不同口音群体（普通话标准、北方口音、南方口音、西南口音）朗读测试，统计ASR准确率
响应质量评估：对相同问题，按客户VIP等级（普通/VIP/私银）、年龄（青年/中年/老年）分组测试，评估AI回复的完整性、准确性和礼貌度
情感识别偏差：测试AI对客户情绪（愤怒/焦虑/平静）的识别能力，以及不同性别客户情绪识别的一致性
转人工公平性：分析不同群体触发"转人工"的频率和触发原因，检测是否存在系统性排斥

测试数据与发现

测试维度	群体	指标值	基准值	差异	判定
语音识别准确率	普通话标准	94.5%	—	—	基准组
	北方口音	91.2%	94.5%	-3.3%	✅ 可接受
	南方口音	82.1%	94.5%	-12.4%	❌ 需改进
	西南口音	76.8%	94.5%	-17.7%	❌ 需改进
响应完整性	普通客户	88%	—	—	基准组
	VIP客户	92%	88%	+4%	⚠️ 注意
	老年客户（60+）	79%	88%	-9%	⚠️ 注意
情感识别F1	男性	0.81	—	—	基准组
情感识别F1	女性	0.73	0.81	-0.08	⚠️ 注意

根因分析

ASR训练数据的口音覆盖不足：语音识别模型的训练数据中，标准普通话占比85%以上，南方及西南口音样本严重不足，导致非标准口音用户的识别准确率显著偏低
老年客户的语言模式偏差：老年客户倾向于使用更口语化、更长句式的表达，而LLM的训练数据以书面语为主，导致对老年客户的请求理解不够精准
情感模型的性别偏差：情感识别模型的训练数据中，女性"愤怒"样本较少，导致模型倾向于将女性客户的强烈表达误判为"焦虑"而非"愤怒"
VIP优先策略的伦理边界：系统在高峰期对VIP客户分配更多计算资源，虽然商业合理，但在极端情况下可能导致普通客户的响应延迟超过30秒

改进措施

问题	改进方案	预期效果
南方/西南口音识别率低	采集5000+条南方及西南口音语音数据，对ASR模型进行增量训练	识别准确率目标提升至 ≥88%
老年客户理解偏差	在Prompt中增加"老年友好"指令模板，使用更简洁直白的回复风格；增加方言和口语化表达的语料	响应完整性目标提升至 ≥85%
情感识别性别偏差	平衡训练数据中的性别分布，引入对抗训练减少性别偏见	男女F1差异目标缩小至 ≤0.03
VIP与普通客户资源分配	设置硬性保障：普通客户的最长等待时间不超过20秒，超时自动扩容	所有客户P95等待时间 ≤20s

经验教训

语音AI的伦理测试需要覆盖多口音、多方言场景——这是传统功能测试容易忽略的盲区
服务差异化（VIP vs 普通）需要明确的伦理边界，不能以牺牲基本服务质量为代价
大语言模型中的偏见往往源自训练数据的分布不均，需要从数据源头解决

7. 实战演练

任务一：信贷模型公平性审计

场景：某银行的线上消费贷产品使用AI模型进行自动审批。你需要对该模型进行公平性审计。

已知信息：

模型训练数据包含客户年龄、性别、收入、职业、征信评分、居住城市等特征
近3个月的审批数据中：男性通过率78%，女性通过率72%
一线城市通过率85%，三四线城市通过率65%
25-35岁通过率82%，50岁以上通过率61%

任务要求：

计算各类敏感属性的差异影响比（DIR），判断是否低于0.8阈值
分析可能的原因（是真正的信用差异还是模型偏见）
设计3组反事实测试验证你的假设
提出改进建议方案

📖 提示 注意区分"合理的差异化"与"不公平歧视"。如果老年群体客观上存在更高的违约率，那么较低的通过率可能反映了真实风险差异而非偏见。关键是验证相似信用水平的个体在不同群体中是否获得了同等对待。

任务二：智能客服透明度评估

场景：某银行上线了AI智能客服系统，可处理80%的常见客户咨询，复杂问题自动转接人工。你需要对该系统的透明度进行评估。

任务要求：

设计透明度评估检查表（至少8个检查项），覆盖用户标识、知情权、信息披露三个维度
模拟执行3个测试场景：
- 场景A：客户询问理财产品收益率
- 场景B：客户投诉信用卡被盗刷
- 场景C：客户质疑贷款审批拒绝原因
针对每个场景，分析AI客服的响应是否满足透明度要求
列出至少3个改进建议

参考检查表示例

检查项	通过标准	检查方法
AI身份标识	对话开始时有明确"AI助手"标识	截屏检查
人工转接入口	对话界面有明显的人工客服入口	UI走查
决策解释	涉及决策时提供明确原因说明	场景测试
数据使用告知	首次对话时告知数据收集和使用方式	流程审查

← 返回章节概览