Week 05 - 03 - COMPSCI 712 L15 Performance Evaluation

Week 05 - 03 - COMPSCI 712 L15 Performance Evaluation视图:倍速:

第 1 / 22 页

这一页讲的是课程的主题和基本信息，主题是人工智能的性能评估（Performance Evaluation for AI）。

第 2 / 22 页

这一页讲的是AI有效性与性能评估。探讨AI是否比传统方法更有效，以及如何从准确性、基线比较、泛化能力和实际应用等方面评估AI的表现。

第 3 / 22 页

这一页讲的是二元分类问题的基础概念。主要内容包括通过特征 x 来支持决策、使用决策算法 f(x) 计算概率，以及其在机器学习中的重要性。

第 4 / 22 页

这一页讲的是分类阈值的局限性，强调人类特性导致无法实现完美分类。主要内容包括误分类的不可避免性和阈值调整的影响。

第 5 / 22 页

这一页讲的是二乘二表(two-by-two table)，用于描述测试结果与真实情况的关系。主要概念包括敏感性(Sensitivity)、特异性(Specificity)、以及预测值。

第 6 / 22 页

这一页讲的是粪便潜血试验（FOB test）用于筛查肠癌的效果分析。主要涉及敏感性（Sensitivity）、特异性（Specificity）和阳性预测值（PPV）。

第 7 / 22 页

这一页讲的是决策工具的评价指标，包括Sensitivity、Specificity、PPV和NPV。

第 8 / 22 页

这一页讲的是决策阈值与条件流行率之间的权衡。主要讨论了高决策阈值对敏感性和精确性的影响，以及低条件流行率对预测值的负面影响。

第 9 / 22 页

这一页讲的是假阳性(False Positives)问题及 PPV 与疾病流行率的关系。主要强调即使测试敏感性和特异性很高，低流行率时 PPV 仍可能很低。

第 10 / 22 页

这一页讲的是准确率（Accuracy）的定义及其局限性。准确率计算公式为 (TP+TN)/(TP+TN+FP+FN)，这里的准确率是 90.6%。但由于疾病低流行率，仅靠准确率可能不适合作为筛查测试的评价指标。

第 11 / 22 页

这一页讲的是 Receiver-Operator Characteristic (ROC) 曲线。ROC 曲线展示了敏感性 (Sensitivity) 与 1-特异性 (1-Specificity) 的关系，并通过改变阈值绘制。曲线下的面积 AUC 是评估分类器性能的重要指标。

第 12 / 22 页

这一页讲的是真实的 ROC 曲线通常较复杂。主要讨论了 AUROC 和不同模型在 TPR 和 FPR 范围内的表现差异。

第 13 / 22 页

这一页讲的是 AUROC 的局限性，重点分析模型与人类表现的比较。主要包括 ROC 曲线的操作点选择和模型在某些区域超越人类表现的情况。

第 14 / 22 页

这一页讲的是 Precision-Recall，适用于低正例比例情况的评估方法，强调 PR 曲线面积和 F1 分数的重要性。

第 15 / 22 页

这一页讲的是超越二元分类的任务，包括预测连续值和多类别分类问题的评估方法。

第 16 / 22 页

这一页讲的是情感上下文检测的混淆矩阵示例。主要内容包括使用 BERT 模型分析情感分类的准确性，以及混淆矩阵中显示的分类误差。

第 17 / 22 页

这一页讲的是数据有效性威胁，重点在训练集和测试集的划分及其重要性。提到 K 折交叉验证和时间序列数据可能出现的训练测试泄漏问题。

第 18 / 22 页

这一页讲的是研究中的其他效度威胁，包括多重比较和外部效度问题。多重比较可能导致假阳性结果，外部效度强调模型在不同场景的适用性。

第 19 / 22 页

这一页讲的是实际应用中分类器的目标与设计方法。重点包括关注实际结果而非分类器准确率、结果的定义与测量、随机对照试验（RCT）的重要性及定性数据的价值。

第 20 / 22 页

这一页讲的是Cluster Randomization（聚类随机化），包括为什么选择这种方法、如何实施逐步推广（step-wedge）以及随机化的重要性。图表展示了不同阶段的实验设计。

第 21 / 22 页

这一页讲的是 AI 产品评价结果的可信性问题及批判性思考的重要性。主要提到厂商可能通过多种技巧夸大产品效果，以及我们需批判性看待这些结果。

第 22 / 22 页

这一页讲的是参考文献，列出了两篇与医学信息学和人机性能比较相关的文献。