Week 05 - 03 - COMPSCI 712 L15 Performance Evaluation视图:倍速:
第 1 / 22 页

这一页讲的是课程的主题和基本信息,主题是人工智能的性能评估(Performance Evaluation for AI)。

第 2 / 22 页

这一页讲的是AI有效性与性能评估。探讨AI是否比传统方法更有效,以及如何从准确性、基线比较、泛化能力和实际应用等方面评估AI的表现。

第 3 / 22 页

这一页讲的是二元分类问题的基础概念。主要内容包括通过特征 x 来支持决策、使用决策算法 f(x) 计算概率,以及其在机器学习中的重要性。

第 4 / 22 页

这一页讲的是分类阈值的局限性,强调人类特性导致无法实现完美分类。主要内容包括误分类的不可避免性和阈值调整的影响。

第 5 / 22 页

这一页讲的是二乘二表(two-by-two table),用于描述测试结果与真实情况的关系。主要概念包括敏感性(Sensitivity)、特异性(Specificity)、以及预测值。

第 6 / 22 页

这一页讲的是粪便潜血试验(FOB test)用于筛查肠癌的效果分析。主要涉及敏感性(Sensitivity)、特异性(Specificity)和阳性预测值(PPV)。

第 7 / 22 页

这一页讲的是决策工具的评价指标,包括Sensitivity、Specificity、PPV和NPV。

第 8 / 22 页

这一页讲的是决策阈值与条件流行率之间的权衡。主要讨论了高决策阈值对敏感性和精确性的影响,以及低条件流行率对预测值的负面影响。

第 9 / 22 页

这一页讲的是假阳性(False Positives)问题及 PPV 与疾病流行率的关系。主要强调即使测试敏感性和特异性很高,低流行率时 PPV 仍可能很低。

第 10 / 22 页

这一页讲的是准确率(Accuracy)的定义及其局限性。准确率计算公式为 (TP+TN)/(TP+TN+FP+FN),这里的准确率是 90.6%。但由于疾病低流行率,仅靠准确率可能不适合作为筛查测试的评价指标。

第 11 / 22 页

这一页讲的是 Receiver-Operator Characteristic (ROC) 曲线。ROC 曲线展示了敏感性 (Sensitivity) 与 1-特异性 (1-Specificity) 的关系,并通过改变阈值绘制。曲线下的面积 AUC 是评估分类器性能的重要指标。

第 12 / 22 页

这一页讲的是真实的 ROC 曲线通常较复杂。主要讨论了 AUROC 和不同模型在 TPR 和 FPR 范围内的表现差异。

第 13 / 22 页

这一页讲的是 AUROC 的局限性,重点分析模型与人类表现的比较。主要包括 ROC 曲线的操作点选择和模型在某些区域超越人类表现的情况。

第 14 / 22 页

这一页讲的是 Precision-Recall,适用于低正例比例情况的评估方法,强调 PR 曲线面积和 F1 分数的重要性。

第 15 / 22 页

这一页讲的是超越二元分类的任务,包括预测连续值和多类别分类问题的评估方法。

第 16 / 22 页

这一页讲的是情感上下文检测的混淆矩阵示例。主要内容包括使用 BERT 模型分析情感分类的准确性,以及混淆矩阵中显示的分类误差。

第 17 / 22 页

这一页讲的是数据有效性威胁,重点在训练集和测试集的划分及其重要性。提到 K 折交叉验证和时间序列数据可能出现的训练测试泄漏问题。

第 18 / 22 页

这一页讲的是研究中的其他效度威胁,包括多重比较和外部效度问题。多重比较可能导致假阳性结果,外部效度强调模型在不同场景的适用性。

第 19 / 22 页

这一页讲的是实际应用中分类器的目标与设计方法。重点包括关注实际结果而非分类器准确率、结果的定义与测量、随机对照试验(RCT)的重要性及定性数据的价值。

第 20 / 22 页

这一页讲的是Cluster Randomization(聚类随机化),包括为什么选择这种方法、如何实施逐步推广(step-wedge)以及随机化的重要性。图表展示了不同阶段的实验设计。

第 21 / 22 页

这一页讲的是 AI 产品评价结果的可信性问题及批判性思考的重要性。主要提到厂商可能通过多种技巧夸大产品效果,以及我们需批判性看待这些结果。

第 22 / 22 页

这一页讲的是参考文献,列出了两篇与医学信息学和人机性能比较相关的文献。