近日,智能信息处理研究所研究团队在贝叶斯误差率估计的理论与方法研究方面取得了重要进展,相关成果以“Evaluating Classification Model Against BayesError Rate”为题发表在
如何精准估计贝叶斯误差率是机器学习中的一个研究难题。贝叶斯误差率是分类器所能达到的最低误差率,可为模型性能提升提供理论上的参照标准。近年来,基于散度估计贝叶斯误差率的方法受到了较多的关注,但这些方法只能提供贝叶斯误差率的上下界,并不能为模型性能提升提供精准的参照,如图1所示。

图1 贝叶斯误差率和贝叶斯误差率上下界在模型评估中的区别
针对贝叶斯误差率不可精准计算面临的挑战,该研究提出了一种基于贝叶斯决策理论和渗透理论的贝叶斯误差率计算方法。具体地,基于贝叶斯决策理论,证明了贝叶斯误差率与贝叶斯分类器误分类样本占所有样本的比例具有统计一致性(见定理1):


基于随机环境中聚簇现象理论(渗透理论),建立了误分样本与聚簇大小的关系。基于标签传播算法和聚簇构建算法,提出了可直接估计贝叶斯误差率的方法,如图2所示。研究成果突破了基于散度估计贝叶斯误差率上下界的传统思维,为精准的贝叶斯误差率估计提供了有效的计算方法。

图2 基于标签传播算法的贝叶斯误差率计算方法框架
在合成

图3 在合成

图4 在CIFAR10和CIFAR100
该研究工作得到计算智能与
据悉,TPAMI期刊于1979年建刊,是国际上公认的
高招云直播