计算机研究与发展 Journal of Computer Research and Development ISSN 1000—1239/CN 1 1-1777门rP 49(6):1162-1173,2012 基于采样策略的主动学习算法研究进展 吴伟宁 刘 扬 郭茂祖 刘晓燕 (哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001) (wwn@hit.edu.cn) Advances in Active Learning Algorithms Based on Sampling Strategy Wu Weining,Liu Yang, GUO Maozu,and Liu Xiaoyan and Technology,Harbin (School of Computer Science [nstitute of Technology,Harbin 150001) Abstract The classifier in active learning algorithms is trained by choosing the most informative unlabeled instances for human experts to labe1.In the cycling procedure,the classification accuracy of the model is improved, and then the classifier with high generalization capability is obtained by mi‘ni。mi’zi‘ng the totally labeling cost.Active learning has attracted attentions of researchers both at home and abroad widely.It is pointed out that the active learning technique is a very important research at present.In this paper,the active learning algorithms are introduced by putting a particular emphasis on the sampling strategies.The iterative processes of the learning engine and the sampling engine are described in detail.The existing theories of active learning are summarized.The recent work and the development of active learning are discussed,including their approaches and corresponding sampling strategies. Firstly,the active learning algorithms are categorized into three main classes according to different ways of selecting the examples.And then,the sampling strategies are summarized by analyzing their correlations.The advantages and the shortcomings of sampling strategies are discussed and compared deeply within real applications.Finally the open problems which are stil1 remained。and the interests of active learning in future research are forecasted. Key words machine learning;active learning;sampling strategy;labeling cost;instances selection 摘要主动学习算法通过选择信息含量大的未标记样例交由专家进行标记,多次循环使分类器的正确 率逐步提高,进而在标记总代价最小的情况下获得分类器的强泛化能力,这一技术引起了国内外研究人 员的关注.侧重从采样策略的角度,详细介绍了主动学习中学习引擎和采样引擎的工作过程,总结了主 动学习算法的理论研究成果,详细评述了主动学习的研究现状和发展动态.首先,针对采样策略选择样 例的不同方式将主动学习算法划分为不同类型,进而,对基于不同采样策略的主动学习算法进行了深入 地分析和比较,讨论了各种算法适用的应用领域及其优缺点.最后指出了存在的开放性问题和进一步的 研究方向. 关键词机器学习;主动学习;采样策略;标记代价;样例选择 中图法分类号TP181 收稿日期:2010—07 29;修回日期:2011—11一O8 基金项目:国家自然科学基金项目(61171185,60932008,60832010);中国博士后科学基金特别资助项目(201003446) 吴伟宁等:基于采样策略的主动学习算法研究进展 机器学习作为人工智能一个重要研究方向一直 循环训练的方法使分类器获得了更强的泛化能力. 受到计算机科学家的关注.当前,机器学习面临的现 实情况是:未标记样例数目众多,易于获得;标记样 例数量稀少,难于获得.研究表明,对于训练样例的 由于适用性广泛和高效利用人类专家的特点,主动 学习受到广泛关注并迅速发展,成为机器学习领域 的最重要方向之一.例如卡内基一梅隆大学、斯坦福 大学的机器学习实验室都将主动学习的算法理论以 精确标记不但需要该领域中大量的专家参与,并且 标记样例花费的时间是其获取时间的1O倍以上[1], 与之形成对比的是,未标记样例却简单易得.这种现 实使传统的机器学习算法无法得以有效应用,原因在 于监督学习需要大量标记样例对分类器进行迭代训 练,否则根据PAC学习理论,算法的泛化性能无法有 及实际应用,特别是对无标记样例的选择,即采样策 略的设计列为研究重点;机器学习、数据挖掘的重要 学术会议也收录主动学习技术的文章并将其列为重 要专题进行讨论 ].尽管主动学习领域涌现出大量 的研究工作,但是对于其算法的核心,即主动学习算 法的采样策略,尚缺乏全面的总结,分析和比较,进 效提高.无监督学习虽然直接利用未标记样例,但是 算法的精度不能使人满意.在这种情况下,半监督学 习(semi—supervised learning)和主动学习(active 而限制了相应研究工作的进行.因此,本文从采样策 略的角度出发,对主动学习算法进行了归类比较,并 从该角度对主动学习算法进行了深入的分析和讨论. learning)算法就应运而生并迅速发展,成为解决上 述问题的重要技术.虽然两者都利用未标记样例和 已标记样例共同构建高精确度的分类器,降低人类 专家的工作量.但不同的是,主动学习算法模拟了人 的学习过程,选择标记部分样例加入训练集,迭代提 高分类器的泛化性能,因此近年来被大量地应用于 信息检索、图像和语音识别、文本分类和自然语言处 1主动学习算法简介 相对于传统监督学习,也称为被动学习,主动学 习是一种较新的机器学习算法.为了直观地展示主 理等领域.2O09年,Tomanek和0lsson ̄ ]的一项调 动学习算法的有效性及其对分类器训练精度的提高 程度,本文首先以一个二维空间中的二分类问题l_3] 为例加以说明.从图1【3 可以看出,位于正确分类界 面z一0附近的样本点最有助于分类器训练过程. 查显示,9o.7 的研究者认为主动学习算法在他们 的项目应用中是有效的.而另一份调查证明 Google,CiteSeer,IBM,Microsoft和Siemens等大 型公司也都在项目中使用主动学习算法提高性 能 j.2010年,PASCAL举办主动学习算法竞赛,竞 赛包含6个不同应用领域,目的是鼓励参赛者开发 优秀的主动学习算法_4]. 主动学习最初由耶鲁大学的Angluin教授在 “Queries and concept learning”一文中提出L5 .与以 在有限的标记代价下(选择并标记样例的数目为 30),标记这部分样本点最有利于找到正确的分类界 面.被动学习随机选择并标记的样本点大多数与 z一0相距较远,很难找到正确的分类界面,因此,分 类精度较低(正确率仅有7O ).主动学习选择并标 记的样本点大部分位于z一0附近,积极推动分类 模型的训练过程,分类精度较高(正确率达到9O ). 这个例子充分说明,与被动学习相比,主动学习选择 的样本点更有利于分类器训练过程,在相同的标记 代价下提高了分类模型的精确度. 往算法的不同点是使用未标记样例辅助分类器的训 练过程,方法是选择并标记部分未标记样例,然后放 入标记样例集合训练分类器,使用分类器再次选择 未标记样例.这种有选择地扩大有标记样例集合和 (a)Atoy dataset consistsof400 points evenly sampled from two class Gaussians (b)A classifier is tairned with 30 labeled pointsby randomly samplingby (c)A classifier is trained with 30 points queried and labeled by active learning passive learning(7o96 accuracy) f9o96 accuracy) Fig.1 An example of active learning in 2D space(The solid line represents the decision boundary of the classifier) 图1一个二维空间中主动学习的例子(图中实线表示分类界面) 1.1 主动学习算法工作流程 主动学习算法的工作过程是一个迭代训练分类 器的过程,该过程由以下两个部分组成 ]. 学习引擎(1earning engine,LE):学习引擎的 工作过程是在标记样例集合上进行循环训练,当达 到一定精度后输出.该过程类似于传统监督学习中 的分类器训练过程,因此也被称为分类器. 采样引擎(sampling engine,SE):采样引擎是 主动学习算法不同于其他学习算法的部分.其任务 是在未标记样例集合上使用不同的采样算法选择样 例,将其交由人类专家进行标记,并将标记后的样例 加入已标记样例集,以供分类器进行循环训练.采样 引擎的目的是在最少标记代价下获得能最大程度提 高分类器的泛化性能的标记样例集. 主动学习算法的迭代过程是:在标记样例集上 训练分类器;使用分类器对无标记样例进行分类判 断;根据分类结果,使用采样引擎选择部分无标记样 例交由专家进行标记;将标记后的样例加入标记样 例集用于分类器的下一次训练.算法的终止条件是 标记代价或者分类器的泛化精度达到一定标准为 止.为了说明这一过程,本文给出算法的伪码描述, 如图2所示: Fig.2 Pseudo—code of the active learning algorithm. 图2主动学习算法伪码描述 由于采样策略是采样引擎的核心,也是区分不 同主动学习算法的关键,因此本文的重点是采样引 擎中的采样策略研究.其中,采样策略选择样例的标 准也称为信息含量,即未标记样例对分类器泛化能 力的影响程度.信息含量可以是一个设定好的函数, 也可以是一个固定阈值.本文的第2节将对其进行 详细分析和讨论. 计算机研究与发展2012,49(6) 1.2主动学习算法分类 根据采样策略选择未标记样例的方式不同,可 以将主动学习算法分为以下几种:成员查询综合 (membership query synthesis)、基于流(stream— based)的主动学习和基于池(pool—based)的主动学 习_3J.为了便于叙述,下面使用(z,.y)表示已标记样 例及其对应标记,使用 表示未标记样例. 成员查询综合是最早提出的使用查询进行学习 的思想l_5],即假定学习系统对周围环境具有一定控 制能力,可以向人类专家提问.算法通过提问的方式 确定某些样例的标记和学习未知概念.该方法的缺 点是将所有未标记样例都交给人类专家进行标记, 而不考虑样例的实际分布情况[8]. 针对这一缺陷,研究人员提出了一系列样例选 择算法对该方法进行改进.当 大量易得时,Cohn 等人提出标记P( , )超过某一阈值的样例L9 . Seung等人提出在(z, )上分别训练参数为0 和0 的两个模型,选择这两个模型预测不一致的 进行 标记_1 .这类做法也被称为基于流的采样策略,其 采样过程是将落在版本空间(version space)中的所 有x按照顺序逐个依次进行标记n ,并广泛应用于 词类标注 、信息检索口。 等实际问题. 虽然基于流的采样策略在一定程度上解决了直 接查询方法的问题,但是这种采样策略往往需要设 定一个固定阈值来衡量样例的信息含量,因此缺乏 对不同学习问题的普适性.具体应用问题不同,设定 的阈值也不同;更重要的是,算法是逐个将 的信 息含量与标准阈值进行比较,故无法掌握 的实际 分布,也无法得知 之间的差异. 为了解决上述问题,Lewis等人提出将 组成 一个无标记样例“池”,采样策略从这个集合中选择 样例,即基于池的采样策略_1 .与基于流的采样策 略相比,算法维护一个固定分布的由大量 组成的 “样例池”.采样策略计算 的信息含量并比较,选 择信息含量高的 进行标记.由于基于池的采样策 略继承了前面两种方法的优点,克服它们的不足,因 而成为当前研究最充分、应用最广泛的采样策略,在 文本分类 、信息提取L1。 、图像检索[2 ]、视频 检索[22-23 和癌症检测 等领域都有具体的应用. 1.3主动学习算法的理论分析 主动学习算法的目的是减少训练所需的标记代 价,因此,在主动学习理论研究中,备受关注的是算 法对样本复杂度(sample complexity)的降低程度. 相对于主动学习的大量应用研究工作而言,这方面 吴伟宁等:基于采样策略的主动学习算法研究进展 的理论研究依然有很多开放性问题.特别是目前 主动学习已有研究成果大多针对特定条件或模 针对不同的样例分布和模型类别,算法更精确地对 当前假设进行限制,达到了更少的标记代价.这些主 动学习算法类似于精确枚举空间中的所有假设,计 型,尚缺乏一般性结论.本文根据主动学习算法理 论研究针对的不同问题,将该方向成果划分为“可 达”(realizable)和“不可达”(non—realizable)两种情 形,并分别加以阐述. 算复杂度高,所以很难直接应用于实际.而且,算法 的理论分析结论往往建立在样例均匀分布或近似均 匀分布的条件下,或者对假设空间有严格要求.在算 法具体实现中,这些方法局限于优化简单的0-1损 失函数,很难扩展到复杂监督模型或其他对象函 数口 .值得注意的是,Wang和Zhou使用全类扩张 可达类主动学习是指假设类(hypothesis class) 中存在可以完美划分数据的假设.对于可达情形,其 理论研究是主动学习理论研究中被关注时间较早, 相对较为充分的一种类型.大多数该方面的理论工 作证明:相对于监督学习而言,主动学习可以有效降 低样本复杂度.与监督学习相比,主动学习可以产生 “指数级”的样本复杂度改善 ].例如,Cohn等人l_9] 证明在标准PAC模型下,均匀分布的样例空间中,获 得一个最大错误率为e的分类假设.监督学习需要 的样本复杂度是O(1/£),而主动学习使用二分搜索 获得该分类假设所需要的样本复杂度为0(1og lls). Freund等人_3 进一步提出,在贝叶斯条件下,获得 一个泛化误差小于e的分类假设,基于版本空间缩 减的主动学习算法的样本复杂度为o( log(1/e)) ( 表示当前空间中VC维的维度).而相同条件下, 监督学习算法的样本复杂度为0( /£).针对该结 论,Gilad—Bachrach等人使用核方法进一步限制版 本空间的大小,获得了更高的性能『3 .Balcan等 人L2 5]证明样例均匀分布时,可达类主动学习的样本 复杂度是O(e 『(H ),其中 表示噪声参数. 但是,由于存在噪声数据或者假设类学习能力 有限等因素,实际应用中的大多数问题属于“不可 达”情形,即假设类中不存在对数据进行完美划分的 假设.针对不可达情形,主动学习同样涌现出大量研 究工作,获得了丰富的研究成果.这部分研究成果可 以根据是否假定噪声模型划分为以下两种. 在不假定噪声模型的条件下,一些研究成 果[3。 ]表明,主动学习算法的样本复杂度下界与被 动监督学习的样本复杂度上界相当,这意味着,主动 学习并不能起到实质性的改善作用.因此,基于 PAC框架的不可达主动学习算法的特点是严格地 限制采样次数,从而达到减低样本复杂度的目的.例 如,Balcan等人[3 提出基于PAC框架的不可达主 动学习(agnostic active learning,A )算法证明样本 复杂度边界是0(1n l/e).该结果表明只要样例是从 一个固定分布中选择的,主动学习就比监督学习算 法具有更大的优势.Hanneke[ 通过定义不一致系 数,进一步限制样本复杂度的上界.在此基础上, Dasgupta等人_3 提出一种更有效的样例选择算法, 的a—expansion定义,显示出主动学习算法在数据存 在多视图时降低样本复杂度的有效性_3 ,同时, Wang和Zhou也将半监督技术与多视图主动学习 相结合,并获得算法性能的进一步提高. 在假定噪声模型的条件下,现在一般考虑 Tsybakov噪声模型,又可以分为有界(bounded)和 无界(unbounded)两种情形.有界情形相对简单,一 些研究表明[2 。 。 ,主动学习可以产生指数级的样 本复杂度改善.例如,Kaariainen_3 证明噪声率为 时主动学习算法的样本复杂度为0( /e ).无界情 形则相对复杂,也更接近于大多数真实问题,一些 研究工作 。 “ 表明主动学习仅能获得多项式 级的样本复杂度改善,并不能起到实质性提高.例 如,Cavallanti等人l4o]进一步提出,当标记噪声满 足线性条件时,主动学习算法的样本复杂度是 0(£ 。 n¨ 抖 ).Castro和Nowak[41]提出单视 图主动学习算法的样本复杂度的一般形式,即获得 一个分类错误率小于£的分类假设,样本复杂度至 少为D(e ),p∈(0,2).在分类边界和分布高阶平 滑至无限平滑的假设条件下,Wang[4 基于放松的 Tsybakov噪声模型(approximately Tsybakov mode1)获得了指数级改善.Wang和Zhou 。 的工作 首次发现,在数据存在多视图时,在无界Tsybakov 噪声模型条件下,主动学习可以达到指数级提升.该 工作具有很大的启发意义,说明主动学习算法的进 一步理论研究和算法设计都必须考虑一些具体的数 据条件,否则,一般通用角度无法获得样本复杂度的 指数级提升,即不能获得实质性改善. 2主动学习的采样策略 由于基于池的采样策略应用最广,且当样例池 中仅有一个未标记样例时,等同于基于流的采样策 略,因此,本文详细介绍这类采样策略.按照选择 的标准不同,分为以下3种:基于不确定性的采样策 略、基于版本空间缩减的采样策略以及基于误差缩 减的采样策略l_4 . 2.1基于不确定性的采样策略 基于不确定性的采样策略是适用性最广的一类 采样策略.这种采样策略选择分类器对P( l x)的 预测值最接近0.5的样例进行标记,其中歹是 的 预测标记.事实证明,这种采样策略不但适用于绝大 多数分类器,有效减少人类专家的工作量,而且极大 地提高分类器的分类精确度和泛化能力_4 ,是目前 研究最为充分的采样策略.根据选用的分类模型不 同,衡量样例不确定性的函数f(x, )演化出很多 形式,下面进行详细说明. 最基本的做法是使用分类器直接估计P( I ) 的值(uncertain—based sampling),算法选择样例的 标准是P( l )的值最接近于0.5的样例.例如: Lewis和Catlett『】 将其应用于决策树模型,算法中 厂( , )的形式如下: 组 (a+6 d-。g P(c l )一 + 户(口+6 d・。g 其中c, 分别表示样例所属正、负类别,W 表示样 例特征.继而,Scheffer等人_4。 在隐Markov模型 (hidden Markov models,HMM)中使用这种思想, 并将这一做法扩展到多类别问题中.当前,Culotta 和McCallum_4 把这种做法推广到结构化分类模型 中,使用结构化数据对应标记序列的后验概率作为 f(x,y),也收到了很好的效果. 由于直接估计P(y I )的做法很难应用于复杂 的概率模型,信息熵作为一种f(x, )的形式得以 引入(entropy-based sampling).信息熵的特点是易 于计算,并且能很方便地扩展到复杂的概率图模型 当中,例如条件随机场模型,判别随机场模型.近年 来,信息熵演化出适用于各种结构化数据的变体,例 如短数据序列熵、长数据序列熵、序列总熵等等 . 同时,为了解决标记序列随着样例序列自身长度增 加而指数化增长带来的计算量过大的问题,Kim等 人 将标记序列进行排序,选择其中后验概率最大 的N个标记序列计算样例的熵值. 由于支持向量机(support vector machine,SVM) 在小样本分类中的突出表现,采用SVM作为基准 分类器的主动学习算法逐渐增加_4 .SVM分类是 在样例空间中找到一个能最大化分隔样例空间的超 平面.因此当分类器是SVM模型时,采样策略使用 计算机研究与发展2012,49(6) 样例与分类边界之间的距离作为f(x, )的计算形 式.算法的具体学习步骤是:首先使用标记样例训练 SVM模型,并使用该模型对 进行预测,获得样例 的类别标记和样例与超平面的距离.然后,根据样 例与超平面距离对 进行排序,选择与超平面距 离最小的 作为最不确定的样例 16,201,并提交专 家进行标记.这也被称为最近边界策略(closest—to— boundary),并广泛应用于文本分类与检索,图像检 索等任务当中,收到良好效果. 上述两种基于不确定性的采样策略面临的重要 问题是避免选择野点.由于其无法代表一类样例的 特殊性,将其进行标记不能提高学习器的泛化能力. 而另外一个问题是当分类器为SVM模型时,而 SVM分界面刚好通过一个无标记样例密集区域,那 么位于该区域内的大部分样本一定是距离分类边界 最近的.但是同一个聚类的样例通常具有相同的标 记,将这种未标记样例交由人类专家进行标记会浪 费大量的时间.为了解决这个问题,在SVM模型条 件下,研究人员将聚类算法与采样策略进行结合,即 根据样例间隔进行采样的同时考虑样例的实际分 布,选择标记具有代表性的样例.例如,Xu等人_4 使用了K-Means算法,选择那些靠近分类边界的聚 类中心进行标记(representative sampling),如图3 所示_4 .Nguyen和Smeulders_5。。使用了半监督学 习中的聚类思想,先对样例进行聚类,将相同聚类中 的样例标记进行传递,选择靠近边界的聚类中心进 行标记(pro-cluster sampling).Sanjoy等人[5 使用 分层采样的方法(hierarchical sampling),根据样例 密度的高低进行采样,优点是当未标记样例分布不 均衡时,采样算法依然可以选择到最具有代表性的 未标记样例.虽然这些做法一定程度上解决了上述 问题,但是由于聚类算法本身的一些缺点,对这两个 问题的研究依然备受关注.Donmez等人_5 提出将 Representatives Fig.3 The centers in clusters closed tO the classifier boundary are selected. 图3选择靠近分类界面的聚类中心 吴伟宁等:基于采样策略的主动学习算法研究进展 样例密度与最近边界准则相结合的方法(DUAL), 在样例选择过程中,算法判断当前样例的密度信息, 选择代表性和不确定性的样例,算法优点是:即使在 噪声数据存在的条件下,算法保持较高的样例选择 的准确度.实验证明,该算法是目前基于不确定度的 采样策略中性能最好的样例选择算法l|5 . 当样例密集时,根据密度信息进行采样;当样例稀疏 时,选取距离分类边界最近的样例.Huang等人 3_ 使用最小一最大视图方法(QUIRE),在样例选择步 在表1中给出上述各种样例选择算法的应用领 骤中,算法同时考虑密度和边界分布的信息,目的是 域和优缺点比较: Table 1 The Comparison of Uncertain-Based Sampling Strategies 表1 基于不确定性的采样策略算法比较 Methods Applications Comparison n ca忙 。一 “Understood andim。Uncertain- e —extractIOn …a iscrlmlnat1ve moclel;;^II cc 【eⅡ eas n Y D De 0U Iier |nt唧k y【 L sUsed in optimizing the continuous loss functions; Extended to complex models and multi—class easily; Affected easily by the outliers Closed-to-Boundary sv M[16 l20_ rrext categ 0rizati0nImagere eval OUt11ers ed in幽esvM common y’Affec托deas订y by Make full use of the distribution of the examples by the K—means clustering Take advantage of the prior knowledge of the unlabeled Face recognition OCR digit image data by semi—supervised learning;Avoid to labeling the classification examples repeatedly Hierarenical Sam -ins s 0cR i i 。。 。i i。 i。“T。 M he hierarchical s t r uc ture from thedatai nclui“ . A,.categorlzatlon no1se ;;A ppllecl.,., to SamP 1l n譬 I tom tne unI)a ancea 。l n ata DUAL[52] Data mining Select the examples dynamically by considering their density information Avoid the effect from the bias and the noise;Select the Data mining uncertain examples precisely 2.2基于版本空间缩减的采样策略 点进行介绍. 基于版本空间缩减采样策略的主导思想是选择 第1个研究重点是如何有效地建立一个委员 能最大程度缩减版本空间的 进行标记.委员会投 会.委员会构建的一种策略是将委员会建立看作多 票选择算法(query—by-committee,QBC)E103是这类 分类器集成问题,故很多原有的分类器集成的策略 采样策略中应用最广泛、最著名的算法.该算法具体 都被用于解决这一问题.例如:Abe和Mamitsuka 步骤是:从当前版本空间中选择参数不同的一组假 在1998年提出了Boosting—QBC和Bagging—QBC 设构成一个“委员会”;使用委员会中各个假设对无 的委员会建立策略[5 .这两种委员会的建立策略分 标记样例进行分类判别;选择标记版本空间中各个 别采用了两种著名的集成学习方法去建立委员会: 假设分类结果不一致程度最大的 .换言之,这种采 Freund等人l_5 于1997年提出的boosting方法和 样策略是通过构造多个分类器模型来预测样例标 Breiman_5 ]于1996年提出的bagging方法,这两种 记,进而选择各模型都不确定的样例进行标记,其本 做法的共同特点是:使用了重采样技术训练并获得 质与基于不确定性采样策略类似.自从Seung等 多个候选假设;从未标记集中随机选择部分 对当 人_1 构建第1个由两个随机假设模型组成的委员 前候选假设加以区分;选择在各个假设之间,不确 会后,QBC算法在各种分类模型的实际应用中收到 定度最大的样例进行查询,进而达到缩减版本空 较好的效果.例如:朴素贝叶斯模型[1 、隐Markov 间的目的.而不同的是,Bagging-QBC目的是减少 模型_1 等.这种采样策略的目的是建立一个具有较 假设偏置的影响,过程相对简单:算法过程是从样 强泛化能力和高效的委员会,下面对算法的研究重 例分布中进行多次独立同分布采样;使用所选样 计算机研究与发展2012,49(6) 例训练候选假设;最终的输出假设是所有候选假 设的平均值.Boosting—QBC算法目的是增强弱分类 假设的性能,过程相对复杂:使用AdaBoost算法对 采样过程进行加权并训练候选假设,在二分类问题 中,选择能够最小化两类权重差值的样例作为查询 样例. 另一个研究重点是如何衡量成员模型对样例的 分歧程度.Dagan和EngelsonE 提出选举熵这一标 准(QBC—VE),其计算公式如下: Ⅷc 一 og , 广,将原有熵的形式进行了改进,使之能够衡量委员 会中各个假设对样例分歧的程度.McCallum等 人[1 则提出将样例的分布密度与QBC相结合 (EM—QBC),引入信息论中的KL距离(Kullback— Leibler divergence)来计算两个概率分布的差异程 度,其公式如下: KL(p P2一 iE P ( L i)log(、 ,z、 l I),山/ 其中,I L 1表示类别个数.算法认为最具有信息含量 的样例是在委员会成员模型中不一致程度最大的样 本分布区间上,并将位于这一区间内的样例交由人 其中,v(y, )表示委员会中各个假设对 的投票 类专家进行标记. 在表2中,本文给出上述各种样例选择算法的 应用领域和优缺点比较: 结果,l Ml表示委员会中假设的个数.选举熵可以看 作是基于熵的不确定采样策略在QBC算法中的推 Table 2 The Comparison of the QBC Algorithms 表2委员会投票选择算法比较 2.3基于误差缩减的采样策略 基于误差缩减的采样策略是通过减少分类器误 型和回归模型中Es8].由于这种直接估计模型方差的 做法仅适用于方差简单可求的概率模型,而无法应 用于复杂的学习模型,所以很多替代性的标准被提 出,下面将分别介绍. 差直接提高学习算法的泛化能力.这种采样策略具 有很强的统计学基础.采样策略根据样例的实际分 布情况,选择使分类器未来泛化误差最大程度缩减 的 进行标记.因此,该算法的优势就是可以有效 地避免选择野点,缺点是采样策略需要大量的计算, Zhang等人引入费舍尔信息函数来计算每一个 的费舍尔得分并构造费舍尔矩阵l_5 ,计算公式 如下: rr JJ 因为模型参数的变化使每一次样例选择都需要重新 212 口^ J( )一一Ilp(a7, l ) in p(. ,夕1 )d d歹. 费舍尔信息函数大多用于判别模型中衡量样例 标记对模型误差的影响程度,优点是可以有效地表 示出分类器对样例的不确定程度.特别是在多重参 数(multiple parameters)模型中,可以直观地看出 训练分类器_3].算法的具体工作步骤是:采样策略把 每一个 都作为候选样例,将其标记后放入已标记 样例集中训练分类器;计算分类器训练后误差的变 化结果;选择能够最大程度缩减分类器误差的样例 进行标记. 样例对模型参数的影响程度.该方法易于选择使模 型方差更接近于样本实际分布的样例 .这种样例 基于误差缩减的采样方法是最早研究的采样方 法之一.在1992年,Geman等人 就证明了学习模 型期望误差可以被分解为样本集的噪声、模型偏置 和模型方差三者之和.Cohn等人在此基础上提出了 主动学习的统计学模型,即基于模型方差最小化的 选择标准被应用于各种主动学习模型当中,包括神 经网络 、条件随机场 以及其他概率模型[" . 由于多参数情况下,费舍尔信息函数表现为一个关 于样本方差的矩阵,因此针对费舍尔矩阵的计算也 缩减策略,并成功应用于人工神经网络、高斯混合模 有很多研究成果,包括降低参数空间的维数『5。 等. 吴伟宁等:基于采样策略的主动学习算法研究进展 另外一种替代性的标准是估计样例的未来期望 误差 ],其具体步骤是对每一个 进行标记并将其 加入到已标记样例集.算法估计当前概率分布函数 (z, ),并计算 ( , )与实际分布概率P(z, )的 学习中的样例选择过程进行改进L6 .目前,这种替 代性策略已经在很多分类模型中得以应用,例如朴 素贝叶斯方法_6 、高斯随机域模型[6 、逻辑回归模 型l_6 和支持向量机模型等等 . 在表3中,本文给出上述各种样例选择算法的 应用领域和优缺点比较. 期望误差,最终选择标记使该误差最小的样例.Roy 等人 指出在贝叶斯模型下,该方法使分类精确度 提高了4倍.随后,Zhu等人使用这种方法对半监督 Table 3 The Comparison of Sampling Strategies Based on Generalized Error Reduction 表3基于泛化误差缩减的采样策略比较 Methods Applications Comparison Applied when the variance is easily obtained;Avoid the effect from the outliers Evaluate the information of selected examples when the model Fisher InformationE1 7,l g's ̄s1 3Text cate…趣ig : 吐 n has multiple parameters;Select the examples which make the variance of the mode1 close to the distribution after being labeled Expected Error Reduction[s2 6s3Tex。cRt : 眦 。 in super vis ed and se mi sup er 甜learning 吐 ; 足.Donmez等人_6。 提出了IEThresh方法对在线专 3主动学习算法的新挑战 随着应用领域的扩展,不同学习任务对主动学 习算法提出新的要求.为了解决这些新问题,主动学 家精度进行动态估计,并在迭代过程中选择部分高 精度专家对查询样例进行重复标记.2010年又针对 该问题建立了Markov模型l6 ,进一步证明即使专 家精度可变,主动学习依然可以获得较高质量的训 练集和较高泛化能力的分类器. 然而,这一领域依然存在一些开放性问题没有 解决ll3],例如标记者精度是否与其所标记过的样例 相关,随着在线标记时间的增长,标记者精度是因标 记数量增长而更加熟练进而精度增加,还是会疲劳 以至于下降,进一步而言,主动学习应该如何判断所 选样例与标记者的关系,是否应当针对标记者的兴 趣来选择适当样例,是否应当选择标记者最擅长的 类别进行查询标记.如果样例含有噪声,主动学习应 习算法演变出不同的形式,发展出有别于传统主动 学习算法的新类型.本节根据主动学习面临的挑战 不同,我们对这些主动学习算法进行总结和介绍,并 指出其面l临的开放性问题. 3.1在线标记任务中主动学习 为了解决标记获取困难这一瓶颈问题,很多数 据挖掘任务、自然语言处理、图像收集等都使用在线 标记工具(例如MTurk tool|66])对无标记样例进行 标记,该方法的优势是短时间内就可以获取大量廉 价标记,缺点是在线标记人员专业水平参差不齐,提 供的标记可能有错误或缺失.而传统主动学习的假 当怎样选择样例,怎样选择专家,重复标记会产生怎 样的影响.这些问题都有待进一步讨论和解决. 3.2代价敏感的主动学习 设条件是专家所提供的标记正确无误,这使得实际 应用中算法性能受到了很大的影响.Sheng等人E673 对这一问题进行了研究和讨论,并提出重复标记同 一在实际应用中,样例的标记代价并非相等而且 保持不变.例如,被广泛应用于文本分类以及图像检 索的多示例学习.一个文本被看作是包含一组词汇 的“包”;一幅图像则被看作是包含一组视觉对象的 样例的解决办法,证明当专家标记精度高于平均 水平并相差较小时,重复标记方法可以有效减少标 记噪声对分类器的影响.但是,该方法的局限性是没 “包”,而“包”不同,标记代价也不同.以图像为例,如 图4所示[7 ,图像包含的视觉对象不同,标记代价 也不同.标记代价高也不代表图像包含的信息含量 大,或者对训练过程更有效.这种情况下,需要精确 衡量标记代价与信息含量之间的关系来选择图像. 有区别对待精度不同的专家,特别是当专家水平相 差较大时,低质量专家会对算法产生较大负面影响, 而且,算法需要使用一个无噪声标记样例集对专家 水平进行衡量,这一要求在实际应用中往往很难满 计算机研究与发展2012,49(6) 找到最有价值的标记样例.这些问题也是当前研究 热点和未来研究重点,下面将一一阐述. 首先,结合半监督学习思想改进主动学习的采 样策略可以有效地利用无标记样例的固有信息.原 (a)Low cost,high information (b)High cost,low information 因是主动学习与半监督学习面临相同的挑战和问 题,即将有标记样例和无标记样例相结合进行训练, 构造分类器模型.传统的主动学习多数采用监督学 ■l _盥 习算法构造分类器,与半监督算法相结合的研究成 (c)High COSt,high information (d)Low cost,low information Fig.4 The comparison of the labeling cost and the information in the images. 图4图像标记代价与信息含量比较 目前,主动学习已有一些针对代价敏感问题的 成果_3],但是,这些成果都是针对特定问题或者模 型,因而具有一定的局限性.例如在信息提取任务 中,“预标记”方法[4 的目的是减少结构学习任务 中的总标记代价,但是这一做法的假设条件是每次 标记行为的代价是一定的.标记行为多则标记代价 高.算法通过最小化标记行为的数量来间接减少标 记总代价.在生物信息提取任务中,King等人l7 使 用了决策论方法通过减少生物实验所用物质总量来 间接减少一次实验代价.Kapoor等人 则同时考 虑了样例的标记代价和误分类代价,使用二者之和 作为总代价,但该方法要求这两种代价都是固定且 已知的.当标记代价可变时,Settles等人 使用逻 辑回归模型对其进行预测,但仅适用于代价是标记 时间的函数这种简单情况,不适合其他复杂应用 情形. 这一领域存在的开放性问题有_3]:当标记代价 随标记者不同而变化时,主动学习应当如何选择样 例或者标记者 。];当标记代价并非样例自身的属 性决定,也不能直接计算时,主动学习算法该如何处 理这一情况;以及在仅有少量标记样例时,主动学习 如何去估计其他无标记样例获得标记的代价[7 。 . 4主动学习的研究趋势 当前,尽管主动学习算法已有一定研究成 果 ̄78-79],但是主动学习算法研究方兴未艾,其采样策 略的设计、算法理论及实际应用依然有很多问题需 要解决.其核心是如何充分利用未标记样例的先验 信息,如何选择样例进行标记进而最大化减少训练 分类器所需的标记代价,如何在最少的查询次数中 果并不多见[8 81_.事实上,半监督学习已经发展出大 量成熟而效果显著的对无标记样例的进行利用技 术_1],充分利用这些技术可以使主动学习构造出泛 化能力更强的分类器r6 . 其次,在主动学习与结构化预测等学习任务的 结合研究中选择标记结构化数据从而有效减少标记 代价.随着结构化数据研究的逐步深入,采样策略选 择样例进行标记并不局限在样例本身,而是以结构 化等形式存在.例如:在多示例学习中,对包进行标 记 ;在序列预测任务中,对序列样例的特征进行 标记l8 .这种趋势与当前机器学习领域的发展相一 致的,机器学习不仅仅关注对单个样例的学习问题, 更为关注的是对图,生物序列信息等复杂结构L4 进 行分类和识别.主动学习如何结合这些新的学习任 务对结构化信息进行选择,如何对实例以及实例的 特征进行标记,又将选择哪些特征交由人类专家进 行标记,进而得到通用性高的样例选择算法,是值得 进一步探讨的问题l】 。引. 最后,不可达条件下的主动学习的采样策略研 究是研究的重点之一L8 ,尤其是该条件下的理论研 究更加广受关注.尽管主动学习在实际应用中有出 色的表现,但是,算法的理论研究却局限于具体问题 而缺乏一般性的结论,这些都有待进一步_的研究 解决. 5 总 结 主动学习在处理大量未标记样例、少量有标记 样例的学习问题时,其结果明显优于传统监督学习 算法,进而得到了日益广泛的关注和重视.主动学习 技术可以有效地减少构建分类器所需要的高质量训 练样例的数量,在不影响分类器泛化性能的基础上, 减少人类专家的负担.随着机器学习技术的进步和 应用领域的扩展,主动学习研究应当结合这些新理 论、新技术,以便更好地解决实际问题. 吴伟宁等:基于采样策略的主动学习算法研究进展 致谢 感谢《计算机研究与发展》审稿专家对本 文提出宝贵的修改意见和帮助! 参 考 文 献 [1] Zhu Xiaojin.Semi—supervised learning literature survey, TR1530[R].Madison,Wisconsin:Computer Sciences, University of Wisconsin—Madison,2005 [2] Tomanek K,Olsson F.A Web survey on the use of active learning to support annotation of text data[c]/Proc of HLT—NAACL.Stroudsburg,PA:ACL,2009:45—48 [3] Settles B.Active learning literature survey,TR1648[R]. Madison,Wisconsin:Computer Sciences,University of Wisconsin—Madison,2009 [43 Guyon I,Cawley G,Dror G,et a1.Design and analysis of the WCCI 2010 active learning challenge[C]//Proc of IEEE/ INNS IJCNN 2010.Piscataway,NJ:IEEE,2010:1—8 [5] Angluin D.Queries and concept learning[J].Machine Learning,1988,2(4):319-342 [6] Dasgupta S,Langford J.A tutorial on active learning[EB/ OL].(2009—06—04)[2010—07—29].http://hunch.net/~ activelearning/ [7] Wu Yi,Kozintsev I,Bouguet J Y,et a1.Sampling strategies for active learning in personal photo retrieval[C]/Proc of ICME 2006.Piscataway,NJ:IEEE,2006:529—532 [8] Baum E B,Lang K.Query learning can work poorly when a human oracle is used[c]//Proc of IEEE IJCNN 1992. Piscataway,NJ:IEEE,1992:335—340 [9] Cohn D,Atlas L,Ladner R.Improving generalizati0n with active learning[J].Machine Learning,1994,15(2):201— 221 [iO] Seung H S,Opper M,Sompolinsky H.Query by committee [C]//Proc of COLT 1992.New York:ACM,1992:287— 294 [11] Dasgupta S,Kalai A,Monteleoni C.Analysis of perceptron- based active learning[J].Journal of Machine Learning Research,2009。10(2):281—299 [12] Dagan I,Engelson S P.Committee-based sampling for training probabilistic classifiers[C]/Proc of ICML 1995. San Francisco:Morgan Kaufmann,1995:150—157 [13] Yu H.SVM selective sampling for ranking with application to data retrieval[C]/Proe of ACM SIGKDD 2005.New York:ACM,2005:354—363 [14] Lewis D,Catlett J. Heter0gene0us uncertainty sampling for supervised learning[C]/Proc of ICML 1994.San Francisco: Morgan Kaufmann,1994:148—156 [15] McCallum A,Nigam K.Employing EM in pool—based active learning for text classification[C]//Proc of ICML 1998.San Francisco:Morgan Kaufmann,1998:359—367 1171 [ 0] Tong S,Koller D.Support vector machine active learning with applications to text classification[c]/Proc of ICML 2000.San Francisco:Morgan Kaufmann,2000:999—1006 [17] Hoi S C H,Jin Rong,Lyu M R.Large scale text categorization by batch mode active learning[c]/Proc of WWW 2006.New York:ACM,2006:633-642 [18] Thompson C A,Califf M E,Mooney R J.Active learning for natural language parsing and information extraction[c]// Proc of ICML 1999.San Francisco:Morgan Kaufmann, 1999:406—414 [193 Settles B.Craven M.An analysis of active learning strategies for sequence labeling tasks[c]//Proc of EMNLP 2008. Stroudsburg,PA:ACL,2008:1069—1078 [20] Tong S,Chang E.Support vector machine active learning for image retrieval[C]//Proc of Multimedia 2001.New York: ACM,2001:107—118 [21] Zhang Cha,Chen T.An active learning framework for content based information retrieval[J].IEEE Trans on 、 Multimedia,2002,4(2):260—268 [223 Yan Rong,Yang Jie,Hauptmann A.Automatically labeling video data using multi—class active learning[c]/Proc of IEEE ICCV 2003.Piscataway,NJ:IEEE,2003:516-523 [23] Hauptmann A,Lin Weihao,Yan Rong et a1.Extreme video retrieval:Joint maximization of human and computer performance[C]//Proc of Multimedia 2006.New York: ACM,2006:385—394 [24] Liu Ying.Active learning with support vector machine applied to gene expression data for cancer classification[J]. Journal of Chemical Information and Computer Sciences, 2004,44(6):1936-1941 [25] Balcan M F,Broder A Z,Zhang Tong.Margin based active learning[G]//LNCS 4539:Proc of COLT 2007.Berlin: Springer,2007:35—50 [26] Dasgupta S,Kalai A T,Monteleoni C. Analysis of perceptron—based active learning[G]//LNCS 3559:Proc of COLT 2005.Berlin:Springer,2005:249—263 [27] Dasgupta S.Coarse sample complexity bounds for active learning[c]//Proc of NIPS 2005.Cambridge,MA:MIT Press,2006:235-242 [28] Balcan M F,Hanneke S,Wortman J.The true sample complexity of active learning[c]//Proc of COLT 2008. Madison,WI:Omnipress,2008:45—56 [29] Dasgupta S.Analysis of a greedy active learning strategy[c] //Proc of NIPS 2004.Cambridge,MA:MIT Press,2005: 337—344 [30] Freund Y,Seung H S,et a1.Selective sampling using the query by committee algorithm[刀.Machine Learning,1997, 28(2/3):133-168 [31] Gilad—Bachrach R。Navot A,Tishby N.Query by committee made real[c]//Proc of NIPS 2005.Cambridge,MA:MIT Press,2006:443-450 l172 [32] Balcan M,Beygelzimer A,Langford J.Agnostic active learning[c]/Proc of ICML 2006.New York:ACM,2006: 65—72 [33] Hanneke S.A bound on the label complexity of agnostic active learning[c]/Proc of ICML 2007.New York:ACM, 2007:353-360 [34] Dasgupta S,Hsu D,Monteleoni C.A general agnostic active learning algorithm[c]/Proc of NIPS 2007.Cambridge, MA:MIT Press,2008:353-360 [353 Beygelzimer A,Dasgupta S,Langford J. Importance weighted active learning[c]//Proc of ICML 2009.New York:ACM,2009:49—56 E36] Wang Wei,Zhou Zhihua.On multi—view active learning and the combination with semi—supervised learning[c]/Proc of ACM ICML 2008.New York:ACM,2008:1I52~1I59 [37] Hanneke S.Rates of convergence in active learning[J].The Annals of Statistics,2011,39(1):333—361 [38] Castro R M,Nowak R D.Upper and lower error bounds for active learning[c]/Proc of Allerton 2006.Red Hook,NY: Curran Associates,2007:225-234 [39] Kaariainen M.Active learning in the non—realizable case[G] //LNAI 4264:Proc of ALT 2006.Berlin:Springer,2006: 63—77 [40] Cavallanti G, Cesa—Bianehi N, Gentile C.Linear classification and selective sampling under low noise conditions[c]/Proc of NIPS 2008.Cambridge,MA:MIT Press,2009:249-256 [41] Castro R M,Nowak R D.Minimax bounds for active learning[J].IEEE Trans on Information Theory,2008,54 (5):2339-2353 [42] Wang Liwei. Sufficient conditions for agnostic active learnable[c]/Proe of NIPS 2009.Cambridge,MA:MIT Press,2009:1999-2007 [43] Wang Wei,Zhou Zhihua.Multi—view active learning in the non—realizable case[c]//Proc of NIPS 2010.Cambridge, MA:MIT Press,2010:2388-2396 [44] Muslea I,Minton S,Knoblock C A.Active learning with multiple-views[J]. Journal of Artificial Intelligence Research,2006,27:203-233 [45] Culotta A,McCallum A. Reducing labeling effort for structured prediction tasks[c]//Proc of AAAI 2005.Menlo Park,CA:AAAI,2005:746—751 [46] Scheffer T,Decomain C,Wrobel S.Active hidden Markov models for information extraction[G]//LNCS 2189:Proc of CAIDA 2001.Berlin:Springer,2001:309—318 [471 Kim S,Song Yu,K Kim,et a1.MMR—based active machine learning for bio—named entity recognition[C]/Proc of HLT_ NAACL 2006.Stroudsburg,PA:ACL,2006:69—72 [48] Schohn G,Cohn D.Less is more:Active learning with support vector machines[c]//Proc of ICML 2000.San Francisco:Morgan Kaufmann,2000:839—846 计算机研究与发展2012,49(6) [49] Xu Zhao,Yu Kai,Tresp V,et a1.Representative sampling for text classification using support vector machines[G]// LNCS 2633:Proc of ECIR 2003.Berlin:Springer,2003: 393-407 [50] Nguyen H T,Smeulders A.Active learning using pre- clustering[c]//Proc of ICML 2004.New York:ACM, 2004:79-86 [51] Sanjoy D,Daniel H.Hierarchical sampling for active learning[c]//Proc of ICML 2008.New York:ACM,2008: 208-215 [52] Donmez P,Carbonell J G,Bennett P N.Dual strategy active learning[G]//LNAI 470 1:Proe of ECML 2007.Berlin: Springer,2007:116-127 [53] Huang Shengjun,Jin Rong,Zhou Zhihua.Active learning by querying informative and representative examples[c]//Proc of NIPS 2010.Cambridge,MA:MIT Press,2010:892-900 E54] Abe N,Mamitsuka H.Query learning strategies using boosting and bagging[c]//Proc of ICML 1998.San Francisco:Morgan Kaufmann,1998:1—9 [55] Freund Y,Sehapire R E.A decision—theoretic generalization of on—line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55(1):119-139 [56] Breiman L.Bagging predictors口].Machine Learning。 1996,24(2):123—140 [57] Geman S,Bienenstock E,Doursat R.Neural networks and the bias/variance dilemma[J].Neural Computation,1992,4 (1):1—58 [58] Cohn D,Ghahramani Z,Jordan M I.Active learning with statistical models口].Journal of Artificial Intelligence Research,1996,4:129-145 [59] Zhang Tong,Oles F J.A probability analysis on the value of unlabeled data for classification problems[C]//Proc of ICML 2000.San Francisco:Morgan Kaufmann,2000:1191—1198 [6O] Paass G,Kindermann J.Bayesian query construction for neural network models[c]//Proc of NIPS 1995.Cambridge, MA:MIT Press,1995:443—450 [61] Hoi S C H,Jin Rong,Zhu Jianke et a1.Batch mode active learning and its application to medical image classification[c] //Proc of ICML 2006.New York:ACM,2006:417-424 [62] Roy N,McCallum A.Toward optimal active learning through sampling estimation of error reduction[c]//Proc of ICML 2001.San Francisco:Morgan Kaufmann,2001:441— 448 [63] Zhu Xiaojin,Lafferty J,Ghahramani Z.Combining active learning and semi—supervised learning using Gaussian fields and harmonic functions[C]/Proc of ICML 2003 Workshop on the Continuum from Labeled to Unlabeled Data.Menlo Park,CA:AAAI,2003:58—65 [64] Guo Yuhong,Greiner R.Optimistic active learning using mutual information[c]//Proc of IJCAI 2007.Menlo Park, CA:AAAI,2007:823—829 吴伟宁等:基于采样策略的主动学习算法研究进展 [653 Moskovitch R,Nissim N,Stopel D et a1.Improving the detection of unknown computer worms activity using active 1173 (宫秀军,孙建平,史忠植.主动贝叶斯网络分类器LJ].计 算机研究与发展,2002,39(15):574—579) [79] Long Jun,Yin Jianping,Zhu En,et a1.An active learning algorithm by selecting the most possibly wrong—predicted learning[G]//1 NCS 4667:Proc of 3oth German Conf on AI 2007.Berlin:Springer,2007:489—493 [66] Sorokin A,Forsyth D.Utility data annotation with amazon instances[J]. Journal of Computer Research and Development,2008,45(3):472—478(in Chinese) mechanical turk[c]//Proc of IEEE CVPRW 2008. Piscataway,NJ:IEEE,2008:1—8 (龙军,殷建平,祝恩。等.选取最大可能预测错误样例的主 动学习算法[J].计算机研究与发展,2008,45(3):472— 478) [67] Sheng V S,Provost F,Ipeirotis P G.Get another label? Improving data quality and data mining using multiple,noisy labelers[c]//Proc of ACM SIGKDD 2008.New York: [8O] Zhou Zhihua,Chen Kejia,Dai Hongbin. Enhancing ACM,2008:614-622 [68] Donmez P,Carbonell J G,Schneider J.Efficiently learning the accuracy of labeling sources for selective sampling[c]// Proc of ACM SIGKDD 2009.New York:ACM,2009:259— 268 [69] Donmez P,Carbonell J G,Schneider J.A probabilistic framework to learn from multiple annotators with time— varying accuracy[C]/Proc of SDM 2010.Philadelphia,PA: SIAM,2010:826-837 [703 Vijayanarasimhan S,Grauman K.Cost~sensitive active visua1 category learning[J].Int Journal of Computer Vision,2011, 91(1):24—44 [71] Baldridge J,Osborne M.Active learning and the total cost of annotation[c]//Proc of EMNLP 2004.Stroudsburg,PA: ACL,2004:9-16 [72] King R D,Whelan K E,Jones F M,et al,Functiona[ genomic hypothesis generation and experimentation by a robot scientist[J].Nature,2004,427(6971):247—52 E733 Kapoor A,Horvitz E,Basu S.Selective supervision: Guiding supervised learning with decision—theoretic active learning[c]//Proc of IJCAI 2007.Menlo Park。CA: AAAI,2007:877-882 [743 Settles B,Carven M,Friedland L et a1.Active learning with real annotation costs[c]/Proe of NIPS 2008 Workshop on Cost—sensitive Learning. Cambridge,MA:MIT Press, 2009:1-10 [75] Ringger E,Carmen M,Haertel R et a1.Assessing the costs of machine-assisted corpus annotation through a user study [c]//Proc of LREC 2008.Paris:ELRA,2008:3318—3324 [763 Arora S,Nyberg E,Rose C P.Estimating annotation cost for active learning in a multi—annotator environment[c]// Proc of NAACL HLT 2009.Stroudsburg,PA:ACL,2009: I8-26 [773 Vijayanarasimhan S,Grauman K.What’8 it going to cOSt yOU?Predicting effort vs.informativeness for muhi一1abel image annotations[c]//Proc of IEEE CVPR 2009. Piscataway,NJ:IEEE,2009:2262—2269 [78] Gong Xiujun,Sun Jianping,Shi Zhongzhi.An active Bayesian network classifier[J].Journal of Computer Research and Development,2002,39(15):574—579(in Chinese) relevance feedback in image retrieval using unlabeled data [J].ACM Trans on Information Systems,2006,24(2): 219-244 [81] Zhou Zhihua,Chen Kejia,Jiang Yuan.Exploiting unlabeled data in content—based image retrieval[G]//LNAI 3201:Proe of ECML 2004.Berlin:Springer,2004:525—536 [82] Settles B,Craven M,Ray S. Multiple—instance active learning[c]/Proc of NIPS 2008.Cambridge,MA:MIT Press,2008:1289—1296 [833 Druck G,Mann G,McCallum A.Learning from labeled features using generalized expectation criteria[C]/Proc of ACM SIGIR 2008.New York:ACM,2008:595—602 [84] Stemp-Morlock G.Learning more about active learning[J]. Communications of the ACM,2009,52(4):11—13 and lTlaln ificial