当基础模型时代深度学习遇上主动学习

导读中国的一个研究团队撰写了一篇关于深度主动学习的评论文章，深度主动学习是一种日益流行的将主动学习与深度学习相结合的方法，用于人工智能...

中国的一个研究团队撰写了一篇关于深度主动学习的评论文章，深度主动学习是一种日益流行的将主动学习与深度学习相结合的方法，用于人工智能任务的神经网络训练中的样本选择。它于 11 月 30 日发表在Science Partner 期刊《智能计算》上。

鉴于基础模型背景下深度主动学习技术的研究有限，本综述提供了对此主题的一些见解。它调查了现有的深度主动学习方法、应用，特别是“基础模型时代”的挑战，得出结论认为有必要为基础模型开发定制的深度主动学习技术。

最近，基础模型的成功引起了人们对人工智能数据密集型本质的关注。基础模型通常采用深度学习技术构建，并在大量标记数据集上进行训练。只有准确的数据标记或注释，模型才能做出准确的预测并适应各种下游任务。然而，生成此类数据是费力、困难且昂贵的。

这就是深度主动学习的用武之地。使用主动学习来训练深度学习模型可以有效减少繁重的标记工作，因为主动学习只选择和标记最有价值的样本。因此，深度主动学习可以使学习过程更加顺畅并降低成本，从而有助于“资源高效、标记可靠的数据”。

与典型主动学习框架的结构(包括查询数据、查询策略、人工标注和模型训练循环)相一致，深度主动学习方法涉及查询策略、查询数据集特征和模型训练。

有效的查询策略是选择最有价值的样本进行数据标注的关键。主动学习查询策略一般分为三类：成员查询综合、基于流的采样和基于池的采样;这种分类基于未标记样本到数据注释器的流动。

另一方面，对于深度主动学习算法，有四种策略：基于不确定性、基于分布、混合和自动设计。

基于不确定性的策略识别不确定性最高的样本，基于分布的策略侧重于数据的底层结构以识别代表性样本，混合策略结合基于不确定性和基于分布的选择指标;所有这三种类型都是手动设计的，因此不容易适应深度学习模型，并且过度依赖人类的专业知识。这些问题可以通过使用元学习或强化学习的自动设计策略来解决。

查询策略必须根据各种数据集特征进行定制，例如查询数据集的大小、预算和分布，查询数据集是从要标记的较大数据集中精心选择的子集。具体来说，数据增强通常用于提高标记训练数据的多样性和数量;应采取不同的策略来适应不同的预算规模，并应对标记数据和未标记数据分布之间的不匹配，即所谓的域转移问题。

对于模型训练，作者讨论了如何将深度主动学习与当前大量数据的主流方法(包括监督训练、半监督学习、迁移学习和无监督学习)相结合，以达到最佳的模型性能。

然后介绍了深度主动学习在各种场景中的应用，特别是那些涉及昂贵、耗时的数据收集和注释的应用。正如作者所观察到的，深度主动学习不仅被用来处理视觉数据、自然语言和声学信号等单模态数据，而且还被用来处理丰富的多模态数据。

然而，作者也指出，当前大多数深度主动学习方法都集中在特定于任务的模型，而不是全面的、数据密集型的基础模型。为了更好地将深度主动学习融入基础模型并最大化联合性能，需要解决训练和细化基础模型的几个关键挑战，包括数据质量评估、主动微调、数据选择和注释之间的高效交互以及开发高效的模型。机器学习操作系统。

首页

财经

体育

生活

房产

手机

科技

汽车

精选百科

动态

综合精选