域自适应学习(Domain Adaptation Learning)能够有效地解决训练样本和测试样本
概率分布不一致的学习问题,是当前机器学习的热点研究领域,在自然语言处理,文本分析,
生物信息学,跨语言分析,视频分析,情感分析和手写体识别等领域有广泛应用。
问题描述
域自适应学习能够有效地解决训练样本和测试样本概率分布不一致的学习问题, 作为机器学习新出现的研究领域在近几年受到了广泛的关注.传统的
机器学习算法中, 通常假设训练样本和测试样本来自同一概率分布, 然后设计相应的模型和判别准则对待测试的样例的输出进行预测. 但是实际上当前很多学习场景下训练样本的概率分布和测试样本的概率分布是不同的, 例如如何根据老用户的邮件信息设计一种面向新用户的垃圾邮件过滤系统、自然语言处理方面的情感分析、依存句法分析、跨语言处理等都属于域自适应学习问题. 如何在这种源域和目标域概率分布不一致的情况下进行学习即为域自适应学习问题. 因此, 域自适应学习的重点在于如何克服源域分布和目标域分布不同, 实现目标域上的学习任务.
自适应学习假设
协变量迁移假设
概念迁移(Concept shift) 假设
先验概率迁移(Prior probability shift)
分类
从不同的学习场景看, 域自适应学习可分为: 分类问题、回归问题和聚类问题. 降维是处理域自适应学习问题的一种重要手段, 因此有必要将域自适应降维作为单一独立的主题, 与域自适应分类、域自适应回归和域自适应聚类一起进行讨论.
对于多源域和多目标域的学习, 不同类的域自适应学习所侧重的应用场景也不同. 多源域自适应学习多用于多示例学习场景和多视图学习场景. 而多目标域自适应学习多用于多标签学习场景、结构化输出、偏序学习和排序学习等场景.
根据源域和目标域的观点, 自适应学习理论和方法由两部分构成: 单源域单目标域自适应学习和多源域多目标域自适应学习. 如果能够对单源域-单目标域实现域自适应学习, 那么通过组合等方法可以扩展为多源域- 多目标域的域自适应学习. 即单源域-单目标域学习理论和方法可视为域自适应学习的基石, 多源域-多目标域学习可以看作扩展.
单源域-单目标域的域自适应学习分为
样例加权域自适应学习、特征表示域自适应学习、基于特征和参数分解的域自适应学习.
样例加权域自适应学习对训练样本附加权值, 使加权后的训练样本的概率分布逼近目标域的概率分布, 根据域自适应学习权值的计算方法的不同, 将样例加权域自适应学习分为: 重要性抽样方法、核均值匹配方法和Ad-aBoost 方法;
特征表示域自适应学习是将样例映射到新的特征空间中, 通过选择合适的特征表示方式,使源域和目标域在新的特征空间下的分布相同或尽可能相同.
基于特征表示的域自适应学习算法多种多样, 最重要的两种方法是基于核映射函数的方法和结构对应学习, 此外还包含协同聚类方法、维数约简方法、迁移分量分析方法. 其中基于核映射函数的方法又包含最小化均值偏差和最小化离散度偏差两种映射方法;
基于特征和参数分解的方法的基本思路是对特征和模型参数分解, 这种基于特征和模型参数分解的方法是处理域自适应学习问题的另一类有效方法. 分解方法包括增广特征和模型参数分解两种形式. 通过适当的处理方法(例如组合加权等方法), 可以将单源域- 单目标域学习理论有效的扩展为多源域- 多目标域的情况.
解决多源域自适应学习问题的方法可分为三大类: 基于源域判别函数学习的方法、基于正则化项加权组合的方法和基于流形平滑性假设的方法.
理论分析
域自适应学习理论研究主要集中于:
(1) 学习的可能性, 即满足什么条件才有可能实现域自适应学习;
(2) 学习的鲁棒性, 域自适应学习的鲁棒性与普通意义上的鲁棒性是不同的: 在域自适应学习的鲁棒性中, 将训练样本分布和测试样本分布之间存在的差异 视为扰动, 通过克服扰动, 实现对目标域的学习;
(3) 学习的统计估计一致性, 域自适应学习算法应使用尽可能少的样本数, 具有尽可能好的泛化能力, 实现最小的误差上界.