A Cookbook of Self-Supervised Learning (自监督学习指南)
1 自我监督学习是什么,为何必须关注?
自监督学习被誉为“智能的暗物质(the dark matter of intelligence)”,是推动机器学习发展的一条有前途的途径。与有监督学习不同的是,自监督方法可以从大量未标注的数据中进行学习,而有监督学习则受到标注数据可用性的限制。自监督学习(SSL)是深度学习在自然语言处理领域取得成功的基础,推进了从机器翻译到基于大规模网络文本语料库预训练的大型语言模型的发展。在计算机视觉领域,SSL推动了数据规模的新突破,例如SEER模型在10亿张图像上进行训练。计算机视觉领域的SSL方法已经能够匹敌或在某些情况下超越经过标注数据训练的模型,甚至在像ImageNet这样竞争激烈的基准测试中也可以达到很好的效果。SSL也已成功地应用于其他模态,例如视频、音频和时间序列。
自监督学习基于未标注的数据定义一个代理任务(pretext task),以产生具有描述性和可理解的表征。在自然语言中,一个常见的自监督学习任务是掩盖文本中的一个单词并预测周围的单词。这个预测单词周围语境的目标鼓励模型在文本中捕获单词之间的关系,而不需要任何人工标签。预训练的自监督学习模型的表征可以用于一系列下游任务,例如机器翻译、摘要、甚至生成文本等。在计算机视觉中,类似的方式可以让模型(如MAE或BYOL)学习预测图像中的某一块掩盖区域。其他自监督学习任务则鼓励将同一图像的两个视图(例如通过添加颜色或裁剪等数据增强)映射到相似的表征。
使用大规模未标注数据进行预训练具有多重优势。传统的有监督学习方法通常根据可用的标注数据训练一个特定任务,而自监督学习则学习适用于不同任务的通用表征。自监督学习在医学等人工标注成本高或者特定任务不确定的领域尤为有用。此外,证据表明对应的有监督对应模型相比,自监督模型可以学习出更加鲁棒的表征,能够抵抗对抗性样本、标注破坏和输入扰动,并且更加公平。因此,自监督学习是一个受到越来越多关注的领域。然而,就像烹饪一样,训练自监督学习方法是一门需要高门槛的艺术。