AI十级找茬选手,非这个书生莫属,节

编辑：好困桃子

为了测试，研发团队的大哥都爬树上了！什么模型竟然只需10%的训练数据，性能就能超越同行，还会免费开源？

考验你眼力的时候到了！

只看一眼，看出什么了嘛？

一块木地板？

只答对了一半，其实图中还有一只喵。

下一个问题，这是什么品种的猫？啊...这...

承认吧，你是辨别不出来的，但是这个AI「一眼」就搞定了。

而这么厉害的AI还有个诗意的名字，叫「书生」。

更厉害的是，基于「书生」的通用视觉开源平台OpenGVLab将会在春节后全部公开！

通用？视觉？

近几年，语言模型的发展可谓是相当迅猛，百花齐放。

小到3.54亿参数的BERT，大到亿参数的威震天-图灵，以及1.6万亿参数的混合模型SwitchTransformer，顺便还有首次常识问答超越人类的KEAR。

那么，视觉模型这边又如何呢？

目前的CV领域主要是图像匹配文本CLIP和文本生成图像DALL·E这种单一模型。

但是NLP方向的各种成绩都表明，发展预训练大模型不仅仅能够处理多种复杂任务、适用多种场景和模态，而且能够增加模型的复用率，减少了模型定制化开发的开销进而也降低了成本。

而且，通用模型也是通往通用人工智能的必经之路。

和通用语言模型类似，通用视觉模型的出发点和训练思路也需要事先通过收集海量的无监督数据。然后通过自监督等方式来训练，得到通用的预训练模型。最后根据具体的下游任务再将通用预训练模型迁移到具体任务上去解决具体问题。

不过，从任务角度看，通用视觉模型主要还是解决纯视觉任务，也涉及一些视觉语言相关的多模态任务，而通用语言模型主要在解决语言相关的任务。而从模型训练角度看，两者的模型结构存在一些差异，具体训练的监督形式也不一样。

但是想要实现模型的通用性，很难。

首当其冲的就是，训练数据不够用。

训练一个性能合格的深度学习模型，所需的数据采集量，少则十几万，多则千百万张图片，比如自动驾驶和人脸识别，对于数据的需求，达到十亿级别，但性能仍未饱和。

在现实应用中，AI需要大量业务数据和用户互联网行为数据的融合，而企业可以应用的数据则非常有限。

数据都采集不到，就更不用提什么「高质量」了。

此外，模型对于数据的学习效率又低，无疑又是雪上加霜。

于是，N个任务就需要开发N个高度定制的模型同时，每个模型在训练的时候又需构建标注数据集进行专项训练，并持续进行权重和参数优化。

时间、人力以及资源的成本直接拉满。

即便如此，依然有人想要挑战一番。

年11月，上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布了新一代通用视觉技术体系——「书生」（INTERN）。

最新文章