Google Gemini技术报告要点提炼:
1.技术报告60页,没有透漏具体技术细节,大部分是评测,技术报告作者列表包含9页内容,超过700人,应该接近OpenAI的员工总数了吧。
2.Gemini是几种模态一起联合从头训练的,包括文本、图片、音频、视频等。这与目前通常的多模态做法不太一样,目前的多模态模型一般是使用现成的语言大模型或者经过预训练过的图片模型(比如CLIP的图片编码部分),然后利用多模态训练数据在此基础上加上新的网络层训练;如果是几个模态从头开始一起训练,那么按理说应该都遵循next token prediction的模式,就应该是LVM的那个路子,其它模态的数据打成token,然后图片、视频等平面数据先转换成比如16*16=256个token,然后搞成一维线性输入,让模型预测next token,这样就把不同模态在训练阶段统一起来。
3.技术报告说应该是Decoder only的模型结构,针对结构和优化目标做了优化,优化目的是大规模训练的时候的训练和推理的稳定性,所以大结构应该是类似GPT的Decoder-only预测next token prediction的模式。目前支持32K上下文。
4.Gemini Nano包含两个版本:1.8B面向低端手机,3.25B面向高端手机。文章说Nano首先从大模型蒸馏,然后4bit量化。我这里有个问题:为什么不用手机调用API的方式调用服务端的最强模型呢?能想到的一个可能的解释是用户隐私,这样手机不用把数据传到云端;另外一个推理成本从云端转移到了手机,能够大量节省推理成本。还有其他原因么?
5.从硬件描述部分来看,意思是动用了前所未有的TPU集群,所以推测Gemini Ultra的模型规模应该相当大,猜测如果是MOE大概要对标到GPT 4到1.8T的模型容量,如果是Dense模型估计要大于200B参数。考虑到引入视频音频多模态数据(当然是来自于Youtube了,难道会来自TikTok么),所以总数据量*模型参数,会是非常巨大的算力要求,技术报告说可以一周或者两周做一次训练。
6.训练可能分成多个阶段,最后阶段提高了领域数据的混合配比,猜测应该指的是逻辑和数学类的训练数据增加了配比,目前貌似很多这么做的,对于提升模型逻辑能力有直接帮助。
7.看学科能力测试,技术报告指标有人为拔高的倾向,比如MMLU,只有CoT给32个例子Gemini才能超过GPT4,当例子数量减少到5个,Gemini ultra得分83.7%,不如GPT 4得分86.4%,高于GPT 3.5的70%。从测试具体情况看,gemini ultra应该是和GPT4基本持平或者稍微弱于GPT 4的,gemini pro和ultra差距比较大,应该略微强于GPT 3.5;而且Llama2 在数学、推理等方面与最好的大模型效果差距非常明显,不同测试指标差距20到40分之间;
8.从学科能力测试数据看,目前大模型能力很可能顺序如下:GPT 4 略微强于Geminni ultra> Claude 2> inflection-2> GPT 3.5= Grok 1 >Llama2。
9.AlphaCode2是在Gemini pro基础上,使用编程竞赛的数据fine-tune出来的,效果提升很明显,在编程竞赛上排名超过85%的人类选手,之前的AlphaCode1超过50%的人类选手;
10.Gemini Ultra在多模态能力方面,在几乎所有测试数据上确实要比GPT 4V强一些。
11.命令理解方面:和GPT一样,采用多模态instruct数据进行SFT+RM+RLHF三阶段,这里的RM部分在训练打分模型的时候,采用了加权的多目标优化,三个目标helpfulness factuality和 safety,猜测应该是对于某个prompt,模型生成的结果,按照三个指标各自给了一个排序结果。
一个悲观的结论:
最后多说一句,从Gemini能够推断出一个悲观的结论如下:
因为在GPT 4V前大多数是文本模型,很多人觉得文本模型缺乏Grounding,就是文本抽象语义和真实物理对象对应不起来,大模型理解不了物理世界的知识,而视频数据那么多,如果引进了后,大模型不仅能建立起grounding,更重要的是视频数据蕴含了比文本更多的知识,所以对大模型的知识储备会有极大的增长。这里可能存在误解。
从Gemini的效果来看,事实可能并非如此,Gemini多模态效果不错,它主打多模态,肯定引入了尽量多的视频、图片信息,这一方面说明多种模态联合训练确实有用,但是它的用处主要在于:把文本抽象概念和物理实体形象的对应Grounding建立起来了,但是在大模型的世界知识和各种能力储备方面,经过大量视频强化过的Gemini甚至可能还比不过只用文本训练的GPT 4。
这一切指向如下可能:就世界知识含量来说,文本是大模型获取知识的主要来源渠道,视频、图片数据在这方面对于文本的世界知识补充作用微乎其微,视频、图片和文本多模态训练的主要作用是建立起实体概念及知识抽象表述和外在物理形象绑定建立grounding而已。除此外,无需对类似视频等多模态数具有更高的期望。
本质上,目前多模态大模型效果还不错,是大模型把从文本中学到的世界知识和逻辑能力,经过grounding绑定到实体外在形象后,在多模态场景下语言模型把丰富的世界知识迁移给了多模态模型,是文本模型带着多模态在飞,而不是反过来。收起