国内大模型发展
国内AI市场迅速发展,数据量增速或将全球第一
国内应用层面的需求推动AI产业的加速发展,或将带来市场的爆发性增长。 根据IDC数据预测,2021年中国人工智能软件及应用市场规模为51亿美元,预计2026年将会达到211亿美元。 数据、算法、算力是AI发展的驱动力,其中数据是AI发展的基石,中国数据规模增速或排名全球第 一。 据IDC统计,中国数据规模将从2021年的18.51ZB增长至2026年的56.16ZB,年均增长速度CAGR为24.9%,增速位居全球第一。
国内各大科技企业纷纷入局AI大模型
大模型增强了AI技术的通用性,助力普惠AI的实现。未来,大模型有望于场景深度融合,配合专业工 具和平台支持应用落地,开放的生态来激发创新,形成良性循环。 头部企业均采取“模型+工具平台+生态” 三层共建模式,有助于业务的良性循环,也更容易借助长 期积累形成竞争壁垒。 大模型厂商主要包括百度、腾讯、阿里、商汤、华为等企业,也有智源研究院、中科院自动化所等研究机构,同时英伟达等芯片 厂商也纷纷入局。
百度:文心大模型
百度文心大模型:模型+平台+产品构成全套体系
百度文心构建了文心大模型层、工具平台层、产品与社区三层体系。 产品能力:文心大模型+飞桨PaddlePaddle深度学习平台,满足市场大规模落地需求。 应用能力:百度已在金融、能源、制造、城市、传媒、互联网等行业拥有实际落地的标杆案例。 生态能力:在社区用户的基础上,可以实现与开发者、行业用户、上下游产业的正向互动。
百度飞桨:深度学习平台为大模型研发基石
飞桨(Paddle-Paddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和 推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体,是国内功能丰富、开源开放的产 业级深度学习平台。截止2022年底,共服务企事业单位20万家,创建模型67万个。 飞桨深度学习平台解决大模型研发和部署的各类问题,文心大模型是飞桨模型库的重要组成部分,与飞桨共享生态, 包含产业级知识增强大模型体系,以及工具平台、API和创意社区助力大模型的高效应用。
文心大模型在市场格局中处于第一梯队
百度率先在2019年3月发布预训练模型ERNIE1.0,文心大模型构建了“基础+任务+行业”的三级模型体系,基础大模 型支撑任务与行业大模型的建设,任务和行业大模型结合真实场景与数据反哺基础大模型优化,目前已有36个大模型。 基础大模型:聚焦技术挑战、通用性、泛化性探索,包括含NLP大模型、CV大模型和跨模态大模型。 任务大模型:包含对话、搜索、信息抽取、生物计算等多个典型任务。 行业大模型:包含与来自8个行业的头部企业或机构共建的11个行业大模型。 IDC评估结果显示,百度文心大模型处于第一梯队,产品能力、生态能力达到L4水平,应用能力达到L3水平。
基础大模型:聚焦技术挑战、通用性、泛化性探索
文心基础大模型覆盖了NLP、CV、跨模态三大方向。 文心NLP大模型:ERNIE3.0基于知识增强的多范式统一预训练框架,深入融合的千亿级知识,具备强大的语言理解能 力与小说、摘要、文案创意、歌词、诗歌等文学创作能力;与鹏城实验室合作发布了知识增强千亿大模型“鹏城-百 度·文心“。 文心CV大模型:VIMER系列的CV大模型,包括视觉自监督预训练大模型VIMER-CAE,多任务学习模型VIMERUFO2.0,端到端文档OCR表征学习预训练模型VIMER-StrucTexT2.0等。 文心跨模态大模型:ERNIE-ViLG2.0文生图大模型、ERNIE-ViL视觉-语言大模型、ERNIE-Layout文档智能大模型等。
任务大模型:面向多个经典下游任务推出的模型
任务大模型包括,对话大模型PLATO、搜索大模型ERNIE-Search、信息抽取大模型ERNIE-UIE、代码生成大模型 ERNIE-Code、生物计算大模型等。 PLATO:基于隐变量的生成式开放域对话大模型,具备接近真人水平的多轮流畅对话能力,开放域对话效果达到世界领先水平。 ERNIE-UIE:支持多种类型的开放抽取任务,用户可以使用自然语言自定义抽取目标,无需训练即可抽取输入文本中的对应信息。 ERNIE-Code:基于海量代码和文本数据进行预训练,引入联合学习,具备跨多种自然语言和编程语言的语义理解和生成能力。 文心生物计算大模型构建面向化合物分子、蛋白分子的生物计算领域预训练模型,赋能生物医药行业,包括单序列蛋白质结构预 测模型HelixFold、蛋白质结构预测模型HelixFold-Single、化和表征学习模型HelixGEM-2。
行业大模型:深入产业落地的重要举措
行业大模型是百度与行业头部企业、机构联合研发的融合行业数据、知识以及专家经验的大模型,在各行业的技术效 果突破、产品创新、生产流程变革、降本增效等维度产生价值。 与国网合作的NLP大模型:探索研发电力人工智能联合大模型,不仅提升了传统电力专用模型的精度,而且大幅降低了研发门槛, 实现了算力、数据、技术等资源的统筹优化。 与人民网的合作的NLP大模型:引入舆情数据中心积淀的行业知识来更好训练知识增强的传媒行业大模型,实现更少的标注数据 下大幅提升传媒行业自然语言处理任务效果,如新闻内容审核分类、舆情分析、摘要生成等。 与TCL合作的CV大模型:在TCL几个产线检测mAP指标平均提升10%+,训练样本减少到原有训练样本30%~40%,产线指标即 可达到原有产线效果,新产线冷启动效率可提升3倍,产线上线开发周期降低30%。
应用:平台及产品面向B端C端齐发力
百度文心围绕大模型产业应用的不同研发环节,面向各阶段不同技术、业务背景的开发者或用户,打造系列工具平台 与场景化产品。 面向开发者:拥有面向NLP工程师的大模型套件ERNIEKit,包括数据标注与处理、大模型精调、大模型压缩、高性能部署、场景 化工具五大模块能力;AI开发平台,包括零门槛AI开放平台EasyDL,和面向AI算法开发者提供全功能AI开发平台BML。 面向下游应用:文心开放了API接口,包括NLP大模型ERNIE3.0、跨模态大模型ERNIE-ViLG、对话大模型PLATO。 面向用户:推出了基于大模型驱动的新一代产业级搜索系统文心百中,以及AI艺术与创意辅助平台文心一格。
腾讯:混元大模型
腾讯HunYuan大模型:深入产业落地的重要举措
2022年4月,腾讯首次对外披露HunYuan大模型,协同了腾讯预训练研发力量,完整覆盖NLP大模型、 CV大模型、多模态大模型及众多行业/领域任务模型。 HunYuan-NLP:万亿级别中文NLP预训练模型,参数量达1T,排名CLUE1.1总排行榜第一。 HunYuan-vcr:排名VCR(Visual Commonsense Reasoning)榜单第一。 HunYuan_tvr:跨模态文字-视频检索AI大模型。
太极机器学习平台:HunYuan大模型的底层支持
太极是腾讯自主研发的一站式机器学习生态服务平台,为AI工程师打造从数据预处理、模型训练、模型评估到模型服 务的全流程高效开发工具,为大模型的训练提供了有力保障。 太极AngelPTM:预训练加速组件,单机最大可容纳55B模型,需要192张卡就可以训练万亿模型。 太极-HCF ToolKit:大模型压缩和分布式推理组件,包含了从模型蒸馏、压缩量化到模型加速的完整能力。 太极 - HCF distributed为大模型分布式推理组件,使得HunYuan-NLP 1T大模型推理只需 96张A100(4G) 卡,相比于“威震天”资源设 备占用减少了 40%。 太极 – SNIP为大模型压缩组件,从蒸馏框架和压缩加速算法两方面,实现了迭代更快,效果更好,成本更低的大模型压缩。
应用:为腾讯生态降本增效,广告类应用表现出色
HunYuan先后支持了包括微信、QQ、游戏、腾讯广告、腾讯云等众多产品和业务,降本增效。 依靠HunYuan的多模态理解能力,在广告内容理解、行业特征挖掘、文案创意生成等方面的应用,在为腾讯广告带来 大幅GMV提升的同时,也初步验证了大模型的商业化潜力。 HunYuan大模型和腾讯广告精排大模型基于太极机器学习平台,共同完善优化了广告理解、用户理解、广告和用户匹配的整个流程,提升对广 告理解、匹配效率、精准度和转化效率。 HunYuan大模型的生成能力,可以提升广告制作的效率:“图生视频”功能,可以将静态的图片自动生成不同样式的视频广告;“文案助手” 功能,可以为广告自动生成更恰当的标题,提升广告的效果;“文生视频”功能,未来只需要提供一句广告文案,就可以自动生成与之匹配的 视频广告。
阿里:通义大模型
通义大模型:让AI更通用
2022年9月,在阿里巴巴达摩院主办的世界人工智能大会“大规模预训练模型”主题论坛上,发布 “通义”大模型系 列,并宣布相关核心模型向全球开发者开源开放。 阿里达摩院基于其 AI 统一底座构建了通用模型与专业模型协同的层次化人工智能体系。 统一底座层:M6-OFA模型作为单一模型,在不引入新增结构的情况下,可处理超过30种跨模态任务。 通用模型层:NLP模型“通义 – AliceMind”;CV模型“通义 - 视觉”;多模态模型“通义 - M6”。 专业模型层:深入电商、医疗、娱乐、设计、金融、工业、制造业等行业。
底座层:实现模态表示、任务表示、模型结构统一
通义大模型背后的核心技术为统一学习范式OFA,使其具备了多种任务的“大一统”能力。 单一模型即可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务;升级后更 是可以处理超过包括语音和动作在内的30多种跨模态任务。 架构统一:使用Transformer架构,统一进行预训练和微调,无需在应对不同任务时,增加任何特定的模型层。 模态统一:不管是NLP、CV这种单模态,还是图文等多模态任务,全都采用同一个框架和训练思路。 任务统一:将所有单模态、多模态任务统一表达成序列到序列(Seq2seq)生成的形式,同类任务的输入几乎就是 “一个模子里刻出来的”。
通用模型层:趋向于统一大模型的演化
通义 - M6为多模态大模型, 已经从 2020 年 6 月的 3 亿参数基础模型发展到 2021 年 10 月的 10 万 亿参数全球最大预训练模型到 2022 年 1 月的业界首个通用统一大模型 M6-OFA。 2021年3月,发布通义 – AliceMind,为达摩院开源的深度语言模型体系,CLUE1.1总排行榜第二。 AliceMind生态体系包括:通用语言模型 StructBERT、多模态语言模型 StructVBERT 、多语言模型VECO 、生成式模 型 PALM、文档图像理解模型Structural LM、表格理解模型SDCUP、超大中文理解与生成模型PLUG(24层 StructBERT编码器+“24-6”层的PALM编码器-解码器)、超大图像-文本模型mPLUG等。
华为:盘古大模型
华为盘古大模型:深耕大模型的行业应用
华为云团队于2020 年立项AI 大模型,并且于2021 年4 月发布“盘古大模型”。受益于华为的全栈式AI 解决方案,大 模型与昇腾(Ascend)芯片、昇思(MindSpore)语言、ModelArts 平台深度结合。盘古大模型已经发展出包括基础大模型(L0)、行业大模型(L1)、行业细分场景模型(L2)三大阶段的成熟体系。 2022年11月,在华为全联接大会2022中国站上,华为云进一步迭代盘古大模型的技术能力,扩展盘古大模型的服务范围,发布 盘古气象大模型、盘古矿山大模型、盘古OCR大模型三项重磅服务。
ModelArts:大模型研发的平台支持
ModelArts 是面向开发者的一站式AI平台,为机器学习与深度学习提供海量数据预处理及交互式智能 标注、大规模分布式训练、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部 署模型,管理全周期 AI 工作流。 ModelArts的主要能力包括数据处理、算法开发、模型训练、AI应用管理和部署;功能模块涵盖了强化学习、天筹(OptVerse)AI求 解器、盘古大模型、AI Gallery(人工智能知识与实训专区)、IDE(云原生 Notebook)等。
基础大模型:将Transformer应用于各模态
盘古语音语义大模型:语义模型是业界首个千亿中文大模型;语音模型拥有超过4 亿参数,是当前最大的中文语音模型之一。 语义部分,基于Transformer搭建基础架构,针对理解能力,使用类似BERT的MLM方式训练;针对生成能力,使用回归语言模型作为训练目标,即给定一句 话的上半部分,让模型预测下半部分。2022年,华为在鹏城云脑Ⅱ上训练了全球首个全开源2000亿参数的自回归中文预训练语言大模型——鹏程·盘古。
语音部分,使用卷积与Transformer 结合的网络结构,解码器与文本类似;音频编码器部分,预训练时采取将音频中挖掉一个片段,再随机采样一些片段作为 负例,让模型从中找出正确的被挖掉的片段。
盘古视觉大模型:最大拥有30亿参数,兼顾判别与生成能力;在小样本学习性能领先。 融合了卷积网络和Transformer 架构,分开或按需结合达到更好效果;业界首创基于等级化语义聚集的对比度自监督学习,以减少样本选取过程中的噪声影响。
盘古多模态大模型:使用LOUPE 算法预训练所得的模型,在多项下游任务中表现出了更好的精度。 采用了双塔架构,利用不同的神经网络来完成不同模态的信息抽取,然后仅在最后一层做信息交互和融合,具有模型独立性强、训练效率高等优势。 实现方式为:分别抽取图像和文本特征,然后将一个批次的图像和文本特征送入判别器,使得配对的跨模态特征聚集在一起,而不配对跨模态特征被拉远,大 数据充分迭代后,模型就能学会将图像和文本对齐到同一空间。此时,图像和文本的编码器可以独立用于各自下游任务,或协同用于跨模态理解类下游任务。