文心是百度自主研发的产业级知识增强大模型,以创新性的知识增强技术为核心,从单模态大模型到跨模态、从通用基础大模型到跨领域、跨行业持续创新突破,构建了模型层、工具与平台层,大幅降低人工智能开发和应用门槛,加快人工智能大规模产业化进程并拓展人工智能技术边界。
文心全景
文心是百度自主研发的产业级知识增强大模型,已经形成了基础-任务-行业三级大模型体系,包括自然语言处理、视觉、跨模态等基础大模型,对话、跨语言、搜索、信息抽取等任务大模型,生物计算领域大模型,行业大模型,以及支撑大模型应用的工具平台。
自然语言处理
ERNIE 3.0 是ERNIE系列大模型的进一步升级。除了对无标注数据和知识图谱的学习之外,还通过持续学习对百余种不同形式的任务数据学习,实现了任务知识增强,显著提升了模型的零样本/小样本学习能力。ERNIE 3.0 在学习过程中使用统一范式的多任务学习,建模数据中不同粒度的语义信息。为了进一步学习特定任务的相关知识,ERNIE 3.0 提出了层次化提示(Prompt)学习技术。在数据构造时通过层次化的Text Prompt库将百余种不同的任务统一组织成自然语言的形式,和海量无监督文本以及百度知识图谱联合学习。此外训练过程引入了层次化的 Soft Prompt 建模了不同任务之间的共性与特性,进一步提升了模型对于不同下游任务的建模能力。
ERNIE 3.0 可以支持智能创作、摘要生成、问答、语义检索、情感分析、信息抽取、文本匹配、文本纠错等各类自然语言理解和生成任务。基于ERNIE 3.0 于2022年5月20日对外发布了开放的千亿参数的中文生成API,供各行各业的开发者调用和开发,使用其强大的零样本和小样本学习能力。
鹏城-百度·文心(ERNIE 3.0 Titan)参数规模达到2600亿,相对GPT-3的参数量提升50% 。沿袭了ERNIE 3.0的海量无监督文本与大规模知识图谱的平行预训练算法及兼顾语言理解与语言生成的统一预训练框架。在此基础上,鹏城-百度·文心中提出了可控学习和可信学习算法。在可控学习方面,模型具备了不同类型的零样本生成能力。使用者可以将指定的体裁、情感、长度、主题、关键词等属性自由组合,无需标注任何样本,便可生成新的类型的文本。在可信学习方面,鹏城-百度·文心通过自监督的对抗训练,让模型学习区分数据是真实的还是模型伪造的,使得模型对生成结果真实性具备判断能力,从而让模型可以从多个候选中选择最可靠的生成结果,显著提升了生成结果的可信度。
鹏城-百度·文心首创了大模型在线蒸馏技术,显著降低了大模型应用成本。其在训练过程中周期性地将知识信号传递给若干个学生模型同时训练,保证了学生模型的效果和尺寸丰富性,方便不同性能需求的应用场景使用。其参数压缩率可达99.98%。压缩版模型仅保留0.02%参数规模就能与原有模型效果相当。
鹏城-百度·文心在60多项任务中取得最好效果,在其中30多项小样本和零样本任务上大幅刷新业界基准。知识推理任务上,鹏城-百度·文心相对OpenAI GPT-3准确率绝对提升8%。在行业领域,仅利用少量标注数据甚至无需标注数据,就能解决新场景的任务,已成为AI工业化大规模应用的关键。
与文心大模型3.0版本相比,文心大模型3.5在效果、功能、性能上全面提升,这不仅表现在文心大模型的创作、问答、推理和代码的提升上,还体现在训练速度和推理速度的提升上。在基础模型训练上,采用了飞桨最先进的自适应混合并行训练技术及混合精度计算策略,并采用多种策略优化数据源及数据分布,加快了模型迭代速度,显著提升了模型效果和安全性。同时,创新了多类型多阶段有监督精调、多层次多粒度奖励模型、多损失函数混合优化策略、双飞轮结合的模型优化等技术,进一步提升模型效果及场景适配能力。文心大模型3.5还新增了插件机制,包括官方插件百度搜索和ChatFile,使得文心一言能够生成实时准确信息和长文本摘要,拓展了大模型能力边界。
文心大模型4.0在人工智能核心的理解、生成、逻辑、记忆方面能力全面提升,各类AI应用场景具备极强的泛化能力。例如,在万卡算力上运行飞桨平台,通过集群基础设施和调度系统、飞桨框架的软硬协同优化,支持了大模型的稳定高效训练。建设了多维数据体系,形成了数据挖掘、分析、合成、标注、评估闭环,充分释放数据价值,大幅提升模型效果。基于有监督精调、偏好学习、强化学习等技术进行多阶段对齐,保障模型更好地与人类的判断和选择对齐。可再生训练技术通过增量式的参数调优,有效节省了训练资源和时间,加快了模型迭代速度。
PLATO-XL是百亿级参数中英文对话模型,支持开放域闲聊、知识增强等多种类型的对话任务。PLATO首次提出隐变量机制建模开放域对话中的一对多关系(一个输入对应多个正确输出),采用Unified Transformer框架共享生成模型中的编码器和解码器参数,通过课程学习方式提升模型训练效率,在精细化构建的大规模高质量对话语料上基于飞桨深度学习框架进行高效训练。PLATO具备接近真人水平的多轮流畅对话能力,开放域对话效果达到世界领先水平,在全球对话技术顶赛DSTC中斩获多个冠军。
ERNIE-Search大模型是融合大规模知识和海量数据的大规模语义理解模型,创新性地引入了语义匹配模型的自交互以及多交互的动态蒸馏方案,缩小了单塔教师模型与双塔学生模型之间的结构性差异,提高了蒸馏效率,使得模型训练更为高效。通过预训练、下游任务微调阶段的多交互范式以及海量数据蒸馏,ERNIE-Search大模型在开放领域问答任务上的表现有了显著的提升,在MSMARCO段落排序等多项任务中取得了SOTA结果。ERNIE-Search大模型作为专为通用搜索场景设计的大模型,其应用范围广泛,包括但不限于文档搜索、语义表示、语义匹配等任务,能够满足各行各业的需求。
多语言大模型 ERNIE-M,统一建模了96种语言。其突破双语语料规模对多语言模型的学习效果限制,提升了跨语言理解的效果,ERNIE-M中首次提出了基于回译机制,从单语语料中学习语言间的语义对齐关系。ERNIE-M在跨语言自然语言推断、语义检索、语义相似度、命名实体识别、阅读理解在内的5种典型跨语言任务上取得世界领先效果,在涉及12个语系40个语种的权威多语言评测XTREME上取得了榜首成绩。
ERNIE-Code是多自然语言多编程语言的代码大模型,支持100+编程语言。ERNIE-Code预训练引入代码相关性和依赖关系学习,有效支持项目级代码生成,在代码推荐、单测生成、自然语言生成代码、代码修复等多项代码智能任务上均取得领先效果。
文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的成员,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。
文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。
2023年3月16日,百度新一代大语言模型文心一言正式启动邀测。2023年8月31日,文心一言率先向全社会全面开放。开放首日,文心一言共计回复网友超3342万个问题。 2023年12月28日,百度首席技术官王海峰在第十届WAVE SUMMIT深度学习开发者大会上宣布文心一言用户规模已突破1亿。
视觉
文心 · CV 大模型 VIMER 是百度文心产业级知识增强大模型的重要组成。其基于“基础+任务+行业”的三级大模型结构,形成“大数据+大模型+小型化”研发闭环,针对标注成本高、任务复杂多样等行业难题,为企业和开发者提供强大的视觉基础模型,以及一整套视觉任务定制研发与应用闭环方案。
在大模型技术方面,对外发布 VIMER-StrucTexT 、VIMER-UFO、VIMER-TCIR、VIMER-CAE等通用大模型及多个行业共建大模型,可应用于千行百业,帮助中小企业实现降本增效。在大数据方面,基于自研的开放域检测大模型及多模态检索能力,建设集数据挖掘(文搜图、图搜图)、数据标注(伪标签自标注)、数据管理、数据生成能力于一体的数据平台,提供领先、低成本、稳定、高效的数据服务,为研发数据生产提质增效。在小型化方面,依托模型搜索、知识蒸馏、模型量化等技术,构建芯片模型结构设计、模型压缩、推理优化一站式服务平台,加速大模型小型化及其在不同场景、不同硬件平台落地应用。
在应用方面,作为文心大模型的核心之一,文心·CV大模型VIMER已广泛应用在自动驾驶、云智一体、移动生态等核心业务中,并在能源、工业、保险、影视等行业与国家电网等企业共建行业大模型,进一步推动大模型驱动的产业智能化。
VIMER-TCIR视觉处理多任务学习大模型,通过利用Transformer局部注意力机制,结合RRDB卷积网络,降低视觉处理任务对于显存的需求,利用预训练技术提升模型拟合能力。基于海量影视行业4K高清数据进行预训练,并在下游子任务上微调,在去JPEG压缩、去噪、去模糊、超分4类任务11项公开数据集上达到SOTA结果,获得ECCV-AIM2022压缩图像超分赛道冠军。基于TCIR方案携手电影频道推出电影频道-百度 · 文心影视智感超清行业大模型,有效提升电影频道老片修复速度,困难场景结合人工精修修复速度提升3-4倍。
自监督视觉表征学习 VIMER-CAE,创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,通过编码模块对输入的图像块进行特征表达,并利用隐式上下文回归和解码模块对输入图像的掩码块进行特征表达恢复,在图像掩码建模问题上提高了预训练模型的图像表征能力。基于VIMER-CAE的预训练模型在下游各类图像任务上取得了明显的效果提升,在图像分类、目标检测、语义分割等经典下游任务上达到SOTA结果。
视觉多任务文心VIMER-UFO 2.0大模型的参数量达到170亿,单模型28项公开数据集SOTA,基于飞桨Task MoE架构,根据任务的不同自动选择激活最优的区域,从而实现100倍参数压缩,同时支持下游任务快速扩展。百度文心大模型提出的统一特征表示优化(UFO:UnifiedFeature Optimization)技术,能够在充分利用大数据和大模型的同时,兼顾大模型落地成本及部署效率,解决大模型落地应用时参数量大、推理性能差等问题。
文心·CV大模型VIMER打造了OCR(光学字符识别)全景任务基础预训练模型VIMER-StrucTexT 2.0,开创性地提出了“单模态图像输入、多模态知识学习”的预训练框架,只需输入单一文档图像,就能让模型充分捕获语义和结构信息。经过大规模文档图像数据充分学习后的预训练模型,显著提高文档理解全景应用任务效果,在5项不同文档图像理解任务上刷新SOTA结果。文心VIMER-StrucTexT 2.0作为OCR全任务基础预训练模型,能够广泛应用于各行各业行文档、卡证、票据等图像文字识别和结构化理解。
跨模态
ERNIE-ViL是于2021年5月20日发布融合场景图知识的多模态预训练模型,它将场景图知识融入到视觉-语言模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。ERNIE-ViL还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等5项典型多模态任务中刷新了世界最好效果。并在多模态领域权威榜单视觉常识推理任务(VCR)上登顶榜首。
跨语言音素知识增强的ERNIE-SAT,是可以同时处理中英文的跨语言的语音-语言跨模态大模型,在预训练过程中将中英双语对应的音素作为输入,让模型学习不同语言间音素的对齐以及语言与语音的对齐。同时采用语言和语音做联合掩码学习,使得模型效果取得了进一步提升。ERNIE-SAT在语音编辑、个性化语音合成以及跨语言的语音合成等多个任务取得了领先效果。
文心ERNIE-ViLG 2.0是于2022年11月30日发布的知识增强的AI作画大模型。首先,通过视觉、语言等多源知识指引扩散模型学习,强化文生图模型精准的跨模态语义理解,提升生成图像的可控性和语义一致性。同时,首次引入混合降噪专家模型提升模型建模能力,让模型在不同的生成阶段选择不同的“降噪专家”网络,从而实现更加细致的降噪任务建模,提升生成图像的质量。此模型在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型,取得了当时该领域的世界最好效果,并在语义可控性、图像清晰度、中国文化理解等方面展现出了显著优势。
AI艺术与创意辅助平台
文心一格,就是基于ERNIE-ViLG 2.0作为大模型底座的AI 作画产品,只需输入文字描述,就能快速生成各种风格的精美画作,它具有三大特点:使用便捷,易于上手;画作精美,注重用户体验;更懂东方元素,善于中文。
文档智能大模型ERNIE-Layout融合文本、图像、布局等信息进行跨模态联合建模,创新性引入布局知识增强,提出阅读顺序预测、细粒度图文匹配等自监督预训练任务,升级空间解耦注意力机制,能够对多模态文档(如文档图片、PDF 文件、扫描件等)进行深度理解与分析,刷新了5类11项文档智能任务效果,登顶DocVQA榜首,并成为榜单首个突破90分大关的技术方案,同时首次以文档智能模型登顶网页问答榜单WebSRC。ERNIE-Layout已集成至百度智能文档分析平台TextMind,助力企业数字化升级。
生物计算
文心生物计算大模型借鉴生命科学底层的第一性原理,通过构建“数据+原理”双驱动的生物计算大模型技术,对化合物、蛋白质、RNA及其表征和相互作用进行建模,以提升AI技术在小分子药物发现、大分子药物发现、疫苗设计等领域的应用。
大分子领域:HelixFold-Single是于2022年10月发布的开源的基于单序列语言模型的蛋白结构预测大模型,利用大规模蛋白质语言模型学习生物演化信息,把蛋白结构预测速度提升到秒级别。从蛋白质的一级序列精准预测其三维结构,已被AlphaFold2证实可达到实验精度。但AlphaFold2的模型主要依赖多序列比对(MSA)和模版(Template)信息,导致蛋白结构预测的速度非常慢,这成为模型向产业界大规模推广的一个瓶颈。百度研发的单体蛋白结构预测大模型HelixFold-Single,不需要MSA信息作为输入,仅仅通过蛋白质的一级序列就可以准确预测其三级结构。把蛋白结构预测速度提升到秒级别,同时在抗体和多肽等高可变的蛋白上,效果大大超越AlphaFold2,为抗体药物设计和多肽药物设计奠定了良好基础。该工作作为封面文章,发表于 Nature Machine Intelligence 2023年10月刊。
小分子领域:HelixGEM是基于几何构象自监督的化合物表征大模型,结合实际药物研发场景中的需求,充分考虑化合物的三维空间信息。以往的化合物建模模型和预训练方法都仅关注化合物的二维拓扑图结构,但在实际的药物研发场景中,化合物的三维空间构象信息与其功能和性质存在紧密的关联,因此,如果想更好的预测化合物的功能和性质,就应该充分考虑化合物的三维几何构象信息。基于此,HelixGEM设计基于化合物几何空间结构的图神经网络、建模原子-化学键、化学键-键角之间的关系,提出全新的基于空间构象的图网络模型,设计多种基于几何的自监督学习任务。该工作发表于 Nature Machine Intelligence 2022年2月刊。
行业大模型
文心大模型与各行业企业联手,在通用大模型的基础上学习行业特色数据与知识,建设行业AI基础设施。
截至2022年11月,文心已累计发布11个行业大模型,涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等领域,实现显著效果提升,产业生态初步形成,正在成为加速推动行业智能化转型升级的重要力量。文心行业大模型是百度与行业头部企业、机构联合探索出的行之有效的大模型产业落地方式,让大模型在实际应用场景中“不但能用还便捷好用”。
核心优势
文心大模型具有两大特色,一是知识增强,文心大模型从大规模知识图谱和海量无结构数据中学习,学习效率更高、效果更好,具有良好的可解释性;二是产业级,文心大模型的技术源于产业并且致力于推动产业智能化升级,建设更适配场景需求的大模型体系,提供全流程支持应用落地的工具和方法,营造激发创新的开放生态。得益于两大特色,文心大模型通用性好、泛化性强,作为人工智能“基础设施”的一部分,进一步拓宽了人工智能技术落地的场景覆盖广度,更加深了产业应用的深度。
发展历程
荣誉表彰
2020年5月,基于知识增强的持续学习语义理解技术ERNIE荣获《2020年度中国人工智能学会优秀科技成果》。
2020年7月,发布ERNIE-ViL,首次将场景图知识融入多模态预训练,刷新了5项多模态任务纪录,并登顶权威榜单VCR。
2020年7月,文心(ERNIE)语义理解技术与平台正式发布,并荣获
2020世界人工智能大会最高荣誉
SAIL奖(Super AI Leader,
卓越人工智能引领者)。
2020年,文心(ERNIE) 荣获中国人工智能学会优秀科技成果奖
2021年,知识增强的跨模态语义理解关键技术及应用获得了国家技术发明二等奖
2023年,荣获2022年度吴文俊人工智能科技进步奖特等奖
2023年11月,百度知识增强大语言模型关键技术荣获2023世界互联网大会领先科技奖
相关事件
百度被授予国家人工智能标准化总体组大模型专题组联合组长单位
2023世界人工智能大会WAIC上,百度当选大模型专题组联合组长,将积极参与和推动人工智能大模型标准化的顶层设计和规则研制,牵引提升中国大模型产业高质量发展。
《Nature》发表
2023年5月2日,国际顶级学术期刊《Nature》正刊发表百度与合作单位在生物计算领域的重磅突破性成果——《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》,提出mRNA序列优化算法LinearDesign。
2023年10月消息,百度正在加紧训练文心大模型4.0,或将在10月17日举行的百度世界大会上发布。预计文心大模型4.0将会在理解、生成、逻辑、记忆四大核心能力上进行提升。
2023年10月消息,国际顶级学术期刊《自然》旗下子刊《机器智能》发表了百度飞桨螺旋桨联合百图生科研发的文心生物计算大模型的又一重大成果《A method for multiple-sequence-alignment-free protein structure prediction using a protein language model》,提出了全球首个开源、并提供在线服务,无需MSA输入的蛋白结构预测大模型HelixFold-Single。
文心新增11个大模型 构建产业大模型体系
2022年11月30日,由深度学习技术与应用国家工程研究中心主办、百度飞桨承办的WAVE SUMMIT+2022深度学习开发者峰会如期举行。百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜带来了文心大模型的最新升级,包括新增11个大模型,大模型总量增至36个,构建起业界规模最大的产业大模型体系,并通过大模型工具与平台的升级和文心一格、文心百中等基于大模型技术的产品应用,进一步降低大模型产业化门槛,让更多企业和开发者步入AI应用的新阶段。
文心大模型助力《富春山居图》“山水合璧”
2022年7月21日,在2022百度世界大会上,百度
首席技术官王海峰展示了基于飞桨文心大模型“补全”后的《富春山居图》。AI补全部分与现存画卷风格统一,山水脉络和谐,得到了
黄公望纪念馆负责人毛传镔的高度评价,称其“与现存真迹风格一致,不仅符合原画审美特点,视觉上还同样具有观赏价值”。
度晓晓高考作文水平赶超75%考生
2022年上海高考结束后,一篇出自“数字人考生”的
高考作文刷屏——由百度推出的数字人
度晓晓,作答了全国新高考Ⅰ卷题为《本手、妙手、俗手》的议论文,曾担任北京高考语文阅卷组组长的
申怡老师给出了48分的成绩。据介绍,根据历年情况,获得48分及以上作文成绩的考生,仅占不到25%,也就是说,度晓晓的作文分数已赶超约75%高考考生。
数字人度晓晓 AI 画作卖出 17 万元
2022年6月初,
百度数字人度晓晓的四款画作被制作为
数字藏品,在百度APP上线售卖。作为国内首个数字人创作的艺术数字藏品,其画作24小时售卖额就超过17万元。度晓晓的作品不仅“
叫座”,也“叫好”。她还受邀参加了2022年西安美术学院本科生毕业展,开设专属展区,被美院教授评价为具有“美院毕业生水平”。
百度首发行业大模型
2022年5月20日,由深度学习技术与应用国家工程研究中心主办、飞桨承办的WAVE SUMMIT 2022深度学习开发者峰会线上举行。百度业界首发的文心·行业大模型成为峰会一大亮点。百度联合国网、浦发首发行业大模型,开启大模型进化新格局。
全球首个知识增强千亿大模型发布
2021年12月鹏城-百度·文心的关键词是“全球首个知识增强千亿大模型”正式发布,该
模型参数规模达到2600亿,是目前全球最大中文单体模型,在机器阅读理解、
文本分类、语义相似度计算等60多项任务取得最好效果,并在30余项小样本和零样本任务上刷新基准。