生成式人工智能
人工智能的一个分支、自主创造新内容的技术
生成式人工智能(Generative Artificial Intelligence)是人工智能领域的重要分支,一种基于算法和模型生成文本、图片、声音、视频、代码等内容的技术,不同于传统AI的分析功能,生成式AI能学习并生成具有逻辑的新内容。不同于传统的人工智能仅对输入数据进行处理和分析,生成式人工智能可以学习并模拟事物的内在规律,根据用户的输入资料生成具有逻辑性和连贯性的新内容。这一技术的核心依托于多模态模型,能针对用户需求实现异构数据的生成式输出。
发展背景
早期的生成模型理论(20世纪50-80年代)
生成模型的基础理论最早在20世纪50年代至80年代确立,这一时期主要集中于概率模型等生成理论算法的研究。1950年代的马尔可夫链(Markov Chains)和1970年代的隐马尔可夫模型(Hidden Markov Models, HMM)为生成式模型奠定了理论基础。
生成对抗网络(GAN)的提出(2014年)
2014年,Ian Goodfellow等人提出了生成对抗网络(GAN),标志着生成式人工智能的关键突破。GAN通过生成器和判别器的对抗训练,能够生成高度真实的图像和数据,是现代生成式AI的重要模型之一。
大语言模型的兴起(2018年)
随着计算能力的提升和海量数据的应用,生成式AI进入了以大语言模型(LLMs)为主的阶段。2018年,OpenAI发布了GPT(Generative Pre-trained Transformer)模型,通过大规模数据的预训练和自回归生成能力,推动了自然语言生成的显著进展。
GPT-3 和多模态生成模型(2020年)
2020年,OpenAI发布了GPT-3,具备1750亿参数,是当时规模最大的语言模型。GPT-3具备强大的自然语言理解和生成能力,广泛应用于对话、写作等任务。同年,OpenAI发布了DALL-E,展示了生成式AI在图像生成领域的多模态能力。
ChatGPT 的普及与商业化应用(2022年)
2022年底,ChatGPT正式上线并迅速普及,标志着生成式AI进入大规模商业化应用阶段。ChatGPT基于GPT-3.5,能进行自然流畅的对话,广泛应用于教育、客户服务等领域。ChatGPT的成功激励了其他科技公司加快生成式AI应用的开发。
全球标准的逐步确立(2023-2024年)
伴随生成式AI的广泛应用,各国开始制定政策和行业标准,确保生成式AI技术的安全合规。2024年,联合国科技大会上发布了生成式AI的应用安全测试标准,中国工信部和网信办等也相继出台了生成式AI服务的管理办法,规范行业发展。
基本原理
概率图模型
概率图模型的架构基于图结构,用节点和边来描述随机变量以及各变量之间的依赖关系,这种结构十分适合应用于生成式人工智能。图的每一个节点代表一个变量,比如在文本生成中,每个词语可以被视作一个节点;在图像生成中,每个像素或图像特征可以被看作一个节点。通过这种结构化的节点表示,生成式模型能够细致刻画内容生成过程中各变量之间的关联。而各变量之间的依赖关系由有向边和无向边描述。有向边构成了贝叶斯网络,通常用于表示因果关系。例如,在生成文本或图像时,有向边可以表示生成过程中的条件依赖关系,如上下文信息对当前生成结果的影响。而无向边则构成马尔可夫随机场,常用于没有明确因果关系的场景,尤其适合描述图像中像素之间对称的依赖关系,这种表示方法保证了图像生成的细节一致性。图1展示了各类图模型演变关系。
条件独立性是概率图模型中的一项关键特性。条件独立性意味着在给定一些条件时,某些变量之间可以看作独立。这个特性在生成式模型中非常重要,能够帮助模型有效减少计算量,简化生成过程并维持对变量依赖关系的细致描述。例如,在生成长文本时,通过引入条件独立性,可以简化对长距离依赖的计算,提升生成效率。
在面对稀疏数据或信息缺失的情况下,概率图模型可以确保生成结果具有一定的一致性和合理性。这一特性尤其适合生成式人工智能中的自然语言生成和图像生成任务,确保生成内容在逻辑与细节上更加自然。
生成对抗网络(GAN)
2014年,Ian Goodfellow等人提出生成对抗网络(GAN),一种通过对抗性学习实现高质量数据生成的模型架构。它的核心思想是利用生成器和判别器进行博弈,逐步优化生成效果,使生成数据的分布逐渐逼近真实数据的分布。生成器负责从随机噪声中生成样本,尽量模仿真实数据的特征,以骗过判别器。而判别器则承担辨别真伪的角色,它接收生成器的样本和真实样本,不断提升判断的准确性。
在这一过程中,生成器与判别器处于不断对抗的状态。生成器每次生成样本后,判别器都通过判断结果来反馈生成器的生成质量。判别器不断更新参数以增强自身识别能力,迫使生成器在不断优化中生成更加逼真的样本。通过这样的对抗训练,生成器逐渐学会模仿真实数据的特征分布,最终生成的样本在判别器面前接近于真实数据,使得判别器难以分辨。
这种对抗性的架构使得GAN具备了强大的生成能力, GAN的出现推动了图像和视频生成的显著进展,被广泛应用于艺术、设计和游戏开发中。
自回归生成模型
自回归生成模型是一类基于序列预测的生成式模型,通过自回归方式逐步生成序列中的每一个元素。在自然语言处理领域,自回归模型通过条件概率建模,逐步预测序列中的下一个词,从而生成符合上下文语境的文本内容。
自回归生成模型的架构基于序列预测,每个时刻的输出都是对前面已生成内容的条件依赖。在GPT中,模型采用了基于Transformer的架构,利用自注意力机制捕捉词与词之间的依赖关系。在生成过程中,模型逐步对序列中的每个词进行条件概率建模。整体生成过程以一个初始词或短语作为起点,基于上下文来预测接下来的词,并在生成新词后将其加入上下文中,而后继续预测下一个词。这个自回归生成过程让GPT可以根据上下文生成连贯且有逻辑的文本。
在GPT的自回归架构中,自注意力机制是核心组件,使得模型能够在每个生成步骤中聚焦于上下文中的重要部分。Transformer架构使得GPT能够处理长距离依赖关系,让生成内容保持一致性和逻辑性。并且,GPT还通过多层的神经网络和大量参数,让模型具备高度的生成能力,能够生成符合上下文要求的内容。图3为OpenAI Image GPT模型架构的示意图。
扩散模型
扩散模型(Diffusion Model)是一种基于概率扩散的生成式模型,其核心思想是通过对数据的逐步破坏再重建,生成新的数据。扩散模型在训练阶段对数据逐步加入噪声,使其逐渐接近于随机噪声的状态;在生成阶段,模型反向地一步步去噪,将噪声还原为有结构的样本。这种逐步去噪的生成方式使扩散模型能够生成高质量且真实感强的样本。图4为Stable Diffusion 模型原理图。扩散模型的步骤原理如下:
正向扩散过程:
反向生成过程:
模型的特点与优势:
相关认证
GAI认证
GAI认证,全称生成式人工智能(Generative AI  Foundations)认证,是由全球知名的终身学习公司培生(Pearson)推出的。这个认证旨在为职场人士、学生以及所有对AI感兴趣的朋友提供一套全面且实用的生成式人工智能技能培训框架及认证。
认证平台
生成式人工智能认证(GAI认证)中文官网
应用领域
图像生成与增强
生成对抗网络(GAN)和稳定扩散模型(SD)在图像生成与增强领域取得了突破性进展,并被广泛应用于电影、艺术设计和广告等行业,为创意产业提供了全新工具。这些技术通过生成高质量的图像和视频,大幅度提升了创作效率,降低了制作成本,为从事相关行业的设计人员提供了极大的便利。例如,NVIDIA的StyleGAN能够驱动生成逼真的虚拟人脸;Adobe借助SD模型开发了Firefly工具,实现智能图像扩展和风格转换;Google的DeepArt利用艺术风格迁移技术,将普通图像转化为著名艺术家风格的艺术作品;CycleGAN可轻松实现场景的季节转换和画面风格统一,大大降低电影制作的特效成本。这些应用极大地拓展了创意和内容生产的边界。
文本生成与自然语言处理
生成式语言模型如GPT-3、ChatGPT在自然语言生成(NLG)中展现了极大的潜力,广泛应用于文本生成、对话系统、内容创作和客户服务等领域。尤其是ChatGPT已在教育和客户支持等场景中实现商业化应用,为用户带来更智能的互动体验。此外,OpenAI的GPT-4进一步提升了多模态生成能力,能够生成和理解更复杂的文本内容。在评估这些生成文本的质量和准确性时,通常会考量其流畅性、语义准确性、上下文一致性,创造性和多样性。同时,用户反馈的生成内容真实性也是一项关键指标,只有根据反馈不断进行改进,确保模型输出符合实际需求,才能进一步提升用户体验。
医药与生物信息学
生成式人工智能在药物发现和生物分子结构生成中也得到了应用。比如,生成模型用于预测蛋白质结构,并帮助科学家在更短时间内筛选出潜在药物。近年来,这类技术已成功推动了多种药物研发,如Insilico Medicine使用生成模型设计出抗纤维化药物候选分子,大大缩短了研发周期;Exscientia通过生成式人工智能辅助筛选技术快速发现多款潜在药物,显著提高了药物研发效率。这些成功案例表明生成式人工智能正在改变传统药物发现过程,为生物医药领域带来突破性进展。
音频与音乐生成
AIGC技术在音频与音乐生成领域的应用也取得了全新的进展,通过生成高质量的音乐音效,显著提升了创作效率,降低了制作成本,为音乐人、音频工程师、音乐创意团队提供了全新的工具。例如,OpenAI的Jukebox能够生成多种风格的音乐,模拟特定歌手的声音,轻松创作出极具个性化的作品;Meta的AudioGen可以生成逼真的环境音效,为游戏和电影提供智能化的音效设计方案;Google的Magenta项目通过深度学习生成旋律,为音乐创作者提供创作灵感;Voicemod通过实时语音生成技术实现个性化音频设计,广泛应用于流媒体、游戏配音和虚拟现实等场景。这些应用极大地改变了音频音乐的创作模式,为内容生产和娱乐体验开辟了新的可能性。
生成式人工智能的挑战
社会治安隐患
的思想一样,鉴别器和生成器是共同迭代进步的,随着鉴别技术的升级,假信息技术的升级也紧跟其后。
隐私保护隐患
就业市场隐患
生成式人工智能未来展望
统计数据
2025年1月17日,中国互联网络信息中心(CNNIC)发布第55次《中国互联网络发展状况统计报告》。《报告》显示,2024年生成式人工智能相关产业快速发展,新业态、新应用持续涌现,为经济社会的发展注入了强劲动能。截至12月,中国有3.31亿人表示自己听说过生成式人工智能产品,占整体人口的23.5%;有2.49亿人表示自己使用过生成式人工智能产品,占整体人口的17.7%。在生成式人工智能用户中,利用生成式人工智能产品回答问题的用户最为广泛,占比达77.6%;将生成式人工智能产品作为办公助手的用户占比达45.5%。
截至2024年底,共302款生成式人工智能服务在国家网信办完成备案,算力总规模位居全球第二。生成式人工智能产品的用户规模达2.49亿人,占整体人口的17.7%。从各年龄段网民的使用情况来看,20~29岁网民使用生成式人工智能产品的比例最高,达41.5%。通过对使用过生成式人工智能产品的用户进一步调查发现,利用生成式人工智能产品回答问题的用户最为广泛,使用率达77.6%;将生成式人工智能产品作为自己的办公助手的用户比例为45.5%,主要用于生成会议纪要、制作PPT等。随着生成式人工智能的多模态大模型在2024年迅速发展,越来越多的用户开始使用这类产品生成图片、视频,占比为31%。
人物观点
2025年2月27日,零一万物CEO、创新工场董事长李开复在演讲中表示,2025年将是AI应用爆发的起点,应用将会遍地开花,结出丰硕的成果。
应用发展
2025年3月6日,阿里巴巴集团旗下的阿里云宣布将向日本企业提供生成式AI基础模型方案,以促进当地企业在人工智能应用方面的发展。
参考资料
生成式人工智能服务管理暂行办法.中央网络安全和信息化委员会办公室.2023-07-13
最新修订时间:2025-03-07 10:21
目录
概述
发展背景
参考资料