(报告出品方/作者:海通国际)
1.ChatGPT:以GPT-3.5架构革新AI对话模型,商业化前景仍需探索
ChatGPT是美国OpenAI公司研发的对话AI模型,是由人工智能技术支持的自然语言处理(NLP,NaturalLanguageProcessing)工具,于年11月30日正式发布。它能够学习、理解人类语言,并结合对话上下文,与人类聊天互动,也可撰写稿件、翻译文字、编程、编写视频脚本等。
与现存的其他同类产品相比,ChatGPT的独特优势在于:1)基于GPT-3.5架构,运用海量语料库训练模型,包括真实生活中的对话,使ChatGPT能做到接近与人类聊天;2)应用新技术RLHF(ReinforcementLearningwithHumanFeedback,基于人类反馈的强化学习),从而能更准确地理解并遵循人类的思维、价值观与需求;3)可在同一阶段内完成模型训练;4)具有强大算力、自我学习能力和适应性,且预训练通用性较高;5)可进行连续多轮对话,提升用户体验;6)更具独立批判性思维,能质疑用户问题的合理性,也能承认自身知识的局限性,听取用户意见并改进答案。
1.1、历经多轮迭代,参数量指数性上升,商业模式已见雏形
年,特斯拉CEO埃隆·马斯克、YCombinator(美国著名创业孵化器)总裁SamAltman、PayPal联合创始人PeterThiel等投资10亿美元,在旧金山创立了非营利性组织OpenAI,致力于开发AI技术。年谷歌大脑推出生成式预训练模型Transformer,经大量数据集训练后成为当时最高水平的LLM(大型语言模型)。
Transformer模型内部创造性地采用了自注意力结构(Self-Attention),相比NLP中的两大主流结构RNN(RecurrentNeuralNetwork,循环神经网络)、CNN(ConvolutionalNeuralNetwork,卷积神经网络),每层具有更佳的计算复杂度,能更好地学习语法、语义等,提高训练和计算效率;由于未采用循环结构,Transformer处理长序列时也能避免梯度消失或爆炸。具体而言:1)相比不能并行计算的RNN,Transformer允许并行处理输入序列中的所有位置,可直接计算点乘结果;2)相比CNN,Transformer可使任意两个单词间距离为1,计算两个位置间关联的操作次数不因距离而增多,从而解决了NLP中长时依赖的难点问题。
年OpenAI公司基于Transformer结构推出GPT-1(GenerativePre-trainingTransformers,创造型预训练变换模型),参数量为1.17亿个,GPT-1超越Transformer成为业内第一。年至年,OpenAI陆续发布GPT-2、GPT-3,其参数量分别达到15亿、亿,其中GPT-3训练过程中直接以人类自然语言作为指令,显著提升了LLM在多种语言场景中的性能。年OpenAI转型为封顶盈利机构,成立OpenAiLP公司,同年7月获得微软的10亿美元投资,9月授予微软GPT-3模型的独家使用权(不影响付费用户使用)。年6月,公司发布第一款商业化产品OpenAIAPI。年1月,OpenAI在GPT-3基础上进行微调,并在训练中加入人类反馈数据,推出InstructGPT。
年11月30日,OpenAI推出人工智能对话聊天机器人ChatGPT(InstructGPT的兄弟模型),其训练数据集为开源数据集,且参数量达到GPT-3的10倍以上,辅以人工标注数据与强化学习的运用,实现了突破性进展——ChatGPT能够围绕大量话题进行对话,拥有更接近人类的逻辑思维,可借助对话反馈强化学习,且能模仿人类的情绪。例如:1)ChatGPT不仅通晓古今历史,能识别出问题中的事实性错误,还拥有想象力和价值判断能力,能够想象古人在现代的生活并从现代价值观视角进行评判,且语言不乏文学性;2)当用户重复同一提问时,ChatGPT会分析提问者的反馈,推测其想法、态度,据此调整回答,并结合普世价值观,给出合理且迎合提问者心理的答案。同年12月5日,注册用户数超过万;截至年1月底,ChatGPT月活用户已高达1亿,成为史上活跃用户规模增长最快的应用。
年2月2日,OpenAI推出ChatGPT的付费订阅版ChatGPTPlus,提供比免费版更为快速的服务以及新功能优先试用权,月费为20美元。同日微软宣布旗下的全线产品将与ChatGPT整合,包括云计算平台Azure以及此前已宣布的搜索引擎Bing(必应)、Office等。年2月7日,微软推出由ChatGPT支持的最新版AI搜索引擎Bing和Edge浏览器,次日凌晨宣布已将GPT-4整合到Bing和Edge浏览器中。
1.2、得益于技术提升,应用层面正突飞猛进
ChatGPT的问世得益于近年来AIGC(AI-GeneratedContent)技术的持续发展,也对其他AIGC模型具有重要意义,尤其是依托文字、语音模态的类型。未来OpenAI可将ChatGPT与其他AIGC模型集成,拓展更丰富的功能和应用场景,进而助推AIGC浪潮、赋能整个AI产业链。Gartner预计,到年AIGC将占据所有生成数据的10%。据FrostSullivan和头豹研究院测算,年中国对话式AI市场规模为82.7亿元,到年有望增长至.8亿元,CAGR达26.3%。目前ChatGPT已被应用于多种工作职能中,基于其技术逻辑和特点,中短期内拥有多样化应用方向与场景,兼顾ToB和ToC,具体主要包括:
1)应用于内容创作,提升内容生产效率和丰富度:①完成翻译、收集素材、选题策划、写作稿件等任务(例如美国新媒体巨头公司Buzzfeed宣布将用ChatGPT辅助内容创作,美联社使用的Wordsmith每秒可完成篇报道),②在文艺、影视等领域,协助编写剧本和视频脚本,比如国内海马轻帆旗下的“小说转剧本”工具,已深度参与了3万多集电视剧和多部电影的剧本创作过程;③与视频类AIGC集成,基于文字合成、剪辑视频以及生成虚拟场景等;2)在商务场景中,协助培训员工,运用其多轮对话能力担任智能客服协助营销、把握消费者需求,从而降低公司用人成本,例如亚马逊运用ChatGPT生成员工培训文档;
3)在办公场景中发挥办公助手、语音转换文字、代码生成等功能,比如微软计划将Office软件与ChatGPT,推出MicrosoftTeams高级版(付费),可自动生成会议笔记;4)在工业场景中,与图片类AIGC整合、基于对话中的关键词辅助制作设计图,减少工程设计用时,比如Jasper旗下的StableDiffusion,可基于文本生成图像,采用了目前全球最大的开放图像-文本对数据集LAION-5B,且生成效率提高30倍,Jasper的付费用户目前有IBM、Autodesk等;5)此外,ChatGPT在教育、工业、医疗等行业中也有较大应用空间,比如在教育场景中为学生批改作业、答疑、查漏补缺,在医疗场景中为患者预诊、录入电子病历等。
海外主要玩家现状:现阶段海外AIGC赛道玩家数量较多,市场格局尚未定型。其中,领先的生成式AI公司除ChatGPT之外主要有StabilityAI、JaspersAI和Midjourney等,在文字、图片、音频生成等领域拥有独特优势,且已积累一定的用户规模。
Stability.AI公司致力于开发AI开源工具,于年8月推出了图像生成模型StableDiffusion,可根据关键词产生图片,图像文本对数量超过亿,在消费级显卡上生成的图像与DALL·E2品质相当,成为其主要竞争对手。StableDiffusion的程序代码免费、开源,允许所有用户使用、调整,也可根据自身需求开发应用,已有超20万用户运用其源码开发了图像、语言、音乐等领域的AI工具,目前各渠道的日活用户规模累计达0万以上。此外,Stability.AI还发布了DreamStudio,使用门槛较低,没有编程背景的用户也能输入提示词精准生成高质量图像,最快仅需几秒,DreamStudio用户已超过万,生成图像数量超1.7亿。目前Stability.AI公司估值约10亿美元。
JaspersAI成立于年1月,主要针对商业营销用途,为商家和个人用户提供AI文字生成和图片生成功能。其中,文字生成工具Jasper可帮助用户生成营销文案、社交媒体文章、新闻稿、TikTok视频脚本、邮件等文本,支持29种语言;附加功能图片生成系统JasperArt可根据用户输入的文字生成图像,并能调整画法、风格,且拥有无版权图片库。据公司数据,使用Jasper生成文案初稿可节省80%的时间,ROI达%。Jasper和JasperArt均采用付费订阅制,其中,Jasper订阅服务分为Starter/BossMode/BusinessMode三档,收费标准分别为$29/$59/$每月。
相比同业竞对公司,JasperAI的主要优势在于:1)集成大量机器学习模型,包括业界最新的语言生成模型GPT-3.5(由OpenAI开发)和BLOOM(由HuggingFace开发),文字出品质量较高;2)针对目标用户群体的需求特点对模型进行微调,提供大量实用模板、创作工具(例如翻译器、抄袭检验等),通过优化关键词生成更契合GoogleSEO规则的内容,且速度提升5倍,帮助用户增大流量曝光、改善营销效果;3)同时支持图文生成功能,为用户创作营销材料、文艺作品等带来便利,在电商、社媒、视频制作等多个新兴行业领域具有较高的商业潜力。
年10月,JasperAI宣布估值超过15亿美元,已获得1.25亿美元A轮融资,将用于打造核心产品、与更多应用整合以及收购Outrite(一款用于检查语法和风格的AI软件,全球用户数已超过万),计划于年整合两家公司的产品。据公司创始人透露,截至年10月,Jasper用户数已超过10万;年收入达万美元,预计年实现收入万美元以上,同比增长约66%。
Midjourney是AI绘画赛道近期最受欢迎的应用,能根据输入的关键词生成高质量图像,现已嵌入Discord平台,用户基于该平台的bot机制提交Prompt(即提示词)即可生成图片,目前已拥有万用户。Midjourney允许付费用户创作的图像用于商业用途,但若收益超过每月2万美元则需支付20%作为分成,也可与公司官方协定分成比例。Midjourney擅长人像生成,图像接近照片级品质,制作的3D艺术品也十分逼真、精细,在建筑设计、艺术创作等对图像质量、审美要求较高的领域拥有显著优势,应用前景广阔。据称,目前Midjourney每月收入约万美元以上。
2.细探ChatGPT出圈原因:爆款应用背后,长期技术拐点已现
ChatGPT在上线5日内突破万注册用户,超越Facebook和Twitter(分别用时10个月和2年),两个月内突破1亿用户,成为全球最快用户破亿的互联网软件,对比之下,TikTok和Instagram分别用时9个月和2年半才实现亿级用户量。用户活跃度方面,据SimilarWeb报告显示,ChatGPT在1月的日均访问量达到万人次。我们分析,ChatGPT能够如此迅速火遍全球,主要得益于:1)ChatGPT长期积累的技术优势;2)公司大胆尝试得到市场认可;3)科技巨头纷纷躬身入局,释放重视信号;4)大趋势上,AIGC行业逐渐成熟。
2.1、技术上,多轮迭代训练后已具备先发优势
由OpenAI公司推出的ChatGPT在正式面世之前,GPT家族已有三个基于Transformer技术的自然语言处理模型,分别为GPT-1/2/3,模型每迭代一次,参数量都在几何式增长,从最初的1.17亿增加到第三代的亿,GPT-3已成为全球最大的语言模型之一。ChatGPT使用的GPT-3.5模型是在GPT-3的基础上加入ReinforcementLearningfromHumanFeedback(RLHF,人类反馈强化学习)技术和近段策略优化算法,其目的是从真实性、无害性和有用性三个方面优化输出结果,降低预训练模型生成种族歧视、性别歧视等有害内容的风险。ChatGPT训练的过程主要有三个阶段。
第一步是训练监督策略,人类标注员对随机抽取的提示提供预期结果,用监督学习的形式微调GPT-3.5,生成SupervisedFine-Tuning(SFT)模型,使GPT-3.5初步理解指令,这一步与先前的GPT-3模型训练方式相同,类似于老师为学生提供标答的过程。第二步是奖励模型,在SFT模型中随机抽取提示并生成数个结果,由人类标注员对结果的匹配程度进行排序,再将问题与结果配对成数据对输入奖励模型进行打分训练,这个步骤类似于学生模拟标答写出自己的答案,老师再对每个答案进行评分。
第三步是ProximalPolicyOptimization(PPO,近段策略优化),也是ChatGPT最突出的升级。模型通过第二步的打分机制,对SFT模型内数据进行训练,自动优化迭代,提高ChatGPT输出结果的质量,即是学生根据老师反馈的评分,对自己的作答进行修改,使答案更接近高分标准。简而言之,我们分析,ChatGPT的优势在于,1)使用万亿参数的GPT-3为底层模型进行预训练,为全球最大的语言模型之一;2)算力上得到微软支持,使用上万片NVIDIAAGPU进行训练,模型的运行速度得到保障;3)算法上使用奖励模型和近端优化策略进行迭代优化,将输出结果与人类预期答案对齐,减少有害性、歧视性答案,使ChatGPT更拟人化,让用户感觉沟通的过程更流畅。
2.2、管理上,OpenAI管理结构更为灵活,为大胆创新奠定了基础
在ChatGPT上线之前,许多科技公司也在培育AI语言模型。如Google一直训练的LaMDA模型,在年开始训练,初代于年5月公布,但由于模型与谷歌的广告业务发展方向无法匹配,迟迟未推出。该模型使用亿参数,1.56万亿单词量,是ChatGPT的5倍。去年夏季曾传出新闻,Google工程师因为认为LaMDA具有独立思想而被开除;CEO桑达·皮查伊明确表示,公司将秉持对AI的原则(产品有益于社会发展、安全可靠、对人负责等)以及对信息完整度的最高标准来研发和开放AI产品,Google不同于其他初创公司,不能承担AI犯下的错误对公司的信誉和其他倍受信赖的产品造成的影响,Google对于AI产品的研发和开放持有十分谨慎的态度。
既没有上市,也没有盈利目标的OpenAI则显得更为进取。ChatGPT的前身GPT-3模型于年发布,在此模型基础上,公司加入RLHF训练和PPO,培育出GPT-3.5模型,该模型对应的InstructGPT在年1月开始内测,于年初对外公布,兄弟版ChatGPT在年11月末正式推出,即GPT-3.5模型从灰测到对外公布仅用时不到2年。公司能够快速且大胆推出ChatGPT,除了基于ChatGPT本身的优越性能,也是为GPT-4收集更多公开对话数据,继续扩大可用参数规模。尽管ChatGPT仍有明显缺陷,在推出后屡现“胡说八道”的情况,且面对复杂的数理化问题无法提供正确答案,但瑕不掩瑜,用户对于这位先行者的错误结果展现出更多包容,相比之下,Google于2月6日推出的AI对话机器人Bard由于答案出错,公司当日股价一泻千里。
占据先发优势的ChatGPT在面世后迅速风靡各行各业。据Study.