还剩7页未读,继续阅读
文本内容:
产业链市场分析AIGC大模型的竞争要素是什么?我们从思考带来的技术变革意义,以及AIGC为什么是引领此次变革出发,对比当前国内外通用大模型,总Open AI结了几个主要的竞争要素模型规模、训练效率、使用便利性、商业模式等,目前多方面领先;国内的大模型目前在使用效果上和GPT-4GPT-4仍有差距,算力资源是额外需要考虑的一个竞争要素,当然,专业的AI人才是必备的基础条件算力基础设施是的“卖铲人”我们把产业分为上游的算力AIGC AIGC及数据服务,中游的及下游的应用在系列报告
(二)中,MaaS,AIGC我们详细测算了大模型训练及推理需要多少算力,英伟达在全球算力AI环节竞争格局最为突出数据是大模型的“饲料”,数据工程不只是模型和对齐需要的高质量标注数据集,也包括增强模型“记忆”能力,finetune提高计算效率等相关的技术创新垂直场景化赋能百业通用大模MaaS型是高技术、高资本壁垒的,我们预计未来大概率会头部集中,但垂直行业的场景化开发需求可能派生出丰富多样的垂直小/专模型大模型的轻量化赋能端也是一个重要的趋势,如具身智能将跨界变革带来众多IOT行业机遇应用是被赋能还是被颠覆?的生态化意味着重新定义人机交互界面GPT/应用入口的重新洗牌,什么样的应用能不被颠覆而是有的商业前AIGC+景?我们概括为两类一是提升生产工作效率的通用工具,应用场景对生成结果准确度要求不高,对内容供给速度有实质性的提升,可将人AIGC从基础/重复性工作中解放;二是可能改变行业格局的场景应用,我们也概括为“有场景的端,有数据的端”,即要求个性化生成和高频时C B效交互的端场景,和行业差异化、专业化要求高的垂直端,通过垂C B直长尾数据来建立竞争壁垒Open AI引领AI产业变革,大模型百花齐放、什么是
1.1AIGC定义基于预训练大模型、对抗式生成网AIGC Al-Generated Content,(络)等技术,通过数据/信息的运算,并通过适当的泛化能力GAN AI生成相关内容的技术、摩根大通基于推出用于政策讯息解析的模型年
1.2Chat GPTAI234月,摩根大通发布基于语言模型的Chat GPT模型,用于分析美联储释放出的政策讯息,探明政策Robo-Fedwatchers信号的“鹰鸽”信号,并从中寻找潜在交易信号以近年来美联储政25策和发言人讲话的鹰鸽得分数据来看,当模型显示美联储发言人在两次会议之间的鹰派立场上升时,下一份政策声明就会变得更加鹰派,一年期政府债券的收益率也会上涨这表明模型可以成功分析Robo-Fedwatchers政策讯息,预测政策走向,并发现潜在的交易信号欧洲中央银行和英格兰银行等也可以使用鹰鸽评分方式,预计未来几个月这一模型将进一步推广,用于预测全球多家中央银行的政策走向30算法迭代的主要阶段算法机制有两个缺点,第一个是语言的NLP RNN长距离信息会被弱化,第二个是串行处理机制所带来的计算效率低使用双向的及长时间的短期记忆网络,比传统在长距离信RNN LSTMRNN息识别上有更好的表现相较于和注意力机制的原RNN CNN,Attention理就是在每一层的计算中都考虑了词与词之间的全连接关系,在模型的并行化运算的同时,能够很好的解决长距离信息依赖的问题、为什么是引领此次变革?
1.3OpenAI成立于年,年月日发布聊天机器人OpenAI201520221130ChatGPT,两个月注册用户就突破亿,成为史上成长最快的消费级应用1GPT-4为目前综合表现最好的自然语言大模型,成为全球估值最高的OpenAI初创公司坚定技术创新投入架构下和不一样AI TransformerGoogle的技术路径,坚持扩大模型规模训练到“涌现”出现开源的理念创立之初宗旨是推动普惠,侧重开源研究和开发开源的模OpenAI AI型可以得到广泛的反馈和建议;也可与其它研究机构、公司建立合作关系,得到更多的资源和知识;同时提升透明度和信任度涌现理论扩大模型规模是提升自然语言处理能力的有效手段自然语言处理任务的准确率与训练量紧密相关,“大力出奇迹”!根据最新的论文研究,当模型训练量小于时,在几个自然语言处理任务上的准确率1022都在附近,而当训练量超过后,模型的准确率大幅提升,该效应01024称之为涌现”大模型在参数量及数据集较有大幅提升,GPT4GPT3在自然语言任务处理上所表现出的优异性能进一步表明,通过提高GPT4模型参数量、扩大数据集来提高模型性能的方法仍然没有碰到天花板,因此持续扩大模型规模是提升自然语言处理能力的有效手段当然,不断扩大的模型规模需要的计算资源将指数级提升AIGC风靡一二级市场,标的选择大浪淘沙、算力——的“卖铲人”
2.1AIGC预训练是指使用大规模未标注的数据来训练模型,以使模型能够学习到普遍的特征和结构是指在已经预训练好的模型上,用标注数据Finetune对模型进行有监督的微调,以适应特定的任务在阶段,微Fine-tuning调可以使用较少的标注数据在相对较短的时间内完成模型训练推理训练是指使用微调后的模型进行推理任务的训练,以进一步提高模型的性能和泛化能力、大模型训练算力总需求测算
2.2根据Kaplan,J.,McCandlish,S.,Henighan,T.,Brown,T.B.,Chess,B..Child,R.,Gray,S.,Radford,A.,Wu,J.andAmodei,D.,
2020.Scalinglawsforne的论文,基于的自然语言处理大模型可urallanguage”transformer NLP分为三类和Encoder-OnlyE,Decoder-OnlyD模型的训练算力需求可根据以下公式计算训练EncoderDecoderEDo算力需求二模型参数量数据集数系数其中,的取值取决于模型种类,X X;如果模型种类为或贝如果模型种类Encoder-Only Decoder-Only,1=6为贝『以大模型为例,总参数量Encoder-Decoder,3GPT3parameters;约等于数据集数约等于175B175*109token300B300*109,大模型是因此我们测算大模型训练算力GPT3Decoder-Only D,GPT3需求量为175*109x300*109x6=
3.15x1023=315ZettaFLOPSo、数据服务及基础设施开发工具
2.3数据是大模型的“饲料”,工程=数据工程+模型工程数据资源对模型AI的成熟度有很大影响,数据资源和有效的数据加工处理将提高大模型的准确度和效率数据工程系工程的前置且基础环节,核心在于高效的数AI据标注、具身智能有身体并支持物理交互的智能体
2.4什么是具身智能根据中国计算机学会,具身智能是有身EmbodiedAI体并支持物理交互的智能体,更侧重关注智能体与环境的“交互”,如家用服务机器人、无人车等年,图灵在论文1950中首次提出了具身智能的概念;^ComputingMachineryandlntelligence^斯坦福大学的李飞飞教授称“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能”;人类是第一人称视角的智能在和所做的实验中,主动猫是具身的智能,可以在环境中自由行Held Hein动,最终获得了学习行走的能力;而被动猫是旁观的智能,只能被动观察世界,最终失去行走能力结合李飞飞和卢策吾教授的说法,具身具有物理身体,但不局限于载体形式,具有与人一样的身体体验的能力,其重点在于与环境的实践性“交互”,可以进行主动式感知与获取数据具身智能涉及跨智能学科多个方向根据北京大学前沿计算研究中心,具身智能涉及众多学科,如机器人工程用于设计和构建具有自主行动和感知能力的机器人;计算机视觉让具身智能能够像人类一样理解和分析图像和视频;计算机图形学开发的物理仿真环境给具身智能提供了真实物理世界的替代;自然语言给具身智能带来了与人类交流、从自然文本中学习的可能产业链可分为感知-想象-执行三个环节感知即模拟人对视觉、语音、触感等全方面的感知,主要涉及传感器;想象是指模拟人的思考决策过程,主要涉及机器视觉、语义识别等算法;执行是模拟人的行动过程,主AI要涉及控制器、减速机、电机、执行件、芯片等、哪些应用能真的被大模型“赋能”?
2.5什么样的应用有商业前景?那些应用可能被颠覆?类别一提升AIGC+生产工作效率的通用工具(连接打通可能再创造增量价值)对结果准确度要求不高,对内容供给速度有实质性的提升比如降低内容创作门AIGC槛,代替人工完成基础性创作工作,人能够参与到高价值的内容创作流程中类别二可能改变行业格局的场景应用(有场景的端,有数据的C B端)带来一个增量产业的崛起(如教育、医疗分诊,个性化生成,高频时效交互)端对行业差异化和专业化要求更高,垂直行业长尾数据帮助B模型,容易建立壁垒finetune赋能的第一类场景为提升生产工作效率的通用工具在此类场景中,AIGC能在基础性工作中帮助或替代人力此类场景对生成内容的AIGC AIGC准确度要求不高,主要通过生成式提升内容供给速度、降低内容创作AI门槛,从而帮助人员专注于高价值的工作及创作流程,提升工作效率金山办公拥有办公应用套件为对标的WPSOffice,Microsoft365AIGC+办公软件应用落地优质场景,公司沉淀了大量用户文档数据,具有潜在的应用价值,同时也构建起坚实的数据壁垒,值得期待AIGC+WP8AIGC+文档应用率先落地金山办公率先登陆在线协同编辑工具轻文档,WPSAI实现知识分析、内容生成、文本处理三大功能;目前已全面结合WPSAI表格、文字、演示、四大应用实机演示三分钟自动生成PDF WPSPPT在百度“文心千帆”模型现场中,金山办公为百度提供了的demo WPS接口,通过问答形式,实现三分钟自动生成API PPT无缝切换服务功能,提升数字营销能力将AI AdobeSenseiGenAIAI引入的云端产品,以提升企业的效率和生产力具体功能包括可Adobe实现基于文本的图片生成、视频剪辑及自定义矢量图的可实现Firefly,AI文案撰写的聊天机器人AdobeExperienceManagerSites,以及一系列数据分析功能等与图像处理AdobeMarketoEngage,AIGC等工具类应用结合,能大幅提升产品易用性,降低使用者门槛,拓宽产品客群与创意营销软件结合带来的营销内容生成及数据分析能力,AIGC则能协助将用户的部分工作流程自动化,且深度利用系统沉淀的数据,提高用户工作效率、金融同花顺拥有端垂类数据优势,迎来量价齐
2.6AIGC+B升契机公司将相关成果运用到金融信息产品和服务中,重点打造了AI i问财和开放平台两大落地场景问财具备多轮对话能力,可以为投AI i资者提供智能选股诊股、选基诊基、资产配置、理财知识百科等理财助理、理财投顾服务开放平台面向客户提供智能客服机器人、智能会议AI转写、智能投顾、金融文档审核系统等余项人工智能产品及服务,应40用于证券、基金、银行、运营商、科研院所、政府部门等多个行业拥有垂类专业数据壁垒,迎来量价齐升契机截至年底,同花顺金融22服务网累计注册用户约亿人,每日使用同花顺网上行情免费客户端
6.14的人数平均约为万人,每周活跃用户数约为万人公司坐拥14631942千万级别的日活用户,积累了各类交易品种的基本资料、财务信息、高频数据等垂直专业数据,具有垂直领域数据积累和技术优势随着后续大模(型与进一步赋能导流,公司将迎来量(用户数付费率)价)AI ARPU齐升的契机电商多环节赋能电商电商场景不仅拥有标准内容AIGC+Shopify——生成及数据洞察的需求,顾客所需要的个性化推荐、个性化广告、个性化客服等需求更为应用留下了广阔空间,可在减轻商家工作量的同时AIGC为顾客带来更好的销售体验,从而提高销售效率年月日,率先接入的接口,202331Shopify ChatGPTAPI ChatGPT在计中应用场景广泛,可以用于聊天机器人、推荐系统、广告内Shop y容生成等多环节中,从而改善顾客购物体验,并帮助商家提高销售效率聊天机器人为客户提供咨询服务,对商品进行描述,为商家节省互动时间,帮助客户改善购物体验,优化互动流程同时提高转化率个性化推荐根据客户输入的历史查询内容,实现个性化定制推荐,提高购物体验广告内容生成帮助商家生成促销电子邮件、广告和社交媒体帖子等营销内容,提升营销效率平台商品评论数据分析帮助商家解析商品评论,将数据归档分类,给商家优化商品提供建议。