资深业内人士谈大模型（转载）最近邀请了一位认识很久的朋友，来给我们内部讲讲大模型，反响特别好，深入浅出，通俗易懂，征求朋...

资深业内人士谈大模型（转载）
最近邀请了一位认识很久的朋友，来给我们内部讲讲大模型，反响特别好，深入浅出，通俗易懂，征求朋友同意后，决定把部分内容整理出来，以飨读者。
朋友在高科技方向有十几年工作经验，最近1年完整负责了一个垂类大模型产品的0-1落地。
文章分三部分，概要如下：
一、大模型本身
★从0-1训练一套大语言模型的流程是什么，其中的难点有哪些？
★大模型应用的难点在哪里？
★大模型基座公司中技术团队人员的分布以及配比是怎样的？
★算法工程师做哪些工作，可以让模型的效果更好？
★模型的回答是抄袭还是创新？
★为什么大模型的理解能力这么强
二、目前最火的Agent
★Agent应用到什么阶段了，为什么最近这么火
★只要是特定任务场景的重复性工作，都可以交给Agent来做吗
★开发Agent的这方面技术上有什么难点吗？有成熟的模型可以参考吗？
★国外比较火的character.ai属于Agent一种吗
★Agent是不是可以解决男女谈恋爱的问题
三、聊聊大模型目前和未来市场
★目前国内几个大模型基座公司有没有比较看好的？
★大模型的未来前景：基座和应用（场景）
★是否长期看好AI大赛道？
★多模态如文生图、文生视频的市场怎么看
一、大模型本身
1、从0-1训练一套大语言模型的流程是什么，其中的难点有哪些？
1.搞基座，重头训练或者再训练；
2.SFT做指令响应；
3.强化学习做alignment；
4.调prompt；
5.做场景Agent。
在执行难度上分两个阶段：GPT3.5之前和之后。
在GPT3.5之前，技术方面的主要环节都是公开的，但是很多细节没有公开。以调基座为例，原理和公式都写得很清楚，但内部的一些参数细节并未提及。由于信息公开化，理论上没有技术壁垒，只有实操上的经验壁垒。其中的最主要壁垒是试错成本太高，训练时间太长，比如30B的大模型，几千张卡（A100）进行训练可能需要1-2个月。
训练大模型可以形容为造飞机，造成之前首先要确保它能飞，如果不能飞就摔没了。大模型也是如此，训练两个月的效果必须得好，一个参数错误，或者一小撮致命的脏数据，都会导致最后功亏一篑。
GPT4之后，很多信息不再公开，可能就有比较多的技术壁垒。国内各大厂商现在还在3.5级别的卷，明年开始卷GPT4水平的模型时，技术就会成为一个竞争壁垒。外加GPT4规模的模型的超高的成本，就不是所有人能搞定了。
大模型未来主要是两种路径：基座和垂类。
租卡可以实现垂类，但无法满足基座的需求。基座要大量的丰富数据，至少需要2T的数据和1000张卡以上，垂类应用100B就足够。训练中存在的经验壁垒：数据如何清洗，参数怎么设置，训练多久等。
近两年国内公司主要是在追赶GPT过去的路，整个2023年主要在复现GPT3.5，这个稍微容易一些，但是复现GPT4可能会持续到24年年底。
拿到数据以后，指令调优和强化学习本身也比较难：强化学习原理本身不难，但关键在于如何通过强化学习对大模型进行调优。业界常用的强化学习方式比如PPO，本身都不是很稳定，一个小的参数扰动就会让结果功亏一篑。
另外由于领域超级专家的标注收集困难，领域reward model的训练一直都是一个核心难题。比如做一个医疗大模型，这个病该怎么看？不同的医生会有不同的回答。哪怕现在比如最普通的发烧，都还没有统一的回答。什么叫高手？虽然是发烧，普通的医生能马上开个退烧药，但是牛人能发现背后的问题，能多问记一些关键信息，卡出其他方子并且治愈，这叫高手，这种高手是可遇不可求的。
所以一个客观事实就是，虽然你很努力的拿了一大批数据，但是里面真正的高手收据可能是很少的，大模型就学习偏了。
总结一下，领域上广义的alignment的壁垒是很高的，现在很多公司号称有着大量的语料，但是都是集中在基座训练语料，这块儿的语料其实没有的。所以从语料收集到模型训练，这里的壁垒都很高。
为什么很多大模型产品，在问答的过程中，很少有追问环节？（比如我提问一个问题，gpt不会反过来问我：你是想让我了解这这几块领域吗？）
这是因为没有进行调试，开源的模型一般有两类开源，一种叫基座开源，比如并未进行指令响应和强化学习，只是训练了语料，基座的效果不错就可以投入使用了；
第二类叫基座的chat版本，是能做到追问的。但是主动追问是需要专门的微调训练的，尤其是那些在领域里面恰到好处的追问，是非常难的，现在的开源模型几乎都不具备专业领域能力。
3、大模型基座公司中技术团队人员的分布以及配比是怎样的？
基座有很多工程工作，比如框架、工具监控等，所以工程师团队做各种框架和提效监控较多；另外还有数据团队做各种数据清洗。
现在基座团队配比一种是现状配比，另外一种是合理配比。
现状配比是公司招了大量的NLP工程师去搞基座，但大部分都是在洗数据，对很多开源数据进行清洗，然后整理。正常的技术团队不会超过50个人，大公司可能50个人左右，小公司10-20人就够了。
合理配比：这种情况下算法团队反而不大，在基座里面算法团队少的话5-6个人就够了、多的话也就10来个人，其他都是开发工程师和数据工程师。总结下，算法的比例四分之一，数据工程师四分之一，工程师可能占一半。
Infra层在哪里？
训练和推理都需要infra。刚才说的是训练，还没有到线上去部署做推理的，模型训练和线上服务是两个概念。推理部署，就是模型训练好后，要部署到线上。
业界会有一些开源框架，直接部署到线上即可。过去一年，因为框架未完善存在一些bug，需要大量的、有经验的人来修复。一年之后，大家基本上修的差强人意。现在到年底，基于开源进行推理部署的要求可能会有所降低。
4、算法工程师主要做哪些工作，是负责让模型的效果更好吗？
过去的一年，在调优方面做的并不多，更多的叫跑通。因为周期太长了，调整一个模型的周期是1-3个月，能把它跑通且运行效果可以接受就很不错了。
每个公司都是在清洗数据，修复bug。在今年3、4月份的时候，百分之七八十的时间都在修开源框架的bug；6、7月份的时候，就是清洗数据。到目前为止还在清洗，不过现在也可以用算法洗数据。
指令响应是基于大量标注数据实现的。因为很多中文的指令响应没有相应的数据，各个公司开源也比较少。各种标注就是对不同的问答进行数据标注。这是各大公司的主流任务。百度跑的比较快是因为他们标注团队本身比较多。
如果没有资金支撑标注的话，可以把这个问题发给GPT4回答就算一条标注，这种GPT4 as labeler的方式业界很常见。过去有段时间，大家问一个模型作者是谁，模型回答是Open AI，背后的原因大概率是使用这种方法标注的数据。
基本上垂类的公司都是在以标注数据和清洗数据为主。指令响应本身的算法比较少，主要还是细节，比如说搞训练提速，lora这些，就在开源的基础上进行调试，最终的目的就是效果变好、数据清洗干净。接下来第二步是指令调优。一个比较有意思的现象，
现在业界做大模型比较好的负责人，是传统做搜索那帮负责人，反而不是NLP科学家。一个核心原因，就是在NLP算法都开源的情况下，整体的流程难点和搜索比较像。第三步才是强化学习。
现在业界做强化学习的成功案例比较少。原因在于训练数据难搞、算法比较难调、需要时间比较长、对标准要求也比较高。那些号称自己强化学习做的话得就是把开源的数据收集过来自己做了一些复现工作。另外因为国内网络环境对涉及危害社会的问答比较敏感，现在很多公司会先做拒绝回答的强化学习，不急于把问答效果做好。
估计2024年那些做的好的公司会在这里有较大进展，也意味着投入比较大。
5、大模型的回答是抄袭还是创新？
既不是抄袭也不是创新。大模型本身，有两个特点：
第一个：理解能力强。和搜索引擎不同，搜索引擎检索的时候是将答案记住。大模型有几个T的巨大知识库，这些文章大模型其实都没有背会。业界有人做过实验，大模型要学500遍，才能将答案真正背会。大模型是对所有东西都有所理解，理解完之后去回答的。
大模型真正强的是理解能力，而不是记忆能力，他记的东西很多是错的。所以回答偏客观知识型问题时，例如，牛顿哪一年出生这个问题在互联网上出现了不止500遍正确答案，那他就不会犯错。如果在互联网只出现十遍且错误率高达80%，比如提问我的生日是哪一天，如果互联网没出现，那就是错的。
第二个：你只要问他问题，他就一定会回答你。大模型理解之后，回答的每一个问题都不是从知识库调取，而是依据其本身的理解进行回答。大模型学的次数多，理解对的概率更大，学的少，理解可能不对。它只是将自己的理解进行输出，所以提问的每一个问题都是它对互联网的所有知识的理解。
所以大模型既不是抄袭也不是创新，你可以把它当成一定智商水平的人，在对齐之前，所有的回答都是他自己的理解。在对齐之后，所有的回答都是对领域专家的模仿和超越。
6、为什么大模型的理解能力这么强？
这是他算法的收敛性导致的，基本上是理解能力最强的一套，它对全世界的所有的语言都进行理解。比如从英文翻译成中文，即使最开始没有特殊语料的，也可以直接翻译过来，是因为他把语言彻底理解了。以前咱们叫书读百遍，其义自现。他读了几百亿、几千亿遍的书，彻底给融会贯通了。
大模型可能是读了好几千遍百科全书？
对，因为互联网本身的渠道就是庞大的，他至少具备了几百亿或者几千亿篇的语料。而且网上对于同一件事情会有不同的语言介绍，他都理解了，不过也确实无法回答一些比较小众的知识。
它只能靠刚才说的第五个阶段靠外挂知识库的方式做综合的Agent来来解决这个问题。基于大模型成本的指数效应，在企业方案中外挂知识库是逃不掉的。
二、目前最火的Agent
1、Agent应用到什么阶段了，为什么最近这么火
大模型的分五步最早已经说过（基座、SFT微调、强化学习、调指令、做场景agent），探索了一年基座后，大家也都清楚基座技术壁垒没有那么高。但是卡的壁垒很高，2万张卡和2000卡的效果确实是天壤之别，Open AI已经开始往十万张以上卡去搞了，而且他们也不再用A100，而是更高级的H200。所以在基座这流程里，就是规模出奇迹。
不过基座确实有很多工作还是要做的，比如清洗数据，数据清洗不彻底，数据挑选就会很困难。
我的目标是两个T的数据，整个互联网拥有的是成千上万T的数据，如何挑选出高质量的数据？这就属于算法工作，而且有一定的壁垒。但整体而言，这块的壁垒无法和卡的壁垒相提并论。因为2万张或10万张H200是有市无价的。所以这个事情只有巨头才能玩，除非有十亿美元级别的融资，不然很难进入万卡级别竞争的。
第二步就是SFT微调，拼标注。海量的、各行各业的数据都需要进行标注，就看谁标的快。这一步技术难点没有那么高，主要在于标注质量。这种情况下，拥有标注团队的大公司就是快人一步，有的大语言模型比如文心一言很快就标注了大概100万条以上；
对小公司而言，搭建标注团队就需要时间和精力的投入，还需要负责后续其他工作。基本上今年拼到现在，大公司在标注这一步都已经差不多了。小公司，哪怕是明星创业公司，这块儿也比较难。
第三步是做强化学习对齐，存在一定的难度，而且也不是一年能搞定的，可能两三年才能搞定。所有小公司，都开始往这个阶段发展，技术上不见得必须是强化学习，也可以称之为场景微调吧。有些时候用的也不是强化学习这个技术手段，但是为了实现同样的目标，所以各个公司就开始往对齐这个方向进步，不过也需要两三年的时间成本，以及人力、财力的支持。
而且在一些领域确实会出现下面这种情况：要数据，但数据量甚至不到百万级；要卡，卡甚至不到几十张。因此最终只能回到Agent，来做场景。
比如刚才提及的医疗领域，发送一个病例。帮我检查一下病例有没有什么问题？有问题，就告知患者，流程到此结束，不会有后续的看病环节。这就是特别典型的Agent，可以调用OCR，然后把OCR的结果反馈给大模型，进行判断。判断不行，再追问一下，问清缘由。
所以到现在为止，业界老师、学生、应用类的公司发现除了Agent之外，能做的东西有限，这是第一点。
第二点是Agent在解决具体问题时确实有效。还是病例的例子，我只想扫描病例，这是很基础的一件事，而且技术也没有那么高大上。调用开源大模型确实能做的不错，投入市场后会发现需求极其旺盛，基本上各行各业都有需求。
比如公司的公众号发了很多篇文章，那能不能用大模型总结出本书？这就是Agent，它把文章收集并总结，再调整格式，技术方面大模型可以实现，但真的变成一本书落地，还要牵扯其他事宜。
这种情况属于有商业价值，不费卡、技术可行性没问题，同时投入可控，目标用户人数广，就因为这些原因导致Agent就火起来了。
如果想做到企业级的Agent，只靠调用别人就不太够了，还需要反推。大模型只用开源无法解决，gpt4又太贵，开源效果不好，就可以进行倒推，做一些额外的微调或者额外的学习，诉求就慢慢起来了。
所以到最后，企业级的Agent就会变得很复杂，不光要调刚才说的那些场景，同时还要把模型一起做了，做好了后企业就愿意消费。一切以把这个事情做好为目标，而不是为了创建一个通用的聊天机器人为目标，这是现代业界的主流思想。
2、只要是特定任务场景的重复性工作，都可以交给Agent来做吗？
完全重复可以，重复性低也可以。就像出差代理，每次出差时帮订机票，可能每次都不一样，但只负责订机票这一种工作。Agent很早以前就有了，大模型时代和过去的区别是在于，过去的出差代理如果想做好需要成百上千条规则才能完备。而大模型时代十几种prompt就可以处理的很好。
大模型时代Agent最大的特点是对长尾需求的解决比例高。
3、开发Agent的这方面技术上有什么难点吗？有成熟的模型可以参考吗？
普通的Agent可能就是一个prompt。但是“企业级Agent”不是个模型，是个系统。比如刚才讲订机票代理，和订酒店代理又不一样，大模型需要考虑到飞机延误、机票售罄等各种条件的最终实现，订酒店同理。另外一种掉大模型也会调携程，我弄完之后携程给我API让我去调，不然我怎么定？类似他就把所有事都给干完了。
它其实是一个框架系统，不是一个大模型。它背后会调用大模型，当开源大模型满足不了要求的话，它也进行微调。可以理解为Agent是个业务系统。
所以现在业界会从两个方面着手，基座或者Agent。但无论哪一方面，最终目的都是为了解决问题，能做到最好的事并不容易，但做的最好就会被大家记住。
以大模型为例，普通调用后订机票能达到50%、60%的成功率就可以接受，但想要客户产生对Agent的付费意愿，成功率就要不低于95%。这个时候场景的壁垒就悄然形成，各种场景化的公司也会应运而生。
4、国外比较火的character.ai属于Agent一种吗？
不一样，它技术上是大模型技术，但它被称为伴侣，而不是代理。代理的场景更多是偏向企业场景。character.ai是情感型，Agent属于严肃工作型。在这个里面会有几个大分支，中国现在没有，但是美国有大分支，比如情感伴侣、虚拟女朋友、虚拟大V，这有好几个分支会出来，追求的目标各不相同。它的技术手段比较像，但是语料、微调在实操上会完全不一样。聊天机器人就是这个大类，目的就是聊天。
5、Agent是不是可以解决男女谈恋爱的问题？
现在很多单身男女，但是部分人又不想去相亲，那就找个Agent帮助这类人群聊天，接触的范围也很广，最后筛选出来我对谁有兴趣，再决定去接触。虚拟女朋友也是一个很好的创业方向。
三、聊聊大模型现在、未来的市场
1、目前国内的几个大模型基座公司有没有比较看好的？
国内这几家公司现在都还处于早期，才半只脚进入深水区。现在做的30B、70B也好，300亿或则700亿参数也罢，亦或者叫千亿参数，都是OPEN AI两年前的东西，大家不要被那些“暴打GPT4”之类的宣传话术迷惑了。GPT4如果按参数级别的话，已经到万亿级别了，而且GPT4在2022年初就已经开始训练了。意味着现在国内的公司刚赶上Open AI 2022年年初的水平。还有两年的差距。
所以现在的阶段是，国内谁能够第一个复现GPT4，谁就占据市场优势。
GPT4的出现有两个前提条件，第一个必须是万卡规模，第二个是谁最先建立全新的用户使用大模型的数据的壁垒。只有很多用户使用大模型产品之后，算法人员才知道怎么调试，没有用户提问，就无法确定调试的方向。
不管是举一反三也好左右互搏也罢，没有海量的用户使用是无法开展的。在这两个前提下，现在大公司百度是最靠前的，百度是有万卡的，文心一言跑得快访问量也足够。老牌垂类公司我看好幻方，他们早早屯了万卡，人才储备又是最好的，唯一的挑战是海量用户这个比较难。
新兴创业公司我看好零一万物。
为什么是“零一万物”？他们舆论风波很大，你为什么会看好他的？
因为他们的模型效果蛮好，只是被舆论黑化了。虽然使用的别人的框架，但训练是自己从头到尾实现的。
很多人搞不清楚“复用框架”和“套壳”有什么区别，结果在宣传的时候就把它变成一个套壳了。打个比方，好比做鱼香肉丝，框架有点像鱼香肉丝的配料表，“复用框架”就是厨师拿出配料表自己炒出来一盘鱼香肉丝，“套壳”是拿着一包鱼香肉丝的预制菜用微波炉加热。配料表当然很重要，但是问题是业界的配料表都是公开的，修改一些其实差别不大。
零一万物其实它只是借助了框架，然后自己训练，效果还蛮好，李开复老师的的融资能力也比较强，有希望提前进入万卡。
头部的几家创业公司，谁能最先进入万卡谁就最有机会。重复一下我的判断，对于基座而言，拿不到万卡一定没有机会进入头部。幻方是一家提前有万卡的神奇公司，说不定最后是他们最快。
那为什么很多北京的同行都不看好零一万物？
北京的清华系公司多一些。每个人观念想法不同吧，但现阶段从我们的实验看来，幻方和零一万物的开源基座是最好的，当然不同的场景可能有所不同，不过这个至少证明了零一万物实力很强的。
大家都说超越GPT4，但千卡级别和万卡级别的差距是很大的，最后就看谁的融资能力强。几家清华系公司的融资能力，在第一批中是非常强的，但是后面的融资如果不接近百亿RMB，就难以实现这种超大规模的模型。
几个清华系公司在后面的时候融资上有可能变成竞争对手，都是校友融资，反而会有投资人到底给谁钱的问题，所以后面要么有家能够融资到万卡，要么公司并购把卡集中起来。做大模型基座，最后比拼的一定是超大规模，一定是在万卡级别。
时间窗口是2024年，不多了，如果清华系公司不够果断，可能就要错过基座的门票了，只能转向垂类场景。
百度跑的最快是因为百度的数据闭环做的最快，已经有用户反馈了，别人用户还是没有。上百万的数据标注也是刚需，百度也是第一个把数据标注做出来的。这个其他公司如果不抓紧可能就要错过窗口期了。
小场景切入。
该类型的公司属于爆款一时，很难持久，对一家企业来讲是否有利？
这种公司更偏向于市场型，有一点技术，但技术壁垒没那么高，市场型的话也不见得不持续，只是它的投资逻辑和技术型不太一样。
因为爆火之后引流了大批用户，随之而来的就是用户数据迭代，慢慢做成一个创业板上市的公司，每年有一定的营收，概率也没那么低，技术型公司反而会更卷一点。因为技术公司是属于赢者通吃，不通吃的话，没有这些纯场景的公司跑得快，后期就会被降维打击，到最后大模型就成为供应商了，所以多模态的成活率比纯技术的要高一些。
技术如果不能形成极高的壁垒，那实际意义上就是没有壁垒，不存在“有一些壁垒”这种说法。用动物打个比喻，如果一堆鸭子在竞争，2斤大的鸭子和3斤大的鸭子其实没有太多的壁垒区别，只有白天鹅才能形成真正的壁垒。
现在来讲，技术极高的壁垒就是open AI，其他的公司有多少博士、大咖坐镇，他们的技术壁垒远远没有其本身想象的那么高，都不足以形成壁垒。大模型基座比较简单，使用10万张H100，那它的壁垒就是极高的，将来就可以把其他公司市场都吃掉。
在国内，目前来讲没有哪家公司有极高的壁垒，所以竞争会很惨烈，胜出的公司是需要007的，在胜出以后靠着长期用户数据闭环形成真正的壁垒。
对于小玩家而言，在没有技术壁垒的时候，就需要果断的建设“市场壁垒”或者“渠道壁垒”，而不是想当然的认为自己招聘了几个牛人科学家就可以活下来，时间窗口也差不多在2024年吧。如果建立不起来，就需要考虑尽快把自己卖掉变现了，不然可能血本无归。
2024年是国内大模型从业者的真正深水区竞争。
基座的制高点就是复现GPT4，谁最早复现谁就拿到“OPEN AI国内替代品”的门票，如果年底还挤不进去可能就要考虑转型垂类了。
垂类的制高点是市场和渠道，站稳了就拿到了创业板的门票，站不稳就危险了。 $昆仑万维(SZ300418)$

作者：天行健plus

全部讨论