总编聊科技：大模型“百团大战”谁能笑到最后？

^{作者 | 张津京}

这两天上海成为全球人工智能领域关注的中心。

7月6日2023世界人工智能大会在上海召开。有幸受到邀请，我全程参与了此次大会。

这一次确实感受到了大模型在中国竞争的激烈，甚至有了一丝之前“百团大战”的影子。展区被各类大模型及其应用塞得满满当当，大家开口就是ChatGPT，闭口就是算力有多牛，数据有多多。

通用大模型成为整个展会焦点，甚至很多拿到投资的创业企业，也纷纷推出自己的大模型，而且现场欢迎观众直接上手，体验与国际最高水平之间的差距。

但画风有些越来越不对劲。

已经开始有大模型研发企业，让大模型看着西方油画写东方诗词；还有的企业干脆用大模型配着数字人，现场跟参观者一对一互动起来。

然而，很多参展大模型企业的技术和产品，给我的感觉是十分酷炫，但我对他们的生命力和未来发展的周期，抱有很大的怀疑态度。

最近有几个消息，其实是对大模型的企业不利。

首先，美国又在考虑对输出中国的高算力GPU芯片进行限制。现在我们能买到最好的英伟达芯片，就是次旗舰型号H800，这是英伟达为了专供中国市场定制的“阉割版”芯片（性能比旗舰款H100大概下降了50%）。现在很可能连这样的芯片，美国都不想让中国获取。

其次，人们发现用通用数据对于大模型训练的效果越来越不明显。本来，大多数中国大模型的研发都是在开源的Transformer模型基础上进行的，而且为了迅速推动大模型训练完成，一般都会采用绝对位置编码。

所谓绝对位置编码，就是在这个开源的模型基础上，所有的输入信息都是同样重要的，为了让模型得到理解，必须将其排序。而绝对位置编码就是直接将排序的位置信息，通过向量的形式融合到模型输入中。

好处就是输入的信息大模型，不用再进行额外的学习和思考，并且可以进行有限的编程，通过逻辑推理的方式帮助大模型理解和使用。

所以之前很多中国的大模型开发者无一例外都选择这样的方式来做模型的开发，但现在最新的论文发现，绝对位置编码由于位置的固定，有可能模型会存在输入信息短期溢出的现象，造成学习能力和计算能力的浪费。

另外，谷歌相关人士接受媒体采访时表示，开源成为大模型，商业模式是最重要的挑战。虽然目前OpenAI和谷歌都选择了“闭门造车”，但是Meta却走上了开源的道路，LLaMA开源之后迅速地吸引了大量开发者，这和互联网时代Linux，移动互联网时代的安卓十分相似。

综上所述，芯片受限意味着未来可能在基础算力领域的投入进一步增加，算法有缺陷意味着将来不得不改变底层算法，或者增加更多的算力，成为一个循环的无解难题，第三就是开源大模型的挑战越来越明确。

但其实，我觉得在这些技术能力能讲清楚的挑战之外，真正决定百模大战谁笑到最后的因素，应该是谁真正有成型的商业模式和商业能力，谁的模型真正可以在应用层面存活下来。

实际上，从open AI的ChatGPT3.5横空出世以来，大家一方面惊讶于大模型对于人工智能技术进步的推动，另一方面也在不断探索这项技术所带来的商业模式。

当下，随着微软与OpenAI逐渐发力互联网广告和流量获取领域，人们发现通用大模型在C端市场往往进入分割旧有流量广告的商业闭环，对于互联网业务的增量并没有太多助推作用。美国知名媒体NewsWeek最近对OpenAI旗下ChatGPT大模型应用网页统计调查显示，相关用户的热度急剧下降，其每日流量可能已经跌到一二月份热度最高时10%-15%的水平。

这意味着，OpenAI大模型开发方想依赖流量广告盈利的可能性降低，商业收入受限。也因此，OpenAI的ChatGPT从3.5-4，不到三个月时间就烧完了微软投入美元100个亿，后续不得不紧急融资105亿美元应急。

而为了在投入与收入之间取得平衡，OpenAI不得不限定其API接口付费金额，每个月单账号的消费不能超过120美元。而且为了保证应用的稳定和投入的可控，他们还不得不封闭了大量已经申请成功的账号。

从这点上看，以OpenAI为代表的通用大模型，找寻落地和商业化方面出现困难。

同样，国内这些各种各样的大模型企业也都遇到了类似的问题，谁真正有实力解决，谁就可能赢得这场战争。

回到人工智能大会的现场。

今年的人工智能大会，有几个模型的服务方引发了我的兴趣，而从我的观察来看，他们或多或少都具备跑赢整个大盘的能力。

比如说高举行业大模型旗帜的腾讯云。公布了腾讯云MaaS服务全景图，基于腾讯云TI平台打造行业大模型精选商店，提供金融、文旅、政务、医疗、传媒、教育等十大行业，50多个解决方案。

再比如商汤的日日新，结合他们在人工识别AI领域的积累，以及智能驾驶、语音、图像方面的经验，商汤的这个大模型有着非常明确的应用场景和商业模式。

当然，还有科大讯飞的星火、阿里的通义千问，以及京东的言犀。

实际上，这几家具备特点且技术突出的大模型，已经有在百模大战生存并发展起来的可行性，而且现在都能看到他们未来市场的前景。

但我觉得，真正能成为中国生成式语言大模型领军者的一定是百度。

非常有意思，百度其实一直对标的发展对象是谷歌，但OpenAI背后站着的不光有谷歌弃将，更有微软投入的资本。

实际上所有人一直以来都认为谷歌应该才是生成式大模型首先应用的平台，但可惜他们并没有完成这样的使命，反而让初创企业OpenAI占得了先机。

从技术的角度看，OpenAI可复制，这也是为什么混元大模型层出不穷的原因，但从商业的角度来看，OpenAI有着天然的硬伤。

一方面OpenAI只是技术的研发者，并没有将技术变现的渠道，这也解释了为什么微软和OpenAI一拍即合；另一方面OpenAI不具备互联网平台的属性，相关商业人才的匹配也没有达到平台发展的基准。

OpenAI已经开始利用插件的方式来争夺原本属于谷歌的海外互联网广告流量，但现在媒体统计其使用活跃用户数急剧下滑，流量聚集效应也急剧下降，这对于其第3批提供相应流量分成的合作方，产生了不小的影响。

而在所有人都关注的行业应用领域，OpenAI没有相关的数据和资源，无法触及相关的用户，使其对这类的市场望而兴叹。

再加上技术领域的问题，尤其是OpenAI的训练过程就是将互联网通用数据导入大模型的过程，其中并没有对于互联网数据的分析研究，和对互联网用户获得数据时相关心理的研判。

后者对于大模型真正的训练，其实有着非常突出的作用。

在7月6日人工智能大会主论坛上，百度CTO王海峰博士对外做了重要演讲，其中他谈到百度的文心大模型已经进化到3.5版本。

这背后是因为百度是中国乃至世界最大的中文搜索引擎，之前10年百度很多文字理解上的AI应用全部体现在了搜索引擎上，不断帮助百度搜索引擎了解用户搜索到底想要的结果是什么。

而这种数据的积累，恰恰是OpenAI所不具备的。

这次王海峰的发言，解读了文心大模型3.5的核心技术创新，尤其在基础模型训练上，采用了飞桨最先进的自适应混合并行训练技术及混合精度计算策略，并采用多种策略优化数据源及数据分布，加快了模型迭代速度，显著提升了模型效果和安全性。同时，创新了多类型多阶段有监督精调、多层次多粒度奖励模型、多损失函数混合优化策略、双飞轮结合的模型优化等技术，进一步提升模型效果及场景适配能力。

在知识增强和检索增强基础上，文心大模型3.5提出了“知识点增强技术”，对用户输入的查询、问题等进行分析理解，解析出生成答案所需要的相关知识点，之后运用知识图谱和搜索引擎为这些知识点找到相应答案，最后再用这些知识点构造输入给大模型的提示，为大模型注入更具体、更详细、更专业的知识点，显著提升大模型对世界知识的掌握和运用。

在推理方面，通过大规模逻辑数据构建、逻辑知识建模、多粒度语义知识组合以及符号神经网络技术，提升文心大模型3.5在逻辑推理、数学计算及代码生成等任务上的表现。

因此，技术领域百度可以用远少于OpenAI的投入，提供接近乃至逐渐从部分到全体超越的一个大模型。

这在国内大模型的训练中，也是占据前列的潜在资源。毕竟类似于百度这样，拥有核心训练数据资源的企业并不多见。

在人工智能大会前夕，百度上线了文心一言的APP。

这悄然补上了百度，目前文心一言商业模式缺失的环节。

实际上从3月份发布文心一言到现在，百度在行业应用领域已经有了很多的案例，开始将文心一言的模型运用于许多中大型企业的业务推广和过程。

对于行业应用的重视，早已成为所有中国大模型研发企业的一致看法。

因为中国健全的生产体系，让在生产领域积累的数据会成为中国大模型发展的契机和特色，而在这些领域大模型与企业真正实际需求的结合，会催生出丰富多彩的应用模式。

这也是百度在业内最早推出行业大模型的重要原因。

从我对大中型企业的了解来看，文心一言是他们优选的大模型合作方。不光是因为文心一言推出的时间早，也是因为他们不断在应用中迭代，为各个行业提供了专属模型和专属部署工具。

所以在行业模型方面，我对百度未来发展的前景持看好的态度。

但百度在c端互联网流量获取方面其实是有所缺失，光靠一个网页版并不能体现出文心一言对于互联网流量获取、分发乃至于商业变现方面的长处。

而百度APP其实是百度所有流量的核心。如何将文字语言与百度现有的搜索相结合，是接下来百度所要考虑的重点。如果能将两者有机结合，就能调动百度APP的庞大资源，也能打通现有百度搜索带来广告收入和技术收入之间的这道墙。

两个月前我说大模型的发展，未来要看数据，谁占有数据谁就占有发展的空间。

现在我觉得大模型逐渐形成了稳定发展的趋势，各家也都找到了自己的特色，这点非常好，对于中国大模型行业的发展有着无与伦比的推动作用。

但商业模式和商业闭环，现已成为所有大模型开发方必须考虑的问题，因为只有想明白这一点，才能让自己的大模型在发展中找到真正的路。

毕竟大模型是一个大力出奇迹，靠投入资源才能产出的行业。

如果没有稳定的商业模型支撑，哪一家大模型研发方都不可能跑得很远，而只有找到了自己适合的商业路径，才能把自己的产品不断向目标人群和目标市场转型，最终打磨成一个对于目标人群和目标市场非常合适的模型，也才能匹配自己选定的商业路径。

这可能是决定百模大战，谁笑到最后的真正核心问题。

接下来，大模型的公司恐怕要在这商业模式上下很多的功夫。因为生死之间，会有大恐怖。

总编聊科技：大模型“百团大战”谁能笑到最后？

印尼加快镍产业下游化布局打造新能源汽车供应链中心

马来西亚6月生产者价格指数同比上涨9.2% 企业成本压力持续加大

韩国股市大幅调整 AI芯片投资热降温引发科技股承压

泰国拟投入2400亿泰铢推动电动车转型加快汽车产业升级

新加坡推出9亿新元援助计划应对能源价格上涨压力

马来西亚鼓励深化马中医疗器械合作冀打造全球医疗设备制造基地

韩国股市暴跌逾10% 半导体股重挫拖累大盘

马来西亚6月出口同比增长45.4% 槟城继续稳居全国最大出口州

汇丰21亿美元出售新加坡保险业务

越南钢铁行业上半年产销双增长制造业复苏带动需求回升

关于我们

友情链接

帮助中心

联系我们