OpenAI的前世今生

  • 2025-08-27 20:50:10
  • 457

还在为“怎么把AI用到业务里”而头疼?这篇文章不是讲高深算法,而是给你一套从0到1的AI落地清单:先找准场景、再选模型、搭流程、算ROI,每一步都配了真实踩坑案例和可复制的模板。看完就能立刻拉团队开干,把AI从PPT变成现金流。

本文将统一介绍OpenAI的发展历程,并讨论其公司架构、技术演进、商业模式、财务和估值,以及对公司未来的思考,内含大量技术细节。

原文包含20多幅图片,我给配了一些注释,enjoy,欢迎点赞、关注和收藏。(之后我会更新一篇黄仁勋出道以来推荐过的书,这位老哥非常神奇,现年62岁、创业32年的他,似乎一共只推荐过7本书,但是本本经典,敬请期待。)

全文目录

1、前OpenAI时期(2015年之前)

2、OpenAI成立了

3、OpenAI的技术

4、OpenAI的商业模式

5、OpenAI的市场数据与竞争格局

6、OpenAI的未来

OpenAI公司估值演变趋势图:此图展示了OpenAI自2015年成立以来,估值随时间推移的增长轨迹。从创立初期估值较低,到随后呈指数级攀升。

1、前OpenAI时期(2015年之前)

在前OpenAI时期,也就是2015年之前,有三个重要因素为OpenAI的诞生奠定了基础:

1.1深度学习的兴起

2012年,IlyaSutskever(OpenAI前首席科学家,现SafeSuperintelligence创始人)、AlexKrizhevsky和“人工智能教父”GeoffHinton组成的团队在一次竞赛中大幅刷新了此前的基准成绩。

2010–2015年ImageNet图像识别竞赛冠军模型错误率对比图,该图比较了ImageNet挑战赛各年度获胜模型的分类错误率(ErrorRate),展示了2012年深度学习模型带来的突破性进展。横轴就是年份,纵轴表示错误率百分比,柱状条高度代表当年冠军模型在测试集中未能正确识别的比例,所以高度越低越好。

1.2谷歌/Meta在AI人才上的双寡头

在ImageNet大赛取得突破后,Facebook和Google围绕AI人才几乎形成了双寡头格局。最终,Google收购DeepMind,让整个硅谷的从业者感到担忧。这其中,尤其有两个人对此不以为然,他们想要打造一个不同的选择:一家致力于非营利AI研究的实验室。

这两个人就是ElonMusk和SamAltman。

1.3SamAltman的崛起

随着ChatGPT时刻的到来,SamAltman成为OpenAI的首席执行官,并一直是公司对外的代表人物。在此之前,他曾出任创业孵化器YCombinator的总裁,并且是PaulGraham(也是黑客与画家的作者)最为赏识的创业者之一。

Graham曾说:“有人建议我在这个榜单里不要提及YC资助的创业者。但这样的规矩对SamAltman可不适用。只要他想上榜,他就一定会上榜坦白说,Sam和SteveJobs一样,都是我在指导初创公司时提及最多的创业者。在设计相关的问题上,我会问‘Steve会怎么做?’,但在考虑战略与雄心的问题上,我会问‘Sam会怎么做?’。与Sam见面后,我意识到“天选之人”这一观念,同样适用于创业领域,但它的适用范围远比大多数人想象的小,投资创业公司并不是赛马式地挑选赢家。但的确有极少数人,凭借坚定的意志力,终将获得他们想要的一切。——PaulGraham,《FiveFounders》)

上述三个要素,分别提供了技术突破、促成了创建一个抗衡谷歌/FB的实验室的理由,并聚拢到了一位有能力引领这一全新事业的人才。然后,这一切汇聚到了一场如今已颇具传奇色彩的聚会,它发生在硅谷著名的SandHillRoad上的Rosewood酒店里。(一些细节可见这篇文章:专访SamAltman(上):10亿日活的产品比最顶尖的AI模型更有价值)

2、OpenAI的成立

正是在那次晚宴上,Elon和Sam向在座的顶尖AI研究人员提出了创建OpenAI的计划。其中有一人,尤其被这个想法所吸引:IlyaSutskever(被誉为OpenAI的“AI天才”)。不久之后,Ilya便与GregBrockman(被称为OpenAI的“埋头实干者”)一起成为OpenAI的两位主要领导者,并获得了ElonMusk、PeterThiel、ReidHoffman等人合计10亿美元的资金支持,Elon和Sam则共同出任董事会联席主席。当时,OpenAI的核心理念很明确:人工智能可能彻底改变世界,在这种情况下,让一家不受盈利驱动的机构来开发这项技术对人类整体最为有利。OpenAI创立初期的几年,以大量试验探索为标志,推出了一系列项目:OpenAIGym(面向强化学习的工具包)、OpenAIUniverse(构建虚拟环境中的AI)、OpenAIFive(挑战Dota2的AI代理),以及OpenAIDactyl(机械手机器人)。

2.1Transformer的出现

2017年,谷歌发布了著名的论文《AttentionIsAllYouNeed》(《注意力机制就是一切》),首次提出了Transformer架构。Ilya对这一突破的重要性,立刻就有了感知,他当时的反应非常肯定。这里先大致介绍一下原理,Transformer真正的突破,在于能够将上下文纳入模型输出的考量。它通过计算词语与其周围其他词语之间的“相关性”,以及它们在句子中的相对位置,并将这些信息与该词的表示一起存储,从而让模型更好地理解上下文含义。它的目标是将初始输入数据,转换为一系列向量,这些向量蕴含了输入数据的语义信息,然后根据这些语义向量来预测下一个词出现的概率。

Transformer神经网络架构(简化示意),编码器-解码器结构,以及通过“注意力机制”融入上下文信息的工作原理。图中左侧是编码器(Encoder),接受输入序列的词向量表示(加上位置编码),并经过多层自注意力(Self-Attention)和前馈网络逐步提取特征;右侧是解码器(Decoder),利用编码器生成的表示和解码器自身先前输出,通过多头注意力机制,来预测输出序列的下一个单词。注意力(Attention)模块通过计算词与词之间的相关性权重矩阵,使模型在生成某个词时,能够参考输入序列中所有其他词的重要程度。例如,对于词“float”,模型可以根据上下文判断它指的是“漂浮”(floatonwater)、“汽水冰淇淋”(rootbeerfloat)、“游行花车”(paradefloat)还是“飘飘然”(floatingoncloudnine)。

Transformer模型的几个核心阶段包括:

1、输入阶段:tokens首先转为InputEmbedding(向量表示),同时加入PositionalEncodings,以标记tokens在序列中的位置;

2、Encoder(编码器),由多层SelfAttention和FeedForward组成,作用是理解整段输入的上下文关系,生成富含语义的内部表示;

3、Decoder(解码器):同样堆叠SelfAttention和FeedForward,在预测下一个词时会参考编码器的输出,作用是基于编码器的表示逐步生成目标序列,如翻译内容或续写文本;

4、输出阶段:解码器输出经Softmax转为各候选词的概率分布,选取概率最高的词作为下一个输出。生成序列会循环进行,直至满足终止条件。

上图突出了Transformer的两大关键:自注意力机制(SelfAttention)使模型能同时关注整个序列的相关信息,而位置编码PositionalEncodings补足序列顺序,让模型理解词语先后关系。

Transformer架构的关键,在于并行地处理整个序列,而不是逐词翻译,从而极大提高了效率和效果。这个架构为OpenAI此后的GPT系列模型奠定了基础,是实现更深层次语言理解的里程碑,体现了Transformer在上下文处理上的革命性突破。

Transformer的出现,为OpenAI在2018年发表的论文《ImprovingLanguageUnderstandingbyGenerativePre-Training》中取得的突破奠定了基础,那篇论文首次引入了GPT-1模型。

正如SamAltman所总结的那样,这一突破意味着“人类发现了一种算法,能够真正地学习任何数据分布,更确切地说,学习生成任何数据分布的底层规则”。

然而,Transformer中的“注意力机制”,极大地提高了计算需求,进而引发了对“规模化scaling”的探索。

后来的事实证明,增加模型参数规模和训练数据量,模型性能就能以可预期的方式提升。

2.2从非营利到营利的转变(2019–2022)

毋庸置疑,OpenAI从非营利组织慢慢转变为营利公司的过程,引起了许多争议。这一转变,也导致ElonMusk与OpenAI分道扬镳。

然而,“规模化scaling”这一发现,算是把OpenAI逼到了墙角。要利用扩大模型规模带来的性能提升,就必须投入巨额资源,而吸引巨额资金的唯一途径,就是给予巨额的财务回报。

2019年,OpenAI转型为一家“封顶盈利”(capped-profit)的公司,并从微软等投资者那里募集了10亿美元。这一架构下,非营利的OpenAI组织管理着一个有盈利上限的营利公司:

OpenAI非营利组织与封顶盈利公司结构示意图,这张图描述了OpenAI独特的双层架构:顶层是非营利性的OpenAIInc.(公益机构),其下设立了一个封顶利润的营利实体OpenAIGlobalLLC(OpenAILP)。OpenAIInc.通过特殊的公司结构完全控制着营利实体OpenAILP的决策,外部投资者(如微软等)可以向OpenAILP投资,但他们的回报被限制在约定上限(例如利润的若干倍)以内,超过上限的收益归OpenAI非营利组织所有。

有了这笔新资金的支撑,OpenAI开始迅猛发展。2020年,他们发布了GPT-3。2021年,推出了Codex(GitHubCopilot背后的模型),同年还发布了DALL-E。他们还再次从微软获得了10亿美元投资。这一切最终将我们带到了一个众所周知的时刻——2022年末ChatGPT的横空出世,正是这个事件出乎意料地引爆了AI革命。

2.3ChatWithGPT-3.5

Altman自己的原话是:“在2022年,OpenAI还是一家默默无闻的研究实验室,正在研究一个暂时称为『Chat With GPT‑3.5』的项目……我们一直都明白,总有一天会迎来一个临界点,人工智能革命将就此启动。只不过,我们不知道那个时刻究竟会以何种形式出现。让我们惊讶的是,最后竟然是这一刻。”

值得称道的是,微软敏锐地抓住了这个机遇,豪掷100亿美元投资OpenAI。微软随即以最快速度将OpenAI的技术整合到自己几乎所有的产品中,并将这项工作视作公司的头号优先事项。

自那以后,围绕OpenAI的故事已广为人知:

OpenAI已成为当代这场AI浪潮中当之无愧的标志性公司;

SamAltman一度离开OpenAI,但不久后又重返公司;

OpenAI正面临来自Anthropic、Meta、xAI、Google,以及崛起的DeepSeek等越来越多的竞争;

公司已获得了数十亿美元的融资,成为全球估值第三高的未上市公司;

他们发布了诸如o3等具备“推理”能力的模型,开辟了除规模扩张以外新的性能提升路径;

截至2024年12月,ChatGPT的用户数量突破了3亿。

据报道,公司此时的年度营收运行率(用短期收入外推到12个月收入)已达到约40亿美元。

综上所述,公司目前所面临的局面是:

1、正处于开发通用型智能代理的临界点;

2、面临日益激烈的竞争,尤其是来自开源模型生态的挑战;

3、正在努力平衡独特的治理结构、建立可持续的商业模式,并推进“超级智能”的研发。

正如SamAltman所说:“我们现在有信心知道如何构建传统意义上所定义的AGI。我们相信,在2025年,我们可能会看到首批AI智能体‘加入劳动力大军’,对企业的产出带来实质性改变。我们依然相信,反复将出色的工具交到人们手中,会带来伟大且广泛共享的成果。”

3、OpenAI的技术

如果不把AI技术发展的来龙去脉讲清楚,就很难解释LLM(大语言模型)的工作原理。

如果把AI的演进史高度概括,可以划分出以下阶段:提出AI概念→数十年研究积累→深度学习突破→注意力机制与Transformer出现→早期LLM面世→ChatGPT横空出世→引入“推理”能力→诞生智能代理agent

3.1AI的根基和起源

人工智能的核心理念,是让机器自动执行人类的常规任务,并最终逼近人类的智能水平。

从早期的计算器,到大型主机,再到软件程序,都可以看作人工智能形态演进的缩影。计算技术的每一次飞跃,都让我们更接近艾伦·图灵对AI的最初设想:“我们想要的是一台能够从经验中学习的机器……而让机器自行改变其指令的可能性,为实现这一目标提供了机制。”

20世纪40年代,人工神经网络这一现代AI系统的基础概念,就已经被提出。

神经网络是由多层“节点nodes”组成的模型,可以想象成一系列可调节的旋钮。通过赋予众多节点之间不同的权重,神经网络可以建模许多复杂的映射关系。

一般来说,网络中的节点越多、层数越深,它就能学习和表示越复杂的模式。Generally,themore“nodes”,themorecomplexsystemstheycanmodel.

多层人工神经网络示意图,这张图展示了一个典型的多层神经网络结构。图中圆节点分布在几层:最左侧一层是输入层,中间若干层是隐藏层,最右侧一层是输出层。

输入层的节点,接收原始数据(例如图像像素或文本的数值表示),然后通过连接线将信号传递给下一层的隐藏节点。每条连接线都带有一定的权重(可理解为“旋钮”的位置),决定了信号传递的强度。

隐藏层节点对接收到的信号,进行加权汇总并通过非线性函数转换,将结果传递给下一层。

经过层层传递,最终输出层节点给出模型的预测结果。

图中的箭头表示权重调整方向:在训练过程中,模型通过反向传播算法不断调整各连接的权重,以尽可能降低输出与真实值之间的误差。

一般而言,增加节点数量(拓宽每层规模)或增加隐藏层层数(加深网络深度),能够提高模型对复杂函数关系的拟合能力,但也需要更多的数据和算力来支撑。

这些模型,通过大量与其模拟对象相关的数据进行训练,训练的目标,是将模型输出与真实数据之间的“误差或损失最小化minimizeloss”。

通常而言,提供给模型的训练数据越多,模型最终的效果肯定也就越好。

神经网络从提出理论到实际大放异彩,经历了数十年的漫长等待。

最终,促成现代深度学习蓬勃发展的有两个关键因素:海量数据或者说bigdata的出现,以及NVIDIAGPU所提供的强大并行计算能力。

2012年,AlexNet模型取得的突破,标志着人工神经网络性能的一次飞跃,其背后的重要技术支撑之一,正是利用GPU对模型训练进行并行加速。

3.2现代 AI 系统:LLM的黑盒

下一块奠基石,正是Transformer模型。

2017年,谷歌发表的《AttentionisAllYouNeed》论文,提出了这种如今家喻户晓的架构。其核心思想在于,通过“注意力attention”机制,将上下文融入对单词的语义表达。

例如在前文中就提到过的,英语单词“float”的含义,可以是:“floatonwater漂浮”,也可以是“arootbeerfloat汽水冰淇淋”“aparadefloat游行花车”甚至“floatingoncloudnine飘飘然的幸福感”。

Transformer提供了一种方法,将单词所处的上下文,整合进它的语义之中,使模型能够依据上下文来判别“float”在具体句子里的含义

LLM处理输入的第一步,是获取给定的文本(就是用户给的prompt),将其拆分为一个个词元(token),并将每个词元的含义映射(embeddings)成一个语义向量(columnsofdata,可以理解为在高维空间中表示词义的坐标)。

此时,模型已经得到一组向量化的语义表示,用来刻画输入的数据。

接着,transformer登场。

它的目标是生成一系列新的向量,使其中融入单词的上下文意义。transformer的关键理念就是attention:一次性处理整句,而不是逐词依次翻译。

本质上,模型会在一张“attention grid”中考察词与词之间的关系。

Transformer注意力权重矩阵示意图,这张图展示了Transformer模型在处理一句话时生成的“注意力”权重矩阵。

矩阵的行和列,分别对应输入句子的各个词。每个单元格颜色的深浅表示模型在计算某一行对应词的表达时,对某一列对应词的关注强度(权重大小)。

颜色越深,表示模型认为这两个词联系越紧密、相关性越高。通过注意力矩阵,我们可以直观地看到模型在理解句子时关注到哪些词与哪些词存在重要关联。

注意力机制使模型在翻译或生成时同时考虑句中所有词语的相互关系,这相比逐词处理的方法更充分地利用了全局语境信息。

随后,这些信息会经过前馈网络feed‑forwardlayer,进一步精炼由attention提取的特征信息。

当数据在模型中的各层不断流动时,上述过程会被反复执行,持续更新embeddings,以便更准确地预测“正确答案”。

在数据处理完毕后,模型会输出一个潜在词语的概率列表(probabilitiesofpotentialwords,就像我们的大脑想表达同一含义时,常有多种近义词可选)。

最终,模型根据这些概率选择一个词,映射关系(embeddings)会被“反嵌入unembed”回对应的人类语言单词,并作为结果输出给你看。

3.3、OpenAI当前的技术:规模、推理与agent

基于Transformer架构训练出的LLM模型,最初的表现其实并不算出色。要达到如今ChatGPT这样的质量,他们做对了什么?

答案就是:规模化Scaling

投入更多的数据、使用更多的GPU(现在甚至需要更多的能源),就能换来更好的性能——不断扩大规模,直到模型能够非常有效地掌握语言规律为止!

当然,让ChatGPT如此出色的,远不止规模一项,还有许多创新改进。但正是一系列创新与持续的规模化扩展相结合,推动了模型质量节节攀升。

对于现代AI系统,OpenAI将AI能力的发展划分为五个层级。

阶段1:聊天机器人(Chatbots)–能进行自然语言对话的基础AI,例如当前的ChatGPT。它可以理解用户的语言输入并给出合适的回复,但主要用途局限在信息查询、问答对话等。

阶段2:推理机(Reasoners)–具备连贯逻辑推理能力的高级AI。此级别的模型能够在回答问题时展开链式的内部思考,列举多种可能的解答思路,评估其中哪种更优,再据此产出最终答案,使模型的解决问题能力更接近人类的缜密思维过程。

阶段3:智能代理(Agents)–能自主采取行动执行任务的AI。除了对话,这一层级的AI可以调用工具、与外部系统交互,完成诸如浏览网页、调用应用接口、计划行程、处理邮件等具体任务,将AI从信息提供者提升为任务执行者。

阶段4:创新者(Innovators)–拥有创造力和自主创新能力的更高阶AI。不仅能完成预设的任务,还能主动提出新想法、设计原创方案,甚至在科学、艺术等领域有所发明创造。

阶段5:AI组织(AIOrganizations)–多个AI代理协同工作、如同一个组织般运作的形态。若干AI分工合作、彼此通信,可以在几乎无人工介入的情况下自主完成高度复杂的项目和决策,相当于一个由AI组成的虚拟组织。

这两年开始,“推理reasoning”能力已经成为研发的中心。简单说,具有推理能力的模型,会针对同一问题生成多个可能的答案,然后对这些答案进行评价,选出最优的一个来作为最终输出。

这一过程更类似于人类的思考方式:先想出各种主意,再判断哪个最好。

这五个阶段,描绘了OpenAI对AI未来发展的愿景:AI将从当前的智能对话助手,逐步进化出推理和规划能力,继而能够执行复杂任务,甚至具备创造性,最终多个AI系统协作,构成自我运转的智能网络,从而对人类社会产生颠覆性影响。

根据OpenAI的描述:“通过强化学习,o1模型学会了打磨自己的思维链条,优化使用的策略。它学会了识别并纠正自己的错误,将棘手的问题分解成更简单的小问题。当现在的方法不起作用时,它会尝试不同的方法,这个过程显著提升了模型推理的能力。”

最终,引入“智能代理Agent”,赋予了LLM模型执行行动的能力。这使模型从一个更好的搜索工具,变成了一个真正可以替代人类执行部分劳动的智能体(至少对一些简单任务来说)。

增强或者改良的搜索引擎固然有用,但称不上颠覆性的。如果你拥有的是可以完成各种任务的智能代理,比如帮你规划假期、预订酒店、回复邮件、处理客服请求、安排会议等,这将真正改变游戏规则,彻底提升效率和体验。

我们现在达到那个地步了吗?并没有。

明年就能达到吗?或许可以。

十年之后呢?几乎可以肯定。

这正是OpenAI前进的方向。正如他们自己所宣称的:“我们相信在2025年,我们可能会看到首批AI智能体‘加入劳动力队伍’,并实质性地改变企业的产出。”

4.2、OpenAI的商业模式

OpenAI的商业模式,就是一家垂直整合的AI公司,但只有模型是他们独一无二的核心竞争力。他们在技术栈上向上整合,直接提供应用来获取收入,并建立护城河,同时也向下整合技术栈,以降低边际成本。

4.1财务状况

大模型本身,就是人们讨论的焦点,目前,OpenAI约72%的收入就是来自ChatGPT。

据TheInformation报道,OpenAI2024年的收入预计约为40亿美元,同时预计亏损约50亿美元。

在这40亿美元收入的基础上,OpenAI的毛利率大约是41%,我猜测这个毛利率的计算范围,只包含了托管和推理计算的直接成本。

他们预计到2028年,毛利率可以提高到67%,这可比传统软件公司的毛利率还要高很多了。按照预测,到2029年,当公司年收入突破1000亿美元时,将实现盈亏平衡并开始盈利。

那么,他们打算如何把年收入做到1000亿美元呢?答案可以从下面这张非常有趣的图表中找到。

这张图表在之前DeepSeek宣布新模型的背景下,显得尤为耐人寻味。

图表显示,OpenAI达成1000亿美元年收入目标的路径并不是依赖API接口业务,而是靠自家的应用产品驱动。甚至在2025年,他们预计“新产品newproducts”的收入,就将超过API收入。我们不应再把ChatGPT简单看作一个聊天机器人,而要把它视为一个通用型的数字助理ageneral-purposeagent。

从我观察到的迹象来看,ChatGPT的愿景,是成为每个人的执行助手executiveassistant:它可以与用户所有的账户相连接,了解用户偏好,它能对会议录音并做记录、安排后续跟进,它可以自动回复日常邮件,它能够处理客服请求、安排日程。

这样的ChatGPT,而不只是一个聊天机器人,才能支撑起未来500亿美元(1000亿的一半)的收入规模。

4.2公司的治理结构

OpenAI或许像它的重要性一样复杂,们的公司架构如下所示。

OpenAI公司架构与控制关系图,这张图形象地描绘了OpenAI独特的公司治理结构。最上方是OpenAI的董事会,由非营利组织OpenAIInc.指派,掌控着整个公司。董事会通过OpenAIGPLLC(OpenAI有限合伙企业的普通合伙人)对下层的营利公司进行完全控制。下层主体OpenAIGlobalLLC(即OpenAI有限合伙企业,OpenAILP)负责实际运营业务并接受外部投资。

如果你觉得这还不够复杂,那么他们与微软之间的关系更是错综复杂:

如图所示,微软作为外部投资者出现在结构的一侧:2019年微软向OpenAI投资10亿美元,此后又在2023年追加投资,总投资额达到137.5亿美元,从而获得了OpenAIGlobalLLC相当比例的股权(据媒体报道最高可达49%)以及利润分成权(收益封顶为微软获得最多920亿美元的利润)。

与此同时,OpenAI使用微软的Azure云基础设施来训练模型和提供服务,每年要向微软支付逾10亿美元的云服务费用。

这一架构展现出OpenAI混合型的组织形式:顶层的非营利机构确保公司使命和长期利益不偏离造福人类的初衷;下层的封顶盈利公司则允许吸纳来自微软等投资者及员工的资本,以支撑其庞大的研发开支,但对投资回报进行上限约束,从而在逐利与公益之间取得平衡。

正如前文所言,OpenAI的公司结构相当复杂,但也正因为这种安排,OpenAI董事会(非营利组织)得以对公司保有完全控制权。

据报道,微软可以获得OpenAI20%的营收分成(直到获得920亿美元利润为止)。作为交换,微软会将其AzureOpenAI云服务收入的20%分润给到OpenAI。

此外,微软还拥有OpenAI相当大比例的股权(具体比例不详,随着OpenAI结构和融资变化可能调整,有新闻称微软持股最高达49%)。

从结果而论(取决于最终走向),Microsoft对OpenAI的这笔投资很可能称得上是史上最出色的投资之一。

但是“冲突”也在发生:Microsoft曾作为OpenAI的独家云服务提供商,但随着“Stargate”项目的公布,这一点似乎已经发生了变化。

5、市场数据与竞争格局

首先,对你看到的任何benchmark(基准测试)都要保持怀疑。正如有人调侃的那样:“我从未遇到过一个我不喜欢的benchmark。”

Anthropic据估计在2024年底达到了9.6亿美元的年化收入运行率(annualrunrate,用最近的一段时间的实际数据,按比例线性外推到12个月),并预计在2025年将产生20–40亿美元的营收。

相较之下,OpenAI对2025年的营收预测为120亿美元。

尤其值得注意的是,OpenAI在模型市场modelmarket份额与应用市场applicationmarket份额之间,正出现分化趋势。在模型层面,我们看到市场竞争日益激烈。

大型语言模型市场份额变化(2023vs2024)

从各类模型基准测试上看,也呈现出类似趋势:OpenAI虽然拥有质量最高的模型,但性能/价格比的“领导者”地位却存在争议。

例如,DeepSeek公司研发的R1模型在性价比上就已经可以媲美OpenAI的o3-mini和o1-mini模型。

不同大型语言模型的性能与成本对比,理想状态是模型位于图的左上方,即以较低成本实现高性能。

不过,在应用层applicationbusiness,ChatGPT的主导地位正日益扩大:

这是模型竞争加剧的更广泛趋势,它将迫使做基础模型的公司们,不得不寻求在其他维度实现差异化并获得盈利。数据也表明,对于OpenAI来说,即便在模型性能保持领先,通往可持续商业模式的道路仍在应用层。

6、OpenAI的未来

与其泛泛而谈“OpenAI的未来”,不如用一种考虑各种可能性的视角来展望。在展开之前,我需要列出一些对OpenAI未来影响最大的变量,当然我可能会有所遗漏,这毕竟只是我的一些思考。

这些问题应被看作一些连续谱上的未知量:

6.1成本结构:OpenAI在追求垂直整合、改善成本结构方面能取得多大成功?

6.2商业模式:OpenAI如何从其模型中赚钱?其模型会在多大程度上被商品化(从而压缩利润空间)?

6.3市场格局:未来AI应用市场的最终状态(规模、份额、盈利能力)将会如何?

6.4产品形态:OpenAI如何将模型的智能转化为实际行动能力(也即让智能代理真正执行人类任务)?

6.5估值:我们该如何为OpenAI估值?

6.1成本结构:掌控一切

第一个变量是关于垂直整合verticalintegration,OpenAI已经融资了数百亿美元,既然手握重金,不妨努力把能掌控的环节都掌控在手里。

眼下,流入AI领域的资金比历史上任何其他新兴行业都要多——据估计,仅过去四年里,风投资本向AI投入了约4500亿美元,相比之下互联网泡沫高峰时期是2560亿美元。

这意味着,从未有哪个行业的创业公司像AI这样面对如此众多且资金充沛的竞争者。

在这样的环境中,要建立竞争壁垒是极其困难的。为此,OpenAI正在沿着AI技术栈上下两个方向推进垂直整合。正如我们已经看到的,通过Stargate项目以及自研AI芯片的尝试,向技术栈下游发展能为他们在硬件层面带来成本优势和所需的自主可控性。

他们的大部分竞争对手,在某些方面有自身优势:要么拥有自研定制的AI芯片(如Google、Amazon、Meta),要么拥有庞大的自有数据中心(如xAI倚仗超大规模云厂商),OpenAI不能因为缺乏对底层硬件的掌控,就眼睁睁丢掉竞争优势。

然而,话说回来,没有自建的数据中心或自研硬件,OpenAI也未必无法存续。但以应用层取胜却是必须做到的,这将是OpenAI实现经济上可持续发展的关键途径。

6.2商业模式:如何实现可持续的盈利?

可预见的是,大量资本在未来还将涌向OpenAI的直接竞争对手,例如Anthropic、xAI,以及SafeSuperintelligence等公司的竞品。

此外,几家史上最庞大且最赚钱的科技巨头,也把OpenAI视作存亡攸关的对手,投入重兵参与这场竞赛。

更糟的是,DeepSeek已经证明,可以训练出一款成本更低、运行更省钱而质量几乎相当的模型。

还有一些竞争者甚至选择开源他们的模型,只要支付最基本的算力费用,任何人都能使用。

基于以上种种原因,在模型层面,单纯依靠提供API接口来竞争在可见的未来都无法铸就一个可持续的商业模式。

这就意味着,必须构筑软件层面的护城河,比如提高用户转移成本、建立牢固的企业合作关系,而这些都要在应用层来实现。

6.3.市场:十年后的AI应用市场会是什么样?

如果,OpenAI确实如我们所分析,是一家垂直整合的AI公司,并且,它的大部分利润将来自应用层,那么这可能是最重要的问题:长远来看,AI应用市场究竟有多大?在这个市场里,价值将主要积累在哪里?

如果,以AI潜在能取代的知识工作总量potentialknowledgework来衡量,这个市场规模会大得难以想象。

然而,商品的价格,总是倾向于接近其边际生产成本。

对于AI应用来说,这个边际成本无非是:硬件成本+能源成本+AI研究人员的成本+应用层你能保住的那部分利润。

换句话说,AI服务最终可能会以接近算力和电力成本的价格提供,加上一点点应用层的溢价。

那么,可以换个角度问:AI未来究竟能解决哪些问题?

答案是:它能解决非常多的问题,其市场空间将极其庞大——可能达到数千亿美元量级。只要OpenAI能持续执行并守住它的护城河,它所面对的蛋糕将大得远远超过今日的规模。

从目前来看,OpenAI似乎将希望寄托于用其AI智能代理,来主导通用型工作流general-purposeworkflows。他们曾展示过基于DeepResearch的销售场景工作流自动化的演示,这暗示了OpenAI认为自己有潜力吞下许多通用业务流程。(关于Openai想进入电商场景,可以看看这篇:专访SamAltman(下):我们的保守反而让DeepSeek显得更出色,免费用户也将用上GPT-5)

如果成功,凡是可以交给AI完成的一般性任务流程中,有很大一部分都将被OpenAI的系统所承接。

当然,在医疗、金融、法律等垂直行业,很可能会涌现专注各自领域的AI解决方案,满足这些领域特殊的集成需求、监管要求和业务流程,就像传统软件市场里,行业软件各自分割垂直市场一样。

但如果OpenAI真能非常成功,它也有可能成为这些垂直AI公司的底层平台,或许通过向它们独家提供自家最顶尖的模型,就像奢侈品行业里的高端供应商那样。提供独占的关键技术。

那么,这个市场大爆发会在什么时候发生?阿玛拉定律有云:“我们往往高估一项技术在短期内的影响,却低估它在长期内的作用。”Amara’sLawsays,“Wetendtooverestimatetheeffectofatechnologyintheshortrunandunderestimatetheeffectinthelongrun.”

很明显,现有形态的知识型工作,在十年后几乎注定会大幅改变。但一年之内就发生翻天覆地变化?这一点还很难说。

6.4产品:OpenAI已经聚合了信息,接下来如何聚合行动?

到目前为止,AI的价值体现在它汇聚并提供信息的能力上。而未来AI的价值,将体现在它执行行动的能力上。

OpenAI很早以前就认识到了这一点,并推出了Plugins插件体系,来实践这个愿景。通过Plugins,各家公司可以为ChatGPT预定义工作流,并提供认证接口,让ChatGPT拥有访问这些应用服务的权限,理论上,这套方案本该行之有效。

但是,结果却不尽如人意。我的猜测是,当时整个生态并未准备好。Plugins或许未能发挥作用,是因为基础设施尚不到位,许多网站和服务还没有开放API、缺乏必要的集成和认证机制,ChatGPT无法有效对接足够多的外部服务。

OpenAI后来推出的Operator功能(尽管效率低一些),则在一定程度上绕开了上述限制。

它的逻辑更简单明确:如果有官方API可以用,就用API(ifapi==1);如果没有现成API,就通过Operator模拟人类操作来完成任务(ifapi==0)。

要让AI能够执行复杂行动,另一个必要条件是推理能力:也就是在做决策时权衡各种因素的能力,想想规划一场复杂旅行需要多少微小决策。(OpenAI在7月已经推出了结合Opeator和推理能力的AgentMode)

OpenAI的未来,是持续提升智能本身,而ChatGPT的未来是不断增强行动能力。

这正是他们描绘的进军1000亿美元营收的愿景:ChatGPT将不只是聊天,它会成为每个人的通用助理。

而再往后,它会演变成一个通用的“知识型工作者ageneral-purposeknowledgeworker”,可以完成许多过去只有人类才胜任的脑力劳动。

6.5估值:该如何给OpenAI定价?

这个问题很有意思,因为投资者考虑的因素实在太多了,比如:

1、头部效应:OpenAI是AI领域显然的幂律赢家,如同过去的周期一样,绝大部分价值往往流向最大的赢家;

2、赛道前景:AI的机会确实如人们所宣称的那样巨大,而投资OpenAI就等于是押注整个AI行业的未来增长;

3、AGI前瞻:某种形式的AGI(通用人工智能)迟早会出现,而当它出现时,你肯定希望自己是“坐在牌桌边”的人之一;

4、战略价值:获得接触OpenAI的机会所带来的信息和生态优势,足以让投资它在市场上占据领导地位,因此这种战略意义本身值得付出高价;

5、相对估值:以OpenAI最近1570亿美元的投后估值来看,大约是其今年收入的39倍(市销率)。按照明年预计的120亿美元收入计算,则约为13倍的前瞻市销率。这个数字虽然昂贵,但对比公开市场上高速增长的科技公司也并非不可接受。(如果按照最新的3000亿美元估值的新一轮融资完成,那么上述倍数都将翻倍,在一定程度上削弱了本条的支撑力。)

现实中,投资决策的依据,可能是以上因素的综合权衡。

对于高速成长的公司来说,其最终能达到的格局远比中间过程中的任何阶段性指标重要得多。你可以根据自己的成见,为任何估值找到看似合理的理由:如果你相信AI的长期价值,你自然会觉得今天的估值可以接受,我猜许多投资OpenAI的人正是抱有这种长期主义的信念。

这里我引用一句“名言”以供玩味:“如果你不准备持有一只股票10年,那就不要连10分钟都持有它。”在如今这样的时刻,这句话值得反复咀嚼。

对OpenAI,我最后的想法是:把本文当作一篇暂时的日记,记录下此刻对这家公司的思考。也许十年后OpenAI会成长为一家市值数万亿美元的巨擘,也许它会停滞许多年,在“消化”当前估值的同时,等待AI真正产生的价值追上市场预期。又或者,它会成为一个关于过早认定市场统治地位的反面教材(不过我个人对此持怀疑态度,但并不完全排除这种可能)。

但可以确定的是,幂律效应驱动下,科技领域总会诞生那些标志性的伟大公司——它们增长迅猛,推动技术进步,并成为全球家喻户晓的名字:IBM、英特尔、苹果、微软、英伟达、亚马逊、谷歌、SpaceX、特斯拉、Meta……

OpenAI暂时已经把自己带入了这一公司行列,它是一个在迅速增长的市场中占据先机的领先者,基本与它所引领的这项技术本身画上了等号。

全文总结如下:

1、深度学习因GPU的出现和大数据的积累而被引爆;

2、Transformer引入了上下文注意力机制,这是语言处理的关键;

3、OpenAI通过ChatGPT将这些技术推向大众,引领了AI热潮;

4、OpenAI已成长为史上发展最快的公司之一(如果不是最快的话);

5、他们为将ChatGPT打造成通用助手而加入了代理、推理、语音、搜索等新能力;

6、竞争者纷纷涌入模型研发领域,但在应用层面ChatGPT的先发优势依然明显;

7、OpenAI正在上下游同时垂直整合,致力于成为一家全栈的AI公司。

完。