混沌到秩序:
生成式 AI 的第一性原理与应用
authored by:Dr. Jason Tian
DistriBrain CTO,南洋理工大学 S-Lab 高阶智能实验室、清华大学超算路由实验室研究员,字节跳动算法专家
DistriBrain - 致力于构建出海 AI 基础设施(
www.distribrain.com
)
第一性原理:Why?
亚里士多德
每个系统都存在第一性原理,一个最基本的命题或假设,不能被省略,也不能被违反
物理学的第一性原理
能量守恒、熵增原理
生成模型的第一性原理
Sora/Claude/GPT-4/Gemini, 技术细节千变万化,基本原理始终成立
从自然界的生成说起
生成不是无中生有
生成是能量/物质/信息的转换
水循环中的生成过程
弥漫的蒸汽聚集为云,云降落成水滴。
人的学习也是生成
感官信号是混沌的
光、声、触觉形成高维的混沌数据
把信号压缩成“概念”
四条腿、会叫、摇尾巴
绘画一只“狗”
不同的毛色、大小、表情
混沌、压缩、重建
混沌阶段
大量无序的原始观测
压缩阶段
提取出关键特征,寻找观测间的共性与不同
生成阶段
基于这些特征,产生新的、有序的内容
生成 = 压缩 + 重建
生成式模型的结构相似
压缩足够多的样本,提取本质规律
它们都有一个潜在的
表征
空间
生成质量取决于压缩质量
从第一性原理理解生成模型
大模型是如何工作的?
强大的记忆力 + 定制化的输出。
数据的重要性?
数据量保证了压缩时候能够找到最广泛和普遍的规律。
为什么会有"涌现"能力?
模型在压缩的过程中,找到了不同数据之间压缩到同一个空间的“相似性”,数据间的潜在关系。
为什么多模态是必然趋势?
例如 "苹果" 包含视觉(红色圆形)、味觉(甜)、触觉(光滑)等多种信息
语言/视觉/多模态架构的演进与统一
语言模型(LLM)
文字信号(1d)的压缩与重建
视觉模型(VLM)
像素信号(2d)的压缩与重建
多模态模型(MLLM)
多种模态信号压缩为同一种表征
LLM - Predict Next Token
LLM - Predict Next Token
GPT-1(2018)
1.17亿参数,证明了概念可行性
GPT-2(2019)
15亿参数,展现了惊人的生成能力
GPT-3(2020)
1750亿参数,出现"涌现"能力
GPT-4(2023)
AI 时代的里程碑
GPT-o1/4o(2023-2025)
Scaling Law 撞墙,转向 Inference-Time、Agent、生态以及 MCP/A2A
视觉 VLM:Pixel Reconstruct
扩散模型
去噪与加噪
学习从噪声恢复到图片(压缩信息的"修复"过程)
极大的运算成本 & 模态无法与 LLM 对齐
Stable Diffusion & Midjourney & DALLE-2
自回归模型
把二维图像变成一维序列
预测下一个图像块 (AR) /下一个图像分辨率 (VAR)
Meta Chameleon、OpenAI GPT-4o
多模态 MLLM:多种信号的压缩 + 重建
文本
离散的符号序列,承载抽象概念
图像
二维的像素矩阵,承载视觉信息
音频
一维的波形信号,承载听觉信息
视频
图像序列加时间维度,承载动态信息
触觉
压力与质地的感知,承载物理接触信息
空间视觉
三维物体关系,承载深度与位置信息
嗅觉
化学分子的感知,承载气味与环境信息
多模态的压缩表征
把所有的模态视为不同种类的信号,统一的表征、架构、训练。
在同一个压缩空间中表示不同模态的信息。如果"苹果"这个概念在空间中有一个位置,那么文字"苹果"、苹果的图片、苹果的声音、苹果的味道、苹果的手感都应该被压缩到这个位置附近。
平衡模仿与创造
创造来自于压缩
语言/2D 图像通过 Scaling Law 可以解决数据量级
柏拉图洞穴寓言:无法重建感知之外的
假设一个人从小就被锁在洞穴里,只能看着前面的墙。他们身后有火光,当有东西经过时,就在墙上投下影子。这些人一辈子只见过影子,所以认为影子就是真实的世界。
嗅觉、触觉纹理、雷达、医学领域的特种数据。
世界模型假说
更多维度的真实观测之间相互
Google & Antoripic 最新进展
Google I/O 2025
20 May 2025
Gemini-2.5-Pro
显式思维链(deep think)
100 万上下文 token
融入搜索、安卓、办公套件
支持 MCP 协议
Jules 编程工具
Imagen 4 图像生成工具
Google I/O 2025
Veo 3
视频 + 音频多模态模型
生成带对话、旁白和音效的视频。
Deep Search / Search Live
Claude-Opus/Sonnet-4
22 May 2025
编码与复杂推理
Claude 4 Opus/Sonnet 在编码和复杂推理上树立了新标杆。
更强的 Agent 能力
Claude 4 Opus 能连续工作 7 小时处理复杂编程任务。
混合推理和扩展思考两种模式。
Claude 4 编码能力更强,Gemini-2.5-pro 超长上下文。
A. 基础模型集成 Agent
大模型集成 Agent
Gemini、Claude、GPT-series 原生已经支持了 Agent、多模态、搜索等功能。
Result as a service。
Agent 协作基础协议:MCP/A2A
MCP (模型上下文协议)由 Anthropic 提出
智能体使用工具的协议
A2A (智能体间通信协议)由 Google 提出
智能体和智能体交流的协议
Manus等创业公司
优化:提供比通用平台更优越的体验和工作流
垂直:特定行业(如金融、医疗)的深度解决方案
私有:接入私有基础模型和工具,打造垂类协议
B. Scaling Law & Inference-Time Computing
Scaling Law
边际效益递减
规模换智能的边际效益递减
对于语言和 2d 视觉,单纯堆积数据和参数达到瓶颈
如何让 AI "更好地利用现有的知识",而不是 "记忆更多知识"。
Inference-Time Computing
推理时计算资源投入
提高“知识利用率”
谷歌的 "Thinking Preview"
Anthropic 的"Extended Thinking"
让 AI 在推理时投入更多计算资源、思考
C. 视频模型的突破
世界模型假说
Google Veo 3 和 Sora 强调"世界模型"的概念,
时序维度和3D能够理解真实物理世界。
生成视频公司挑战
传统技术栈(拍摄+声音驱动口型)面临质量和效率的双重挑战。
Gemini/Veo 这类模型能直接生成高质量、口型精准、甚至带情感的视频。
AI创业公司战略
转向"可控性"和"交互性"
专注独有的"数字资产"
拥抱"Agent"并提供"解决方案"
D. 视觉可控编辑/生成
指令遵循与编辑可控性增强
从 Imagen 4 和 GPT-4o 看,不仅能生成图像,还能进行精细编辑;
未来视频生成(Veo 3 之后)也将走向可控编辑。
向量视觉
目前的 VLM (如 VQ-VAE) 只是将像素块 token 化,本质还是处理像素。
真正的向量视觉模型将直接学习和生成几何和结构信息。
像素是冗余的,缺乏语义。向量图像(如 SVG)是可伸缩、可编辑、语义更丰富的。
结构化界面生成
AI 能像设计师一样理解和生成结构化的、可交互的 UI(而非像素图片)。
改变人机交互和软件开发,图形界面革命。
Google 的 Stitch 正在朝这个方向努力。
AI 生产力革命
作为个人和创业公司,关键是如何利用/衡量现有大模型。
1
1
衡量 AI 效率
如何衡量利用 AI 创造价值的能力?
2
2
最大化 AI 效率
如何才能最大化这种能力?
3
3
重塑工作方式
AI 将如何重塑我们的工作方式,并带来哪些新的机遇?
衡量 AI 杠杆效率
每个人投入同样的单位时间,借助AI能够撬动的、相当于传统工作方式下的产出价值。
30分钟
数学证明
陶哲轩用Copilot完成一周工作量
3-4天
工作压缩
一上午完成的工作量
10-100x
效率提升
高效使用AI的潜在倍数
提升 AI 杠杆效率
高质量输入:精准问题、更多形式
提升语言的精准度:提供充足的上下文,设定明确的目标和约束条件,给出范例 (Few-shot)
多模态输入:超越语言本身,通过展示图片、视频、音乐、甚至表情和语气表达需求,比如戴着 AR 眼镜,指着房间里的盆栽问 AI;传递精确空间信息
多轮对话:追问、澄清、引导 AI
高标准评估:从"执行者"到"指挥官"
建立结构化评估框架:从准确性、完整性、逻辑性、创新性、实用性、安全性等多个维度去审视 AI 的输出
交叉验证与溯源:多个模型对比分析
保持批判性思维:深度思考,不盲目相信 AI
有效反馈与迭代:清楚告诉 AI 哪里不好
“结果”而非“答案”- 挑战与机遇
当我们掌握了高"AI杠杆效率"后,会发生什么?红杉提出的“Result as a Service”描绘了一个可能的未来。
AI Agent:从大模型这样提供信息、建议的"助手",进化为执行任务、交付成果的"执行者"
未来的AI Agent:就像一个超级团队,能够理解目标,分解任务,调用工具,甚至与其他Agent协作,达成“结果”
"一人公司"或小团队将拥有前所未有的力量。
Thank You!
感谢您的关注!期待与您共同探索AI时代的无限可能。
DistriBrain 也在新加坡运营多个头部 AI 创业/出海/知识分享/圆桌社群,社群合作/寻找合伙人请添加微信:
我们的官网:
https://www.distribrain.com
Made with