
2023年,当OpenAI公司的人工智能(AI)大语言模型ChatGPT在全球掀起风暴时,几乎所有人都在惊叹AI的神奇。随后,国内外的各大科技公司都争先恐后地推出自家的AI产品,乐于尝试的用户也开始借助AI完成各种任务:有人让它写论文,有人让它编写程序代码,还有人用它生成图片、视频……短短几年内,AI似乎已经变得无所不能、无处不在。
然而,在使用AI时,你或许有过这样的经历:在飞机上,打开笔记本电脑用AI应用润色一份文档,却发现因为没有网络,它已经“罢工”了。不过,当你打开手机自带的AI助手,请它美化照片、编辑文字,它却能流畅地完成任务,完全不受断网的影响。同样都是AI工具,为什么有的必须联网才能使用,而有的可以离线工作?答案就藏在“大模型”和“小模型”这两个概念里。
OpenAI、谷歌、阿里巴巴、字节跳动、百度等科技巨头在竞相打造拥有上千亿、上万亿参数的通用大模型,试图把全世界的知识都装进一个“超级大脑”里;同时,也有越来越多的企业和研究者转向只需几十亿参数的小模型—开发成本更低、运行速度更快,以满足手机、平板电脑用户的基本需求。2025年发布的一份行业报告显示,95%的企业在AI领域的投资未能获得实际回报;与此同时,内置AI助手的手机却掀起了新一轮换机潮,预计到2027年,这类手机在中国的销量将达到1.86亿部,占整个智能手机市场的56%。
一场无声的“分岔”正在AI世界悄然展开。一个方向是追求“大而全”的超级智能;另一个方向则是打造“小而精”的专业顾问。大模型和小模型就像图书馆与口袋书、米其林大厨与家庭厨师,各有优势,各有适944e1e1677297a00a97059f7861a5c3f配场景。那么,当我们面对AI时,究竟何时依靠“云端的巨人”,何时信任“口袋里的助手”呢?

我们几乎每天都要接触各种AI工具,却未必知道它们为什么如此“聪明”。其实一个AI工具是否聪明,主要取决于它的模型。模型,不是一段冰冷的代码,而是一个能从数据中自我学习、总结规律的系统。
想象一下你小时候学语言的情景,父母一遍又一遍地教你“苹果、香蕉、猫、狗……”你从模仿到理解,逐渐掌握了词汇与语法的规律。AI模型的训练过程与此类似,只不过它面对的不是几百个词汇,而是源自整个互联网的海量文本。人类大脑中约有860亿个神经元,彼此之间通过约100万亿个连接相互作用,构成了我们感知、记忆、思考与创造的基础。AI模型的参数就像这些大脑中的神经连接,参数越多,它能处理的信息就越复杂,理解能力也就越强。经过不断的训练、微调,AI逐渐学会了语言、逻辑,甚至拥有了理解问题、解决问题的能力。例如,ChatGPT-4这样的大模型拥有1.76万亿个参数,堪称AI界的“超级大脑”。
在AI产业界,大模型和小模型的发展齐头并进。2025年11月12日,OpenAI公司发布了大模型ChatGPT—5.1系列,官方并未公布具体参数总量,但根据业界推测,该系列可能拥有将近5万亿个参数。然而,谷歌公司开发的Gemini Nano这类只有几十亿参数的小模型,则像一位训练有素的“专业顾问”,虽知识广度不及大模型,但针对专业领域的问题,它给出的解决方案更加精准,反应速度也更快。
要理解大模型的魅力,我们可以从ChatGPT说起。它能与人流畅对话、生成诗歌、编写程序、解释科学问题……看起来像一个全能的老师,不需要预先设定,只要几句提示就能完成任务。ChatGPT的能力来自两个关键词:“海量训练”和“算法结构”。以ChatGPT系列大模型为例,它在互联网上进行了海量训练,阅读了上万亿个单词,几乎学习了人类语言的每一种表达方式;而名为Transformer的算法结构则让它能像人脑一样,理解上下文、捕捉语义。大模型的优势显而易见:理解力强,几乎能应对任何问题;擅长举一反三,能把知识迁移到新场景中;能够自我学习,可通过反馈不断优化回答。因此,大模型被称为“通用人工智能”(AGI)的雏形。
但“全能”的光环背后,也藏着不小的代价。训练一个ChatGPT-4级别的大模型,需要约2.5万张A100GPU(GPU,即图形处理器,最早用于图像渲染,如今已成为AI模型训练的核心硬件),需要耗费数千万美元,成本极为高昂。除了硬件昂贵,大模型的训练能耗同样非常惊人。根据研究估算,ChatGPT-4一次完整的训练周期(90~100天)所消耗的电量约为2000万千瓦时,约合6000个家庭一年的用电量。此外,这类模型通常在云端运行,用户输入的内容可能被记录并用于再训练,所以有潜在的隐私泄露风险。可以说,大模型像一艘航母,威力巨大、装备精良,却需要极其高昂的能源和系统维护成本。它适合远洋作战,却不适合开进每一个港口。于是,AI领域的研究者们开始思考,有没有可能造一艘快艇,虽然不如航母强大,却灵活高效、人人可用?
大模型的“通用智能”固然令人惊叹,但并非所有场景都需要如此“庞然大物”。在实际应用中,AI问诊系统只需理解医疗语料,银行客服AI只需掌握金融术语,面对这些相对单一的任务,动用航母并非最优解,一艘灵活高效的快艇反而更具优势。
小模型,通常指参数总量在数亿至几十亿之间的AI模型。与需要巨型服务器支撑的ChatGPT-4不同,小模型可以在普通电脑、平板电脑和智能手机上运行。例如,训练DeepSeek-V3这样的小模型仅需2048张GPU,硬件成本约为557.6万美元(约合人民币3960万元),训练费用仅为ChatGPT-4的十分之一;谷歌公司推出的Gemma模型更是主打开放与轻量化,可直接在笔记本电脑上完成推理任务。
首先,小模型的优势体现在使用成本上。如果使用ChatGPT-4来支撑一个客服机器人,每天处理10万次用户咨询,API(应用程序接口,AI公司会将AI模型封装成一套标准化的接口,开发者只需按照规定的格式发送请求,接口就会返回模型处理后的结果)调用费用约为40万元,一个月的运营成本可能需要上千万元;而采用参数总量约70亿的小模型,整体成本可降低90%以上。
其次,在能耗、响应时间与数据安全方面,小模型也表现出显著优势。大模型的平均响应时间为两三秒,在部分场景下会更久;而小模型的响应时间可缩短至0.5秒以内。例如,在iPhone16 Pro手机上部署的DeepSeek—R1—1.5B能实现每秒生成约60个token(AI模型处理文本的最小单位,1个token≈0.75个英文单词或一两个中文字符)的推理速度,几乎可实现“秒回”体验。这样的速度差异,就像一个人回答问题前需思考三秒,而另一个人几乎脱口而出—结果或许相同,但体验截然不同。
在执行标准化流程与重复性任务方面,小模型更是得心应手。深圳市福田区政府已部署70名“AI数智员工”,其应用的正是小模型系统。这些AI数智员工参与240个政务场景中的文书起草、政策解读与招商辅助工作,公文格式修正准确率超过95%,审核时间缩短90%。某大型保险公司采用Jamba Reasoning3B小模型处理理赔,通过OCR字段提取(一种将图像中的文字信息转换为可编辑文本的技术)、术语分类与跨系统匹配,实现了理赔流程的高度自动化。此外,一个智能家居开发团队将小模型直接部署在仅有8GB内存的家用路由器上,使设备能够在本地完成语义理解与指令执行—当用户说“把客厅的灯调暗一点”,该AI系统便会即时响应,无需将语音上传至云端。
可以看到,这些应用场景有一个共同特征:流程清晰、重复性强、对准确率要求高,同时对隐私与成本敏感—这正是小模型的主场。当然,小模型也有其局限性。它缺乏大模型那种“通用智慧”,当问题超出训练范围时,容易出现“答非所问”的情况。不过,这并不妨碍它成为AI普及的重要一步,就像智能手机中的应用程序,无需包打天下,只需在特定领域做到极致。
10年前,AI研究界的目标是“让机器像人一样思考”;如今,人们更希望AI能“像人类社会一样协作”。未来的智能世界,或许不会由单一的超级模型主宰,而将形成由无数大小模型共同构成的生态系统—大模型负责理解复杂问题、进行通用推理、提供各类知识,小模型则提供定制化、个性化与私有化服务。这种生态系统与“云计算+终端计算”的互联网结构极为相似。
在现实中,这种“大小协作”的格局已经悄然成形,不同行业都在探索属于自己的落地方式。在“大小协作”的探索中,目前AI医疗领域的研究者们走在最前面。一方面,医疗机构中有极高的数据密度,影像、监护仪、电子病历……每天都在源源不断地产生大量新信息;另一方面,医疗场景对实时性、安全性与准确性的要求极高,非常适合以“大模型统筹全局、小模型贴近现场”的方式来协作。
在美国俄亥俄州的克利夫兰医学中心,一场关于“大小协作”的医疗实验正在展开。这家以心脏和肾脏研究闻名的医疗机构,与AI公司Bayesian Health合作,研发出一套能够提前识别严重感染性休克(脓毒症)的AI预警系统。2025年9月23日,克利夫兰医学中心发布公告称:已在13家医院部署Bayesian Health的AI预警系统,用于识别早期脓毒症患者。
在一个试点医院,AI预警系统为3330名患者提供了服务。在这套系统中,大模型相当于医院的“云端大脑”,它常驻于数据中心,分析全院患者的病历、化验单、心率、血压、血氧饱和度等上亿条数据。它通过“深度学习”总结出脓毒症的早期信号,就像一个经验丰富的医生,能在海量信息中捕捉到潜在危险。在每个病房中,还部署着轻量化的小模型—它们是“病房里的耳朵”。这些小模型能实时读取监护仪和电子病历的数据,一旦发现异常,就立刻发出警报,并把关键数据传给大模型,请求进一步确认。通过两者协作,形成了一套“分布式智能预警系统”。
在试点医院中,AI预警系统的效果令人惊讶:其对脓毒症的误报率只有传统方式的十分之一,而识别率提高了46%。医生们形容,这就像医院多了一层“看不见的防线”,能在病人的症状尚未恶化时就及时出手。
德国西门子医疗则在医学影像领域探索出另一种“大与小”的协作模式。该公司与美国英特尔公司合作,在全球多家医院中推广“云-边协作”AI影像平台。在医院的放射科,患者完成计算机断层成像(CT)扫描或磁共振成像(MRI)扫描后,“云-边协作”AI影像平台的小模型会立即在本地服务器上启动,几秒之内便能完成器官分割、病灶标注等初步分析任务。它反应迅速、响应时间极短,就像在设备旁值班的“影像助手”。与此同时,云端的大模型则在持续学习来自不同医院的“千万级”影像数据,它的知识面更广、判断更精准,可识别复杂的病理模式。当本地小模型遇到无法确诊的病例时,就将数据上传至云端,请大模型进行二次诊断,再把结果反馈回来。
这种“前线快思考+后端深思考”的协作方式,大幅提高了诊断速度和准确率,也让医生在紧张的影像诊断工作中获得了强有力的支持。
除了在医疗领域大显身手,“大与小”的协作模式也在悄悄改变着一座城市的“早晚高峰”。

前不久,在2025百度世界大会上,该公司发布了“百度伐谋多模态模型”的一个成功应用案例。在内蒙古鄂尔多斯的伊金霍洛旗,新老城区之间隔着一条河,跨河通勤的需求十分突出。过去,每到早晚高峰,新老城区之间的主干道就像被堵塞的动脉,车流一堵就是半小时。为了解决这一顽疾,当地交通部门引入了百度智能云的SaaS信控平台。这套系统的核心是由“大模型+小模型”协作构成的城市交通神经网络。在云端,大模型持续学习全城的交通流量、信号周期、车道分布等数据,实时生成通行优化方案;在每一个路口,小模型则像值班的交通警察,根据大模型下发的策略,对红绿灯配时进行细微调整。大小模型的协作让整个城区的红绿灯不再是按照固定不变的时间亮起,而是将它们连结成神经网络,使其随着交通状况实时调节亮起的时间。
该系统启用后不久,车辆平均延误时间便下降13%;随后,借助百度自研的“伐谋演化搜索算法”,系统通过自动学习,不断逼近最优解,最终使车辆平均延误时间再度降低50%。目前,鄂尔多斯已经成为全国AI信控领域的标杆城市之一。
在这种“大与小”协作的生态中,大模型已成为一种底层操作系统,而小模型则像应用程序般灵活地嵌入各行各业。例如,在手机、汽车、智能眼镜里运行的小模型,将成为我们的随身助手;在工厂、医院、城市交通中,大模型与小模型并肩协作,构建出改变生活的“智能共生体”。
AI的世界正在分岔。然而,分岔并非撕裂,而是智能系统趋向复杂的自然生长方式。未来,AI将不再是少数巨头用巨额资金堆砌的“巨无霸”,而是一场人人可参与的智能革命;AI也将不再被视为单纯的工具,而是像光、电和空气一样,成为一种默认的环境—被人们习以为常,却持续塑造着我们的世界。
【责任编辑】张小萌