2023-09-25：ChatGPT 开始支持“看、听、说”，从纯文本正式迈向多模态交互

张

张建站

2026/5/11 4:11:10

10分钟阅读

2023-09-25：ChatGPT 开始支持“看、听、说”，从纯文本正式迈向多模态交互

个人主页杨利杰YJlio❄️个人专栏《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》《Python》《Kali Linux》《那些年未解决的Windows疑难杂症》让复杂的事情更简单让重复的工作自动化2023-09-25ChatGPT 开始支持“看、听、说”从纯文本正式迈向多模态交互1、2023-09-25ChatGPT 迎来一次关键能力升级2、什么是多模态交互本质上变了什么3、用户和 ChatGPT 的交互流程是怎么升级的4、从纯文本到多模态到底升级了哪些维度4.1 输入方式升级4.2 理解能力升级4.3 交互体验升级4.4 应用场景升级5、多模态能力能落到哪些真实场景里5.1 识图问答5.2 语音助手5.3 学习辅导5.4 内容创作5.5 无障碍交流6、这次升级对普通用户意味着什么6.1 表达成本更低了6.2 信息理解更完整了6.3 回答形式更多样了6.4 AI 更像助手而不是工具7、我的理解9 月 25 日真正开启的是“交互范式升级”8、总结文章小结1、2023-09-25ChatGPT 迎来一次关键能力升级2023 年 9 月 25 日ChatGPT 开始逐步支持“看、听、说”能力也就是支持图像理解、语音输入和语音回应。这不是一次普通的小功能更新而是一次交互方式的升级。过去我们使用 ChatGPT更多是输入文字等待文字回答依赖键盘和屏幕完成整套交互。而从这一天开始ChatGPT 开始从“纯文本对话工具”走向“多模态智能助手”。我认为这次升级最值得关注的地方不是单独某个按钮能不能点而是 AI 和用户之间的交互边界被真正打开了它开始能“看懂”图片它开始能“听懂”语音它开始能“说出来”回应它开始更像一个可以自然交流的助手而不只是一个问答窗口。2、什么是多模态交互本质上变了什么所谓多模态简单理解就是模型不再只处理文字而是同时处理文本、图像、语音等多种信息。在纯文本时代信息流很简单文字输入 → 模型理解 → 文字输出而在多模态时代信息流开始变成文本 / 图片 / 语音输入 → 统一模型理解 → 文本 / 语音 / 图文反馈输出这意味着模型处理信息的方式发生了变化。以前它只需要理解“你写了什么”现在它还需要理解你看到了什么你说了什么你上传的图片里有什么这些信息之间是否存在上下文关联。从这张结构图可以看出整个多模态交互能力大致可以拆成三部分模块作用说明文本输入接收问题与指令仍然保留传统文字交互方式图像理解看懂图片内容能识别场景、元素、细节和含义语音输入听懂语音内容支持更自然的提问方式统一模型处理融合并理解多种信息这是多模态能力的核心自然对话 / 语音输出输出回答可以是文字也可以是语音本质变化只有一句话AI 不再只理解“文字”而是开始理解“更接近真实世界的信息”。3、用户和 ChatGPT 的交互流程是怎么升级的站在用户视角多模态交互的流程可以理解成 5 步提出问题上传图片或输入语音模型统一理解生成回答返回语音播报或图文反馈和以前相比最大的区别在于用户不必先把所有东西翻译成文字才能让 AI 理解。比如以前你遇到一个问题必须自己描述报错是什么图片里是什么图表表达了什么某个界面长什么样。现在则可以更直接直接上传图片直接说出问题直接得到文字或语音反馈。这就是为什么我说多模态不是“功能堆叠”而是交互路径被缩短了。用户提问输入方式文字输入图片上传语音输入统一模型理解输出方式文本回答语音播报图文反馈更清晰更自然更直观4、从纯文本到多模态到底升级了哪些维度如果你只从表面看这次变化像是新增了几个入口可以上传图片可以输入语音可以听语音回答。但如果从产品形态看它实际上升级了 4 个关键维度。4.1 输入方式升级以前主要依赖键盘打字。现在支持图片、拍照、语音等多种输入方式。4.2 理解能力升级以前更偏向关键词和文字上下文理解。现在开始能同时处理文字、图像、语音理解范围更广。4.3 交互体验升级以前更像“查资料、问问题”。现在更像“交流、陪伴、辅助完成任务”。4.4 应用场景升级以前主要集中在问答和文本创作。现在开始覆盖学习教育旅行出行生活助手健康医疗办公创作这说明一件很关键的事从这一天起ChatGPT 的竞争力不再只是“会写”而是“会理解、会交互、会适应场景”。5、多模态能力能落到哪些真实场景里抽象地讲“多模态”很容易空但如果落到实际场景就很清楚了。5.1 识图问答这是最直观的一类应用。用户上传一张图片AI 就能围绕这张图做解释、识别与回答。比如这是什么地方这张图表达了什么信息这张图里的对象有什么特征这类截图里的问题出在哪里对于技术类博客、Windows 运维、故障排查场景来说识图能力非常实用。5.2 语音助手语音输入语音回应会让 ChatGPT 更像一个能对话的助手。适合的场景包括临时提问移动端交流英语口语练习知识讲解轻量陪练和提醒。过去你必须“打字给 AI 看”现在你可以“直接说给 AI 听”。5.3 学习辅导学习场景会因为多模态能力而明显增强。例如上传图表让 AI 分析趋势上传题目截图让 AI 辅助讲解用语音追问不会的知识点用图文结合的方式理解抽象内容。这意味着知识学习会更直观反馈也会更及时。5.4 内容创作内容创作也不再只是“让 AI 写一段话”。现在可以扩展成让 AI 看图写文根据语音想法生成初稿根据截图整理教程步骤根据图表提炼结论基于不同输入形式做内容重组。对于经常写 CSDN 博客、知识笔记、教程文章的人来说这个能力会非常有价值。5.5 无障碍交流这部分其实很容易被忽略但非常重要。多模态能力可以帮助实现语音转文字文字转语音语音问路与语音导航降低阅读门槛提升信息获取效率。它不仅仅是“更方便”更是“让更多人更容易使用 AI”。6、这次升级对普通用户意味着什么如果把这次能力升级压缩成几句话我认为可以总结为以下 4 点6.1 表达成本更低了以前用户要尽量“把问题写清楚”现在用户可以直接上传图片、直接说语音。表达方式更接近自然沟通。6.2 信息理解更完整了以前模型看到的是“你描述的世界”。现在模型开始直接接触“世界本身的一部分”比如图像、声音、界面、场景。6.3 回答形式更多样了以前答案主要靠阅读。现在则可以通过文字回答图文反馈语音播报来适配不同使用场景。6.4 AI 更像助手而不是工具这个变化是最深的。一个只会文字问答的系统更像工具一个能看、能听、能说、能理解场景的系统更像助手。7、我的理解9 月 25 日真正开启的是“交互范式升级”很多人看产品更新只看见新增功能。但真正关键的问题不是“多了什么按钮”而是产品的底层交互逻辑变了没有。在我看来2023-09-25 这次更新的意义就在这里它让 ChatGPT 从“只会读写”走向“能看、能听、能说”它让 AI 从“文本工具”开始走向“综合智能助手”它让用户从“适应工具”逐步转变为“让工具适应人的表达方式”。这就是为什么我认为这一天是一个非常值得记录的节点。8、总结2023 年 9 月 25 日ChatGPT 开始支持“看、听、说”这标志着它从纯文本对话正式迈向多模态交互。这次升级的核心不是单个功能的新增而是三件事输入方式变多了理解能力变强了交互体验变自然了最终带来的结果就是AI 不再只是一个回答问题的窗口而开始变成一个能理解更多信息、适应更多场景、支持更多交互方式的智能助手。如果说早期 ChatGPT 改变的是“我们如何获取答案”那么从多模态开始它改变的就是“我们如何与 AI 交流”。文章小结为了方便快速回顾我再用一张表把这篇文章压缩一下维度纯文本时代多模态时代输入文字文字图片语音理解文字语义融合图像、语音、文本输出文字回答文字、语音、图文反馈体验查资料式助手式场景问答、写作学习、创作、识图、语音交流、无障碍等如果你也在持续关注 ChatGPT、AI 工具和自动化能力那么这一天的更新确实是一个不该忽略的重要时间点。返回顶部点击回到顶部