你可能低估了 AI 的能力范围

大多数人对 AI 的印象还停留在"在对话框里打字问答"——输入一个问题,得到一段回答。这确实是最基础的使用方式,但如果你的认知止步于此,那你大概只用到了 AI 能力的 10%。

到 2026 年,AI 已经能做的事远超"聊天":它能看图、画图、听音频、生成语音、写代码、做网页原型、处理表格、自动执行多步骤任务。这些能力在医疗场景中都有实际应用。

本节目标

帮你建立一个"AI 能力全景图",知道 AI 现在到底能做哪些事。不求深入操作(那是 L2 的事),但你需要知道可能性在哪里。

多模态:不只是文字

"多模态"(Multimodal) 是一个听起来很学术的词,但含义很直白——AI 能处理多种类型的信息,不只是文字。

文字、图像、语音与代码工具等多模态能力
不止对话框打字:看图、听音、做小工具——先建立「能力版图」,后续课程再逐项深入。

文字处理

这是最基础的能力,也是你在 L2 会重点学习的部分。AI 可以:

  • 对话问答——你问它答,支持多轮上下文
  • 写作——病历模板、出院小结、患教材料、科研论文初稿
  • 翻译——中英医学文献互译,保留专业术语
  • 摘要——长文献→核心要点,会议记录→行动清单
  • 改写——学术语言→通俗表达(患教),口语化→正式文体

代码与小工具

这几年最被低估的一块能力,其实是写代码和做原型。你现在看到很多"一句话做网页""让 AI 帮我搭个表单或计算器",并不是噱头。

  • 写脚本——批量整理表格、重命名文件、清洗文本数据
  • 做网页原型——把一个教学页面、问卷页、患者教育页先快速搭出来
  • 生成小工具——把固定流程做成计算器、表单、清单或半自动工作流

你不用把自己变成程序员,关键是知道:AI 现在已经不只是"帮你写字",也能帮你做工具。这也是后面 Level 4 会展开的方向。

图像:看 + 画

AI 处理图像有两个方向:理解图片生成图片

  • :上传化验单照片 → AI 提取数据并结构化;拍摄手写笔记 → 转为结构化电子记录
  • :生成患教插图、流程图、示意图;辅助制作医学科普图解

试一试:拍一张你手边的检验报告或处方,上传给支持图片识别的 AI 工具(如 ChatGPT、Kimi),看看它能识别出什么。

注意:AI 的"看图"能力用于辅助信息提取,不能替代专业的影像学诊断系统。

语音

  • 语音转文字——会议录音 → 文字稿 → 会议纪要(讯飞听见、飞书妙记等工具已非常成熟)
  • 文字转语音——将患教材料生成语音版,方便老年患者收听

视频

视频生成和视频理解都在快速进步,但在严肃医学内容里,视频仍然是最容易把"看起来很真"误当成"真的正确"的模态之一。它适合做演示素材、科普脚本草稿和非关键视觉内容,不适合直接承担严肃医学判断。

各角色的多模态应用场景

角色文字图像语音
临床医生 病历润色、文献摘要、出院小结 化验单识别、患教插图 门诊录音转纪要
护理人员 护理记录模板、交班摘要 伤口照片记录辅助描述 床旁语音记录
药剂师 药物相互作用查询、用药指导 处方识别 用药交底录音整理
医学生 文献翻译、笔记整理、论文写作 手写笔记数字化 课堂录音→笔记
行政人员 会议纪要、公文起草、数据报告 表格截图→结构化数据 会议录音→行动清单

智能体 (Agent):从"你问它答"到"它替你干活"

到目前为止,你对 AI 的使用模式可能都是这样的:

🔁 普通对话模式

你和 AI 一步一步交互,每一步都要你来发起。

🤖 智能体 (Agent) 模式

你给 AI 一个目标,它自己拆解任务、调用工具、逐步完成。

普通对话与智能体模式对比
对话要一步步你带着走;智能体更像交代闭环任务——前提是工具与权限配好。

我们用一个具体例子来看区别。假设你需要"整理一份关于二甲双胍最新研究的文献综述"。

/* 普通对话模式 */
你:帮我搜一下二甲双胍最新的研究方向
AI:(给出一段文字回答)
你:帮我翻译这篇英文摘要
AI:(翻译结果)
你:把这些整理成一个表格
AI:(表格)
你:再写一段综述引言
AI:(引言段落)
// 每一步都需要你手动发起、复制粘贴、拼接
/* 智能体 (Agent) 模式 */
你:帮我整理一份二甲双胍最新研究的文献综述,
  包含近 3 年的关键文献,按主题分类,
  每篇标注核心发现,最后写一段综述引言。

Agent 自动拆解任务:
  1. 搜索文献数据库
  2. 筛选近 3 年高引用论文
  3. 提取每篇核心发现
  4. 按主题聚类分组
  5. 生成综述引言
  6. 输出完整报告
// 你只描述目标,Agent 自主完成全部步骤
智能体从目标到输出的步骤链
你把目标说清楚,Agent 在后台拆步骤——L3 会教怎么在合规前提下搭起来。

一个医院里的类比

普通对话 vs 智能体

普通对话就像你带一个什么都要问你的实习生——"下一步做什么?""这个怎么处理?"每一步都要你来指挥。

智能体就像你交代一个靠谱的住院总——"这个病人的出院准备你来负责"。他知道要做什么、怎么协调、遇到问题先自行判断再汇报。

现阶段你需要知道的:Agent 能力已经存在,很多工具已经在用。但你不需要现在就学会如何搭建自己的 Agent——那是 L3 智能体平台入门那节课要教的内容。在 L1 阶段,你只需要知道:AI 不只是一个"问答框",它可以变成一个能自动完成多步骤任务的"助手",这是后面课程要教你的能力。

AI 能力的边界

讲完了 AI "能做什么",同样重要的是知道它哪些能力默认不具备、哪些能力接了工具会增强、哪些事情再强也不该交给它拍板

边界说明
默认无法访问医院内网 通用 AI 默认看不到 HIS、EMR、PACS 等院内系统。只有做了合规审批、权限控制和系统对接后,它才可能安全读取相关数据
默认没有实时世界状态 裸模型有知识截止日期,不知道今天的新指南、实时价格或刚出的检查结果;如果接入联网搜索、数据库或 MCP,能力会明显增强,但来源仍要核实
无法替代执业决策 AI 的输出不具备法律效力。所有涉及诊疗的决定,最终责任人永远是执业医师本人
"能力" ≠ "可靠性" AI 能生成一份看起来完美的诊疗方案,但内容可能包含幻觉(虚假信息)。能做 ≠ 做得对,必须人工验证
执行能力依赖权限和环境 Agent 看起来像"自动干活",但前提是它拿到了合适的工具、权限和流程约束。没有这些,它就只是一个会说方案的助手,不是真正能落地的系统
AI 能力边界:院内网、实时性、责任与幻觉
能做不等于默认具备院内访问和实时知识;输出再完整也只是草稿,须经人审核。

记住这个原则

AI 的输出永远是"草稿",不是"定稿"。在医疗场景中,这个原则没有例外。

本节小结

你已经建立的认知

  • 文字处理是 AI 最成熟的能力,L2 会带你深入实操
  • 多模态让 AI 不止处理文字,还能看图、听音、画图,覆盖医疗场景中的多种信息形式
  • 代码与工具原型也是现在很实用的一类能力,AI 已经能帮你快速搭出网页、脚本和小工具雏形
  • 智能体 (Agent) 让 AI 从"被动回答"升级为"主动干活",L3 会教你如何搭建
  • AI 有明确的能力边界——很多能力默认没有,需要联网、工具和权限;即便能力很强,输出仍需要验证
本节带走
对 AI 能力有了全景认知。你不需要现在就全部学会,后续每一个层级的课程会逐一展开。L1 阶段只需要知道:原来 AI 还能做这些事,给自己的学习路径建立一个预期。

你现在建立的是一个全景预期——知道 AI 的能力版图有多大,也知道边界在哪里。接下来的 L1-4,我们要讲一个在实际使用前必须搞清楚的问题:合规