AI 医学学习中心

你可能低估了 AI 的能力范围

大多数人对 AI 的印象还停留在"在对话框里打字问答"——输入一个问题，得到一段回答。这确实是最基础的使用方式，但如果你的认知止步于此，那你大概只用到了 AI 能力的 10%。

到 2026 年，AI 已经能做的事远超"聊天"：它能看图、画图、听音频、生成语音、写代码、做网页原型、处理表格、自动执行多步骤任务。这些能力在医疗场景中都有实际应用。

本节目标

帮你建立一个"AI 能力全景图"，知道 AI 现在到底能做哪些事。不求深入操作（那是 L2 的事），但你需要知道可能性在哪里。

多模态：不只是文字

"多模态"(Multimodal) 是一个听起来很学术的词，但含义很直白——AI 能处理多种类型的信息，不只是文字。

不止对话框打字：看图、听音、做小工具——先建立「能力版图」，后续课程再逐项深入。

文字处理

这是最基础的能力，也是你在 L2 会重点学习的部分。AI 可以：

对话问答——你问它答，支持多轮上下文
写作——病历模板、出院小结、患教材料、科研论文初稿
翻译——中英医学文献互译，保留专业术语
摘要——长文献→核心要点，会议记录→行动清单
改写——学术语言→通俗表达（患教），口语化→正式文体

代码与小工具

这几年最被低估的一块能力，其实是写代码和做原型。你现在看到很多"一句话做网页""让 AI 帮我搭个表单或计算器"，并不是噱头。

写脚本——批量整理表格、重命名文件、清洗文本数据
做网页原型——把一个教学页面、问卷页、患者教育页先快速搭出来
生成小工具——把固定流程做成计算器、表单、清单或半自动工作流

你不用把自己变成程序员，关键是知道：AI 现在已经不只是"帮你写字"，也能帮你做工具。这也是后面 Level 4 会展开的方向。

图像：看 + 画

AI 处理图像有两个方向：理解图片和生成图片。

看：上传化验单照片 → AI 提取数据并结构化；拍摄手写笔记 → 转为结构化电子记录
画：生成患教插图、流程图、示意图；辅助制作医学科普图解

试一试：拍一张你手边的检验报告或处方，上传给支持图片识别的 AI 工具（如 ChatGPT、Kimi），看看它能识别出什么。

注意：AI 的"看图"能力用于辅助信息提取，不能替代专业的影像学诊断系统。

语音

语音转文字——会议录音 → 文字稿 → 会议纪要（讯飞听见、飞书妙记等工具已非常成熟）
文字转语音——将患教材料生成语音版，方便老年患者收听

视频

视频生成和视频理解都在快速进步，但在严肃医学内容里，视频仍然是最容易把"看起来很真"误当成"真的正确"的模态之一。它适合做演示素材、科普脚本草稿和非关键视觉内容，不适合直接承担严肃医学判断。

各角色的多模态应用场景

角色	文字	图像	语音
临床医生	病历润色、文献摘要、出院小结	化验单识别、患教插图	门诊录音转纪要
护理人员	护理记录模板、交班摘要	伤口照片记录辅助描述	床旁语音记录
药剂师	药物相互作用查询、用药指导	处方识别	用药交底录音整理
医学生	文献翻译、笔记整理、论文写作	手写笔记数字化	课堂录音→笔记
行政人员	会议纪要、公文起草、数据报告	表格截图→结构化数据	会议录音→行动清单

智能体 (Agent)：从"你问它答"到"它替你干活"

到目前为止，你对 AI 的使用模式可能都是这样的：

🔁 普通对话模式

你和 AI 一步一步交互，每一步都要你来发起。

🤖 智能体 (Agent) 模式

你给 AI 一个目标，它自己拆解任务、调用工具、逐步完成。

对话要一步步你带着走；智能体更像交代闭环任务——前提是工具与权限配好。

我们用一个具体例子来看区别。假设你需要"整理一份关于二甲双胍最新研究的文献综述"。

/* 普通对话模式 */

你：帮我搜一下二甲双胍最新的研究方向

AI：（给出一段文字回答）

你：帮我翻译这篇英文摘要

AI：（翻译结果）

你：把这些整理成一个表格

AI：（表格）

你：再写一段综述引言

AI：（引言段落）

// 每一步都需要你手动发起、复制粘贴、拼接

/* 智能体 (Agent) 模式 */

你：帮我整理一份二甲双胍最新研究的文献综述，

　　包含近 3 年的关键文献，按主题分类，

　　每篇标注核心发现，最后写一段综述引言。

→ Agent 自动拆解任务：

　　1. 搜索文献数据库

　　2. 筛选近 3 年高引用论文

　　3. 提取每篇核心发现

　　4. 按主题聚类分组

　　5. 生成综述引言

　　6. 输出完整报告

// 你只描述目标，Agent 自主完成全部步骤

你把目标说清楚，Agent 在后台拆步骤——L3 会教怎么在合规前提下搭起来。

一个医院里的类比

普通对话 vs 智能体

普通对话就像你带一个什么都要问你的实习生——"下一步做什么？""这个怎么处理？"每一步都要你来指挥。

智能体就像你交代一个靠谱的住院总——"这个病人的出院准备你来负责"。他知道要做什么、怎么协调、遇到问题先自行判断再汇报。

现阶段你需要知道的：Agent 能力已经存在，很多工具已经在用。但你不需要现在就学会如何搭建自己的 Agent——那是 L3 智能体平台入门那节课要教的内容。在 L1 阶段，你只需要知道：AI 不只是一个"问答框"，它可以变成一个能自动完成多步骤任务的"助手"，这是后面课程要教你的能力。

AI 能力的边界

讲完了 AI "能做什么"，同样重要的是知道它哪些能力默认不具备、哪些能力接了工具会增强、哪些事情再强也不该交给它拍板。

边界	说明
默认无法访问医院内网	通用 AI 默认看不到 HIS、EMR、PACS 等院内系统。只有做了合规审批、权限控制和系统对接后，它才可能安全读取相关数据
默认没有实时世界状态	裸模型有知识截止日期，不知道今天的新指南、实时价格或刚出的检查结果；如果接入联网搜索、数据库或 MCP，能力会明显增强，但来源仍要核实
无法替代执业决策	AI 的输出不具备法律效力。所有涉及诊疗的决定，最终责任人永远是执业医师本人
"能力" ≠ "可靠性"	AI 能生成一份看起来完美的诊疗方案，但内容可能包含幻觉（虚假信息）。能做 ≠ 做得对，必须人工验证
执行能力依赖权限和环境	Agent 看起来像"自动干活"，但前提是它拿到了合适的工具、权限和流程约束。没有这些，它就只是一个会说方案的助手，不是真正能落地的系统

能做不等于默认具备院内访问和实时知识；输出再完整也只是草稿，须经人审核。

记住这个原则

AI 的输出永远是"草稿"，不是"定稿"。在医疗场景中，这个原则没有例外。

本节小结

你已经建立的认知

文字处理是 AI 最成熟的能力，L2 会带你深入实操
多模态让 AI 不止处理文字，还能看图、听音、画图，覆盖医疗场景中的多种信息形式
代码与工具原型也是现在很实用的一类能力，AI 已经能帮你快速搭出网页、脚本和小工具雏形
智能体 (Agent) 让 AI 从"被动回答"升级为"主动干活"，L3 会教你如何搭建
AI 有明确的能力边界——很多能力默认没有，需要联网、工具和权限；即便能力很强，输出仍需要验证

本节带走

对 AI 能力有了全景认知。你不需要现在就全部学会，后续每一个层级的课程会逐一展开。L1 阶段只需要知道：原来 AI 还能做这些事，给自己的学习路径建立一个预期。