先做一个游戏

在解释 AI 怎么工作之前,我们先玩一个填空游戏。

文字接龙游戏

请你看这句话,在心里填上空缺的部分:

患者主诉胸痛 3 小时,心电图示 ST 段 ______

你是不是脱口而出了"抬高"

恭喜你——你刚才做的事情,和 AI 做的事情,在本质上完全一样

你能填出"抬高",是因为你在多年的医学学习和临床工作中,无数次看到过"ST 段"后面跟着"抬高"这个词。你的大脑根据经验和统计规律,预测了最可能出现的下一个词。

AI 做的是同样的事——只不过规模和速度远超人类:

下一个 Token 预测(Next Token Prediction)

AI 大模型的核心工作机制可以概括为一句话:根据前面所有的文字,预测下一个最可能出现的文字片段

  • 你看过几千份病历 → AI "读过" 数万亿字的文本
  • 你在 1 秒内完成判断 → AI 在毫秒内完成计算
  • 你的预测基于临床直觉 → AI 的预测基于数学概率

它一次只生成一个词(或词的一部分),然后把这个词加到前文中,继续预测下一个。如此反复,就"写"出了你看到的那一大段回答。

下一个词预测:人脑与大模型都在做统计接龙
接龙填空和 Token 预测本质类似;差别在规模与速度,可靠与否仍要单独验证。

Token:AI 眼中的文字

我们刚才提到了"下一个 Token 预测"——这里有一个新名词:Token

Token 是 AI 处理文字的最小单位。它不完全等于一个字或一个词,而是 AI 自己的"切词"方式:

原始文本大约 Token 数说明
糖尿病2–3 个中文每个字通常 1–2 个 Token
Diabetes1–2 个常见英文单词通常是 1 个 Token
一份完整病历约 500–2000 个取决于长度和语言
一篇论文摘要约 200–400 个英文比中文更"省 Token"

为什么你需要知道 Token 这个概念?因为它直接关系到三件事:

Token 的三重意义

  1. Token 常常关系到成本——在模型接口和很多专业工具里,Token 会直接影响费用;对普通用户来说,它至少会影响速度、上下文容量和产品成本。
  2. Token = 记忆容量——AI 一次对话能处理的 Token 数量是有限的,这叫做上下文窗口(Context Window)。超过了,AI 就会"忘掉"前面的内容。
  3. Token = 后续技能的基础——在 L2 课程中,你会学到如何通过控制输入的 Token 来优化 AI 的输出质量。
Token 成本、上下文窗口与后续技能
Token 连着成本、上下文容量和 L2 的输入管理——窗口满了,前面的内容就容易「离开桌面」。

幻觉:最需要了解的概念

如果整个 L1 只能记住一个概念,就记住这个——幻觉(Hallucination)

幻觉:AI 生成的内容看起来流畅合理,但实际上是错误的、编造的、或无中生有的

医疗场景中的幻觉有多危险?

看看这些真实会发生的例子:

幻觉的典型表现

  • 虚构文献引用——AI 给你引用了一篇论文,作者名、期刊名、年份都有,但这篇论文根本不存在。
  • 混合正确与错误信息——一段关于某药物的说明,90% 是对的,但剂量写错了,或者把禁忌症搞混了。
  • 伪造精确细节——AI 引用了"某指南第 47 页",但那份指南根本没有那一页,或那页讲的完全不是那个内容。
幻觉:表面像真与必须核实
模型优先「像答案」;文献、剂量和数字一定要回原文或权威来源核对。

为什么 AI 会产生幻觉?

核心原因其实很简单:

AI 的目标是"生成听起来合理的文字",而不是"只说有把握的话"

它的训练目标是让生成的文本在统计上"像"训练数据中的文本。当它遇到不确定的内容时,默认更倾向于继续生成一个看起来像答案的回答,而不是可靠地表达"我不知道"。这就是为什么没有校验机制时,幻觉会频繁出现。

最危险的是:你分不清真假

试着看下面这两条文献引用,判断哪个是真的:

Zhang, L., Wang, H., & Chen, Y. (2023). "Artificial Intelligence in Clinical Decision Support: A Systematic Review and Meta-Analysis." The Lancet Digital Health, 5(8), e512–e523.

Liu, M., Thompson, R., & Patel, S. (2024). "Large Language Models for Medical Diagnosis: Opportunities and Challenges." Nature Medicine, 30(2), 234–241.

这两条引用看起来都非常真实——格式规范、作者名合理、期刊是顶刊。但它们都是 AI 可能编造出来的。在实际使用中,AI 生成的引用看起来和真实引用几乎无法区分,唯一的办法是去数据库验证。

应对幻觉的策略

策略具体做法
始终验证 AI 给出的任何事实性内容(药物剂量、文献引用、指南内容),都要去权威来源交叉验证
要求引用来源 在提问时加上"请注明出处",虽然不能完全杜绝幻觉,但能提供验证线索
警惕"完美"答案 如果 AI 的回答格式完美、细节丰富、看起来毫无瑕疵——反而要更小心,因为真实世界很少这么"完美"
使用外部工具辅助 通过 MCP 等方式让 AI 连接到真实数据源(这是 L3 的内容),从根源减少幻觉

温度:AI 回答的"随机性旋钮"

你可能注意到一个现象:同一个问题问 AI 两次,得到的回答可能不一样。有时候差别不大,有时候差别很大。

这是因为 AI 在预测下一个 Token 时,不是总选概率最高的那个——它会在多个候选里按概率抽样。控制这种"保守还是发散"倾向的参数,叫做温度(Temperature)

🧊 低温度(0.1 – 0.3)
保守、稳定、可重复

回答更稳定、更容易复现。适合事实整理、格式统一、病历润色、指南摘要这类希望结果尽量一致的场景。

🔥 高温度(0.8 – 1.0)
创意、多样、不可预测

回答更发散、更有探索性。适合头脑风暴、命名、科普表达和多方案发想,但不适合把它当成事实正确性的保证。

温度低与高:稳定与发散
事实类任务偏低温更稳;但再稳也要靠来源与审核,不能只靠一个参数。

温度的类比

想象你在做选择题。低温度更像"优先选最稳妥的答案",高温度更像"允许自己多想几个可能性"。

在医疗场景里,涉及事实、文书和建议时通常更适合用更稳的设置;但真正决定可靠性的,仍然是来源、工具接入和人工验证,不是温度一个参数。

本节小结

核心概念一句话解释临床意义
工作原理 根据前文预测下一个词,一个接一个地"写"出答案 AI 不是在"思考"或"搜索",而是在做统计预测
Token AI 处理文字的最小单位,决定上下文容量,也常常关系到速度与成本 输入太长会超出上下文窗口,导致 AI "遗忘"
幻觉 AI 生成看似合理但实际错误或虚构的内容 必须对每一条事实性内容进行验证,特别是药物和文献
温度 控制 AI 输出风格与稳定性的参数,低温更稳,高温更发散 事实任务更适合稳一点的设置,但可靠性仍主要靠验证与工具支持
本节带走
下次 AI 给你一个看起来完美的答案时,你的第一反应应该是:"这个我需要验证一下。"——这句话价值千金。