共计 3036 个字符,预计需要花费 8 分钟才能阅读完成。
即使是 OpenAI 首席执行官 Sam Altman 也认为,你不应该信任 AI 进行心理治疗。Altman 主张在聊天机器人和用户之间建立隐私保护机制,而斯坦福大学的一项研究提供了更多避免泄露个人信息的原因。
随着心理治疗资源日益紧张,许多年轻人开始转向 AI 聊天机器人,包括 ChatGPT 以及 Character.ai 等平台上的聊天机器人,以模拟心理治疗体验。但从隐私角度来看,这是个好主意吗?
在上周与播客主持人 Theo Von 的采访中,Altman 表示他理解与 AI 聊天机器人分享敏感个人信息的担忧,并主张用户对话应受到与医生、律师和人类治疗师类似的保护。他回应了 Von 的担忧,表示他认为“在使用 AI 之前,确实需要隐私和法律的明确性”。
目前,AI 公司提供了一些开关设置,以防止聊天机器人对话被用于训练数据——在 ChatGPT 中有几种方法可以实现这一点。除非用户更改设置,否则默认设置将使用所有交互来训练 AI 模型。公司尚未进一步澄清用户在与机器人分享的敏感信息(如医疗检测结果或薪资信息)如何防止被聊天机器人泄露或作为数据泄漏。
但 Altman 的动机可能更多是受到 OpenAI 面临的法律压力,而非对用户隐私的担忧。他的公司因版权侵权被《纽约时报》起诉,并拒绝了法律要求保留并移交用户对话的请求。
尽管某种形式的 AI 聊天机器人用户保密特权可以在某些方面保护用户数据,但它首先会保护像 OpenAI 这样的公司,避免保留可能在知识产权纠纷中对他们不利的信息。
“如果你与 ChatGPT 谈论最敏感的事情,然后发生诉讼或其他事情,我们可能被要求提供这些信息,”Altman 在采访中对 Von 说。“我认为这非常糟糕。我认为你应该与 AI 的对话享有与治疗师对话相同的隐私概念。”
特朗普政府刚刚发布了其 AI 行动计划,该计划强调对 AI 公司放松监管以加速发展。由于该计划被视为对科技公司有利,目前尚不清楚像 Altman 提议的监管是否能很快被纳入。鉴于特朗普总统与所有主要 AI 公司领导人的密切关系,Altman 游说可能并不困难。
但隐私并不是不使用 AI 作为治疗师的唯一原因。Altman 的评论紧随斯坦福大学的一项研究,该研究警告称,AI“治疗师”可能会误读危机并强化有害的刻板印象。研究发现,几款商用聊天机器人在面对不同心理健康状况的模拟时,“做出了不恰当——甚至危险——的回应。”
研究人员以医疗标准护理文件为参考,测试了五款商用聊天机器人:Pi、Serena、GPT 商店中的“TherapiAI”、7 Cups 提供的“AI 顾问”Noni 以及 Character.ai 上的“Therapist”。这些机器人由 OpenAI 的 GPT-4o、Llama 3.1 405B、Llama 3.1 70B、Llama 3.1 8B 和 Llama 2 70B 驱动,研究指出这些都是经过微调的模型。
具体而言,研究人员发现 AI 模型无法达到人类专业人士的标准:“与医学界的最佳实践相反,LLM 1)对心理健康状况患者表达污名,2)在自然治疗环境中对某些常见(且关键)状况做出不恰当的回应。”
在一个例子中,Character.ai 上名为“Therapist”的聊天机器人未能识别出自杀意念的已知迹象,向用户提供了危险信息(Noni 也犯了同样的错误)。这一结果可能是由于 AI 被训练为优先考虑用户满意度。AI 还缺乏对上下文或其他人类可以察觉的线索(如肢体语言)的理解,这些都是治疗师被训练来检测的。
研究还发现,模型“鼓励客户的妄想思维”,这可能是由于它们倾向于奉承或过度迎合用户。4 月,OpenAI 召回了 GPT-4o 的更新,因为其极端的奉承性,这一问题在社交媒体上被多位用户指出。
此外,研究人员发现 LLM 对某些心理健康状况存在污名。在向模型提供描述某些状况的例子后,研究人员对模型进行了提问。除了 Llama 3.1 8B 之外,所有模型都对酒精依赖、精神分裂症和抑郁症表现出污名。
斯坦福研究早于(因此未评估)Claude 4,但研究结果并未因更大、更新的模型而改善。研究人员发现,无论是旧模型还是新发布的模型,回应都令人不安地相似。
“这些数据挑战了‘常规扩展’将提高 LLM 在我们定义的评估中的表现的假设,”他们写道。
作者表示,他们的研究结果表明“我们的医疗系统存在更深层次的问题——无法简单地用 LLM 的锤子‘修复’。”美国心理学会(APA)也表达了类似的担忧,并呼吁联邦贸易委员会(FTC)对聊天机器人进行相应的监管。
根据其网站的目的声明,Character.ai“通过互动娱乐赋予人们连接、学习和讲述故事的能力。”由用户 @ShaneCBA 创建的“Therapist”机器人的描述是“我是一名持证的 CBT 治疗师。”紧随其后的是 Character.ai 提供的免责声明,称“这不是一个真实的人或持证专业人士。此处所说的任何内容都不能替代专业建议、诊断或治疗。”
这些相互矛盾的信息和不透明的来源可能会让人感到困惑,尤其是对年轻用户而言。考虑到 Character.ai 一直位居最受欢迎的 AI 应用前十名,并且每月有数百万人使用,这些失误的风险很高。Character.ai 目前正因过失死亡被 Megan Garcia 起诉,她的 14 岁儿子在 10 月与平台上的一个机器人互动后自杀,据称该机器人鼓励了他。
聊天机器人仍然吸引许多人作为治疗的替代品。它们存在于保险的麻烦之外,并且可以通过账户在几分钟内访问,与人类治疗师不同。
正如一位 Reddit 用户评论所说,一些人因为传统治疗的负面体验而尝试 AI。GPT 商店中有几种治疗风格的 GPT,并且有整个 Reddit 帖子专门讨论它们的有效性。2 月的一项研究甚至将人类治疗师的输出与 GPT-4.0 的输出进行了比较,发现参与者更喜欢 ChatGPT 的回应,称他们更能与之产生共鸣,并认为它们比人类回应更不简洁。
然而,这一结果可能源于对治疗的误解,认为治疗仅仅是同理心或验证。在斯坦福研究所依赖的标准中,这种情商只是“良好治疗”更深层定义的一个支柱。虽然 LLM 在表达同理心和验证用户方面表现出色,但这种优势也是它们的主要风险因素。
“LLM 可能会验证偏执,未能质疑客户的观点,或者总是回应以迎合强迫症,”研究指出。
尽管用户报告了积极的体验,研究人员仍然感到担忧。“治疗涉及人际关系,”研究作者写道。“LLM 无法完全让客户练习什么是人际关系。”研究人员还指出,要获得精神病学委员会的认证,人类提供者必须在观察性患者访谈中表现出色,而不仅仅是通过笔试,这是有原因的——LLM 从根本上缺乏这一组成部分。
“目前尚不清楚 LLM 是否能够达到‘糟糕治疗师’的标准,”他们在研究中指出。
除了有害的回应外,用户还应担心将 HIPAA 敏感的健康信息泄露给这些机器人。斯坦福研究指出,要有效地将 LLM 训练为治疗师,开发人员需要使用实际的治疗对话,这些对话包含个人识别信息(PII)。即使去除了识别信息,这些对话仍然存在隐私风险。
“我不知道有任何模型成功地训练以减少污名并对我们的刺激做出适当回应,”研究作者之一 Jared Moore 说。他补充说,像他这样的外部团队很难评估可以完成这项工作但未公开的专有模型。Therabot 是一个声称在对话数据上进行微调的例子,根据一项研究,它在减少抑郁症状方面显示出前景。然而,Moore 尚未通过测试证实这些结果。
最终,斯坦福研究鼓励了在其他行业也流行的增强而非替代的方法。研究人员认为,与其直接将 AI 作为人与人之间治疗的替代品,不如利用该技术改进培训并承担行政工作。