共计 2263 个字符,预计需要花费 6 分钟才能阅读完成。
随着生成式人工智能技术的迅猛发展,其应用边界不断拓展,一些非预期用途也逐渐浮出水面。近日,一项聚焦于 FlowGPT 平台上“工作场所不宜”内容聊天机器人的研究,揭示了这一新兴领域的复杂生态与潜在风险。
来自帕森斯设计学院的李贤、韩元宁,以及克拉克大学的刘迪、安鹏程与牛硕等学者,对 FlowGPT 平台上的 376 个 NSFW 聊天机器人及超过 300 段公开对话记录进行了深入分析。研究发现,这些由用户创建的 AI 聊天机器人不仅会响应露骨请求,更令人担忧的是,它们常常在未经用户直接诱导的情况下,主动生成涉及色情、暴力且时常带有侮辱性的内容,构建了一个虚拟亲密感与潜在有害表达相互交织的数字空间。
这项研究的意义在于,它首次系统性地揭示了用户自建生成式 AI 应用所引发的新兴风险,并尖锐地指出了强化内容审核机制与推动负责任聊天机器人设计的紧迫性。
NSFW 聊天机器人的四种类型与主动生成特性
基于社交媒体 NSFW 内容的功能理论框架,研究团队描绘出了一幅关于虚拟互动、性表达与潜在风险的复杂图景。他们识别出 NSFW 聊天机器人主要分为四种类型:,
其中,以塑造幻想角色和促进互动为目的的 AI 角色扮演机器人最为普遍。这类机器人常使用具有暗示性的头像图片来吸引用户。实验表明,它们甚至会在互动伊始就主动提供暗示性内容,即便用户并未给出明确诱导。这证实了 NSFW 内容在生成式 AI 驱动下具有“主动生成”的特性,而不仅仅是被动响应。
研究数据证实,无论是用户输入的提示,还是聊天机器人的输出,都频繁包含色情、暴力及侮辱性语言,凸显了有害内容被大规模创作与传播的潜在风险。这种“无诱导主动生成”的现象,正是此类生成式 AI 聊天机器人与传统网络平台上静态 NSFW 内容的关键区别。
多层面的虚拟体验与审核困境
研究发现,FlowGPT 平台上的 NSFW 体验是一个多层面现象,涵盖了虚拟亲密感的构建、性幻想的探索、暴力思想的表达,以及对潜在不安全内容的获取。通过对公开对话记录的细致检视,研究人员观察到用户如何利用这些聊天机器人探索隐秘幻想、表达欲望,甚至模拟人际关系。
这项研究为理解用户创建与消费 AI 生成 NSFW 内容的动机,以及此类互动可能带来的心理影响开辟了新路径。FlowGPT 相对开放的生态系统在激发用户创造力的同时,也给内容审核和用户安全保障带来了前所未有的挑战,要求平台采取更为精细和审慎的策略来应对伴随新技术而来的风险。
研究指出,生成式 AI 显著降低了创建露骨内容的门槛,用户能够借助 AI 模型和定制提示,生成更为自然、互动性更强的体验。与传统上由人类用户直接创建并发布的 NSFW 内容不同,在 FlowGPT 上获取此类材料需要用户主动向聊天机器人发出提示,形成了一种“用户主导发起,AI 响应生成”的独特动态。
尽管生成式 AI 服务提供商普遍部署了内容审核机制,但研究表明,创作者仍能通过精心设计的“越狱”提示词绕过这些限制,实现露骨内容的隐蔽生产与传播。因此,研究团队强调,应对 NSFW 聊天机器人的挑战,必须从聊天机器人设计、创作者支持、用户安全教育以及构建更稳健的内容审核策略等多个维度进行综合考量。
研究方法:结合内容安全工具的实证分析
为了进行这项研究,团队对托管在 FlowGPT 平台的 376 个 NSFW 聊天机器人及 307 个公开对话记录展开了全面分析。研究采用了实证与数据驱动相结合的方法:,
为了量化有害内容,研究人员利用了一套组合工具,包括 ChatGPT、Google Safe Search 和 Azure Content Safety。这些工具被系统性地应用于分析用户提示和聊天机器人输出,通过算法评分标记出涉及色情、暴力或侮辱内容的实例。研究团队随后对这些被标记的实例进行人工复审,确认有害材料的存在并对其性质进行细致分类。
此外,该研究还开创性地对聊天机器人的头像图片进行了分析。利用图像识别软件,通过专门训练用于检测裸露和暗示性内容的算法处理头像,从而量化聊天机器人使用挑逗性视觉元素吸引用户的程度。
通过记录每个聊天机器人的角色设定、配置参数以及其资料或响应中是否存在露骨内容,这种多层面的研究方法最终帮助团队清晰划分了四种聊天机器人类型,并确认以幻想角色和社交互动为核心的机器人占主导地位。
用户参与活跃,风险与监管挑战并存
调查显示,FlowGPT 平台上由生成式 AI 驱动的 NSFW 聊天机器人生态正在快速发展。在分析的机器人中,角色扮演类机器人多达 279 个,占据主流。数据显示,每个聊天机器人的平均对话数高达 70,343.35 条,平均评论数也达到 38.94 条,反映出极高的用户活跃度与参与量。
测试发现,部分聊天机器人即使在未收到用户色情提示的情况下也会生成露骨材料,这引发了关于 AI 内容可控性与意外有害输出的深切担忧。研究采用 Krippendorff‘s alpha 系数进行评估,在最终轮评分者间一致性检验中获得了 0.705 的分数,确保了主题分类的可靠性。
这项研究为理解在快速演进的生成式聊天机器人领域中,人工智能技术、用户行为与潜在有害内容之间复杂的相互作用奠定了重要基础。它清晰地表明,在享受技术带来的创新体验时,社会必须正视并妥善管理其伴生的伦理与安全风险。