共计 1129 个字符,预计需要花费 3 分钟才能阅读完成。
Jordan Meyer 和 Mathew Dryhurst 创立了 Spawning AI,这是一个专注于帮助艺术家控制其作品在线使用的公司。他们的最新项目 Source.Plus,旨在为 AI 模型训练提供一个策划的“非侵权”媒体库。
Source.Plus 的首个举措是一个包含近 4000 万张公共领域图像和 CC0 许可证下图像的数据集。CC0 许可证允许创作者放弃其作品几乎所有的法律权益。尽管与其他生成式 AI 训练数据集相比规模较小,Meyer 强调其数据集的高质量足以训练出先进的图像生成模型。
“通过 Source.Plus,我们正在构建一个通用的‘选择加入’平台,”Meyer 解释道。“我们的目标是让权利持有者能够轻松地按照自己的条件提供媒体用于生成式 AI 训练,并让开发者能够轻松地将这些媒体整合到他们的训练工作流程中。”
权利管理
关于训练生成式 AI 模型的伦理问题,Spawning 的 CEO Meyer 认为,AI 训练经常默认使用最容易获得的数据,这些数据并不总是最公平或负责任地来源。艺术家和权利持有者对他们的数据如何用于 AI 训练几乎没有控制权,而开发者也缺乏高质量的替代方案。
Source.Plus,目前处于有限测试阶段,建立在 Spawning 现有的艺术来源和使用权管理工具之上。该项目不仅是一个训练数据存储库,还是一个带有支持训练管道工具的增强平台。
图像来源和质量控制
Source.Plus 过滤掉“选择退出”和其他艺术家训练偏好的图像,显示图像来源信息以及图像来源的位置。它还排除了未根据 CC0 许可的图像,确保数据集的质量和合法性。
Spawning 的解决方案是训练分类器模型来检测图像中的裸体、血腥、个人可识别信息和其他不受欢迎的内容,如暴力和色情图像。此外,Spawning 雇佣版主来验证数据所有权,并提供补救功能,用户可以标记违规或可能侵权的作品。
补偿机制
Source.Plus 采取与其他平台不同的策略,允许艺术家和权利持有者为每次下载设定自己的价格。Spawning 将收取固定的费率——“十分之一美分”,确保艺术家获得大部分收入,并允许他们设定参与的条件。
如果 Source.Plus 获得了预期的牵引力,Spawning 打算将其扩展到其他类型的媒体,包括音频和视频。Spawning 正在与未具名公司讨论,在 Source.Plus 上提供他们的数据,并可能使用 Source.Plus 数据集中的数据构建自己的生成式 AI 模型。
Spawning AI 和 Source.Plus 项目代表了对艺术家权益保护和 AI 训练数据管理的重要进步。通过提供一个高质量、非侵权的数据集,并允许艺术家设定自己的条件,Source.Plus 不仅尊重了艺术家的权利,也为 AI 技术的发展提供了更加负责任和透明的路径。