共计 3007 个字符,预计需要花费 8 分钟才能阅读完成。
调查一直以来都是了解人口、产品和公众意见的重要手段,它的历史可以追溯到古代。尽管方法可能随着时代的变化而变化,但有一点始终如一:需要大量的人参与。
然而,如果您无法找到足够的人参与调查以形成具有意义的样本群体呢?或者,即使您找到足够的人,但由于预算限制,您无法获取和访谈足够多的人怎么办?
这正是以色列初创公司 Fairgen 希望解决的问题。该公司今天推出了一个平台,利用“统计人工智能”生成合成数据,声称其与真实数据一样优质。同时,Fairgen 还宣布从 Maverick Ventures Israel、The Creator Fund、Tal Ventures、Ignia 和一些天使投资者那里筹集了 550 万美元的新一轮融资,使其自成立以来共计筹集的资金达到 800 万美元。
合成数据
数据是人工智能的“生命线”,同时也是市场研究的基石。当这两个领域相遇时,如同 Fairgen 所做的那样,对高质量数据的需求变得更加突出。
Fairgen 于 2021 年在以色列特拉维夫市成立,最初的目标是解决人工智能中的偏见问题。然而,在 2022 年底,该公司转变了策略,推出了一个名为 Fairboost 的新产品,并进入了公测阶段。
Fairboost 承诺将较小的数据集提升多达三倍,以更加准确地洞察可能难以达到或成本过高的细分市场。公司通过为上传到 Fairgen 平台上的每个数据集训练一个深度机器学习模型,并利用统计人工智能在不同调查分段之间学习模式实现这一目标。
“合成数据”这个概念并不新鲜,它的起源可以追溯到计算机的早期时期,用于软件和算法测试以及模拟过程。然而,随着机器学习的出现,合成数据已经发展出了自己的生命力,并且越来越多地被用于训练模型。通过使用不包含敏感信息的人工生成数据,我们既可以解决数据稀缺的问题,也可以解决数据隐私方面的顾虑。
Fairgen 是一家测试合成数据的新兴公司,主要面向市场研究领域。值得注意的是,Fairgen 并不是生成数据的公司,也不是将数百万条历史调查结果输入到人工智能驱动的混合槽中——市场研究人员需要对他们目标市场的一小部分样本进行调查,以便 Fairgen 能够发现扩展样本的模式。该公司声称能够保证原始样本至少增加两倍,平均增加三倍。
通过这种方式,Fairgen 有望确定某个特定年龄段和 / 或收入水平的人在某一方面更倾向于以某种方式回答问题。或者,通过结合多个数据点,推断出原始数据集之外的信息。Fairgen 联合创始人兼首席执行官 Samuel Cohen 解释说,这主要是为了生成“更强大、更具鲁棒性的数据细分,减少误差”。
“我意识到人们的多样性正在增加——品牌需要适应,并且他们需要了解他们所涉及的客户细分市场,”Cohen 向 TechCrunch 解释道。“不同的细分市场存在很大差异——如 Z 世代与年长者的思维方式。为了在细分市场水平上拥有这种了解,需要耗费大量的资金、时间和操作资源。这就是我发现的痛点。我们知道合成数据在解决这个问题上具有一定的作用。”
坦诚地说,这种方法存在一个明显的批评——Fairgen 公司也承认他们一直在努力克服这一批评——即似乎通过合成数据得出的结论与真实调查人士和真实意见收集的结果存在较大简化。
对于代表少数群体的任何人来说,是否应该担心他们的真实声音被虚假声音所取代?
“当我们与调研领域的客户进行沟通时,我们会遇到这个批评,”Fairgen 的增长主管 Fernando Zatz 告诉 TechCrunch。“由于缺乏足够的可用人员,特别是在这个日益多元化的世界中,他们实际上无法接触到某些目标群体。有时他们无法进入特定的国家,无法满足特定的人口统计要求,因此他们实际上失去了一些项目机会,因为无法达到所需的受访人数。如果达不到最低受访人数,他们将不会出售这些洞察力。”
Fairgen 并不是应用生成的人工智能于市场研究领域的唯一公司。去年,Qualtrics 表示将在四年内投资 5 亿美元引入生成的 AI 技术,但其重点是定性研究。然而,这进一步证明了合成数据的出现,以及它未来的重要性。
但是,验证结果对于说服人们这是真实结果而不仅仅是为了节省成本而采取的措施非常重要。Fairgen 通过比较“真实”样本增加和“合成”样本增加来实现这一点——从数据集中提取一小部分样本进行推理,并将其与真实样本并列。
Cohen 拥有牛津大学的统计科学硕士学位和伦敦大学学院的机器学习博士学位,其中包括在 Meta 担任研究科学家的经历长达九个月。
该公司的其中一位联合创始人是董事长Benny Schnaider,他曾在企业软件领域工作,并且有四次成功退出的经验:2016 年将 Ravello 以 5 亿美元的价格卖给 Oracle;2008 年将 Qumranet 以 1.07 亿美元的价格卖给 Red Hat;2004 年将 P -Cube 以 2 亿美元的价格卖给 Cisco;2000 年将 Pentacom 以 1.18 亿美元的价格卖给 Cisco。
此外,还有Emmanuel Candès,他是斯坦福大学的统计学和电气工程教授,目前担任 Fairgen 的首席科学顾问。
对于一家试图说服世界虚假数据可以与真实数据一样好,只要应用正确的公司来说,商业和数学背景是一个重要的卖点。而且,他们以清晰明了的方式解释了他们技术的阈值和限制——样本大小需要达到最佳增益。
根据 Cohen 的说法,理想情况下,他们在一项调查中至少需要 300 名真实受访者,并从这个样本中提取细分样本,使其大小不超过整个调查样本的 15%。
“在 15% 以下,我们已经经过了数百次并行测试的验证,并实现了平均 3 倍的增益,”Cohen 说。“从统计学的角度来看,15% 以上的增益并不明显。数据已经具备足够的置信水平,我们的合成受访者只能与现有样本相匹配,或者仅能带来边际的提升。从商业角度来说,15% 以上并不是一个关键点——品牌已经能从这些细分市场中获得经验教训;他们只是在细分市场的层面上产生了困扰。”
值得注意的是,Fairgen 不使用大型语言模型(LLMs),其平台不会生成类似 ChatGPT 的“简洁英语”回答。这是因为 LLMs 会从各种超出研究范围的数据源中进行学习,增加引入与定量研究不兼容的偏见的可能性。
Fairgen 完全依靠业务模型和表格数据的统计模型进行训练,并且仅依赖于上传的数据集中包含的数据进行训练。这使得市场研究人员能够通过从相邻细分中进行推断生成新的合成受访者。
Cohen 表示,将调查数据从格式化的结构化文件(.CSV 或.SAV)上传到基于云的 Fairgen 平台中,在训练模型时最多需要 20 分钟,具体时间取决于问题的数目。然后,用户选择一个“细分”(具有共同特征的受访者子集),例如“在某个行业中工作的 Z 世代”,然后 Fairgen 提供一个与原始培训文件完全相同的新文件,其中包含完全相同的问题,只是新增了新的行。
Fairgen 的技术已经在法国调查和市场研究公司 IFOP 和 BVA 中得到应用,并已经集成到它们的服务中。IFOP 类似于美国的盖洛普(Gallup),他们正在利用 Fairgen 进行欧洲选举的民意调查,而 Cohen 认为他们可能会在今年晚些时候在美国的选举中使用该技术。
“IFOP 基本上就是我们的认可标志,因为他们已经存在了大约 100 年,”Cohen 说。“他们验证了这项技术,也是我们最早的合作伙伴之一。我们目前还正在与一些全球最大的市场研究公司进行整合的测试,不过目前我不能透露太多细节。”