共计 909 个字符,预计需要花费 3 分钟才能阅读完成。
总部位于巴黎的 AI 初创公司 Mistral 近日发布了其首个“专业化”区域语言模型 Saba。该模型拥有 240 亿参数,专为理解阿拉伯语及相关语言设计,旨在捕捉这些语言中常被通用多语言模型忽视的文化细微差别。
Mistral 由前 Meta 员工共同创立,致力于开发理解特定区域语言的大型语言模型(LLMs)。此次发布的 Saba 模型已在“精心策划的数据集”上进行了训练,这些数据集主要来自中东和南亚地区,以满足阿拉伯语国家不断增长的客户需求。
Saba 在规模上与 Mistral Small 3 相当,后者是一个开源通用模型,与 Llama 3.3 70B、Qwen 32B 甚至 GPT4o-mini 等更大模型齐名。然而,根据 Mistral 的测试,Saba 在处理阿拉伯语内容方面表现优于 Mistral Small 3 和其他 LLMs。此外,Saba 在南印度语言如泰米尔语和马拉雅拉姆语方面也表现出色,这得益于中东和南亚之间的“文化交叉授粉”。
Mistral 指出,Saba 不仅提供了比其规模大 5 倍以上的模型更准确和相关的响应,而且速度显著更快,成本更低。该模型还可以作为训练高度特定区域适应性的强大基础。由于其更擅长理解根植于当地的文化细微差别和中东的微妙之处,Mistral 认为 Saba 在生成特定区域内容方面更有效,非常适合专业化用例。
目前,Saba 已可用于阿拉伯语的对话支持或内容生成。据该公司介绍,它还可以“微调”以支持企业的阿拉伯语虚拟助手或“能源、金融市场和医疗保健”领域的“专业化工具”。Mistral Saba 可以通过 Mistral 的 API 访问,也可以“部署在客户的安全场所内”。
Mistral 的这项创新并非孤例。其他 AI 公司也在通过特定区域的 LLMs 追求类似的目标:OpenAI 开发了针对日语的 GPT- 4 模型;EuroLingua GPT 项目专注于欧洲语言;BAAI 北京早在 2022 年就开源了其阿拉伯语言模型(ALM);而总部位于尼日利亚的 Awarri 正在为资源匮乏的尼日利亚语言构建自己的 LLM。
随着全球 AI 技术的不断发展,区域化语言模型的需求日益增长。Mistral 的 Saba 模型无疑为这一领域注入了新的活力,有望在未来的 AI 竞争中占据一席之地。