共计 3830 个字符,预计需要花费 10 分钟才能阅读完成。
矢量数据库正风靡一时,从进入该领域的初创公司数量和投资者投资热情可估知。大型语言模型(LLMs)和生成式人工智能(GenAI)运动的推动为矢量数据库技术的蓬勃发展创造了肥沃的土壤。
传统的关系型数据库,如 Postgres 或 MySQL,非常适合结构化数据 - 预定义的数据类型可以整齐地存储在行和列中。然而,对于非结构化数据,如图片、视频、电子邮件、社交媒体帖子以及不符合预定义数据模型的任何数据,这种存储方式并不那么适用。
另一方面,矢量数据库以矢量嵌入的形式存储和处理数据,将文本、文档、图片和其他数据转换为能够捕捉不同数据点之间含义和关系的数值表示。这非常适合机器学习,因为数据库按照每个条目之间的相关性空间存储数据,使得检索语义上相似的数据更加容易。
这对于像 OpenAI 的 GPT- 4 这样的 LLMs 特别有用,因为它可以通过分析之前类似对话来更好地理解对话上下文。矢量搜索也适用于各种实时应用,例如社交网络或电子商务应用中的内容推荐,因为它可以查看用户搜索过的内容并在瞬间检索出相似的项目。
矢量搜索还可以帮助减少 LLMs 应用中的幻觉,通过提供原始训练数据集中可能没有的额外信息。
矢量搜索初创公司 Qdrant 的首席执行官兼联合创始人 Andre Zayarni 向 TechCrunch 解释说:“在不使用矢量相似搜索的情况下,您仍然可以开发 AI/ML 应用,但需要进行更多的重新训练和微调。当数据量庞大时,您需要一种可以高效方便地处理矢量嵌入的工具。”
今年一月,Qdrant 获得了 $2800 万的融资,以资本化其增长,使其成为去年增长最快的十家商业开源初创公司之一。而且,最近筹集现金的矢量数据库初创公司并不止 Qdrant —— Vespa、Weaviate、Pinecone 和 Chroma 去年共筹集了 2 亿美元用于各种矢量产品。
新兴的矢量搜索平台
自年初以来,我们还看到 Index Ventures 领投了价值 $950 万的种子轮融资到 Superlinked,这是一个将复杂数据转换为矢量嵌入的平台。几周前,Y Combinator (YC) 公布了其 2024 年冬季项目组,其中包括 Lantern,这是一家出售面向 Postgres 的托管矢量搜索引擎的初创公司。
此外,去年末 Marqo 完成了一笔 440 万美元的种子轮融资,紧随其后的是二月份的一笔 $1250 万美元的 A 轮融资。Marqo 平台提供了一整套矢量工具,涵盖矢量生成、存储和检索,使用户可以绕过类似于 OpenAI 或 Hugging Face 的第三方工具,通过一个单一的 API 提供一切。
链接到企业
虽然在 ChatGPT 和 GenAI 运动的推动中,矢量数据库有了一席之地,但它们并非适用于每种企业搜索场景的万灵药。
尽管专门化数据库可能在某一方面表现突出,但这也正是为什么我们开始看到 Elastic、Redis、OpenSearch、Cassandra、Oracle 以及 MongoDB 这样的数据库主导者将矢量数据库搜索智能添加到其产品组合中,就像微软 Azure、亚马逊 AWS 和 Cloudflare 这样的云服务提供商一样,它们也在“为于生成式人工智能增强截然不同形式的综合矢量搜索”。
尽管如此,Qdrant 的 Zayarni 和他的同事们却打赌,围绕矢量完全构建的本地解决方案将提供所需的“速度、内存安全性和规模”,因为矢量数据爆炸,而不是公司事后添加矢量搜索。
“他们的理由是,‘如有必要,我们也能做矢量搜索’,”Zayarni 说。“我们的理由是,‘我们能以最佳方式进行先进的矢量搜索’。这一切都关乎专业化。我们实际上建议从您的技术堆栈中已经拥有的数据库开始。到了某一时刻,如果矢量搜索是您解决方案的关键组成部分,用户将会面临限制。”
参考资料
[1] [Meta confirms that its Llama 3 open-source LLM is coming in the next month](https://techcrunch.com/2024/04/09/meta-confirms-that-its-llama-3-open-source-llm-is-coming-in-the-next-month/)
[2] [Are language models doomed to always hallucinate?](https://techcrunch.com/2023/09/04/are-language-models-doomed-to-always-hallucinate/)
[3] [Qdrant](https://qdrant.tech/)
[4] [Andre Zayarni](https://www.linkedin.com/in/zayarni/)
[5] [Qdrant raises $28 million for its open-source vector database](https://techcrunch.com/2024/01/23/qdrant-open-source-vector-database/)
[6] [Yahoo spin-out Vespa lands $31M investment from Blossom](https://techcrunch.com/2023/11/01/yahoo-spin-out-vespa-lands-31m-investment-from-blossom/)
[7] [Weaviate raises $50 million series B funding to meet soaring demand for AI-native vector database technology](https://www.prnewswire.com/news-releases/weaviate-raises-50-million-series-b-funding-to-meet-soaring-demand-for-ai-native-vector-database-technology-301803296.html)
[8] [Pinecone drops $100M investment on $750M valuation as vector database demand grows](https://techcrunch.com/2023/04/27/pinecone-drops-100m-investment-on-750m-valuation-as-vector-database-demand-grows/)
[9] [Chroma](https://www.trychroma.com/blog/seed)
[10] [Superlinked raises $9.5 million seed from Index Ventures and Theory Ventures to fill the gap between data and vector databases](https://www.prweb.com/releases/superlinked-raises-9-5-million-seed-from-index-ventures-and-theory-ventures-to-fill-the-gap-between-data-and-vector-databases-302091105.html)
[11] [YC’s latest demo day shows fascinating wagers on healthcare, chip design, AI and more](https://techcrunch.com/2024/04/04/ycs-latest-demo-day-shows-fascinating-wagers-on-healthcare-chip-design-ai-and-more/)
[12] [Lantern](https://lantern.dev/)
[13] [Marqo](https://www.marqo.ai/)
[14] [Meet Marqo, an open-source vector search engine for AI applications](https://techcrunch.com/2023/08/16/meet-marqo-an-open-source-vector-search-engine-for-ai-applications/)
[15] [Marqo Raises $12.5M to Make AI-powered Vector Search Seamless](https://www.globenewswire.com/en/news-release/2024/02/13/2828211/0/en/Marqo-Raises-12-5M-to-Make-AI-powered-Vector-Search-Seamless.html)
[16] [Tom Hamer](https://www.linkedin.com/in/tom-hamer-%F0%9F%A6%9B-04a6369b/)
[17] [Jesse N. Clark](https://www.linkedin.com/in/jessenclark/)
[18] [亚马逊](https://finance.yahoo.com/quote/AMZN/)
更多相关新闻,请点击 TechCrunch 页面,
TechCrunch 活动页面,