Weaviate AI 数据库在 X 上发布：用户搜索 'caffe crema' 却返回零结果

Weaviate • vector database(@weaviate_io)

Weaviate • vector database(@weaviate_io)2026年5月15日

Weaviate AI 数据库在 X 上发布：用户搜索 'caffe crema' 却返回零结果

8.5Score

TL;DR · AI 摘要

Weaviate v1.37 引入了多项改进，解决搜索中因拼写差异和语言停用词导致的匹配失败问题。

核心要点

Weaviate v1.37 支持 per-property accent folding，使 'caffé' 和 'caffe' 被视为相同。
新增 per-property stopword presets，支持多语言描述的精准处理。
提供 POST /v1/tokenize 端点，可预览 BM25 的分词结果。

结构提纲

按章节快速跳转。

§引言
用户搜索 'caffe crema' 却返回零结果，说明 BM25 搜索存在拼写敏感问题。
·问题分析
BM25 将 'caffé' 和 'caffe' 视为不同 token，导致搜索失败。
·解决方案
Weaviate v1.37 推出三项功能：accent folding、stopword presets 和 tokenize 端点。
›Per-property Accent Folding
通过 schema 配置实现 'caffé' 与 'caffe' 的匹配，提升搜索准确性。
›Per-property Stopword Presets
支持多语言停用词列表，避免特定语言描述被错误过滤。
›POST /v1/tokenize 端点
允许开发者预览 BM25 分词过程，优化查询效果。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Weaviate v1.37 新特性
- Per-property Accent Folding
  - 解决拼写差异问题
  - 提升搜索准确性
- Per-property Stopword Presets
  - 支持多语言停用词
  - 避免误过滤描述
- POST /v1/tokenize 端点
  - 预览 BM25 分词结果
  - 优化查询效果

金句 / Highlights

值得收藏与分享的关键句。

你的 BM25 搜索将 'caffé' 和 'caffe' 视为两个不同的 token，导致关键词部分的混合搜索结果归零。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
一行 schema 配置即可让 'caffé' 与 'caffe' 在索引和查询时都匹配。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
你的法语描述可以使用法语停用词预设。同一个集合。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Weaviate#BM25#向量数据库#文本分析

打开原文

Weaviate AI Database 在 X 上发布："一位用户在您的精品咖啡电商店里搜索 'caffe crema'。结果呢？0 条匹配。您的 BM25 搜索刚刚将 'caffé' 和 'caffe' 视为两个不同的词元，导致您的混合搜索中的关键词部分得分降为零。Weaviate v1.37 带来了三项改进，详情请见 https://t.co/PaaU3c6hOP" / X

别错过正在发生的事

Weaviate AI Database

@weaviate_io

一位用户在您的精品咖啡电商店里搜索 "caffe crema"。结果呢？0 条匹配。您的 BM25 搜索刚刚将 "caffé" 和 "caffe" 视为两个不同的词元，导致您的混合搜索中的关键词部分得分降为零。Weaviate v1.37 带来了三项改进来解决这个问题：按属性配置的重音折叠。只需一行模式配置，"caffé" 就能在索引时和查询时，在任何地方都匹配 "caffe"。按属性配置的停用词预设。"The North Face" 不会再被激进的英文停用词列表所破坏。您的法语描述可以使用法语预设。同一个集合。一个 POST /v1/tokenize 端点。您提供文本 + 分析器配置，就能得到 BM25 将要评分的精确词元。在我们的博客中了解更多：https://weaviate.io/blog/tokenizat ion-text-analysis-weaviate?utm_source=channels&utm_medium=w_social&utm_campaign=1.37_release&utm_content=268019112…

2026年5月15日下午1:16

·

596 次查看

2

5

3