Weaviate • vector database(@weaviate_io)
Weaviate AI 数据库在 X 上发布:用户搜索 'caffe crema' 却返回零结果
8.5Score

TL;DR · AI 摘要
Weaviate v1.37 引入了多项改进,解决搜索中因拼写差异和语言停用词导致的匹配失败问题。
核心要点
- Weaviate v1.37 支持 per-property accent folding,使 'caffé' 和 'caffe' 被视为相同。
- 新增 per-property stopword presets,支持多语言描述的精准处理。
- 提供 POST /v1/tokenize 端点,可预览 BM25 的分词结果。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Weaviate v1.37 新特性
- Per-property Accent Folding
- 解决拼写差异问题
- 提升搜索准确性
- Per-property Stopword Presets
- 支持多语言停用词
- 避免误过滤描述
- POST /v1/tokenize 端点
- 预览 BM25 分词结果
- 优化查询效果
金句 / Highlights
值得收藏与分享的关键句。
你的 BM25 搜索将 'caffé' 和 'caffe' 视为两个不同的 token,导致关键词部分的混合搜索结果归零。
一行 schema 配置即可让 'caffé' 与 'caffe' 在索引和查询时都匹配。
你的法语描述可以使用法语停用词预设。同一个集合。
#Weaviate#BM25#向量数据库#文本分析
打开原文Weaviate AI Database 在 X 上发布:"一位用户在您的精品咖啡电商店里搜索 'caffe crema'。结果呢?0 条匹配。您的 BM25 搜索刚刚将 'caffé' 和 'caffe' 视为两个不同的词元,导致您的混合搜索中的关键词部分得分降为零。Weaviate v1.37 带来了三项改进,详情请见 https://t.co/PaaU3c6hOP" / X
别错过正在发生的事

一位用户在您的精品咖啡电商店里搜索 "caffe crema"。结果呢?0 条匹配。您的 BM25 搜索刚刚将 "caffé" 和 "caffe" 视为两个不同的词元,导致您的混合搜索中的关键词部分得分降为零。Weaviate v1.37 带来了三项改进来解决这个问题:按属性配置的重音折叠。只需一行模式配置,"caffé" 就能在索引时和查询时,在任何地方都匹配 "caffe"。按属性配置的停用词预设。"The North Face" 不会再被激进的英文停用词列表所破坏。您的法语描述可以使用法语预设。同一个集合。一个 POST /v1/tokenize 端点。您提供文本 + 分析器配置,就能得到 BM25 将要评分的精确词元。在我们的博客中了解更多:https://weaviate.io/blog/tokenizat ion-text-analysis-weaviate?utm_source=channels&utm_medium=w_social&utm_campaign=1.37_release&utm_content=268019112…
·
2
5
3