T
traeai
登录
返回首页
Weaviate • vector database(@weaviate_io)

Weaviate AI 数据库在 X 上发布:用户搜索 'caffe crema' 却返回零结果

8.5Score
Weaviate AI 数据库在 X 上发布:用户搜索 'caffe crema' 却返回零结果

TL;DR · AI 摘要

Weaviate v1.37 引入了多项改进,解决搜索中因拼写差异和语言停用词导致的匹配失败问题。

核心要点

  • Weaviate v1.37 支持 per-property accent folding,使 'caffé' 和 'caffe' 被视为相同。
  • 新增 per-property stopword presets,支持多语言描述的精准处理。
  • 提供 POST /v1/tokenize 端点,可预览 BM25 的分词结果。

结构提纲

按章节快速跳转。

  1. 用户搜索 'caffe crema' 却返回零结果,说明 BM25 搜索存在拼写敏感问题。

  2. BM25 将 'caffé' 和 'caffe' 视为不同 token,导致搜索失败。

  3. Weaviate v1.37 推出三项功能:accent folding、stopword presets 和 tokenize 端点。

  4. 通过 schema 配置实现 'caffé' 与 'caffe' 的匹配,提升搜索准确性。

  5. 支持多语言停用词列表,避免特定语言描述被错误过滤。

  6. 允许开发者预览 BM25 分词过程,优化查询效果。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Weaviate v1.37 新特性
    • Per-property Accent Folding
      • 解决拼写差异问题
      • 提升搜索准确性
    • Per-property Stopword Presets
      • 支持多语言停用词
      • 避免误过滤描述
    • POST /v1/tokenize 端点
      • 预览 BM25 分词结果
      • 优化查询效果

金句 / Highlights

值得收藏与分享的关键句。

#Weaviate#BM25#向量数据库#文本分析
打开原文

Weaviate AI Database 在 X 上发布:"一位用户在您的精品咖啡电商店里搜索 'caffe crema'。结果呢?0 条匹配。您的 BM25 搜索刚刚将 'caffé' 和 'caffe' 视为两个不同的词元,导致您的混合搜索中的关键词部分得分降为零。Weaviate v1.37 带来了三项改进,详情请见 https://t.co/PaaU3c6hOP" / X

别错过正在发生的事

Image 2

Weaviate AI Database

@weaviate_io

一位用户在您的精品咖啡电商店里搜索 "caffe crema"。结果呢?0 条匹配。您的 BM25 搜索刚刚将 "caffé" 和 "caffe" 视为两个不同的词元,导致您的混合搜索中的关键词部分得分降为零。Weaviate v1.37 带来了三项改进来解决这个问题:按属性配置的重音折叠。只需一行模式配置,"caffé" 就能在索引时和查询时,在任何地方都匹配 "caffe"。按属性配置的停用词预设。"The North Face" 不会再被激进的英文停用词列表所破坏。您的法语描述可以使用法语预设。同一个集合。一个 POST /v1/tokenize 端点。您提供文本 + 分析器配置,就能得到 BM25 将要评分的精确词元。在我们的博客中了解更多:https://weaviate.io/blog/tokenizat ion-text-analysis-weaviate?utm_source=channels&utm_medium=w_social&utm_campaign=1.37_release&utm_content=268019112…

Image 3: Image

2026年5月15日 下午1:16

·

596 次查看

2

5

3

AI 可能会生成不准确的信息,请核实重要内容

Weaviate AI 数据库在 X 上发布:用户搜索 'caffe crema' 却返回零结果 | Weaviate • vector database(@weaviate_io) | traeai