From TF-IDF to Transformers: Implementing Four Generations of Semantic Search
从TF-IDF到Transformer,文章通过四个阶段展示了语义搜索的演变过程,揭示了现代系统如何从手动设计特征转向直接从数据学习抽象意义。
入选理由:TF-IDF结合手工特征提供了透明的排名系统。
产品
用于生成文本嵌入的开源库。
已跟踪 3 条高相关材料
最近变化
2026-05-25 · TF-IDF结合手工特征提供了透明的排名系统。
为什么值得关注
Sentence Transformers 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
From TF-IDF to Transformers: Implementing Four Generations of Semantic Search
Towards Data Science · 8.5 分
从TF-IDF到Transformer,文章通过四个阶段展示了语义搜索的演变过程,揭示了现代系统如何从手动设计特征转向直接从数据学习抽象意义。
Building Context-Aware Search in Python with LLM Embeddings + Metadata
Machine Learning Mastery · 8.2 分
本文介绍如何结合LLM嵌入和元数据过滤,在Python中构建上下文感知的语义搜索引擎。
Introducing the Ettin Reranker Family
Hugging Face Blog · 8 分
Hugging Face发布基于ModernBERT编码器的Ettin Reranker系列,包含17M到1B参数六个CrossEncoder模型,采用蒸馏训练方法,在MTEB检索基准上达到同类最优性能,为检索增强生成(RAG)系统提供高效重排序方案。
已收录 3 条与 Sentence Transformers 相关的内容,按评分排序。
从TF-IDF到Transformer,文章通过四个阶段展示了语义搜索的演变过程,揭示了现代系统如何从手动设计特征转向直接从数据学习抽象意义。
入选理由:TF-IDF结合手工特征提供了透明的排名系统。
本文介绍如何结合LLM嵌入和元数据过滤,在Python中构建上下文感知的语义搜索引擎。
入选理由:使用本地预训练模型生成384维向量,无需API密钥即可实现语义搜索。
Hugging Face发布基于ModernBERT编码器的Ettin Reranker系列,包含17M到1B参数六个CrossEncoder模型,采用蒸馏训练方法,在MTEB检索基准上达到同类最优性能,为检索增强生成(RAG)系统提供高效重排序方案。
入选理由:发布6个CrossEncoder reranker模型(17M/32M/68M/150M/400M/1B参数),基于Ettin ModernBERT架构