Elasticsearch on 凌虚 Blog

我的 2024 年 Elasticsearch 认证考试经验与真题回顾

Sun, 17 Mar 2024 22:18:54 +0800

背景说明

大家好，我是凌虚。

我于 2024 年 3 月 14 日参加了 Elastic Certified Engineer（ECE）认证考试，并与 18 日收到了考试通过的邮件。本文将会回顾我的考试过程、考试真题、个人感受。

Elasticsearch 向量搜索

Fri, 15 Apr 2022 00:00:00 +0800

Elasticsearch 向量搜索

本文将会介绍 Elasticsearch 向量搜索的两种方式。

向量搜索

提到向量搜索，我想你一定想知道：

向量搜索是什么？
向量搜索的应用场景有哪些？
向量搜索与全文搜索有何不同？

ES 的全文搜索简而言之就是将文本进行分词，然后基于词通过 BM25 算法计算相关性得分，从而找到与搜索语句相似的文本，其本质上是一种 term-based（基于词）的搜索。

Elasticsearch 分布式搜索的运行机制

Tue, 17 Nov 2020 00:00:00 +0800

Elasticsearch 分布式搜索的运行机制

ES 有两种 search_type 即搜索类型：

query_then_fetch （默认）
dfs_query_then_fetch

`query_then_fetch`

用户发起搜索，请求到集群中的某个节点。
query 会被发送到所有相关的 shard 分片上。
每个 shard 分片独立执行 query 搜索文档并进行排序分页等，打分时使用的是分片本身的 Local Term/Document 频率。
分片的 query 结果（只有元数据，例如 _id 和 _score）返回给请求节点。
请求节点对所有分片的 query 结果进行汇总，然后根据打分排序和分页，最后选择出搜索结果文档（也只有元数据）。
根据元数据去对应的 shard 分片拉取存储在磁盘上的文档的详细数据。
得到详细的文档数据，组成搜索结果，将结果返回给用户。

缺点：由于每个分片独立使用自身的而不是全局的 Term/Document 频率进行相关度打分，当数据分布不均匀时可能会造成打分偏差，从而影响最终搜索结果的相关性。

Elasticsearch Search Template

Mon, 16 Nov 2020 00:00:00 +0800

Elasticsearch Search Template

所谓 search template 搜索模板其实就是：

预先定义好查询语句 DSL 的结构并预留参数
搜索的时再传入参数值
渲染出完整的 DSL ，最后进行搜索

使用搜索模板可以将 DSL 从应用程序中解耦出来，并且可以更加灵活的更改查询语句。

构造请求日志分析系统

Sat, 07 Nov 2020 00:00:00 +0800

构造请求日志分析系统

请求日志记录哪些数据

time_local : 请求的时间
remote_addr : 客户端的 IP 地址
request_method : 请求方法
request_schema : 请求协议，常见的 http 和 https
request_host : 请求的域名
request_path : 请求的 path 路径
request_query : 请求的 query 参数
request_size : 请求的大小
referer : 请求来源地址，假设你在 a.com 网站下贴了 b.com 的链接，那么当用户从 a.com 点击访问 b.com 的时候，referer 记录的就是 a.com ，这个是浏览器的行为
user_agent : 客户端浏览器相关信息
status : 请求的响应状态
request_time : 请求的耗时
bytes_sent : 响应的大小

很多时候我们会使用负载网关去代理转发请求给实际的后端服务，这时候请求日志还会包括以下数据：

Elasticsearch 自定义打分 Function score query

Mon, 02 Nov 2020 00:00:00 +0800

Elasticsearch 自定义打分 Function score query

Elasticsearch 会为 query 的每个文档计算一个相关度得分 score ，并默认按照 score 从高到低的顺序返回搜索结果。在很多场景下，我们不仅需要搜索到匹配的结果，还需要能够按照某种方式对搜索结果重新打分排序。例如：

数据管道 Logstash 入门

Sun, 01 Nov 2020 00:00:00 +0800

Logstash 入门

Logstash 是什么

Logstash 就是一个开源的数据流工具，它会做三件事：

从数据源拉取数据
对数据进行过滤、转换等处理
将处理后的数据写入目标地

例如：

监听某个目录下的日志文件，读取文件内容，处理数据，写入 influxdb 。
从 kafka 中消费消息，处理数据，写入 elasticsearch 。

为什么要用 Logstash ？

方便省事。

Elasticsearch 入门指南

Sun, 29 Jul 2018 16:24:53 +0800

引言

Elasticsearch 是什么？一个开源的可扩展、高可用、分布式的全文搜索引擎。

你为什么需要它？《人生一串》中有这样一段话：

没了烟火气，人生就是一段孤独的旅程。

而我们如何通过烟火气、人生或者旅程等这样的关键词来搜索出这部纪录片呢？显然无论是传统的关系型数据库，还是 NOSQL 数据库都无法实现这样的需求，而这里 Elasticsearch 就派上了用场。