分析Nginx日志统计每个IP访问状态码数量($status) ?

参考回答:

要分析 Nginx 访问日志中每个 IP 地址访问不同 HTTP 状态码的数量(即 $status),可以通过以下步骤:

  1. 定位 Nginx 访问日志文件:Nginx 的访问日志通常位于 /var/log/nginx/access.log,但具体路径可以根据系统的配置有所不同。

  2. 使用 awk 提取 IP 地址和状态码:提取日志中的 IP 地址(通常是 $1)和状态码(通常是 $9)。

  3. 统计每个 IP 地址对应的不同状态码数量:通过 awk 统计每个 IP 地址和其对应的状态码数量。

  4. 排序和输出:根据访问次数进行排序,输出每个 IP 地址对应的 HTTP 状态码数量。

命令示例:

cat /var/log/nginx/access.log | awk '{print 1,9}' | sort | uniq -c | sort -nr | head -n 10

命令解析
cat /var/log/nginx/access.log:输出 Nginx 访问日志的内容。
awk '{print 1,9}':提取日志中的第 1 个字段(即客户端 IP 地址)和第 9 个字段(即状态码)。
sort:对提取出的 IP 地址和状态码进行排序。
uniq -c:统计每对 IP 和状态码出现的次数。
sort -nr:按照出现次数降序排序。
head -n 10:输出访问次数最多的前 10 条结果。

详细讲解与拓展:

1. Nginx 访问日志格式

Nginx 的访问日志默认采用 combined 格式,包含了客户端 IP 地址、请求时间、请求方法、请求路径、HTTP 状态码、响应大小等信息。日志的一行示例:

127.0.0.1 - - [14/Mar/2019:10:05:23 +0000] "GET /index.html HTTP/1.1" 200 1034 "-" "Mozilla/5.0"

其中,第 1 个字段(127.0.0.1)表示客户端的 IP 地址,第 9 个字段(200)表示请求的 HTTP 状态码。

2. 提取 IP 和状态码

通过 awk 提取日志的第 1 个字段(客户端 IP 地址)和第 9 个字段(HTTP 状态码)。这样可以得到每个 IP 地址的请求及其对应的状态码。

3. 统计每个 IP 地址的状态码数量

使用 uniq -c 可以统计每个 IP 地址和状态码的出现次数。结果会显示每个 IP 地址和状态码的组合出现的次数。例如:

10 127.0.0.1 200
5 127.0.0.1 404

这表示 127.0.0.1 这个 IP 地址访问了 10 次成功(200)的页面,5 次访问了 404 错误页面。

4. 排序和筛选

通过 sort -nr 对输出进行排序,按照每个 IP 地址和状态码组合的出现次数进行降序排列。然后使用 head -n 10 显示最常见的前 10 条结果。

5. 进一步分析与扩展

  • 查看某个特定状态码的访问情况:如果只对某个状态码(比如 404500)的访问情况感兴趣,可以通过 grep 过滤日志中的特定状态码:
    cat /var/log/nginx/access.log | grep " 404 " | awk '{print 1,9}' | sort | uniq -c | sort -nr | head -n 10
    
  • 按时间段统计状态码:你也可以通过 grep 过滤特定时间段的日志,然后统计每个 IP 地址和状态码的数量。例如,分析 2019 年 3 月 14 日的访问:
    grep '14/Mar/2019' /var/log/nginx/access.log | awk '{print 1,9}' | sort | uniq -c | sort -nr | head -n 10
    
  • 检测异常状态码:通过这种方式,你可以很容易识别出频繁返回 404500 或其他错误状态码的 IP 地址,这对于排查爬虫、攻击源或服务器异常非常有帮助。

6. 自动化与监控

对于生产环境中的 Nginx 日志,定期分析和监控日志中的状态码数量可以帮助快速发现异常流量或潜在的攻击。可以通过将日志数据导入到 ELK Stack(Elasticsearch, Logstash, Kibana)等日志聚合平台中进行实时分析和监控。

总结:

通过分析 Nginx 访问日志中的 IP 地址和 HTTP 状态码数量,我们可以快速识别哪些 IP 地址产生了大量的错误请求,帮助定位潜在的攻击源或爬虫行为。使用 awksortuniq 等工具组合,我们能够高效地提取、统计并分析日志中的数据。对于大规模日志数据,使用专门的日志分析工具或监控平台能够进一步提高效率和准确性。

发表评论

后才能评论