Go日志分析工具需流式读取大文件、正则解析结构化字段、边读边多维统计并输出JSON/CSV。用bufio.Scanner逐行读取防内存溢出,regexp预编译提取时间、级别、UID等,map实时聚合指标,支持命令行参数控制格式与时间过滤。
用 Go 语言开发日志分析工具,核心在于高效读取、灵活解析、精准统计。Go 的并发模型、标准库(如 bufio、regexp、time)和轻量结构体非常适合这类文本处理任务,无需依赖外部框架也能写出稳定、可维护的工具。
日志文件常达 GB 级别,不能用 ioutil.ReadFile 或 os.ReadFile 一次性加载。应使用 bufio.Scanner 按行流式读取,控制内存占用:
scanner.Buffer(make([]byte, 0, 64*1024), 1024*1024)),防止超长行 panicscanner.Scan() 循环读取,scanner.Text() 获取每行内容scanner.Err() 并返回错误先明确日志格式(如 Nginx access log、自定义 JSON、或时间+级别+消息的文本)。以常见文本日志为例:
[2025-05-20 14:23:18] INFO user login success — uid=1001
可定义结构体承载解析结果:
type LogEntry struct {
Timestamp time.Time
Level string
Message string
UID int
}
用 regexp.MustCompile 编译正则(如 ^\[(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})\] (\w+) (.+)$)提取时间、等级、消息;再对 Message 子匹配 UID。注意:正则预编译、避免在循环中重复 Compile。
边读边统计,不缓存原始日志(除非需二次分析)。常用统计包括:
map[string]int{"INFO": 1240, "ERROR": 37}
countByHour[entry.Timestamp.Hour()]++
strings.Contains(entry.Message, "timeout") 后累加uidCount[entry.UID]++
若需更高阶聚合(如 Top 10 接口路径),可在解析阶段用正则额外提取 path 字段,再用 map[string]int 统计后排序输出。
终端输出推荐表格化(可用第三方库如 go-tablewriter),但纯标准库也可用 fmt.Printf 对齐;导出为 JSON 或 CSV 更利于集成:
json.NewEncoder(os.Stdout).Encode(stats),确保结构体字段首字母大写且带 json: tagcsv.NewWriter 写入,注意转义含逗号/换行的字段-format json)、时间范围过滤(-since "2025-05-20"
)