OpenTelemetry Collector 在 AWS 與 OpenShift 上的部署、觀測與故障排除全指南

為何選擇 OpenTelemetry Collector 作為觀測資料中樞

在現代雲原生架構中，**OpenTelemetry Collector** 是一個中心化的資料接收與處理管線，能統一接收 traces、metrics 與 logs，再轉送到 CloudWatch、X-Ray 或第三方後端。本文第一段即點出主要關鍵字「OpenTelemetry Collector」，並說明其扮演的角色與價值。

如果您在 OpenShift 平台上部署 Collector，建議參考 Red Hat 的官方文件來設定 operator、部署模式（deployment、daemonset、sidecar）與常用的 receivers/processors/exporters。更多細節可見於 Red Hat build of OpenTelemetry 文件。

在 OpenShift 上的實務安裝與配置要點

在 OpenShift 上安裝時，先安裝 Operator、建立命名空間並以 OpenTelemetryCollector CR 配置管線。常見最佳實務包括：用 **sidecar injection**（當需要每個 pod 有自己的 collector 時）或 daemonset（每節點一個）來收集 host-level metrics，以及透過 RBAC 設定允許 k8sattributes 或 resourcedetection 等 processors 取得集群資料。

針對 Prometheus scraping 或要把 metrics 匯入 monitoring stack，可啟用 observability.metrics 並讓 Operator 自動建立 ServiceMonitor/PodMonitor，減少手動維護額外資源。

AWS / EKS 上的注意事項與 Application Signals 相容性

在 Amazon EKS 或使用 ADOT（AWS Distro for OpenTelemetry）時，部署前需準備 IAM 與對應的 service account。ADOT collector 常被用來把資料送到 CloudWatch 與 X-Ray；如果你採用 AWS 的 Application Signals 功能，安裝或升級時要特別留意與既有 OTel 設定的相容性。

實務上，如果在 EKS 上已經硬編碼自訂 OTLP endpoint，安裝 CloudWatch Observability add-on 後可能會發生覆寫或衝突。AWS 的故障排除文件說明如何處理這類情況，包含選擇退回或使用環境變數 opt-out。參考更多內容請見 Application Signals 故障排除。

常見故障排除策略與效能優化

遇到資料遺失或吞吐量問題，可依序檢查：collector 日誌（可啟用 Debug Exporter）、otelcol 內部 metric（如 otelcol_receiver_accepted_spans / otelcol_exporter_sent_spans）、以及 network policy 與 RBAC 權限。若記憶體或 CPU 過高，可使用 **Memory Limiter Processor** 並調整 batch 與 queue。

面對高流量且需降低成本時，**Probabilistic Sampling Processor** 或 Tail Sampling 可幫忙在 Collector 端下採樣；若要在 EKS/ADOT 堆疊上落地，請同時參考 ADOT 的建議配置與 Sawmills 關於 collector 實作的入門說明：Getting Started with AWS and OTel Collectors。這些策略能平衡資料品質與成本。

總結：設計觀測平台時的決策重點

部署 **OpenTelemetry Collector** 時，請以清楚的信任邊界（IAM / RBAC）、適切的部署模式（sidecar/daemonset/deployment）、以及合理的資料處理管線（receivers → processors → exporters）為核心。把可觀測性需求、成本預期與相容性（例如 Application Signals）列為優先檢查點，能在故障發生時快速定位並回復服務。

最後，建立驗證流程（logs、內部 metrics、端到端 tracing）與升級策略，有助在升級 Agent 或 Operator 時避免資料中斷。遇到 EKS 加裝 Application Signals 的衝突或 Java/Python autoinstrumentation 問題，請參照上文引用的官方文件進行逐步排查。