閱讀筆記: 「啟動 container 直接 kernel panic 的 bug」

June 15, 2022 · One min read

Blogger

標題: 「啟動 container 直接 kernel panic 的 bug」類別: others 連結: https://bugs.launchpad.net/ubuntu/+source/linux-aws-5.13/+bug/1977919

本篇文章探討的是一個關於 Ubuntu kernel(5.13+) bug 產生的各種悲劇，已知受害的雲端業者包含

linux-oracle linux-azure linux-gcp linux-aws

等常見大廠。

簡單來說，預設設定下只要簡單跑一個 container 譬如 docker run -it ubuntu bash 就可以直接觸發 kernel panic，直接讓你系統死亡強迫重啟

整個 bug 結論來說就是，一連串的操作最後有機會導致使用到一個 null pointer，然後 kernel 就炸拉...

相關的修復可以參閱這個連結，裡面有大概提到問題發生點以及修復方式。 https://kernel.ubuntu.com/git/ubuntu/ubuntu-impish.git/commit/?id=6a6dd081d512c812a937503d5949e4479340accb

閱讀筆記: 「分散式系統上的常見網路謬誤」

June 13, 2022 · 2 min read

HungWei Chiu

Blogger

標題: 「分散式系統上的常見網路謬誤」類別: others 連結: https://architecturenotes.co/fallacies-of-distributed-systems/

本篇文章是探討分散式系統上很常被開發者所忽略的網路情況，這些情境都容易被忽略與考慮，但是每個點實際上都會影響整個系統的效能與功能

這些常常被忽略的網路情況包含

The network is reliable
Latency is zero
Bandwidth is infinite
The network is secure
Topology doesn't change
There is one administrator
Transport cost is zero
The network is homogeneous

The network is reliable

開發分散式系統的時候，一定要去考慮網路壞掉的情況，切記網路中的任何傳輸都不是 100% 穩定的。千萬不要假設所有封包與傳輸都沒有問題，必要時還要考慮重新連線，重新傳輸的情況。

Latency

網路時間還有一個要注意的就是延遲時間，通常 Client/Server 如果都是同一個系統內的服務時，這類型的時間可能非常短，如 ms 等級。但是當 client 可能是來自真實使用者的手機裝置時，就要將 latency 這些因素給考慮進去，不能假設所有的 API 與網路請求都是秒回的情況。

更常見的還有導入 CDN 等方式透過地理性的位置來減少 client/server 之間要傳輸的距離。

文章內針對剩下的類別都有簡單的圖文並茂來解釋，淺顯易懂，有興趣的可以參閱全文

閱讀筆記: 「為什麼有些工程師不相信 Best Practices 」

June 9, 2022 · 8 min read

HungWei Chiu

Blogger

標題: 「為什麼有些工程師不相信 Best Practices 」類別: others 連結: https://blog.devgenius.io/why-some-developers-dont-believe-in-best-practices-8c03ea4f7e88

工程師想必對於 DRY, KISS(Keep It Simple, Stupid), YAGNI(You Ain’t Gonna Need It) 這些廣為流傳的開發原則並不陌生，這些原則都是過去許許多多優秀工程師透過自己的經驗而濃縮的開發準則。

但是作者觀察到有滿多工程師對於這些開發原則/命名標準/最佳實驗經驗等採取一個不信任態度，甚至覺得導入這些東西都是浪費時間。因此本文章是作者探討什麼樣的工程師可能會不太願意去學習與導入這些廣為流傳的開發原則與經驗

Small projects and experience

作者開宗明義地說，小專案的成功經驗基本上是沒有辦法導入到大專案的開發的，小專案的特型譬如 1) 合作人員很少 2)專案時間少這類型的特性只得技術債或是欠缺設計的程式架構不太會影響整個專案，畢竟專案太小，時間太短，後續的人不一定有機會真的觀察到這些潛在的問題。

而小專案還有一個很大的特性就是後續維護的人很有可能跟當初的開發者不同，所以對於開發者來說非常難去感受後續維護的痛苦與需求。

上述特性有可能會使得開發者覺得自己的開發經驗非常足夠且堪用，因此就會基於這樣的經驗來抵抗其他更多被推廣且推崇的開發原則與最佳實戰經驗。

因此對於一些只開發過小專案且沒有後續維護的工程師來說，其有可能就不會想要學習這些原則與經驗，畢竟自己的工作流程根本沒有機會感受到好處。

Reward and incentive

簡單來說就是「劣幣逐良幣」的概念，從工程師開發的角度來看，寫一個「可能比較好維護，未來比較不會有問題，高品質的程式碼」如果實務上不會帶來任何好處，甚至可能「績效表現比較不好」的情況下，那為什麼工程師要努力寫出高品質的程式碼？

軟體團隊除了開發者之外，還會有相關的專案管理人員，產品管理人員以及最終使用者。對於非技術人員來說，其在意的點更有可能專注於「程式開發速度，產品上線速度」，至於專案的後續維護性，開發靈活性等長時間才會看到的問題都不是他們所在意的點。

這種情況下，如何評價一個工程師的能力很有可能就變成「能夠多快的滿足專案需求，而不是寫出的程式碼品質」，所以對於工程師來說，快速寫出功能不考慮後續其他維護等長期問題反而更可能受到團隊重視，因為「功能出的快」。

所以如果團隊沒有辦法好好的去重視「高品質程式碼等考慮長期問題的開發原則」就有可能會導致工程師不會想要好好的去撰寫好的程式碼，長期下來這些工程師就可能會開始拒絕學習各種開發原則與最佳實踐的經驗，畢竟導入這些東西沒有任何實質上的幫助，反而初期可能會降低功能的上線速度。

Ignorance

「知彼知己，百戰百勝」，沒有花時間去學習這些開發原則的前後脈絡與適用情景就沒有辦法很順利的導入到開發專案中，所以實際上這些導入都要工程師花時間去學習與理解，然後嘗試導入與使用。

然而並不是每個工程師都願意花時間去學習，畢竟平常工作就是寫寫程式碼，寫寫文件，結果來說能動就好。花這些時間去學習這些東西

作者認為很多工程師「其實都不知道自己不知道什麼」，這導致他們很難去學習新技術與新概念，畢竟未知領域帶來的好處與優勢不是他們工作經驗中有機會去體驗到的，就如同前面所述，對一個擅長開發短期專案就拋棄給別人維護的人來說，其很難體會到各種長期維護與技術債的問題。 practices.

Best practices, and poor practices get the same results initially

另外一個非常常見的問題就是「導入開發原則與好的開發經驗」與否對於初期開發來說很有可能沒有很任何明顯的差異。從短期目標來看，兩者開發角度產生的結果不會差異太大，但是對於只有幾個月的小專案來說，後者甚至能夠更快的完成需求然後拍拍屁股結束閃人。

架構複雜性，技術債以及其他的爛程式碼可能產生的後續問題都需要時間發酵，所以團隊事主如果沒有辦法以長期觀念來看到程式開發的話，上述的問題就沒有辦法被重視，就如同前面所述，開發者就會「速度為主，品質為輔」的概念來開發，至於後續維護痛苦與否就是後續接手人的事情。

剩下其他論點就可以到原文去觀賞

Professionalism

Short-term approach

閱讀筆記: 「使用 StressChaos 的經驗來學習 Pod Memory 使用情況」

June 6, 2022 · 4 min read

HungWei Chiu

Blogger

標題: 「使用 StressChaos 的經驗來學習 Pod Memory 使用情況」類別: others 連結: https://chaos-mesh.org/blog/how-to-efficiently-stress-test-pod-memory/

本篇文章是來自於 Chaos Mesh 內的官方文章，主要是想要探討為什麼使用 Chaso Mesh 來測試記憶體狀況時結果實際狀況與設定的狀況不一致文章一步一步的探討所有問題最後同時也整理了一些關於 Kubernetes 內的 Memory 相關機制

文章開頭，作者先部署了一個簡單的 Pod(只有一個 container)，該 Pod 針對 Memory 的部分設定 request: 200Mi, limits: 500Mi 結果作者到該 Container 中透過 free 與 top 的指令，都觀察到顯示的記憶體使用量高達 4G，這部分明顯與設定的 limits 500Mi 有所衝突因此這邊產生了第一個點要特別注意

Kubernetes 是透過 cgroup 來計算與控管 Pod 的 Memory 用量，然而 free/top 等指令並沒有跟 cgroup 整合，因此就算跑到 container 中執行這兩個指令看到的輸出其實都是 host 相關的，如果想要知道真正 container 相關的數量，還是要使用 cgroup 相關的指令來取得，譬如 cat /sys/fs/cgroup/memory/memory.usage_in_bytes

文章還有特別提到 Kubernetes 會針對 Request/Limit 的設定方式來將你的 Pod 分為三個等級，分別是 BestEffort, Burstable 以及 Guaranteed 其中當系統因為 OOM 不足要開始找受害者下手時，被設定為 Guaranteed 的應用程式則會是最低優先度，只有真的找不到其他受害者時才會來處理 Guaranteed 類型的 Pod。

最後則是更細部的去探討 Kubernetes 關於 Memory 的使用與管理對於 Kubernetes 來說，當系統上 Memory 數量不足時，可能會觸發 Evict 的行為，開始將部分運行的 Pod 給踢出該節點，而如同前面所述， Kubernetes 是依賴 Cgroup 來處理的，因此 /sys/fs/cgroup/memory/memory.usage_in_bytes 自然而然就成為其決策的重要參數

其中要注意的是 /sys/fs/cgroup/memory/memory.usage_in_bytes 代表的並不是 "剛剛好系統上正在被使用的 Memory 數量"，其數值則是由 "resident set", "cache", "total_inactive_file" 等三個面向組合而成，因此 Kubernetes 實際上會先從 /sys/fs/cgroup/memory/memory.usage_in_bytes 與 /sys/fs/cgroup/memory/memory.stat 取得相關參數，其中後者可以得到如 total_inactive_file 的數量最後透過下列算式 working_set = usage_in_bytes - total_inactive_file 來得到一個名為 working_set 變數，該變數實際上也可以由 kubectl top 獲取，這也是 kubernetes 用來判斷是否執行 evict 的主要指標。

一個節點還有多少可用的 Memory 則是透過 memory.available = nodes.status.capacity[memory] - working_set 所以每個節點的總共量扣掉 workign_set 就是當前可用量，一旦當前可用量低於門檻時，也就是 k8s 執行 evict 之時官網文件中其實有滿仔細的去描述這些操作行為有興趣的可以花點時間全部看完 https://kubernetes.io/docs/concepts/scheduling-eviction/node-pressure-eviction/

閱讀筆記: 「/proc/meminfo 與 free 指令的內容比較」

June 3, 2022 · 3 min read

HungWei Chiu

Blogger

標題: 「/proc/meminfo 與 free 指令的內容比較」類別: others 連結: https://access.redhat.com/solutions/406773

本篇文章要探討的是到底 /proc/meminfo 與 free 這個指令所列出來的 memory 相關資訊到底該怎麼匹配

雖然文章有特別強調主要是針對 RedHat Enterprise Linux 5,6,7,8,9，但是我認為大部分的 Linux 發行版的差異不會太大，畢竟整體都是來自於 Kernel 內的實作，我認為還是值得閱讀與理解。

對於大部分的系統管理員來說，勢必都有聽過 free 這個指令，該指令可以列出系統上當前的 memory 使用狀況，舉例來說通常會有 Total, Used, Free, Shared, Buffers, Cached 之類的欄位(不同版本可能會有些許差異)。不熟悉的人可能會認為系統上的記憶體就只有“全部“,"使用中","閒置" 等三種類型，而實際上的記憶體處理遠比這些複雜，這也是為什麼 free 的輸出欄位會比較多的原因

除了 Free 指令外， Kernel 本身還有提供一個特殊的檔案位置讓使用者可以讀取當前的 memory 狀況，該位置為 /proc/memifno，其會提供如 MemTotal, MemFree, Buffers, Cached 等相關欄位

本文並不會針對每個欄位去探討實際上的意義，取而代之的是簡單的比對，透過幾個列表讓你清楚的知道 free 指令輸出的每個欄位要如何與 /proc/meminfo 去比較，要如何轉換等特別要注意的是文章內有仔細地針對不同 RedHat Enterprise Linux 版本去分別探討，所以如果是 RedHat 系列的使用者更要好得閱讀並確保能夠理解自己當前使用版本的狀況

閱讀筆記: 「goss, 一個簡易且迅速的 server 驗證工具」

June 1, 2022 · 3 min read

HungWei Chiu

Blogger

標題: 「goss, 一個簡易且迅速的 server 驗證工具」類別: others 連結: https://github.com/aelsabbahy/goss

今天要介紹的是一個驗證工具 goss，該工具的目的非常簡單，讓系統管理員可以透過 YAML 的方式幫機器上的服務撰寫 Unit Testing 什麼情況會需要使用這類型工具？

舉例來說，當你今天部署了一個全新機器(手動/自動後)，你安裝了下列軟體

sshd
nginx
docker
....

同時你也根據需求事先創建了一些使用者，接者你想要驗證這些軟體與相關設定是否設定完成最直覺的方式就是手動檢查，一個一個服務與設定人工檢查

而 goss 這套軟體的目的就是讓你用 YAML 的方式去撰寫你想要驗證的所有服務，可以用來驗證包含

使用者 (uid, gid, home, shell)
Package: 系統是否有透過 rpm, de, pacman, apk 等安裝套件
File: 檢查檔案資料夾是否存在
Addr: 用來檢查 $IP:$Port 是否可以被存取
Port: 用來檢查 $Port 是否有開啟
DNS: 用來檢查是否可以解析特定 DNS
Process: 檢查特定 Process 是否有開啟
Mount: 檢查是 Mount Point 以及相關參數
Kernel Param: 檢查 Kernel 參數
...等

Goss 除了基本用法外，也有人基於其概念往上疊加 dgoss，用來驗證 Docker 的運行狀態，還有類似的 dcgoss，針對 docker-compose 來使用。當然目前也很多人會透過 Ansible 的方式來自動化部屬，而 Ansible 本身其實也有相關的測試框架可以用來測試部署結果，所以到底要用哪類型的工具來驗證 Server 等級的狀態就根據團隊需求與現有流程而定，比較沒有一個獨大的工具用法。

閱讀筆記: 「如何寫出有意義的討論訊息」

May 30, 2022 · 4 min read

HungWei Chiu

Blogger

標題: 「如何寫出有意義的討論訊息」類別: others 連結: https://conventionalcomments.org/

本篇文章非常短，大意就是探討透過文字討論事項時如何讓這些訊息更有意義，能夠讓目標受眾可以更快的理解該訊息的意義假如今天有人想要反應「This is not worded correctly.」的概念，作者認為相對於直接撰寫「該文字措辭不當」，可以適當的加上一些是先定義好的前綴形容詞譬如「suggestion: This is not worded correctly. Can we change this to match the wording of the marketing page?」

「nitpick (non-blocking): This is not worded correctly.」

透過這些有共識的形容詞可以讓團隊之間的溝通速度快，減少誤解與猜測的可能性，讓整體的溝通效率更高，譬如「suggestion: Let's avoid using this specific function… If we reference much of a function marked Deprecated, it is almost certain to disagree with us, sooner or later.」

「issue (ux,non-blocking): These buttons should be red, but let's handle this in a follow-up.」

透過這些形容詞能夠提醒目標受眾該討論的一些概念，同時也能夠讓對方更有想法下一步驟可以怎麼做。作者就自己的習慣列舉了幾個下列前綴形容詞

Praise: 正面的去稱讚該事項
Nitpick: 大部分都是一些非常小然後不會影響整體功能的小問題，譬如個人偏好等相關討論
Suggestion: 針對當前目標有想要改進的部分，而且重點是要很明確且清楚的描述到底問題是什麼，以及為什麼需要這個改進。
Issue: 強調當前主題下的潛在問題，如果確定該問題已經存在，搭配 Suggestion 來描述，否則可搭配 Question 來確認該問題是否存在
Todo: 針對簡單且非必要的一些修改，主要是讓受眾能夠區分這些討論的重要性，能夠專注於當前更重要的事項
Question: 如果對於當前主題有一些不確定的問題，就使用 Question 讓其他人認知到你有問題要發問，能夠幫助你更快的得到解答。

說到底這類型的討論都是一個習慣，就如同 coding style 一樣，所有共事者有一個共識原則，大家合作起來會更加有效率有方便文中說的方法也不是唯一的辦法，但是團隊內有一個準則文化絕對會帶來好處的

閱讀筆記: 「如何提供專業 Code Review 意見」

May 27, 2022 · 6 min read

HungWei Chiu

Blogger

標題: 「如何提供專業 Code Review 意見」類別: others 連結: https://medium.com/@yar.dobroskok/how-to-review-the-code-like-a-pro-6b656101eb89

作者開門見山提到，如果團隊中沒有任何 code review 文化的話，請直接忽略這篇文章。當團隊真的有 code review 的經驗時，才有機會透過本篇文章分享的一些概念來改善整個 code review 的流程，高效率低耗時。

作者認為一個好品質的 code review 能夠幫助團隊帶來下列好處

避免合併一些充滿 bug, 難讀, 無效率的程式碼到專案中
開發者可以互相分享彼此的知識
獲得關於實作上的各種意見
確保團隊內的 coding style 一致

為了讓上述概念可以充分的導入到團隊專案中，作者分享了一些自己常用的概念與招式

事先準備一份 Checklist 一個好的 review 流程就是要有一份檢查清單，這份清單上面描述的是每次程式碼合併都“必須”要符合的規則，同時也是團隊很重視的規則這份清單沒有絕對標準，主要是根據團隊去思考哪些東西是最重要的，舉例來說

Branch, Commit 內容與名稱是否符合規範
Code 是否有足夠的可讀性
Codesytle 以及命名規範是否符合團隊文化
資料夾/檔案結構是否符合團隊文化
是否有包含相關測試
文件是否有一起準備

這份清單的重點是只要列入那些被視為是非常必須且重要的項目就好，不然整個清單落落長其實意義也不高

盡可能的自動化上述檢查 準備好前述清單後，下一個步驟就是想辦法將上述清單規範給自動化，譬如

透過 linters 來檢查 codesytle
運行一些如 SonarQube, Codacy 等工具來幫忙檢查是否有潛在的低效率或是有漏洞的程式碼
透過相關框架運行自動化測試並且得到相關的覆蓋率報表

當有辦法自動化這些操作後，下一個步驟就是要思考什麼時候執行？

針對一些快速檢查，譬如 linter, beautifer 等工具，可以考慮整合到 pre-commit hook/ pre-push Git hook 等時間點運行這樣就可以讓開發者快速檢查簡單錯誤
針對一些比較花時間的檢查，譬如分析工具，測試以及相關建置流程這些都可以放到 CI pipeline 去運行

一切都準備完畢後就可以將其整合到整個 git 工具中，譬如只有當 CI pipeline 通過的 PR 才有被人 review 的需求，如果連自動化測試都沒有辦法通過，那就是開發者的責任要去將其完成，一切準備就緒後才要開始最後一步

人工介入 review * 開始人工 review 時，因為前述自動化的過程已經幫忙檢查非常多的事項，所以這時候要專注的就是運作邏輯。能的話作者建議 review 與其慢慢看 code 猜想不如直接跟開發者一起討論 review，可以避免來回溝通花費的無效時間此外開發者也可以更清楚地去解釋所有實作的背後理由與考量。

作者也推薦採用 IDE 來進行 code review，很多 IDE 強大的功能都能夠幫助開發者更有效率地去檢視程式碼，譬如快速找到宣告點，被呼叫點以及整個資料結構的面貌等這些都可以省下不少時間

最後最重要的是每次 PR 的大小不能太大，這點其實也是 Linux Kernel 內一直奉行的原則，過大的修改有太多檔案要看，同時也有更多可能潛在的不相容問題要注意這對開發者與 reviewer 來說都是個沈重的負擔，因此能的話將修改以拆分成數個有意義的 PR 分別檢視會使得整體流程更講有效率，同時也可以避免檔案太多時可能看不下去就直接無腦 +2 的蓋章行為

閱讀筆記: 「Mizu, 一套用來檢視 Kubernetes Traffic 的視覺化工具」

May 25, 2022 · 3 min read

HungWei Chiu

Blogger

標題: 「Mizu, 一套用來檢視 Kubernetes Traffic 的視覺化工具」類別: tools 連結: https://getmizu.io/docs/

Mizu 是一個專門針對 Kubernetes 開發的流量分析工具，該工具透過簡單好用的 UI 讓你檢視叢集內的流量走向，其支持的協定有 HTTP, REST, gRPC, Kafka, AMQP 以及 Redis 等相關的應用程式封包。

雖然說透過大部分的 Service Mesh 也都可以提供一樣的功能，但是 Mizu 的特色就是其輕量的架構設計，就是針對流量分析而已，所以如果團隊目前沒有現成的解決方案時，可以考慮試試看 Mizu 這套輕量級的解決方案。

Mizu 本身由兩個元件組成，分別是 CLI 以及 Agent，當你安裝 Mizu 的 Kubernetes 內時，其會安裝兩個元件

透過 Daemonset 安裝 Agent 到所有節點
透過 Pod 安裝一個 API Server

Agent 會針對需求去抓取節點上特定的 TCP 封包(目前也只有支援 TCP 流量，這意味如 ICMP, UDP, SCTP 等就沒有辦法)，此外要特別注意這類型的解決方案為了能夠抓取到節點上的所有流量，通常都會讓這類型的 Agent 都設定為 hostnetwork: true，如此一來該 Agent 才有辦法觀察到節點上的所有網卡來進行流量擷取。

有些 k8s 環境會透過如 OPA(Gatekeeper) 等機制去控管要求所有的 Pod 不准使用 hostnetwork，有這些規範的可能就要注意一下整合上的問題。

有興趣的可以稍微玩看看，看看這類型的工具是否可以幫忙除錯

閱讀筆記: 「Tetragon, 基於 eBPF 的 Kubernetes 資安管理工具」

May 23, 2022 · 6 min read

HungWei Chiu

Blogger

標題: 「Tetragon, 基於 eBPF 的 Kubernetes 資安管理工具」類別: others 連結: https://isovalent.com/blog/post/2022-05-16-tetragon

Cillium 的開發團隊 isovalent 最近公布其內部一直使用的資安相關專案， Teragon (可愛的蜜蜂戰士)。

Teragon 底層是基於 eBPF 的技術，其目的就是讓你的 Kubernetes 於資安方面可以獲得超級強大的能力，包含

詳細的視覺化功能，讓你可以一目瞭然到底系統中各項資源的發生過程
動態強化，可以讓你透過 Kubernetes CRD, OPA, Json 等各種格式來描述相關規範，然後動態無縫的套入到你的 Kubernetes 叢集中

探討 Teragon 前，要先理解以前目前已知的相關解決方案有哪些，而這些解決方案又有什麼樣的優缺點，包含

App Instrumentation
LD_PRELOAD
ptrace
seccomp
SELinux/LSM
Kernel Module

上述六個方式都有各自的特點，這邊簡單敘述

App Instrumentation O 效率高，可以看到非常細部的資訊 X 程式碼需要修改，不夠透明 X 單純的視覺化，不能套入資安規則來防護應用程式 X 應用程式為主，不能理解整個系統的狀況

LD_PRELOAD (動態切換載入的 Library ) O 效率高 O 應用程式不需要修改 X 如果是 Static Llinking 的應用程式那就沒有用了 X 幾乎沒有什麼觀察性可言

ptrace (透過 kernel 提供的功能來檢視使用的 syscall) O 透明，應用程式不用修改 X 效能負擔比較高 X 應用程式有辦法偵測到自己目前被 ptrace 給監控 X 整體範圍只能針對 syscall(系統呼叫)

seccomp (可以過濾應用程式呼叫的 syscall) O 有效率，應用程式不需要修改 X 規則只能針對 syscall 去阻擋 X 沒有很好的視覺化方式

SELinux/LSM (Kernel 內建的 security 框架，可以針對存取去控制) O 有效率，應用程式不需要修改 O 可防 TOCTTOU 攻擊 X 針對 Contaienr/Kubernetes 的整合很有限 X 不容易擴充 X 要針對攻擊類型去設定

Kernel Module O 有效率，應用程式不需要修改 O 不用修改 Kernel 就可以擴充功能 X 不是每個環境都允許使用者去載入 kenrel Module X Module 有問題會打爆你的 Kernel X 沒辦法無縫升級，意味你升級功能的過程中必須要將kernel module給 uninstall ，然後重新安裝

上列六個解決方案有的只能檢視相關流程，有的只能設定規則去防護，但是就是沒有一個工具可以全面處理，而基於 eBPF 實作的 Tetragon 則是一個能夠提供兩項功能的全新解決方案。

首先資安防護方面， Tetragon 採取的是更底層的概念，不去探討特定的 CVE 操作手法，取而代之的是從幾個常見的攻擊方式來防禦。假如有任何應用程式有不預期的下列行為，就可以直接將該 Process 移除

使用到不該使用的 capability
使用到不該使用的 linux namespace
使用到不該使用的 binary
看到不該出現的 Pid
...

這些規則都可以透過 Kubernetes CRD 來描述，當這些規則被送到 Kubernetes 後，相關的 Controller 就會將規則給轉換後續讓 eBPF 來處理此外因為 eBPF 以及 kprobe 的架構，Tetragon 能夠看到非常多 kernel 的資源存取與操作，譬如

syscall(系統呼叫)
Virtual FS
TCP/IP
namespace
Storage
Network

Tetragon 收集上列不同資訊的資料後進行二次處理，透過精美的網頁來顯示系統中的各種資訊，這些資訊可以提供包含

哪些 Pod 一直存取 /etc/passwd, 採用何種方式存取 /etc/passwd
特定 Pod 中對外的網路流量資訊，從封包內容到用什麼指令去存取都可以看光光
...

eBPF 的應用愈來愈多，而目前看起來 isovalent 更是 Kubernetes 生態系中的領頭羊，雖然不確定未來是否能夠被廣泛採用，但是至少這方面還沒有看到其他解決方案有這麼積極的基於 eBPF 來開發有餘力的話花點時間學習一下 eBPF 的概念可以加強自己對於這類型文章的速度與理解度