Skip to main content

· 3 min read

標題: 「升級 Kubernetes 1.22 的注意事項」 類別: kubernetes 連結: https://blog.runx.dev/will-that-kubernetes-v1-22-upgrade-break-my-application-cc339dc2e2c7

隨者各大公有雲逐步支援 Kubernetes 1.22,相關使用者可能都會開始進入升級的準備階段,而每次 Kubernetes 升級除了單純 思考 Kubernetes 本身的升級順利與否外,也要確認正在運行的所有 Kubernetes 資源與相關工具是否也能夠順利運行,這使得整個準備工作變得複雜與龐大。

從 Kubernetes 的角度來看,每次的升級除了基本的穩定性與相關功能修正外,最重要的還有 Kubernetes API 的改變,該改變影響巨大,譬如所有 Manifest 的內容,譬如眾多透過 YAML 所描述的各種資源 API 的改變都會提早通知所有社群,於先前的版本先將該 API 標為 deprecated 接者後續版本才會正式移除,譬如 networking.k8s.io/v1beta1 於 1.19 被標示為 deprecated 然後正式於 1.22 移除。 正式的版本 networking.k8s.io/v1 則從 1.19 正式啟用,讓管理者有大概有三個版本的時間轉移。

因此升級前一定要先架設一個測試環境,嘗試部署所有現存的資源來確保升級不會出現不預期的錯誤。

作者整理出關於 1.22 升級要注意的版本變化,如下(幾乎都是從 v1beta 變成 v1)

  1. Webhook: admissionregistration.k8s.io/v1beta1 → admissionregistration.k8s.io/v1
  2. CRD: apiextensions.k8s.io/v1beta1 → apiextensions.k8s.io/v1
  3. APIService: apiregistration.k8s.io/v1beta1 → apiregistration.k8s.io/v1
  4. TokenReview: authentication.k8s.io/v1beta1 → authentication.k8s.io/v1
  5. SubjectAccessReview: authorization.k8s.io/v1beta1 → authorization.k8s.io/v1
  6. CertificateSigningRequest: certificates.k8s.io/v1beta1 → certificates.k8s.io/v1
  7. Lease: coordination.k8s.io/v1beta1 → coordination.k8s.io/v1
  8. Ingress: extensions/v1beta1, networking.k8s.io/v1beta1 → networking.k8s.io/v1
  9. IngressClass: networking.k8s.io/v1beta1 → networking.k8s.io/v1
  10. RBAC resources: rbac.authorization.k8s.io/v1beta1 → rbac.authorization.k8s.io/v1
  11. PriorityClass: scheduling.k8s.io/v1beta1 → scheduling.k8s.io/v1
  12. Storage resources: storage.k8s.io/v1beta1 → storage.k8s.io/v1

· 4 min read

標題: 「kubectl delete 的行為跟 docker delete 完全不同」 類別: kubernetes 連結: https://www.acritelli.com/blog/kubectl-delete-sigkill/

熟悉 Linux 系統的人想必都了解 Signal 的概念,特別是幾個常見的如 SIGTERM, SIGKILL 等,

作者的團隊嘗試透過 SIGKILL 的行為來驗證與測試團隊內部署的 Kubernetes Pod,特別是當遇到 ungraceful shutdown 的情境時這些 Pod 會如何運作。 團隊嘗試透過 kubectl delete 的方式來刪除這些 Pod,但是實驗過程中發現 --grace-period 這個參數的運作行為與團隊的預期行為不同。 kubectl delete 得說明文件中特別指出

      --grace-period=-1: Period of time in seconds given to the resource to terminate gracefully.
Ignored if negative. Set to 1 for immediate shutdown. Can only be set to 0 when --force is true
(force deletion).

作者看文這段文字說明後滿腦問號,提出兩個問題

  1. grace-period 設定為 1 的 immediate shutdown 是直接送出 SIGKILL 嗎? 還是說會有一秒的間隔時間才發送 SIGKILL?
  2. grace-period 設定為 0 是代表沒有間隔,所以也是馬上送出 SIGKILL 嗎? 還是說其只是單純將資源從 k8s API 中移除而沒有等待而已?

作者認為文件沒有辦法解決這些問題,所以設計了一些實驗來測試

--grace-period=1 的實驗結果是

  1. 送出 SIGTERM
  2. 等待一秒
  3. 送出 SIGKILL

作者對於這個行為感到不解,認為 "immediate shutdown" 應該就是要馬上關閉呀,怎麼可以送 SIGTERM 給 Pod 讓 Pod 有機會可以優雅的結束一切? 因為對於這行為的認知不同導致作者團隊的測試行為沒有辦法順利完成。

接下來測試 --grace-period=0 & --force=true

文件中說明這樣設定會立刻將該資源從 API Server 內給刪除並且避開 graceful 的階段。 最後測試的結果是

  1. 發送 SIGTERM
  2. 等待 30 秒
  3. 發送 SIGKILL

作者表示又糊塗了,沒想到設定 grace-period=0 竟然中間還有 30 秒的時間,這完全與預料的不同,更麻煩的是文件也沒有講得非常清楚到底什麼是正確的行為, 此外還提到 Docker 就支援真正的 immediate shutdown,直接送 SIGKILL。

另外作者發現 K8s GitHub 中的也有人提出類似的 issue,對於這些 graceful 的行為感到不解同時文件說明不夠精準。

這件事情很難說誰正確誰不正確,畢竟不同的系統架構下的設計方式與條件都不同,不過的確 K8s 的指令文件有時候是真的不是精準,需要仔細測試才可以理解到底運作行為為何

· 3 min read

標題: 「Dockerfile 中透過 COPY --chomd 比透過 RUN chomd 可以省下更多空間」 類別: containers 連結: https://blog.vamc19.dev/posts/dockerfile-copy-chmod/

本篇文章是作者探討自己建制 Image 中所發現的一些有趣事實。 作者使用一個大概 70MB 的 image,並且安裝與運行大概 90MB 左右的額外空間,結果最後整個 image 高達 267 70MB 因此作者就花了一些時間來研究整體原因並且嘗試理解到底發生什麼事情

作者首先檢視自己的 Dockerfile,其內容簡單不複雜,包含如 COPY 一個 Binary (該 Binary 80 MB 左右) RUN xxxxx 等常見用法。

詳細檢視所有的 layer 資訊後,作者發現 RUN 這個指令竟然產生了 94.4MB 的全新 layer,而就是這個 layer 導致整體空間變成 267 MB. 作者的 RUN 指令執行

  1. 透過 apt-get 安裝四個套件
  2. 透過 chmod 將前述 COPY 來的檔案給予執行的權限
  3. 創建資料夾

作者檢查過安裝的套件,大概只有 6MB 左右,但是整個 layer 很明確就是多了 94.4 MB 出來,因此經過測試與研究後,作者觀察到 當移除第二步(修給檔案給予執行的權限)後整個空間瞬間變得很小,整體 image 最後的大小就符合預期的 174MB。

所以整個問題就出來了,為什麼單純執行一個 RUN chmod 就會使得整個 image layer 變大? 簡單來說 image 的底層是基於 OverlayFS,而 OverlayFS 的一大特色就是 CoW, Copy on Write,作者起初覺得 我只是透過 chmod 去修改該 Binary 一個屬性而以,本身並沒有寫入檔案到檔案系統中,怎麼會產生這麼大的檔案變化?

仔細研究 OverlayFS 的文件後終於水落石出,原來除了寫入檔案外,修改檔案的某些 metadata 也會觸發 CoW 的機制

When a file in the lower filesystem is accessed in a way the requires write-access, such as opening for write access, changing some metadata etc., the file is first copied from the lower filesystem to the upper filesystem (copy_up).

至於為什麼修改個 metadata 也要觸發 CoW 主要是跟安全性有關,文章中有關於這部分的額外連結,有興趣的可以參考

· 3 min read

標題: 「軟體工程師你真的工作的很開心嗎??」 類別: others 連結: https://stackoverflow.blog/2022/03/17/new-data-what-makes-developers-happy-at-work/

疫情這兩年影響全球,其中對於勞動力來說更有甚巨的變化,而科技業更是其中的佼佼者,是所有行業中離職率最高的行業。 2021 的離職率相對於 2020 來說提升了 4.5%。

StackOverflow 基於想要理解科技領域的這個趨勢及原因,所以發起了一個調查想研究工程師工作是否開心,並且將 基於 350 位來自全球開發者的回應統整為報告於三月份釋出。

結果來看

  1. 70.3% 的工程師覺得工作開心
  2. 14.4% 表示不開心
  3. 15.3% 沒感覺

以最令人感到開心的地區排名來看,前五名分別為

  1. 西班牙 (90%)
  2. 印度 (79%)
  3. 德國 (70%)
  4. 美國 (69%)
  5. 英國 (68%)

那到底哪些因素會影響開心與否? 報告中列舉了相關的指標 前五個最令人感到開心的因素有

  1. 薪資(60%感到開心)
  2. work-life 平衡
  3. 工作彈性
  4. 是否有足夠生產力
  5. 職涯發展機會

而令人感到不開心的五個最重要指標其實就是上述指標的反轉,依序為

  1. 工作覺得毫無效率與生產力
  2. 工作生活不平衡
  3. 沒有職涯發展與機會
  4. 薪水太低
  5. 工作無彈性

調查的全部指標除了上述五個之外還有

  1. 工作是否能夠帶來影響力
  2. 是否能夠獨力解決問題
  3. 有一個瞭解我工作的主管 ... 等

其實面試找工作也就是針對這些條件進行排序,與其跟風看大家去什麼公司就想去什麼公司,不如好好跟自己對話,瞭解自己對於工作的目的以及追求是什麼,才有辦法找到一個自己喜歡且舒適的工作環境

· 2 min read

標題: 「如何於 Docker 環境中運行 rootless 模式」 類別: container 連結: https://thenewstack.io/how-to-run-docker-in-rootless-mode/

雖然可以使用非 root 的方式去安裝 Docker 服務,但是 Docker 本身服務中還有其他各種元件需要透過 root 身份去運行,譬如 dockerd, containerd, runc 等元件, 而本篇文章則是探討要如何以真正 rootless 的方式來運行一個 docker container 。

使用 rootless container 有一些要注意的事情,譬如 port number 沒有辦法使用 1024 以下,所以如果你的服務有需要被外界存取時要使用大於 1024 的 port number。 此外 AppArmor, host network mode 這些都不支援,因此使用上會有一些情境要注意。

安裝其實滿簡單的, Docker 官網有提供 rootless 的安裝檔案,安裝後需要針對一個使用者 ID 進行處理,這個處理主要是因為要將 container 內的 root 使用者給轉換到系統上的非 root 使用者,所以才會有相關的 userID 要設定。 當然如果真的要完全追求 rootless 的容器解決方案可以考慮使用 Podman 來使用,其本身的設定就是針對 rootless 去開發的,使用上會相對於 docker 來說更為簡單。

· 2 min read

標題: 「一個用來管理 Kubernetes 開源工具的開源工具」 類別: tools 連結: https://github.com/alexellis/arkade

作者因應過去於 Kubernetes 的教學與開源過程中,必須要一直不停地去安裝各式各樣必備的工具而感到厭煩,譬如每次都要安裝 kubectl, kind, kubectx 等各種常見工具 而每個工具又會有不同的版本,每次都要專寫相關的安裝流程都很麻煩,因此作者萌生出開發一個能夠安裝這些工具的開源工具, arakde.

該工具用起來非常簡單,同時也支援不同版本的工具,除了基本 CLI 工具外也支援 Helm App 的安裝,我個人認為光工具本身就非常好用了,譬如可以透過該指令輕鬆的安裝不同版本的下列工具

  1. dive
  2. helm
  3. gh
  4. jq
  5. k3d
  6. kind
  7. kubectl
  8. k9s
  9. kail
  10. opa
  11. terraform ...

如果你常常需要撰寫文件去分享安裝各種文件的需求,也許可以考慮使用看看此工具來簡化流程

· 2 min read

標題: 「為什麼 3A 大作的遊戲室都不愛喜歡使用 STL」 類別: usecase 連結: https://mobile.twitter.com/m_ninepoints/status/1497768472184430600

熟悉 C++ 語言的讀者必定聽過 STL,而本篇推特系列文則是用來解釋為什麼 3A 大作的遊戲室都不愛使用 STL,這邊節錄一些概念與想法

  1. STL 的實作通常會因為不同平台與編譯器而會有不同變化,但是對於遊戲業者來說很多時候會希望能夠針對所有平台能夠有一個統一一致的實作
  2. 跨平台的統一實作對於開發者來說可以帶來很多好處,譬如除錯可以更有效率,不需要針對每個平台獨立研究問題
  3. STL 由於不同平台的實作方式都不同,所以發生問題或是要客製化都會變得稍嫌麻煩,變成還要根據平台去研究與處理,整體來說就是煩
  4. 某些情況下 STL 的實作是犧牲效能來完成的,但是效能反而是業者所需要的

覺得本篇推文非常有興趣,對這系列有興趣的可以看看大家的討論

· 3 min read

標題: 「Terraform 生態下的五個相關輔助工具」 類別: terraform 連結: https://betterprogramming.pub/5-essential-terraform-tools-to-use-everyday-e910a96e70d9https://medium.com/geekculture/my-jq-cheatsheet-34054df5b650

隨者 IaC 的概念落地開花,愈來愈多團隊嘗試使用 Terraform 來管理各式各樣的 infrastructure,作者本篇文章分享五個自己每天使用的 Terraform 輔佐工具,分別是

  1. TFSwitch
  2. TFLint
  3. Terraform-docs
  4. Checkov
  5. Infracost

TFSwitch: 如果環境中目前因為歷史因素沒有辦法統一轉移到相同版本的 Terraform 使得你必須要用不同版本的 Terraform 來處理不同的專案的話,可以透過 TFSwitch 來幫助你快速地切換版本

TFLint: 就如同大部分的 Lint 工具一樣, TFLint 針對 Terraform 的工具,特別是跟特定 CloudProvider 整時候會有更多的錯誤偵錯,將該工具整合到 CI/CD pipeline 中更可以幫助團隊避免合併一個有問題的 Terraform code.

Terraform-docs: 這是一套能夠將你的 Terraform module 直接產生對應 Markdown 格式文件的工具,如果本身有撰寫 Terraform Module 的團隊都可以使用這工具試試看,看看產生的文件是否可以滿足基本需求

Checkov: 這是一套支援 Terraform 的靜態程式碼掃描工具,可以用來檢查是否有可能的安全性漏洞與不良好的設定,目前預設大概有 750+ 以上的預設規則,

Infracost: 這工具會的目的就如同專案名稱一樣,根據創造的雲端資源幫你估計這些資源的實際花費,對於要控管成本的團隊來說,可以提供一個粗略的金額概念,畢竟如網路流量等相關付費還是要實際上線才知道,但是可以快速地針對不同的 infra 直接列出大概的金額差異,搭配得宜對於整體工作流程還是有幫助的。

· 5 min read

標題: 「Facebook 內的文化特別之處」 類別: usecase 連結: https://chinese.catchen.me/2022/02/unique-engineering-culture-of-facebook.html

作者作為一個 Meta 工作七年的員工,分享了一些認為 Facebook 頗有特色的文化,這些特色文化並沒有辦法直接斷言是好是壞,一切都是看用什麼角度去看待。

工程師對產品結果負責

年度績效評估時要如何去評估一個工程師的績效一直都是個不簡單的問題,作者提到對於 Meta 內部的高級工程師(不確定正確級別代號是什麼)來說,其績效並不是單單的只去看技術用的好不好,程式寫的好不好 更多的反而是這個產品是否有真正的商業成長結果。

作者認為這種鼓勵從下而上解決問題的思路能夠讓產品的發展更佳有效率與有意義,舉例來說 假如今天工程師的績效是完全基於技術方面的呈現,而專案負責人(PM)的績效可能是該專案對於使用者的黏著度,兩者績效不一致的情況下很容易發展出不同的開發與演進策略 工程師為了達到自己的績效其發展的路線就不一定可以為產品帶來更好的使用者黏著度,反之亦然,為產品帶來更好使用者黏著度的改善並不一定可以讓工程師看到很好的表現績效。

但是一旦當工程師與 PM 的目標一致,整體的合作就會更加融洽也目標,這也是為什麼 Meta 的工程師非常了解自己產品的指標跟數據,還會花時間去分析產品數據與使用者分析報告,透過自己的理解來思考到底要怎麼去改善產品的方向,而不是完全等待 PM 發號司令。

基礎架構被視為一個產品販售

Meta 內部的基礎架構某程度也被視為是一個產品,公司內的其他工程團隊則是該產品的潛在用戶,所以開發該產品的團隊本身也要努力的去推銷這個產品,去說服為什麼要使用這個架構,使用這個架構能夠帶來什麼樣的好處。 作者以早期的 Reat, React Native 為範例,早期該產品於公司內推廣也是四處碰壁,並非外部所想像的一推廣就廣受歡迎與嘗試。

由於基礎架構被視作是產品,所以如果其「商業」表現不如預期的話,該專案也是會被砍掉的,這類型的模式搭配上述的概念其實非常有趣

所有的專案都想要長期存活都必須要證明其有價值,就算是內部架構也要證明其對內部其他工程團隊有價值 這種方式也降低了「只專注技術而不考慮使用者需求的」的開發方式,這讓我想到大家最愛講的「Service Mesh」.... 帶來什麼效應不確定,但是很潮就是享用...,

· 5 min read

標題: 「Package Maintainers 應該要具備的資安概念」 類別: other 連結: https://sethmlarson.dev/blog/security-for-package-maintainers

本篇文章的作者是 python3 urllib3 套件的主要維護者,由於近年來軟體供應鏈的資安議題逐漸受到重視,特別是這些已經被廣泛使用的套件,一套受到入侵與修改,其影響危害程度難以想像 作者撰寫本篇文章分享自己的想法希望能夠讓所有套件維護者有一些基本的資安觀念,同時也讓所有使用 OSS 的使用者一起學習

捐贈給開源貢獻者

作者提到本文提到的所有資安意識都需要花時間精力去實作與維護,如果你的組織使用了大量的開源專案但是本身在意資安卻又不想要花時間研究資安,那就花點小錢捐贈給這些開源貢獻者,讓這些貢獻者有更多的動力去幫你維護這些套件。 如果該開源專案對於你公司來說有非常舉足輕重的角色,那甚至可以考慮雇用一兩個該專案的主要維護者讓他們定期分配時間來維護,對公司來說只是花一些小錢但是卻能夠有更有信心的使用這些開源專案,以免哪天這些專案一炸整個公司產品全炸

文章主要分成兩大類,分別是

  1. 如何保護好你的個人帳戶
  2. 如何保護好你的套件倉庫

Securing Your Accounts

對於一個套件維護者來說,你的個人帳號由於有超級大的權力,所以該帳號的資安管理必須是最高層級的注意,一但這個帳號被攻破,攻擊者就可以很輕鬆的去發布新版本,加入惡意程式碼等各種行徑,而通常使用者如果本身使用時沒有很好的限制版本,譬如採用大於1.1.0 這種比較寬鬆的用法就會不自覺升級而使用到危險版本 作者強調就算你本身不是套件維護者,這些帳戶保護方式對你來說也是非常實用的,良好的資安保護永遠不吃虧

接下來作者列出幾個大項,分別是

  1. Email Securiy Is Your Top Priority Email 地址很重要,很多情況下這些地址都會是重設密碼的一個途徑,所以妥善保存 Email 地址是非常重要的,所以作者推薦使用那些大公司服務如 Gmail 與 Outlook。 如果你真的想要使用私人域名作為你的聯絡信箱,你就要保證你不會有忘記付費的那天,不會剛好有人買走你的域名然後順利的取走你的 Email 地址。

  2. 2FA 2FA 要求提供一個除了密碼以外的認證方式,常見的有手機或是一些硬體裝置,使用妥當的話基本上攻擊者很難登入你的帳號。 作者認為所有跟程式碼有關的帳號密碼最終都需要有一個不使用 SMS(簡訊) 的 2FA 機制保護,譬如 NPM 最近才宣布其 Top 500 的套件管理都需要強迫使用 2FA,作者希望 Python 有天也可以跟上這種趨勢。

  3. Password Managers

  4. Hardware Keys

  5. Why Not SMS 2FA

  6. Where Do I Put My Recovery Codes

  7. What to do if your account is compromised?

上述範例我就不列出來了,每個項目都沒有很長,非常推薦大家閱讀,甚至可以讓團隊的所有工程師都有這些基本概念