跳到主要內容

Book Review:The Practice of Programming

The Practice of Programming(中譯本:程式設計專家手冊)講的是軟體開發實務上的一些經驗談,包括了編碼風格、效率調校、測試、除錯、表示法...等。


這些主題每個程式設計師每天都會遇到,所以每個人或多或少都慢慢有自己的一套處理的方式,有時不同類型的設計師之間對於同一個主題甚至會有南轅北轍的作法,有時各自都可以運作的很有效,但更多時候我們其實只是在多次的失敗中學到寶貴的經驗,勉力賺取經驗值,然後逐漸修正每一個細節。


如果有這麼一本書,總結了經驗值破表的編程大師的數十年心血結晶,你會不會心動?這就是這樣子的一本書。Brian W. Kermighan是C語言聖經K&R的K,並開發出許多Unix下的軟體(AWK的K也是他),Rob Pike也是開發過數個程式語言(目前google的GO),以及作業系統(plan 9)的大牛。他們的編碼時間比大多數的程式設計師的年紀還要大的多,所以當他們提供編程上的意見,實在值得我們好好花時間思考學習。


我簡單摘要章節內容:


第一章 風格
這章講的是coding convention,或許很多人會覺得老生常談,畢竟每天都在命名、使用函式、設計新strucure、類別、模組、為程式加上註解...連入門一兩年的菜鳥都該很熟悉吧?非也,單就命名這件事來講就大有學問,程式碼要能夠讀來簡潔易懂,第一關就是好的名稱,不好的名稱很容易誤導閱讀代碼的人,造成後患無窮的結果。從這基礎但極其重要的編程環節,你可以窺見大師是如何思考代碼的細節。


第二章 演算法與資料結構
這章比較沒有太多思想在其中,但因為基礎演算法與資料結構對任何程式都是如此重要,所以自然也佔有一席之地。作者提供了個很不錯的觀念:對某些應用來說,演算法的重要性的比重可能會佔到絕對的地位,但對絕大多數程式來說(甚至包括作業系統、編譯器),往往大量使用的都是些基本的資料結構,或從基礎型式去做工程上的微調修改。所以別因為害怕大程式需要高深的演算法,通常都是需要時才去尋找適合的來用,畢竟,嗯...計算機科學家每天就是在搞那些東西。那麼,哪些算共同必備的基礎呢?作者列出:Big-O表示法、search、 sort、list、growing array、tree、hash table,夠基礎了吧? :P


第三章 設計與實作
這章開始進入本書精彩的部份。在此章中,作者實地考量一個有趣的程式問題 - 隨機產生一篇看似有意義的英文文章。從無到有,從初始想法、資料結構與演算法設計、編程實作,一步一步讓我們看到如何實現出來,並且用了多個程式語言來實作(C、C++、Java、Awk、Perl),讓你看到不同語言的表達能力與效能差異。在量測效能時,還發現C++的STL在不同的實作品中有著極大的差異,進而提出一個重要的觀念:函式庫、介面、工具變得日益複雜,因此變得更難了解與控制,當能運作時,一切都很美好,但當某個地方失去效用時,往往會有非常難以察覺的瑕疵,甚至無法處理。


第四章  介面
每個程式設計書籍必定包含介面的議題,介面的議題其實就是如何完成抽象化。最低階的抽象話或許就是命名。現今程式語言往往還有許多額外的抽象化機制可用,如何妥善運用這些機制,將決定程式的整體概念是否可達到足夠清晰、簡潔的地步。作者不打高空,舉實際的程式碼給我們看,他們試著設計一組處理CSV格式的API,從每版的改進,說明基本的函式介面設計考量,包括:資訊隱藏、資源管理、錯誤處理、規格說明...從這章我們可以看到,設計可複用的代碼的確不是件簡單的事,即使是簡單的函式介面都有這麼多面向要考量,我們是不是因此應該更小心新語言所提出的新抽象機制呢?新抽象機制帶來的是更多的好處還是更多的麻煩?Think about it before you jump. :)


第五章 除錯
除錯的最高境界就是 - 不要有錯誤發生。但這當然是不可能的,所以當錯誤不幸發生時,要用什麼樣的技巧去解決呢?作者建議:除錯程式作為輔助,重點在於清晰的頭腦與對系統的理解。跟Linus的說法幾乎一致呢!!以前看到有些人很巧妙地運用gdb除錯,往往嘆為觀止,但後來發現,很多人其實只是用避掉的方式在解決問題而已,並不是真的善用gdb去分析問題。除此以外,作者還提供了很多小秘訣,有些蠻有趣的,像是:找人討論前,先找個娃娃講一遍自己遇到的問題。


第六章  測試
測試的重要性大家都知道,但糟糕的是,現實上很多程式設計師並沒有足夠的測試觀念。往往只求第1版的程式趕快動起來,卻忽略了要讓程式碼容易測試、可測試。還有,有多少人會為自己的程式建立自動測試呢?唉,這是我們每個人需努力的目標。作者強調,測試是提升軟體品質最立竿見影的手法,也可以避免付出太多除錯的高昂代價。此章一樣展示了建立不同種類測試程式的手法,都很有用,但最最重要的就是要去執行啊!!


第七章 效能
如同除錯,避免效能調校的首要準則就是 - 不要調校。但非要調校時,可以參考他們的作法。效能頻頸會發生的地方很多,從資料結構、演算法、程式語言特性、作業系統、硬體...都有可能,必須逐層分析才有可能打在痛處上,嗯...這往往也是我們最痛苦的部份。 :P


第八章 移植性
這章我讀的比較沒有感覺。似乎就只是盡可能照愈上層的規範走愈有移植性? 


第九章 表示法
覺得算是我從這本書獲得最多的部份,因為好幾個東西我從來沒有實作過,感覺非常新鮮。作者從printf、正規表示法、簡易直譯器、compiler's compiler到JIT概念,用不同的表示法來呈現挑選適當語言的威力,並且以實例說明背後的精神,全都是一些不到百行的程式,居然可以這麼強大,極力推荐啊!!軟體設計的重點在於人,這也是為何適當的表示法對於程式設計師這麼的重要。嗯,這不就是抽象化嗎?只不過不同於語言提供的抽象機制,這章的重點在於,好的程式設計設計師可以自行打造出適合的抽象化來表示心中的想法。難怪好的程式設計師對於程式語言都有著某種程度的偏執,酷畢了!!


呼,寫完了~其實這本書從我還在學校唸書時就買了,但那時寫的程式實在太少了,總是念的沒有感覺,直到最近把它從書架拿下來整理,重新閱讀了一遍,才發現有許多經驗前人早就提醒過了。或許人真的要吃點苦頭,走過冤妄路後才會了解這些Cliche的珍貴... :)

留言

  1. 起床後看一些大牛blog,看到這篇
    http://himmele.blogspot.com/2011/11/algorithms-and-data-structures.html
    嘿,大牛也在複習基礎資料結構跟算法~很巧的是,列出來的跟這本書所提的"必備基礎"居然是一致的(有幾個複雜的tree要注意,B-tree, B+tree),參考一下有經驗的programmer是如何總結重要的演算法跟資料結構吧~

    回覆刪除
  2. Jserv大俠介紹的AsmJit可作為此書JIT概念的實作補充
    http://blog.linux.org.tw/~jserv/archives/002089.html

    回覆刪除

張貼留言

這個網誌中的熱門文章

誰在呼叫我?不同的backtrace實作說明好文章

今天下班前一個同事問到:如何在Linux kernel的function中主動印出backtrace以方便除錯? 寫過kernel module的人都知道,基本上就是用dump_stack()之類的function就可以作到了。但是dump_stack()的功能是如何作到的呢?概念上其實並不難,慣用手法就是先觀察stack在function call時的變化(一般OS或計組教科書都有很好的說明,如果不想翻書,可以參考 這篇 ),然後將對應的return address一層一層找出來後,再將對應的function名稱印出即可(透過執行檔中的section去讀取函式名稱即可,所以要將KALLSYM選項打開)。在userspace的實作可參考Jserv介紹過的 whocallme 或對岸好手實作過的 backtrace() ,都是針對x86架構的很好說明文章。 不過從前面兩篇文章可以知道,只要知道編譯器的calling convention,就可以實作出backtrace,所以是否GCC有提供現成的機制呢?Yes, that is what __builtin_return_address() for!! 可以參考這篇 文章 。該篇文章還提到了其他可以拿來實作功能更齊全的backtrace的 程式庫 ,在了解了運作原理後,用那些東西還蠻方便的。 OK,那Linux kernel是怎麼做的呢?就是用頭兩篇文章的方式啦~ 每個不同的CPU架構各自手工實作一份dump_stack()。 為啥不用GCC的機制?畢竟...嗯,我猜想,除了backtrace以外,開發者還會想看其他register的值,還有一些有的沒的,所以光是GCC提供的介面是很難印出全部所要的資訊,與其用半套GCC的機制,不如全都自己來~ arm的實作 大致上長這樣,可以看到基本上就只是透過迭代fp, lr, pc來完成: 352 void unwind_backtrace (struct pt_regs * regs , struct task_struct *tsk) 353 { 354 struct stackframe frame ; 355 register unsigned long current_sp asm ( "

淺讀Linux root file system初始化流程

在Unix的世界中,file system佔據一個極重要的抽象化地位。其中,/ 所代表的rootfs更是所有後續新增file system所必須依賴前提條件。以Linux為例,黑客 Jserv 就曾經詳細說明過 initramfs的背後設計考量 。本篇文章不再重複背景知識,主要將追蹤rootfs初始化的流程作點整理,免得自己日後忘記。 :-) file system與特定CPU架構無關,所以我觀察的起點從init/main.c的start_kernel()開始,這是Linux作完基本CPU初始化後首先跳進的C function(我閱讀的版本為 3.12 )。跟root file system有關的流程羅列如下: start_kernel()         -> vfs_caches_init_early()         -> vfs_caches_init()                 -> mnt_init()                         -> init_rootfs()                         -> init_mount_tree()         -> rest_init()                 -> kernel_thread(kernel_init,...) 其中比較重要的是mnt_int()中的init_rootfs()與init_mout_tree()。init_rootfs()實作如下: int __init init_rootfs(void) {         int err = register_filesystem(&rootfs_fs_type);         if (err)                 return err;         if (IS_ENABLED(CONFIG_TMPFS) && !saved_root_name[0] &&                 (!root_fs_names || strstr(root_fs_names, "tmpfs"))) {          

kernel panic之後怎麼辦?

今天同事在處理一個陌生的模組時遇到kernel panic,Linux印出了backtrace,同事大致上可以知道是在哪個function中,但該function的長度頗長,短時間無法定位在哪個位置,在這種情況下,要如何收斂除錯範圍呢?更糟的是,由於加入printk會改變模組行為,所以printk基本上無法拿來檢查參數的值是否正常。 一般這樣的問題會backtrace的資訊來著手。從這個資訊我們可以知道在function中的多少offset發生錯誤,以x86為例(從 LDD3 借來的例子): Unable to handle kernel NULL pointer dereference at virtual address 00000000 printing eip: d083a064 Oops: 0002 [#1] SMP CPU:    0 EIP:    0060:[<d083a064>]    Not tainted EFLAGS: 00010246   (2.6.6) EIP is at faulty_write+0x4/0x10 [faulty] eax: 00000000   ebx: 00000000   ecx: 00000000   edx: 00000000 esi: cf8b2460   edi: cf8b2480   ebp: 00000005   esp: c31c5f74 ds: 007b   es: 007b   ss: 0068 Process bash (pid: 2086, threadinfo=c31c4000 task=cfa0a6c0) Stack: c0150558 cf8b2460 080e9408 00000005 cf8b2480 00000000 cf8b2460 cf8b2460        fffffff7 080e9408 c31c4000 c0150682 cf8b2460 080e9408 00000005 cf8b2480        00000000 00000001 00000005 c0103f8f 00000001 080e9408 00000005 00000005 Call Trace:  [<c0150558>] vfs