夕陽無限好(小說、雜文、散文集) 十五、老頭子也要知道超級電腦和大數據

夕陽無限好(小說、雜文、散文集)
十五、老頭子也要知道超級電腦和大數據
閱讀心得寫作:吳聰賢醫師
    2007年上映,印度科幻片,「奇魔俠」,中國譯為「印度超人」,劇情大要,男主角的父親得到外星人所賦予的超能力和智慧,生下男主角後,因交通意外失蹤,留下男主角和祖母相依為命。男主角長大成人後,發現自己竟然擁有超能力。男主角奇魔俠,追求愛情,追到新加坡,意外發現,有邪惡力量,利用超級電腦,欲控制世界正常運作的駭人計畫。刺超級電腦,乃男主角的父親被對方挾持,逼迫下所研發,可以預知未來,預測人類最後死亡結局。經過艱辛搏鬥,奇魔俠打敗邪惡力量,拯救了自己父親,也摧毀了那部駭人的超級電腦。
    超級電腦(Supercomputer),有超級快的電腦運算速度,現有的超級電腦,可以達到每秒一兆次以上的運算。超級電腦速度以每秒浮點運算次數(FLOPSFloating point  operations per second),當作量測單位。很抱歉,FLOPS太艱澀深奧,超出我的理解能力。截至2017年,第47屆世界五百大超級電腦,每兩年公布一次,世界上運算速度最快,叫我第一名的超級電腦,是中國國家平行計算機工程中心研製的「神威太湖之光」,它的運算速度每秒93千兆次浮點(petaFLOPS),理論上更可達到125.4千兆次浮點。
    我們台灣呢?也不遑多讓,本土的宏碁了得。行政院國科會所屬的國家高速網路與計算中心,位於臺中中科園區,和宏碁合作,所建置的「御風者」超級電腦,運算速度達177兆次浮點(teraFLOPS),在2011年發布的世界五百大超級電腦排名中,「御風者」排名第42;若考量低耗電的環保模式,也是2011年發布的世界五百大綠色超級電腦排名,「御風者」進步到第25名。
    如果,「神威太湖之光」和「御風者」,兩者幹架,誰會贏?中國準贏,台灣會輸得很慘。前者125.4千兆次浮點,後者177兆次浮點,拜託!不要看阿拉伯數字,要看阿拉伯數字後面的單位,兩者差了近千倍,台灣當然輸囉。只經過六年,電腦運算速度千倍成長,成長何其快!我敢保證,除非中國、美國、日本、瑞士等國 握手言歡,不再繼續競賽,兩年後的運算速度,肯定會達到百萬兆次浮點(exaFLOPS)。
    美國總統川普何等人物,日本首相安倍晉三內閣總理大臣又是何等人物,都不是省油的燈,不會輕易認輸的,兩年後成績公布時,各位兄弟姊妹們,大家等著瞧,好戲將上場。至於台灣呢?年金改革、勞動基準法、同志婚姻、核能發電、不當黨產、前瞻計畫、12年國教課綱等等,蔡英文總統嘛,街頭抗議不斷,四面楚歌,風雲變色,焦頭爛額,她可忙著,運籌帷幄,安內攘外,哪管你啥超級電腦?甭提台灣了。
    談到政治,最近幾年來,我不禁搖頭嘆息。每位政治人物,哪位不以光宗耀祖、光耀門楣、萬古流芳自詡?絕沒人自承是昧著良心、老奸巨猾、唯利是圖的政客,但表現出來的卻是政客嘴臉。民主政治是應該的,國家為人民謀福利,但政黨政治讓我失望,個人和黨的利益,遠勝於人民和國家的利益。藍綠對決與內鬥,讓台灣空轉,不僅原地踏步,甚且倒退嚕 。台灣有句俗諺,「啥都不會,牛欄內鬥牛母最行。」願政治人物有遠大的格局,放眼看世界,不爭一時,而是爭千秋。
    「奇魔俠」影片中,世間真的有預知未來的超級電腦嗎?某年某月某日,你將死於車禍,或是死於心肌梗塞,還是死於惡性腫瘤,電腦已經幫你算出來了。殺千刀的,騙鬼!我絕不會相信,也沒人會相信。神仙不知道,上帝也不知道。「閻王讓你三更死,定然不會活五更」,這是騙人的,誰能預知你幾點幾分死?開玩笑。然而,講話不能太滿,超級電腦的預知能力,雖不中,卻也不遠矣,只要能餵它巨量資料,所謂的資訊量,你難以想像的巨量資料,鋪天蓋地的巨量資料,超級電腦真的可能預知你的死期和死因。資料越多越細,準確度越接近真實。
    「巨量資料(Big data)」,又翻譯為「大數據」,是本篇心得寫作的主題。1439年,古騰堡活字印刷術開始盛行,據估計,從1453年到1503年,五十年間,約印製了八百萬冊書籍,等於當時歐洲所有產出的文字量。換言之,五十年時間,歐洲資訊量成長了一倍。因為電腦、智慧型數位手機、數位網路等流行,在今日,大約每三年,資訊量就會翻倍。你在GoogleYahooFacebookE-mailLineTwitterYou Tube,任何按鍵、滑動等任何動作,包括打手機,甚至汽車行車記錄器、衛星導航系統,都被網路記錄下來,成了資訊流裡的一資料。
    各位兄弟姊妹們,不僅性別、姓名、身分證號碼、出生年月日、住址、銀行帳號、學歷、職業、醫療紀錄等,才是你的個人隱私,你在上述資訊流走過的痕跡,是不是也是你個人的隱私?你的愛好、好惡、偏向、性向、情緒等等,都被擷取在網路裡,攤在別人眼下,這可是你個人的隱私啊!
    2009年到2011年,包括「讚」、張貼內容和評語留言等,估計臉書已經蒐集到二兆一千億則資料量,這是大數據。另外,萬事達卡公司,也蒐集了來自210個國家、15億人口,總數達六百五十億筆的交易記錄,這是大數據。另外,根據華盛頓郵報在2010年的調查,美國國家安全局(NSA),每天攔截和儲存17億則電子郵件、電話及其他通訊。前國家安全局某官員曾私下透露,他估計美國已經彙集了二十兆則資料,除了電子郵件、電話外,還包括電匯等,這就是大數據。
    台灣政府也不落人後,戶政、地政、電信、電力、國稅等不提,最顯眼的,與百姓生活息息相關的,就是健保局的大數據。從83年開辦至今,2300萬人口的門診和住院記錄,都存在健保局的資料庫裡,它們也都是大數據。不少醫學院或醫院的醫學論文、畢業論文,都是倒出健保局的資料,進行研究、統計和分析。
    再舉兩個例子,來說明所謂大數據。史隆數位巡天計畫(Sloan digital sky survey),始于2000年,計畫用的望遠鏡位於美國新墨西哥州,結果,計畫開始不過幾星期,所蒐集到的資料,就已超過過去所有天文學歷史的總和。經過10年,來到2010年,這個計畫蒐集的資料已超越140TB。但是,位於智利,將於2016年啟動的新計畫(本書中文版,出版於2013年),綜合巡天望遠鏡(Large synoptic survey telescope),只要每五個工作天,就可以得到上述140TB的資料量,經年累月下來,難以估算有多大資料量。
    這些天文資料量真的是天文數字嗎?但跟谷歌、臉書相較,簡直小巫見大巫,有如三歲小娃和大人打架,未打已先判輸贏。谷歌每天處理的資料量,超過24PB,是美國國會圖書館所有紙本資料量的數千倍。谷歌旗下的You Tube服務,有八億名用戶,每秒上傳的影片總長度超過一小時;至於推特訊息量,每年以兩倍的速度成長,到了2012年,每天已經突破四億則。至於臉書呢?臉書出現十餘年來,現在使用者,每小時就會上傳超過一千萬張新照片,每天會按「讚」或留言超過三十億次。乖乖!谷歌和臉書才是真的天文數據。
    何謂TB?何謂PB?可代表數位資料檔的大小,說明如下。首先是介紹位元(bit,略為b),電腦資料檔的最小單位,採對立的方式(稱二進位,不是阿拉伯數字的十進位),不是正,就是負;不是對,就是錯;不是陰,就是陽;不是天,就是地;不是男,就是女,以01來表示。如果0是正,則1是負;如果0是對,則1是錯,依次類推。
    接著介紹位元組(Byte,略為B)。因位元太小了,為了方便使用,我們使用8個位元為一單元,稱作位元組,用00000000000000010000001000000100....來表示,排列組合是28次方,2*2*2*2*2*2*2*2,共256個組合。我用假設的,不要誤以為真,但真實情況就是如此做法,比如,用00000000代表英文字母的a,用00000010代表英文字母的b等等。當電腦鍵入一個英文字母或英文標點符號,則會用到一個位於組;若鍵入中文字或全形符號,則用掉兩個位元組。所以,當你用電腦儲存資料,中文比英文要多花掉一倍的記憶體。
    再來是千位元組(Kilo Byte,略為KB),它是位元組的一千倍嗎?錯!是1024倍。往後,字面上是千倍,但實際是1024倍。接著,百萬位元組(Mega Byte,略為MB),是千位元組的1024倍;十億位元組(Gigo Byte,略為GB),是百萬位元組的1024倍;兆位元組(Tera Byte,略為TB),是十億位元組的1024倍;千兆位元組(Peta Byte,略為PB),是兆位元組的1024倍;百萬兆位元組(Exa Byte,略為EB),是千兆位元組的1024倍。各位兄弟姊妹們,為何不同於運算速度的浮點,不是千進位,而是1024進位,腦筋有侷限,我非資訊人員,年紀也不小的老頭子了,我真的搞不懂。
    約十年前,我常使用磁碟片複貝檔案,它的檔案大小是1.44MB1.44*1024*1024,共1509949.44位元組(很奇怪,為何有小數點?)除以2後,一張磁碟片可儲存754974.72個中文字。我花了數年時間撰寫,包括自傳、小說、雜文、散文等,彙集成「遠渡黑水溝的家族」、「走過公衛二十年歲月」和「投入公衛二十年歲月」三本書(不是書,僅是影印裝訂本),每本50萬字,只需兩張磁碟片即可儲存。
    時代演變劇烈,今日桌上型電腦和筆記型電腦,都不再附有磁碟機了,磁碟片已是無用武之地。接著,因影像圖檔大,磁碟片裝不下,改用光碟片,CDVCD儲存容量是650MB-700MB。後來,隨身碟流行,我改用隨身碟,儲存容量再次擴充,128MB-4GB。更後面,出現硬碟機,我也採用了,儲存容量擴大到40GB-400GB,容量夭壽的大,我這篇近四千個字的文字檔,塞在裡面,簡直滄海一粟,跑得無影無蹤。
    大數據有何助益?大數據是金礦銀坑,資料等價於金錢,等待人類挖掘,它潛藏無窮盡的商業、社會和公共利益,我無法短時間,也沒那能耐,說清楚,講明白,唯有你自己看書了。有個笑話,卻是實際的案例,美國某高中女生,不斷接到孕婦、產婦和嬰兒產品的廣告單,家長很生氣,電話投訴商家,「莫名其妙!無中生有,侮辱名譽,引發鄰居無謂關心!」
    結果呢?商家是對的,商家多方蒐集的大數據,顯示高中女生懷孕,而高中女生也真的懷孕了。家長知道後,電話致歉外,還歡迎商家寄來優惠券和抵用券。或許你已知道大數據的價值和厲害了,但,如何躲避大數據的危害風險?如何管控和利用大數據?如何在大數據面前謙卑?還是自己看書吧。
    「大數據」,遠見天下文化出版股份有限公司,20135月第一版,20142月第一版第19次印行。作者有兩位,麥爾荀伯格(Viktor Mayer-Schonberger)和庫基耶(Kenneth Cukier)。前者,牛津大學網路研究所教授,並擔任微軟、世界經濟論壇等大公司和組織的顧問,是大數據領域公認的權威。後者,「經濟學人」雜誌資料編輯,巨量資料思潮評論員,經常在「紐約時報」、「金融時報」、「外交事務」期刊發表文章。譯者林俊宏,師範大學翻譯研究所碩士,現就讀於師範大學翻譯研究所博士班。(106430日完稿)
    【註記】網友回響:吳O華:「談起大數據可是現今人人的最愛呢,包含你我他的生命病痛、醫學科技,無不須要收集資料研發;超商老闆更要收集資料,販賣什商品適合男?女?老?幼?上班族?勞工朋反?或是藍領?白領?本國人?亦或外國人?使用現金?或者刷卡?白天消費?還是晚間消費?何時購買?金額多寡?都會區?魯蛇區?….因此,各行各業均需大數據的分析,掌握利益與發揮極大化的效能。更甚者,政府著手在規劃所有帳單消費的進項發票、銷項發票、一切的薪資、收款、付款,通通不使用現金,一切電子化,來掌控稅收分毫不差。再來,我的生命長短,看來醫生比老天爺更清楚呢!是不?唉,老人家更無隱私可言了,就順其自然了。」我:「是啊。」洪O豐:「謝謝老師提示。」我:「謝謝。」劉O光:「首見吳醫師對目前的台灣政治現況提出了看法。」

0 意見:

張貼留言