假設喜馬拉雅山顛有一朵小花,從來沒有人看見過,它到底存不存在?
預計要寫一系列的Google文章, 先在這裏雜記沉澱
1. 資料最貴
基本上,Google 是把所有robot自動收集搜集來的資訊HTML, 全部庫存在自己的儲存設備, 這個作法勢必要耗用到 exponentially growing space. 硬體投資勢必驚人. 更嚴重的是需要相對應的分流, 儲存, 搜尋...等技術與軟體, 軟體的需求更高!
然而, Google 還是這樣幹了. 最好的理由是 : "資料最貴"
2. 資訊守門員(gate keeper) 變成資訊獵人(data hunter)
傳統的搜尋引擎入口網站(2000年代),要求網站擁有者主動登錄,經過審核.才能將資訊呈現在入口,這是傳統媒體思考
Google 類則是派出 robot 二十四小時在外主動搜尋新資訊, 獵取"所有"資訊, 留給客戶自己去篩檢.
3. 最多人用的才是最好的(民粹與專業)
傳統的入口網站會提供"評鑑"(參考蕃薯藤的眼鏡和星星), 同時擔任入口和評分老師. 根據網站經營者的偏好去評鍵.
在google則可以說是沒有人享有評鑑網站(頁)的權力, 也人人享有評鑑的權力. ranking的主要依據是從google搜尋後使用者向外連結點選的次數.
4. 過去與現狀並存(失去時間軸)
由於google的頁庫存檔, 你可以在google上找到"早已不復存在"的資料. 傳統, 舊的資料並不代表不重要. 相反的代表了歷史與傳統.如果我能在google找到我自己都已經刪除的老朋友照片, 難保歷史研究者挖不到寶呢.
5. "故事"最重要
多媒體資訊的"檢索", 這十幾年一直都是熱門的研究主題. 舉例來說圖片的檢索, 有人想辦法在檔案中插入資訊(比如說: 在林志玲的照片檔頭偷藏"林志玲"三個字, 或者簡單點直接將檔名改成: 林志玲.jpg); 有人試著從2D的圖形資訊中去辨試.(比如說與林志玲的檔案照比對,做臉孔辨識)...
Google 的哲學很簡單卻超有意思,也是從頁庫存檔下手. 要找林志玲的圖片, 先找與林志玲相關的"文字"資訊(Google的拿手好戲), 這些頁裏放的圖片, 八九不離十就是林志玲的圖片.
也就是說, 其實重要的是圖片說的是啥故事(文字內容), 而不是圖片檔本身. 相同的原理可以用在其他的非文字多媒體資料的檢索, 我相信不久後大家會看到.
6. 絕對與相對存在
假設喜馬拉雅山顛有一朵小花,從來沒有人看見過,它到底存不存在?
有人說: 廢話! 根據所有的物理定律, 小花有質量佔體積也會反射光線, 不管有沒人看見過, 它當然存在.
另有人說: 是啊! 但...沒有人看見過"它", 怎麼證明它存在?
這是典型的存在論爭. 和Google 有啥關係呢?
當 Google 無所不包,無奇不有的時候. 他就是一個 Universe.
在這個universe上不存在的東西, 到底存不存在於真實世界(另一個universe)呢?
你可以試著在google搜尋你的初戀情人的名字, 檢視一下你內心的想法(無論找到或沒找到).
7. 存在的重量
如果你同意"死有重如泰山, 有輕如鴻毛".其實是你同意了生命的重要性(重量/價值)是與"情境","社會"...相關的, 是"相對"的, 不是"絕對"的.
2004/5/25日 "林志玲"在Google上有 18100項, "蕭薔"有 49200 項,"可以用來佐證台灣第一美人誰屬嗎?" 或者是問"不可以用來佐證台灣第一美人誰屬嗎?", Google 中對於一項事物相關資訊的"數量"可不可以轉換成"重量"的指標呢?
有人印製名片喜歡在正(背)面羅列所有的頭銜, 這時"數量"是"重量"的指標.
那我的名片是不是要在名字後面加上"在 Google 可以找到 42 項"(42 items addressed on Google)
8. 不是我的我
"在 Google 可以找到 42 項", 代表我在universe的存在, 和存在的重量.(or ?)
但仔細一看, 其中可能有一半"不是我". "別人眼中的我"...甚至是"別人故意塑造的我","不知道那裏來的我".
分散式處理以後, 不再有任何人對資訊(即使資訊的擁有者是你)的真實性擁有"控制權". 這還不打緊, 重要的是這些不受控制的資訊重不重要? 有沒價值呢?
9. 拒絕分類
有異於傳統的入口網站, Google 的網頁資訊基本上是不分類的(對end user而言).
這非常違反圖書館學,目錄學..的常識. 試想身處在圖書館中, 面對著幾萬本未分過類的書本, 要找一本"三國演義"...是件多麼不可能的任務啊.
分類的基本目的是為了方便檢索. 讓使用者可以憑藉"既有"的"背景知識"去索引到正確的資訊. 比如說要找三國演義,往古文類,小說類的書架去,大概差不了多少.往"愛情小說",或科學家類去穩找不到.也就是因為這個方便性,也產生了兩個大"缺點":
第一, 假使缺乏分類所基礎的背景知識, 資訊就"遺失了無法檢索". 比如說, 你可以試著請小朋友去圖書館找本書試試...
第二, 分類是"資訊的資訊",而分類資訊是某些人創造的,或者是作者,或者是管理員...所以這些人就有了資訊的"解釋權". 第一種可能是資訊本身的創造者並不喜歡這樣的分類方式或創造了不能被認同的分類方式,比如把蕭薔的書歸到純文學類,還得到排行榜第一名; 第二種可能, 是某些擁有解釋權的人有意無意的濫權(Abuse).(我指的不是那些亂扣別人帽子的政客哦...別灌爆我的信箱)
所以,Google 不幫需求資訊的人分類, 而由他們自己在檢索的同時,利用自己檢索的策略自己去分類. 比如說, 你可以用 AND/OR 來縮限/放大結果範圍; 也可以指定只看某個網站中的檢索結果. 如:只看民進黨網站中的陳水扁資訊
10. Meta 與 反 Meta
Meta -XXX 在資訊科學上指的是, "在 XXX 上工作的XXX", 比如說 Meta-Search Engine, 指的是這個搜尋引擎的搜尋工作是把檢索的字串送往其他的的搜尋引擎, 再收集其他引擎回報的結果呈現到使用者眼前. Google 也是這樣幹.
有趣的是"反向的 Meta", 被Google搜尋者反過來引用Google的資訊或運用 Google 方法. 比如說, 為自己的網站製作搜尋引擎基本上是個痛苦的工作, 因為牽涉的文件的格式, 分類...等問題, 那你大可以利用Google 的 "site:你的網站" 指令, 讓使用者透過Google 來搜你自己網站的資訊, "把他Meta回來"
11. 資訊大神vs.全民公敵