Page 1

網路時代資訊檢索議題討論 本篇文章於2005年12月刊登於檔案季刊第四卷第四期 作者:簡立峰 中央研究院資訊科學研究所副所長


大綱 1.前言

5.網路檢索的衝擊

2.資訊檢索意涵

6.結語

3.資訊檢索系統

7.電腦及網路對設計界的影響

4.中文資訊檢索


前言 Google的成功也讓資訊檢索(Information Retrieval, 簡稱IR)這有數十年歷史的領域有機會蛻變成長。本文 以作者在台灣大學數位典藏專業培訓課程的兩次演講為 基礎,嘗試探討幾個因網路搜尋快速發展而形成的議 題,同時爲方便讀者理解也介紹資訊檢索的意涵及資訊 檢索系統概念;接著探討中文資訊檢索的特性,而後才 是網路檢索的衝擊。

關鍵詞:資訊檢索,網路搜尋,中文資訊檢索


資訊檢索意涵


資訊與檢索 IR: I是指資訊(Information),早期是指文字資訊,現在可 能用網路(Internet)更適合。 R是檢索(Retrieval)它的定義就是使用者給定一個查 詢,檢索系統需要找出相關的資訊,只是相關,並不是 給予直接的答案。


基礎技術 從定義知道建構IR系統需要一些基礎技術支持,分別是 資訊儲存、分類、擷取、索引、與瀏覽。 典型的IR它有兩種過程,一就是服務使用者的資訊需 求,二使用者對這個需求會產生檢索詞彙,稱為查詢。 搜尋引擎種類:1.關鍵詞方式表達 2.關鍵詞加邏輯 用句子 4.找圖系統 5.查地圖系統

3.


資訊檢索系統


文件相似度 IR技術的基礎是文件相似度比較,搜尋是判斷每一文件 與使用者給的查詢內容之相似度,查詢內容與文件的鄰 近程度稱為相似度。 所以如果把一份文件轉換成該文件的詞(word)的特徵, 然後把這些詞的特徵再把它看成是空間中的一點,兩文 件的相似度就是這兩文件在向量上的距離。


文件特徵 術語權重排 全文索引就是文件裡所有的字當做特徵(索引)。 需要先決定這個特徵是不是重要的,再來關心他出現 多少次,所以需要好的加權技術。

詞彙頻率:就是指就是指依個詞彙再一份文件出現的次 數。 文件頻率:是指此詞彙出現在多文件


索引與記憶體 將文件中的特徵擷取出且已有效率的資料結構加以儲存 就成為文件的索引。索引的目的佈只是讓搜尋精確外, 更重要的是因應大量文件資料,希望搜尋可以加快。 將索引全部放在主記憶體,搜尋就會很快;放在硬碟自 然會比較慢。


排序與搜尋 使用者的查詢往往只是簡單的關鍵詞,早期做法只是看 關鍵詞出現的次數來決定重要性,今天做法就不只是出 現次數,而是運用使用者點選紀錄,將點選率高的排在 前面。


字串比對 概念比對 當使用者關鍵詞非常短時,系統沒辦法猜出使用者要什 麼,所以如何把使用者在表達相同的概念所用不同術語 累積起來,以及將使用者再檢索的時候點選的一些網頁 或文件,所代表某種概念,這種資訊收集起來,加以利 用是很重要的


使用者行為 使用者紀錄來改善系統效能雖然有效,但如果系統沒有 使用者,就不會有使用者資訊,沒有使用者資訊,系統 就無法改善。或許建構系統時可以嘗試自由軟體或建構 一般的資料庫系統都沒關係,讓資料早些讓使用著查 詢,已獲得使用者行為最重要。同時也需要一個觀察使 用者行為的系統,來檢視常查的查詢。


中文資訊檢索


中文特殊性 中文使用者的關鍵詞很單純,少有修飾語,沒詞類變 化、沒完成式,沒進行式

1.中文使用單數 2.中文沒有詞尾變化問題


詞義歧異 中文字很多,電腦繁體中文有1萬3千字,因此當兩個字 組合在一起的時候,可表達的概念太多。所以在這種情 況下,以雙字來表達中文有很高的鑑別率。以中文表達 的術語意義很精確,所以以短詞查詢時,中文檢索的正 確率比英文高很多。 某種程度中文只要比對到了,他字義基本上就是對的。


英文術語 中文檢索不能避開英文,但是處理中文文件中的英文 可以不用處理詞類變化,因為中文文件可說是中文為 主英文為輔的文件。 台灣英文翻譯多不一致,所以乾脆就中英夾雜。統計 顯示台灣地區用的英文檢索基本上都是專有名詞。


斷詞 以關鍵詞比對為主的中文檢索系統對斷詞需求不是太 大,目前斷詞多用擷取長字串查詢中的關鍵字。


其它特性 1.中文新詞認定困難(人名) 2.同音字問題非常嚴重 3.只能從1萬3千多自個繁體字去查詢 4.中文名子的查詢較為精準


缺字問題 中文歷史文獻檢索有缺字問題,就是不少古字沒被放 進電腦編碼裡,這個問題是中文,特別是正體中文的 特殊問題,雖然Unicqde可以收錄很多字,但很多產 品不見得會支援。


繁簡轉換 網路中文檢索目前最重要的問題是繁簡轉換。網路中 文不單是台灣,大陸使用,中文還包含馬來西亞、新 加坡、越南、還有在北美看的懂中文的人在使用。


網路檢索的衝擊


檢索排名 強勢的搜尋引擎已經逐漸讓弱勢的資訊出不來,表面 上我們透過搜尋,網路上的資訊全部都找的到,其實 不然。搜尋引擎的排序避免不了不公平的問題。相同 的關鍵詞,不同地方所需排序就會不一樣。


資訊偏食 資訊偏食是資訊檢索便利後產生的嚴重問題。資訊偏 食義指單憑一種媒介取得資訊,在這的資訊指的就是 網路。


學術引用 Google Scholar是Google對全世界學術界發展的衝 擊,引用的文章被多少人引用,它全記錄。這對學術 界最大的影響是他精密的引用關係,它決定誰是最有 影響力的人。


自由軟體 簡單的說自由軟體就是可以自由下載資料(文字圖片 等)的網頁,網頁本身就是一種軟體。


結語 以上論文以作者在台大數位典藏專業培訓課程兩次演 講為基礎,介紹資訊檢索的意涵及系統概念,這部分 希望淺顯易懂;接著資訊檢索的特性,多為個人經驗 僅供参考。最後網路檢索的衝擊,簡短的討論檢索排 名,資訊偏食、學術引用等議題。

参考資料:作者於94年7月5日及13日於數位典藏專業培訓課程-資訊檢索與儲存之兩次演講稿內容改寫


電腦及網路對設計界的影響


影響 1.節省成本與時間 2.容易用到同樣資料(圖片) 3.傳輸快速,無距離問題 4.國內市場,影響大 5.網路廣告,無紙時代 6.遊戲(電動)與設計


網路時代資訊檢索議題討論  

1.前言 2.資訊檢索意涵 3.資訊檢索系統 4.中文資訊檢索 5.網路檢索的衝擊 6.結語 7.電腦及網路對設計界的影響

Read more
Read more
Similar to
Popular now
Just for you