賀資管所研究生蔡佳興榮獲IAENG國際研討會最佳論文獎

編者按:資訊管理系研究生蔡佳興榮獲「The 2006 IAENG International Workshop on Data Mining and Application」最佳論文獎,指導老師為李金鳳,本刊特別刊登該篇論文摘要。

Efficient Associating Mining Approaches for Compressing Incrementally Updatable Native XML Databases

  由於XML技術廣泛地運用在各種不同的領域中,如:數位典藏、地理資訊系統、電子商務或醫療產業等,因此會有大量的XML文件被產生。近年來,愈來愈多的資料庫軟體商,開始開發支援原生型XML資料庫的軟體,以方便直接儲存並管理XML文件。我們察覺其面臨到兩個困難:第一,資料儲存空間的問題;第二,資料變動的問題。然而,在壓縮原生型XML資料庫(Native XML Databases)的研究中,目前仍缺乏壓縮大量並且可變動XML資料庫的技術。此兩個問題,引發我們的興趣,並驅使我們有動機去發展一套能有效率地壓縮原生型XML資料庫的方法,並且具有當資料庫發生新增、刪除或修改時的動態維護壓縮資料庫的能力。
  本研究方法是利用漸進式資料探勘的技術與關聯規則技術去探勘出所有的高頻型樣以進行資料庫壓縮。我們提出一種高頻標籤與字元資料型樣分割樹(Frequent tag and character data pattern split tree, FTCP-split tree)的資料結構以快速產生高頻型樣,接著將這些高頻型樣,轉換成壓縮規則用以壓縮原生型XML資料庫。下個必須考慮的問題就是如何動態維護已新增、刪除或修改的原生型XML資料庫,於是我們提出一套漸進式探勘的演算法(Incremental FTCP-split approach)動態維護壓縮資料庫。以避免因為資料庫的新增、刪除或修改時,在壓縮與解壓縮之間造成額外的成本花費。
  本研究方法具有下述幾點特色:第一,由於漸進式探勘的演算法(Incremental FTCP-split approach)並不會產生大量的候選項目,因此會比傳統的Apriori-like方法來的有效率;第二,初步實驗結果發現本方法的壓縮率高於常見的壓縮軟體,如:ZIP和RAR;第三,本方法具有當資料庫發生新增、刪除或修改時的動態維護壓縮資料庫的能力。本研究希望能透過資料探勘技術應用在原生型XML資料庫,以突破目前採用傳統資料壓縮技術時,無法連帶探勘出資料庫中有價值資訊的問題,不僅同時滿足企業亟欲降低的儲存成本問題,亦提供能力給企業挖掘存放在原生型XML資料庫中的商業智慧,使企業能有效地降低儲存成本與提昇企業獲利,並能因應快速變動的資料環境。

●資訊管理系研究生蔡佳興(左)與指導老師李金鳳(右)合影。

瀏覽數: