内蒙古十一选五走势图
點擊查看網站欄目分類
安多文化的搖籃青海湖網設為首頁
首頁 >> 藏語文 >> 藏文信息化 >> 正文
“云藏”攻堅 藏文信息將迎來云時代
作者:牛銳 編輯:拉吉卓瑪 時間:2014-6-30 11:22:00 來源:中國民族報 點擊數:

  作為全球首個藏文智能搜索引擎,“云藏”研發進入攻堅階段。這個集搜索引擎、藏文百科自動問答為一體的大型藏文門戶系統工程,將開辟新聞、網頁、圖片、視頻、百科、文庫、知道7個板塊。它將在滿足藏文網民個性化檢索需求的同時,推動藏文信息全方位融入互聯網世界。
  滿足藏文網民檢索需求,推動藏文信息全方位融入互聯網世界
  “作為全球首個藏文智能搜索引擎,‘云藏’研發進入攻堅階段。”據青海省海南藏族自治州藏語文工作委員會辦公室主任、“云藏”項目負責人才洛介紹,目前,研發各項工作有序進行,已處于藏文信息錄入和分詞標注階段。預計2015年投入使用。
  “云藏”藏文搜索引擎系統平臺建設項目(www.yongzin.com),是一個集搜索引擎、藏文百科自動問答為一體的大型藏文門戶系統工程,是青海省少數民族事業“十二五”規劃中藏文信息化建設的重要組成部分,于2013年4月正式啟動。該項目由青海省海南州藏文信息技術研究中心承擔。“云藏”研發團隊現有100余位工作人員,分藏文信息錄入組、分詞標注組和技術組3個小組,團隊中藏族比例達84%。
  “‘云藏’將開辟新聞、網頁、圖片、視頻、百科、文庫、知道7個板塊。項目建成后,將成為互聯網藏文信息的主要來源和共享資源中心。”才洛介紹,網頁、圖片、新聞、視頻所涉及的藏文搜索引擎,是以一定的策略從互聯網上搜集、發現信息,對信息進行理解、提取、組織和處理,并為藏文用戶提供檢索服務,從而起到信息導航的目的,讓藏文網民更加便捷地獲取信息,找到所求。而包括知道、文庫、百科在內的藏文自動問答系統,則可以看作是對藏文搜索引擎功能的一種補充。它可以讓用戶頭腦中的隱性知識變成顯性知識,通過對回答的沉淀和組織形成新的信息庫,其中信息可被用戶進一步檢索和利用。
  “‘云藏’建成后,該系統的藏文搜索正確識別率將達95%,不僅能滿足藏文網民個性化的檢索需求,還將推動藏文信息全方位融入互聯網世界。”才洛說。
  實現系統開發和現有科研成果的轉化應用,兼具政治、社會、文化多方面效應
  當前,搭建藏文搜索引擎和藏文自動問答系統平臺,推動藏文信息數字化工作迫在眉睫。據了解,在國內,漢文搜索引擎基本不具備識別少數民族文字的能力。在我國最大的搜索引擎“百度”的搜索頁面輸入的藏文,會被當作亂碼處理。在國際上,“谷歌”具有藏文搜索功能,但它是用簡單的數據匹配的模式實現搜索,存在不能識別語義、詞匯打亂導致搜索結果不穩定等問題。
  “‘云藏’首次提出了系統開發和現有科研成果轉化應用的具體策略,具有較高的科技效應、文化效應和社會效應。在抵御境外藏文網絡信息滲透方面,具有不可忽略的支撐作用。”才洛說,搜索引擎作為文化與歷史傳承的新載體,對一國的文化安全有著相當重要的意義。任何搜索引擎都是有立場、有傾向的。在互聯網時代,抓住搜索引擎,也就意味著抓住了話語權,抓住了互聯網信息傳遞的主動權。
  據了解,目前,已知的藏文正規網站大約有300多個,藏文網頁超過1個億。初步估算,“云藏”運行初期,青、藏、甘、川、滇五省區的藏文用戶數量約為120萬,隨著搜索引擎產品的推廣和宣傳,用戶量將達200萬。
  “要想保證藏文信息安全以及藏文信息技術的安全,就必須研制自己的藏文搜索引擎系統平臺。只有這樣,才能牢固樹立我國在這一領域的主導地位。”才洛說。
  突破三大技術難題,未來發展需社會各界支持
  首先,是藏文搜索引擎的核心技術問題。“百度”等搜索引擎為何不能識別藏文?這是因為其缺乏藏文搜索引擎的核心技術——賦予網絡爬蟲(一種按照一定規則,自動抓取萬維網信息的程序或者腳本)識別藏文的能力。而這一核心技術的關鍵在于藏文分詞和詞性標注。
  作為這一核心技術的持有者,西北民族大學中國藏文典籍全文數字化研究所已經與“云藏”實現合作。“云藏”藏文分詞及詞性標注計劃完成100萬條,目前已完成30萬條。
  其次,是實現智能搜索必備的技術支撐。為了使“云藏”具備從互聯網上自動抓取藏文網頁,進行自動分詞及詞性標注處理,并自動提取關鍵詞建立索引數據庫等功能,還要研究攻關搜索器、索引器和檢索器這幾方面的內容及平臺。
  目前,北京線點科技有限公司與“云藏”聯手,承接欄目分類、頁面設置、網絡爬蟲與分詞詞性標注兼容與技術對接等工作。
  “我們采用的是高校、地方、企業三方合作的協同創新模式。”才洛說,在信息技術高歌猛進的今天,建設少數民族文字搜索引擎依然存在現實的難度。這項工程必須多方合作才能完成。民族語文的精通、核心技術的掌握、軟件開發的能力,缺哪樣都不行。
  第三,是藏文百科、文庫和自動問答數據庫的建設。這是一項從零開始的浩大工程。“這項工程不是把百科全書掃描錄入那么簡單。”才洛說,它覆蓋文化、衛生、教育、科技、宗教、人物等方方面面的內容,需要凝聚全社會的力量,經歷數年乃至數十年的時間才能完成。
  為了吸引人們參與這項工作,今年4月,“云藏”面向社會招賢納士。在社會各界的積極響應下,“云藏”已擁有30余位專攻數據庫的兼職“專家”。
  “‘云藏’自己的數據庫建成后,網民輸入一個詞匯,就會有對應的百科知識。如果詞條內容空缺,系統會提示網民自主添加,后臺審核通過即可錄入數據庫。這種方式,將使數據庫不斷地豐富、擴充。”才洛說。
  “目前,項目遇到的主要問題還是資金和人才缺乏。”才洛相信,在黨和政府的堅強領導下,隨著越來越多的人關注“云藏”,這些問題終將得以解決。


熱歌排行
  • 歌曲名稱
  • 專輯名稱
  • 歌手名字
  • 路人情歌
  • 藍月谷
  • 萬瑪三智
  • 向往(藏語)
  • 藏語
  • 澤爾丹
  • 我們好好愛
  • 鳳凰傳說
  • 成林江措
  • 夢回云南
  • 夢回云南
  • 白瑪多吉
  • 天 歌
  • 天 歌
  • 四郎曲珍
  • 回到拉薩
  • 藍月谷
  • 萬瑪三智
内蒙古十一选五走势图