隨著信息數量的驟然增加,消費者要想找出有用信息需要消耗大量精力.因此對這些散落在Html網頁中無結構的信息進行提取、分析,不僅能夠幫助消費者從海量的文本中快速獲得有效的信息,節省人力成本,也可以幫助企業改進產品、提高質量,從而為產品推薦提供一種新的營銷模式.為有效的抽取互聯網上的信息,網絡文本信息非結構化數據抽取技術、網絡文本信息采集技術和細粒度數據挖掘技術應用而生.信息抽取技術是通過對網頁進行處理,從半結構化或者非結構化的Web頁面中抽取出用戶感興趣的信息和內容,并將其轉化成清晰的結構形式.
為了適應信息應用的需求,越來越多的使用信息抽取技術,目標是從海量、冗余、異構、不規范、含有大量噪聲的網頁中大規模地抽取開放類別的實體、關系、事件等多層次語義單元信息,并形成結構化數據格式輸出。其特點在于:① 文本領域開放:處理的文本領域不再限定于規范的新聞文本或者某一領域文本,而是不限定領域的網絡文本;② 語義單元類型開放:所抽取的語義單元不限定類型,而是自動地從網絡中挖掘語義單元的類型,例如實體類型、關系類型和事件類型等;③ 以“抽取”替代“識別”:相對于傳統信息抽取,開放式文本信息抽取不再拘泥于從文本中識別目標信息的每次出現,而是充分利用網絡數據海量、冗余的特性,以抽取的方式構建面向實際應用的多層次語義單元集合。
北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR語義智能平臺KGB知識圖譜引擎是基于漢語詞法分析,采用KGB語法從結構化數據與非結構化文檔中抽取各類知識,大數據語義智能分析與知識推理,深度挖掘知識關聯,實時高效構建知識圖譜。KGB知識圖譜引擎核心技術與特色:
1、 KGB知識抽取
KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發的知識圖譜構建與推理引擎,基于漢語詞法分析的基礎上,采用KGB語法實現了實時高效的知識生成,可以從非結構化文本中抽取各類知識,并實現了從表格中抽取的內容等。
KGB知識圖譜引擎可以定義不同的動作,增加、刪除、修改、抽取等等。每一類動作還能自定義各類后處理程序。
2 、語義智能分析
NLPIR大數據語義智能分析針對大數據內容采編挖搜的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的**研究成果,先后歷時十八年,服務了全球四十萬家機構用戶,是大數據時代語義智能分析的一大利器。
NLPIR大數據語義智能分析十三大功能:精準采集、文檔抽取、新詞發現、批量分詞、語言統計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索與編碼轉換。
3 、語義精準搜索
JZSearch大數據語義精準搜索引擎:是靈玖軟件聯合中科院與北理工的信息檢索專家,針對大數據垂直搜索需求的全文智能檢索引擎,融合了自然語言理解、網絡搜索和文本挖掘的技術,通過人機互動、深度機器學習后具有一定的語義推理能力,是結合了人工智能技術的新一代搜索引擎,具有專業精準、高擴展性和高通用性的特點。
隨著信息技術在我國社會生活各個領域應用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎、實時機器翻譯、大規模中文文本處理、跨平臺中西文自動識別轉換、泛中文語義理解、中文電子商務等技術實現重大突破。中文信息處理已成為我國信息技術研究、發展、應用和產業的基礎,在互聯網日益成長的今天,中文信息處理技術將會更加成熟并創新。
|