|
|
從所周知,大數(shù)據(jù)已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數(shù)據(jù)大的事實(shí)了, 而**重要的現(xiàn)實(shí)是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的,深入的,有價(jià)值的信息。 那么越來(lái)越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度, 多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要, 可以說(shuō)是決定**終信息是否有價(jià)值的決定性因素。
大數(shù)據(jù)分析的基礎(chǔ)就是以可視化分析、數(shù)據(jù)挖掘算法、預(yù)測(cè)性分析、語(yǔ)義引擎、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理五個(gè)方面,當(dāng)然更加深入大數(shù)據(jù)分析的話, 還有很多很多更加有特點(diǎn)的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。
在大數(shù)據(jù)時(shí)代背景下,隨著海量數(shù)據(jù)的出現(xiàn)以及多數(shù)據(jù)源融合交叉應(yīng)用,傳統(tǒng)的數(shù)據(jù)管理模式以及查詢方式受到一定的制約。近年來(lái),知識(shí)圖譜(Knowledge Graph)作為一種新的知識(shí)表示方法和數(shù)據(jù)管理模式,在自然語(yǔ)言處理、問(wèn)題回答、信息檢索等領(lǐng)域有著重要的應(yīng)用。知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系;其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組,以及實(shí)體及其相關(guān)屬性-值對(duì),實(shí)體間通過(guò)關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的KGB知識(shí)圖譜引擎,KGB知識(shí)圖譜引擎(Knowledge Graph Builder)是基于自然語(yǔ)言理解、漢語(yǔ)詞法分析,采用KGB語(yǔ)法從結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化文檔中抽取各類知識(shí),大數(shù)據(jù)語(yǔ)義智能分析與知識(shí)推理,深度挖掘知識(shí)關(guān)聯(lián),實(shí)時(shí)高效構(gòu)建知識(shí)圖譜。
KGB知識(shí)圖譜引擎核心技術(shù)與特色
1 、KGB知識(shí)抽取
KGB(Knowledge Graph Builder)知識(shí)圖譜引擎是我們自主研發(fā)的知識(shí)圖譜構(gòu)建與推理引擎,基于漢語(yǔ)詞法分析的基礎(chǔ)上,采用KGB語(yǔ)法實(shí)現(xiàn)了實(shí)時(shí)高效的知識(shí)生成,可以從非結(jié)構(gòu)化文本中抽取各類知識(shí),并實(shí)現(xiàn)了從表格中抽取的內(nèi)容等。
KGB知識(shí)圖譜引擎可以定義不同的動(dòng)作,增加、刪除、修改、抽取等等。每一類動(dòng)作還能自定義各類后處理程序。
2 、語(yǔ)義智能分析
NLPIR大數(shù)據(jù)語(yǔ)義智能分析針對(duì)大數(shù)據(jù)內(nèi)容采編挖搜的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的新研究成果,先后歷時(shí)十八年,服務(wù)了全球四十萬(wàn)家機(jī)構(gòu)用戶,是大數(shù)據(jù)時(shí)代語(yǔ)義智能分析的一大利器。
NLPIR大數(shù)據(jù)語(yǔ)義智能分析十三大功能:精準(zhǔn)采集、文檔抽取、新詞發(fā)現(xiàn)、批量分詞、語(yǔ)言統(tǒng)計(jì)、文本聚類、文本分類、摘要實(shí)體、智能過(guò)濾、情感分析、文檔去重、全文檢索與編碼轉(zhuǎn)換。
3 、語(yǔ)義精準(zhǔn)搜索
JZSearch大數(shù)據(jù)語(yǔ)義精準(zhǔn)搜索引擎:是靈玖軟件聯(lián)合中科院與北理工的信息檢索專家,針對(duì)大數(shù)據(jù)垂直搜索需求的全文智能檢索引擎,融合了自然語(yǔ)言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),通過(guò)人機(jī)互動(dòng)、深度機(jī)器學(xué)習(xí)后具有一定的語(yǔ)義推理能力,是結(jié)合了人工智能技術(shù)的新一代搜索引擎,具有專業(yè)精準(zhǔn)、高擴(kuò)展性和高通用性的特點(diǎn)。
大數(shù)據(jù)時(shí)代對(duì)人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了**的空間。互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)正在迅速膨脹,它決定著組織的未來(lái)發(fā)展,隨著時(shí)間的推移,人們將越來(lái)越意識(shí)到數(shù)據(jù)對(duì)組織的重要性。這將促使中文信息處理方面的高效中文搜索引擎、實(shí)時(shí)機(jī)器翻譯、大規(guī)模中文文本處理、跨平臺(tái)中西文自動(dòng)識(shí)別轉(zhuǎn)換、泛中文語(yǔ)義理解、中文電子商務(wù)等技術(shù)實(shí)現(xiàn)重大突破。中文信息處理已成為我國(guó)信息技術(shù)研究、發(fā)展、應(yīng)用和產(chǎn)業(yè)的基礎(chǔ),在互聯(lián)網(wǎng)日益成長(zhǎng)的今天,中文信息處理技術(shù)將會(huì)更加成熟并創(chuàng)新。
|