明略知識(shí)工程實(shí)驗(yàn)室主任張杰:知識(shí)圖譜夠火,但底層技術(shù)環(huán)節(jié)還差點(diǎn)火候
來源: 發(fā)布時(shí)間:2020-04-17
【導(dǎo)讀】不要直接使用自動(dòng)化機(jī)器學(xué)習(xí)的方式,純粹“用算力代替智力”的方式,效果不好且浪費(fèi)計(jì)算資源。
—— 張杰,明略科技科學(xué)院知識(shí)工程實(shí)驗(yàn)室主任
近年來,知識(shí)圖譜概念大火。從本質(zhì)上來說,這就是一種大型的語義網(wǎng)絡(luò),用來描述客觀世界的概念實(shí)體事件及其之間的關(guān)系。以實(shí)體概念為節(jié)點(diǎn),以關(guān)系為邊,提供一種從關(guān)系的視角來看世界的方式。
現(xiàn)有大型知識(shí)圖譜,諸如 Wikidata、Yago、DBpedia,就是把海量的世界知識(shí),以結(jié)構(gòu)化形式存儲(chǔ)下來。
以下圖為例做更直觀的解釋,這張圖表以可視化的方式,直觀明了地呈現(xiàn)人們錯(cuò)綜復(fù)雜的社交關(guān)系,是不是比一堆語句或段落容易理解的多?
自 2012 年谷歌將 Google Graph 引入搜索引擎,知識(shí)圖譜才引起了學(xué)界和業(yè)界的巨大關(guān)注,并逐漸把這些結(jié)構(gòu)化的知識(shí)成果廣泛應(yīng)用于搜索引擎、問答系統(tǒng)、金融等領(lǐng)域,國外內(nèi)一大批做知識(shí)圖譜相關(guān)研究和應(yīng)用開發(fā)的企業(yè)也如雨后春筍般冒尖,國外有 Palantir、kensho、GRAKN.AI 等,國內(nèi)有 BAT,以及達(dá)觀數(shù)據(jù)、海致星圖、PlantData、智言科技等創(chuàng)業(yè)企業(yè),以及我們今天的主角——明略科技。
當(dāng)然,有的知識(shí)圖譜企業(yè)做得風(fēng)生水起,也有的企業(yè)因?yàn)槿狈诵募夹g(shù)等各種原因生存艱難,而明略數(shù)據(jù)在眾多同類企業(yè)中如魚得水,2019 年 3 月獲得 20 億元 D 輪融資之后,明略數(shù)據(jù)升級(jí)為明略科技集團(tuán)。
這家企業(yè)在知識(shí)圖譜行業(yè)中保持鮮活的奧秘是什么?今天,我們就通過明略科技集團(tuán)科學(xué)院知識(shí)工程實(shí)驗(yàn)室主任張杰,詳細(xì)了解一下明略知識(shí)圖譜構(gòu)建的核心技術(shù),以及當(dāng)前知識(shí)圖譜技術(shù)與產(chǎn)業(yè)的現(xiàn)狀與未來發(fā)展趨勢(shì)。
“三隊(duì)鼎立”,造就核心知識(shí)圖譜
博士畢業(yè)后,張杰加入了華為中央研究院,做了 6 年研究工作,隨著華為在通信行業(yè)的縱深發(fā)展逐漸走入“無人區(qū)”,參與了 ICT 行業(yè)中的推薦與私人助理場(chǎng)景。
2014 年,他認(rèn)識(shí)到金融行業(yè)將會(huì)是大數(shù)據(jù)和人工智能技術(shù)應(yīng)用的下一個(gè)熱點(diǎn),風(fēng)控和獲客這兩個(gè)最重要的環(huán)節(jié)均會(huì)帶來顯著的增量價(jià)值,因此選擇加入了一個(gè)金融科技初創(chuàng)團(tuán)隊(duì)。他回憶,那段時(shí)間既要拜訪客戶了解市場(chǎng)需求,又要做技術(shù)攻關(guān),鍛煉了他在帶領(lǐng)團(tuán)隊(duì)在研發(fā)投入和商業(yè)價(jià)值之間尋求最佳平衡點(diǎn)的能力。
2019 年,張杰深信未來人工智能技術(shù)會(huì)深刻改造多個(gè)傳統(tǒng)行業(yè),而明略在 To B 賽道上既有技術(shù)和人才積累,又在多個(gè)行業(yè)有實(shí)踐經(jīng)驗(yàn)積累,所以他選擇加入明略。來到這里后,張杰專注于知識(shí)工程技術(shù)領(lǐng)域,在知識(shí)圖譜自動(dòng)化構(gòu)建、知識(shí)圖譜輔助決策這兩個(gè)環(huán)節(jié)做行業(yè)前瞻性研究。
據(jù)張杰介紹,明略知識(shí)圖譜的技術(shù)力量由三部分組成:科學(xué)院、技術(shù)中臺(tái)和產(chǎn)品中臺(tái)。技術(shù)能力全集團(tuán)范圍內(nèi)共享打通,科學(xué)院的關(guān)鍵技術(shù)成果會(huì)輸出到技術(shù)中臺(tái),技術(shù)中臺(tái)形成公司級(jí)的可復(fù)用組件交付給產(chǎn)品中臺(tái),產(chǎn)品中臺(tái)凝練出知識(shí)圖譜的基線版本,并針對(duì)各個(gè)行業(yè)做適配優(yōu)化,對(duì)交付質(zhì)量和客戶滿意度負(fù)責(zé)。研發(fā)團(tuán)隊(duì)核心技術(shù)骨干來自于清華、北大、卡內(nèi)基梅隆大學(xué)等國內(nèi)外知名院校,許多成員擁有在 IBM、NEC、Oracle、Schlumberger 等 500 強(qiáng)企業(yè)的實(shí)戰(zhàn)經(jīng)驗(yàn)。
這樣,明略知識(shí)圖譜技術(shù)背后的三支隊(duì)伍呈“鼎立”之勢(shì),共同支撐起明略知識(shí)圖譜技術(shù)和產(chǎn)品構(gòu)建的任務(wù)。
知識(shí)圖譜技術(shù)和應(yīng)用現(xiàn)狀
明略成立于 2014 年,2017 年便完成 10 億元融資,躋身大數(shù)據(jù)領(lǐng)域獨(dú)角獸,在知識(shí)圖譜領(lǐng)域更是涉獵已久,對(duì)于技術(shù)和行業(yè)的發(fā)展有著深刻的了解。
從張杰的專業(yè)角度來看,知識(shí)圖譜近幾年非?;穑f白了,學(xué)術(shù)界主要集中在兩個(gè)方向:一是基于深度學(xué)習(xí)的知識(shí)表示,二是知識(shí)圖譜+(如:知識(shí)圖譜+檢索,知識(shí)圖譜+推薦,知識(shí)圖譜+預(yù)訓(xùn)練語言模型)。
工業(yè)界主要集中在圖譜自動(dòng)構(gòu)建,例如:如何自動(dòng)化地從結(jié)構(gòu)化數(shù)據(jù)庫映射為知識(shí)圖譜并做知識(shí)融合,如何從非結(jié)構(gòu)化文本中做篇章級(jí)的事件抽取和多事件關(guān)聯(lián),如何通過小樣本學(xué)習(xí)和領(lǐng)域知識(shí)遷移的技術(shù)減少人工標(biāo)注成本,以及基于深度學(xué)習(xí)的知識(shí)表示在各個(gè)環(huán)節(jié)的應(yīng)用等等。
這就是知識(shí)圖譜技術(shù)和應(yīng)用的基本情況。
明略做了什么?
在這樣的環(huán)境下,做知識(shí)圖譜的企業(yè)數(shù)不勝數(shù),但實(shí)際上很多企業(yè)都在做著同質(zhì)化的產(chǎn)品和功能,那明略做了什么特別的事?擁有哪些核心技術(shù)才能在多如牛毛的大數(shù)據(jù)公司中保持活力呢?
核心產(chǎn)品
據(jù)悉,明略在 2018 年推出了人、機(jī)器、組織三位一體的“HAO 智能”技術(shù)架構(gòu),其中:H 代表 Human Intelligence(人類智能)、A 代表 Artificial Intelligence(人工智能)、O 代表 Organization Intelligence(組織智能)。HAO 智能的目標(biāo)是將人和機(jī)器通過該理論體系打造成統(tǒng)一的組織,人類智能與機(jī)器智能協(xié)同互補(bǔ),最終實(shí)現(xiàn)組織智能。
目前,明略科技集團(tuán)開發(fā)了多款知識(shí)圖譜產(chǎn)品,覆蓋從原始數(shù)據(jù)獲取到應(yīng)用展現(xiàn)的所有環(huán)節(jié)。其中:
CONA(Connect All the data),即“關(guān)聯(lián)所有數(shù)據(jù)”,是結(jié)構(gòu)化數(shù)據(jù)通用治理平臺(tái),能夠大規(guī)模自動(dòng)化的采集、清洗、歸類、關(guān)聯(lián)所有結(jié)構(gòu)化數(shù)據(jù),形成統(tǒng)一數(shù)據(jù)視圖。另外,通過設(shè)置數(shù)據(jù)轉(zhuǎn)換規(guī)則,結(jié)合數(shù)據(jù)多值溯源和融合策略,可以自動(dòng)完成標(biāo)準(zhǔn)化對(duì)標(biāo),實(shí)現(xiàn)數(shù)據(jù)治理自動(dòng)化,大大提高行業(yè)知識(shí)圖譜構(gòu)建效率。以公共安全領(lǐng)域?qū)嶋H數(shù)據(jù)治理為例,業(yè)務(wù)系統(tǒng)中近千張表,傳統(tǒng)方法和工具做圖譜構(gòu)建可能需要半年以上的時(shí)間,而 CONA 能夠縮短到 2 周。
NEST 是明略自研的一款知識(shí)圖譜數(shù)據(jù)庫,運(yùn)用混合型數(shù)據(jù)存儲(chǔ)技術(shù),可支持?jǐn)?shù)億實(shí)體和數(shù)十億條邊的秒級(jí)響應(yīng)。
SCOPA 是可視化數(shù)據(jù)分析平臺(tái),構(gòu)建在 NEST 之上,根據(jù)業(yè)務(wù)場(chǎng)景和數(shù)據(jù)圖譜特點(diǎn),提供關(guān)系網(wǎng)絡(luò)分析、時(shí)空軌跡碰撞、實(shí)時(shí)多維檢索、信息比對(duì)碰撞、智能協(xié)作系統(tǒng)、實(shí)時(shí)數(shù)據(jù)接入等強(qiáng)大功能,使知識(shí)圖譜行業(yè)解決方案快速落地變成了可能。目前已應(yīng)用到公共安全、金融、稅務(wù)、工業(yè)等多個(gè)行業(yè)幾百個(gè)項(xiàng)目中。
與其他企業(yè)相比,明略在知識(shí)圖譜構(gòu)建的底層技術(shù)上有哪些獨(dú)特之處?具體的實(shí)現(xiàn)細(xì)節(jié)是怎樣的?
張杰解釋道,在自動(dòng)化構(gòu)建知識(shí)圖譜的過程中,明略科技在如下幾個(gè)環(huán)節(jié)積累了一些核心技術(shù):
針對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),提出了 HAO profiling 技術(shù):對(duì)來自不同數(shù)據(jù)源的結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)時(shí),對(duì)數(shù)據(jù)進(jìn)行匯聚、組織,試圖理解數(shù)據(jù),解決數(shù)據(jù)冗余、沖突等問題,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、連接,形成數(shù)據(jù)的知識(shí)圖譜,進(jìn)行可視化展示,并以統(tǒng)一視圖服務(wù)查詢、計(jì)算等應(yīng)用需要。
針對(duì)非結(jié)構(gòu)化數(shù)據(jù),設(shè)計(jì)、開發(fā)了一套算法工具包:HAO 圖譜。HAO 圖譜包括關(guān)系抽取、事件抽取、實(shí)體對(duì)齊、網(wǎng)絡(luò)結(jié)構(gòu)嵌入式表示、時(shí)空序列數(shù)據(jù)表示、圖譜摘要、基于圖譜的短文本生成等算法,專注于服務(wù)企業(yè)級(jí)知識(shí)圖譜系統(tǒng)的開發(fā)。它既可以獨(dú)立運(yùn)行,也可以交付企業(yè)技術(shù)團(tuán)隊(duì)在其之上進(jìn)行二次開發(fā)。
據(jù)張杰介紹,明略的知識(shí)圖譜核心產(chǎn)品經(jīng)過了 6 年時(shí)間的反復(fù)打磨和優(yōu)化,才最終應(yīng)用于廣告、營銷、公共安全、工業(yè)、金融、數(shù)字城市、供應(yīng)鏈、餐飲等行業(yè)。在技術(shù)研發(fā)迭代期間,張杰將明略在技術(shù)迭代期間最寶貴的經(jīng)驗(yàn)分享給我們。
一句話概括,他的經(jīng)驗(yàn)就是如何處理“專用、復(fù)用、通用”。為了提高實(shí)施項(xiàng)目中的人效比,明略一方面在組織流程上保證項(xiàng)目中的經(jīng)驗(yàn)?zāi)軌?ldquo;回流”到技術(shù)中臺(tái),另一方面加強(qiáng)機(jī)器學(xué)習(xí)技術(shù)在產(chǎn)品“內(nèi)化”中的作用,比如前文提到的 HAO profiling 技術(shù)和 CONA 平臺(tái)。雖然面對(duì)很多行業(yè)客戶,但相同行業(yè)中不同企業(yè)內(nèi)部的業(yè)務(wù)系統(tǒng)在功能、數(shù)據(jù)結(jié)構(gòu)、業(yè)務(wù)邏輯上是趨同的。
明略成功的秘密之一,在于其非常重視行業(yè)經(jīng)驗(yàn)復(fù)用和技術(shù)工具復(fù)用。在行業(yè)經(jīng)驗(yàn)復(fù)用方面,明略成立了行業(yè)咨詢團(tuán)隊(duì),形成了面向行業(yè)的最佳實(shí)踐和成功案例,并且投入到國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、聯(lián)盟標(biāo)準(zhǔn)的制定中,比如,2018 年明略科技與公安部第一研究所聯(lián)合發(fā)布業(yè)內(nèi)首個(gè)《公安知識(shí)圖譜標(biāo)準(zhǔn)化白皮書》。技術(shù)工具復(fù)用方面,技術(shù)能力在全集團(tuán)范圍內(nèi)共享打通,算法攻關(guān)、公共技術(shù)組件、產(chǎn)品迭代、項(xiàng)目交付,各有分工又相互協(xié)作。
技術(shù)研發(fā)固然重要,但是將已有的成果效用最大化,是一條事半功倍的捷徑。
自動(dòng)化機(jī)器學(xué)習(xí)建模用于知識(shí)圖譜
明略的另一個(gè)創(chuàng)新,是將近年來大火的 AutoML 技術(shù)應(yīng)用到知識(shí)圖譜構(gòu)建中。
張杰解釋,在確定、趨同、數(shù)據(jù)量足夠的場(chǎng)景中,為了降低人工訓(xùn)練模型的重復(fù)勞動(dòng),明略采用自動(dòng)化機(jī)器學(xué)習(xí)的方式,面向機(jī)器學(xué)習(xí)建模人員搭建了模型訓(xùn)練平臺(tái) MatrixAI,可以自動(dòng)給出多個(gè)維度的數(shù)據(jù)探查報(bào)告,并據(jù)此在歷史數(shù)據(jù)集和模型集上找到相似任務(wù),根據(jù)相似任務(wù)的最佳實(shí)踐給出算法選擇建議、超參建議,再自動(dòng)評(píng)價(jià)模型性能自動(dòng)調(diào)參。
這是一種在相似任務(wù)的最優(yōu)解附近尋找最優(yōu)解的思路。但是,面對(duì)新領(lǐng)域新任務(wù)時(shí),張杰不建議直接使用自動(dòng)化機(jī)器學(xué)習(xí)的方式,純粹“用算力代替智力”的方式,效果不好且浪費(fèi)計(jì)算資源。
知識(shí)圖譜熱點(diǎn)研究方向與底層技術(shù)現(xiàn)狀
知識(shí)圖譜查詢
知識(shí)圖譜查詢推理是知識(shí)圖譜的重要研究點(diǎn),同時(shí)也是一個(gè)有待攻破的難點(diǎn)。這個(gè)問題難在哪?明略對(duì)此做了哪些嘗試?
張杰答道,目前,明略科技基于知識(shí)圖譜的推理主要在兩個(gè)問題上:多跳關(guān)系預(yù)測(cè)和反事實(shí)預(yù)測(cè)。這兩個(gè)問題的挑戰(zhàn)點(diǎn)在于,專家規(guī)則方式預(yù)測(cè)準(zhǔn)確性不夠,數(shù)據(jù)驅(qū)動(dòng)方式數(shù)據(jù)量不夠,明略做的是 ToB 業(yè)務(wù)應(yīng)用場(chǎng)景,對(duì)于最終結(jié)果的準(zhǔn)確性要求較高,并且需要具備可解釋性。因此,明略嘗試了人機(jī)協(xié)同、人機(jī)交互的方式,首先在專家給出的初步因果關(guān)系圖的基礎(chǔ)上,通過數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)一步補(bǔ)充事件間的因果關(guān)系,形成行業(yè)因果圖譜,然后再將專家經(jīng)驗(yàn)和面向特定場(chǎng)景特定任務(wù)的模型都封裝為算子,經(jīng)過多輪人機(jī)交互之后由專家給出最終答案。
他預(yù)測(cè),這一方向會(huì)在復(fù)雜度較高的行業(yè)中嘗試應(yīng)用,減少應(yīng)用場(chǎng)景對(duì)行業(yè)專家的依賴。
常識(shí)知識(shí)庫
另一方面,構(gòu)建常識(shí)知識(shí)庫是讓知識(shí)圖譜“變聰明”的一種重要途徑,在構(gòu)建常識(shí)知識(shí)庫上,明略已經(jīng)做了一些嘗試。
張杰說道,常識(shí)知識(shí)庫的構(gòu)建還需要借助研究機(jī)構(gòu)和開源的力量,而明略科技未來規(guī)劃的重點(diǎn),則在于構(gòu)建多個(gè)垂直領(lǐng)域知識(shí)庫,將領(lǐng)域事實(shí)、領(lǐng)域規(guī)律分別固化下來,在實(shí)施項(xiàng)目中使其得以不斷的積累和修正。
當(dāng)前,知識(shí)圖譜底層技術(shù)生態(tài)是否完善?周圍的工具支持是否全面呢?
在張杰看來,目前知識(shí)圖譜底層技術(shù)的各個(gè)環(huán)節(jié)仍不夠完善,很多環(huán)節(jié)需要一定程度的人工參與,比如:圖譜 schema 的定義、數(shù)據(jù)映射規(guī)則的開發(fā)、常識(shí)或領(lǐng)域知識(shí)庫的開發(fā)、訓(xùn)練數(shù)據(jù)集的標(biāo)注、知識(shí)融合階段的人工校驗(yàn)等。要想達(dá)到可商用的程度,自動(dòng)化程度至少要到 95%,有些場(chǎng)景甚至要求更高。
而且,目前業(yè)界在知識(shí)圖譜領(lǐng)域并沒有一套功能全面的、面向企業(yè)級(jí)應(yīng)用的工具集。針對(duì)這種情況,明略開發(fā)了上文提到的一套圖譜構(gòu)建的算法工具包——HAO 圖譜。然而,像 HAO 圖譜這種功能全面的工具集在知識(shí)圖譜行業(yè)并不多見,但也正表明了這是知識(shí)圖譜底層技術(shù)生態(tài)待挖掘的一個(gè)缺口,也是機(jī)會(huì)所在。
張杰認(rèn)為,未來,知識(shí)圖譜底層技術(shù)還有很多需要完善的地方,除了技術(shù)方式之外,張杰認(rèn)為還可以考慮促進(jìn)行業(yè)聯(lián)盟數(shù)據(jù)標(biāo)準(zhǔn)化的方式,改造已有 IT 系統(tǒng),將標(biāo)注工作從為了標(biāo)注而標(biāo)注變成眾包的方式等。
未來技術(shù)發(fā)展趨勢(shì)展望
綜上,我們可以得出知識(shí)圖譜領(lǐng)域的技術(shù)和應(yīng)用發(fā)展仍然是一片有待開發(fā)的“藍(lán)海”,不成熟的地方孕育著機(jī)會(huì)和潛力。未來,知識(shí)圖譜技術(shù)的發(fā)展方向有哪些呢?張杰指出了其中一部分有待完善的點(diǎn):
他說道,知識(shí)圖譜相關(guān)的大多數(shù)技術(shù)都仍是開放的,比如:
在信息抽取層面,可以做篇章級(jí)甚至跨篇章的事件抽??;
在知識(shí)表示層面,需要較為通用的方式對(duì)節(jié)點(diǎn)和邊中蘊(yùn)含的語義信息、網(wǎng)絡(luò)結(jié)構(gòu)信息、時(shí)序信息做知識(shí)表示;
在應(yīng)用層面,亟待突破的就是數(shù)據(jù)驅(qū)動(dòng)的方式做因果關(guān)系發(fā)現(xiàn)和因果推斷。
知識(shí)圖譜將世界上各種知識(shí)相互關(guān)聯(lián)起來,形成類人腦的有邏輯、結(jié)構(gòu)化的知識(shí)庫,從而在人類實(shí)踐活動(dòng)中執(zhí)行統(tǒng)一的標(biāo)準(zhǔn),并提供個(gè)性化的服務(wù),提高工作效率。但知識(shí)圖譜距離成為一把無堅(jiān)不摧的鋼刀還有些差距,為了利用它達(dá)到人類的終極目標(biāo)——方便,還需要開發(fā)者們繼續(xù)努力!
采訪嘉賓
張杰博士,明略科技集團(tuán)科學(xué)院知識(shí)工程實(shí)驗(yàn)室主任,研究方向?yàn)闄C(jī)器學(xué)習(xí)、自然語言處理、知識(shí)圖譜,曾就職于華為諾亞方舟實(shí)驗(yàn)室,后做為聯(lián)合創(chuàng)始人創(chuàng)辦金融科技公司并任 CTO,曾主持搭建百科知識(shí)問答、對(duì)話機(jī)器人、推薦引擎、決策引擎、大數(shù)據(jù)風(fēng)控等系統(tǒng),發(fā)表學(xué)術(shù)論文十余篇,發(fā)明專利八十余項(xiàng)。
————————————————
版權(quán)聲明:本文為CSDN博主「AI技術(shù)生態(tài)論」的原創(chuàng)文章,遵循 CC 4.0 BY-NC-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/weixin_45152865/java/article/details/105506780
—— 張杰,明略科技科學(xué)院知識(shí)工程實(shí)驗(yàn)室主任
近年來,知識(shí)圖譜概念大火。從本質(zhì)上來說,這就是一種大型的語義網(wǎng)絡(luò),用來描述客觀世界的概念實(shí)體事件及其之間的關(guān)系。以實(shí)體概念為節(jié)點(diǎn),以關(guān)系為邊,提供一種從關(guān)系的視角來看世界的方式。
現(xiàn)有大型知識(shí)圖譜,諸如 Wikidata、Yago、DBpedia,就是把海量的世界知識(shí),以結(jié)構(gòu)化形式存儲(chǔ)下來。
以下圖為例做更直觀的解釋,這張圖表以可視化的方式,直觀明了地呈現(xiàn)人們錯(cuò)綜復(fù)雜的社交關(guān)系,是不是比一堆語句或段落容易理解的多?
自 2012 年谷歌將 Google Graph 引入搜索引擎,知識(shí)圖譜才引起了學(xué)界和業(yè)界的巨大關(guān)注,并逐漸把這些結(jié)構(gòu)化的知識(shí)成果廣泛應(yīng)用于搜索引擎、問答系統(tǒng)、金融等領(lǐng)域,國外內(nèi)一大批做知識(shí)圖譜相關(guān)研究和應(yīng)用開發(fā)的企業(yè)也如雨后春筍般冒尖,國外有 Palantir、kensho、GRAKN.AI 等,國內(nèi)有 BAT,以及達(dá)觀數(shù)據(jù)、海致星圖、PlantData、智言科技等創(chuàng)業(yè)企業(yè),以及我們今天的主角——明略科技。
當(dāng)然,有的知識(shí)圖譜企業(yè)做得風(fēng)生水起,也有的企業(yè)因?yàn)槿狈诵募夹g(shù)等各種原因生存艱難,而明略數(shù)據(jù)在眾多同類企業(yè)中如魚得水,2019 年 3 月獲得 20 億元 D 輪融資之后,明略數(shù)據(jù)升級(jí)為明略科技集團(tuán)。
這家企業(yè)在知識(shí)圖譜行業(yè)中保持鮮活的奧秘是什么?今天,我們就通過明略科技集團(tuán)科學(xué)院知識(shí)工程實(shí)驗(yàn)室主任張杰,詳細(xì)了解一下明略知識(shí)圖譜構(gòu)建的核心技術(shù),以及當(dāng)前知識(shí)圖譜技術(shù)與產(chǎn)業(yè)的現(xiàn)狀與未來發(fā)展趨勢(shì)。
“三隊(duì)鼎立”,造就核心知識(shí)圖譜
博士畢業(yè)后,張杰加入了華為中央研究院,做了 6 年研究工作,隨著華為在通信行業(yè)的縱深發(fā)展逐漸走入“無人區(qū)”,參與了 ICT 行業(yè)中的推薦與私人助理場(chǎng)景。
2014 年,他認(rèn)識(shí)到金融行業(yè)將會(huì)是大數(shù)據(jù)和人工智能技術(shù)應(yīng)用的下一個(gè)熱點(diǎn),風(fēng)控和獲客這兩個(gè)最重要的環(huán)節(jié)均會(huì)帶來顯著的增量價(jià)值,因此選擇加入了一個(gè)金融科技初創(chuàng)團(tuán)隊(duì)。他回憶,那段時(shí)間既要拜訪客戶了解市場(chǎng)需求,又要做技術(shù)攻關(guān),鍛煉了他在帶領(lǐng)團(tuán)隊(duì)在研發(fā)投入和商業(yè)價(jià)值之間尋求最佳平衡點(diǎn)的能力。
2019 年,張杰深信未來人工智能技術(shù)會(huì)深刻改造多個(gè)傳統(tǒng)行業(yè),而明略在 To B 賽道上既有技術(shù)和人才積累,又在多個(gè)行業(yè)有實(shí)踐經(jīng)驗(yàn)積累,所以他選擇加入明略。來到這里后,張杰專注于知識(shí)工程技術(shù)領(lǐng)域,在知識(shí)圖譜自動(dòng)化構(gòu)建、知識(shí)圖譜輔助決策這兩個(gè)環(huán)節(jié)做行業(yè)前瞻性研究。
據(jù)張杰介紹,明略知識(shí)圖譜的技術(shù)力量由三部分組成:科學(xué)院、技術(shù)中臺(tái)和產(chǎn)品中臺(tái)。技術(shù)能力全集團(tuán)范圍內(nèi)共享打通,科學(xué)院的關(guān)鍵技術(shù)成果會(huì)輸出到技術(shù)中臺(tái),技術(shù)中臺(tái)形成公司級(jí)的可復(fù)用組件交付給產(chǎn)品中臺(tái),產(chǎn)品中臺(tái)凝練出知識(shí)圖譜的基線版本,并針對(duì)各個(gè)行業(yè)做適配優(yōu)化,對(duì)交付質(zhì)量和客戶滿意度負(fù)責(zé)。研發(fā)團(tuán)隊(duì)核心技術(shù)骨干來自于清華、北大、卡內(nèi)基梅隆大學(xué)等國內(nèi)外知名院校,許多成員擁有在 IBM、NEC、Oracle、Schlumberger 等 500 強(qiáng)企業(yè)的實(shí)戰(zhàn)經(jīng)驗(yàn)。
這樣,明略知識(shí)圖譜技術(shù)背后的三支隊(duì)伍呈“鼎立”之勢(shì),共同支撐起明略知識(shí)圖譜技術(shù)和產(chǎn)品構(gòu)建的任務(wù)。
知識(shí)圖譜技術(shù)和應(yīng)用現(xiàn)狀
明略成立于 2014 年,2017 年便完成 10 億元融資,躋身大數(shù)據(jù)領(lǐng)域獨(dú)角獸,在知識(shí)圖譜領(lǐng)域更是涉獵已久,對(duì)于技術(shù)和行業(yè)的發(fā)展有著深刻的了解。
從張杰的專業(yè)角度來看,知識(shí)圖譜近幾年非?;穑f白了,學(xué)術(shù)界主要集中在兩個(gè)方向:一是基于深度學(xué)習(xí)的知識(shí)表示,二是知識(shí)圖譜+(如:知識(shí)圖譜+檢索,知識(shí)圖譜+推薦,知識(shí)圖譜+預(yù)訓(xùn)練語言模型)。
工業(yè)界主要集中在圖譜自動(dòng)構(gòu)建,例如:如何自動(dòng)化地從結(jié)構(gòu)化數(shù)據(jù)庫映射為知識(shí)圖譜并做知識(shí)融合,如何從非結(jié)構(gòu)化文本中做篇章級(jí)的事件抽取和多事件關(guān)聯(lián),如何通過小樣本學(xué)習(xí)和領(lǐng)域知識(shí)遷移的技術(shù)減少人工標(biāo)注成本,以及基于深度學(xué)習(xí)的知識(shí)表示在各個(gè)環(huán)節(jié)的應(yīng)用等等。
這就是知識(shí)圖譜技術(shù)和應(yīng)用的基本情況。
明略做了什么?
在這樣的環(huán)境下,做知識(shí)圖譜的企業(yè)數(shù)不勝數(shù),但實(shí)際上很多企業(yè)都在做著同質(zhì)化的產(chǎn)品和功能,那明略做了什么特別的事?擁有哪些核心技術(shù)才能在多如牛毛的大數(shù)據(jù)公司中保持活力呢?
核心產(chǎn)品
據(jù)悉,明略在 2018 年推出了人、機(jī)器、組織三位一體的“HAO 智能”技術(shù)架構(gòu),其中:H 代表 Human Intelligence(人類智能)、A 代表 Artificial Intelligence(人工智能)、O 代表 Organization Intelligence(組織智能)。HAO 智能的目標(biāo)是將人和機(jī)器通過該理論體系打造成統(tǒng)一的組織,人類智能與機(jī)器智能協(xié)同互補(bǔ),最終實(shí)現(xiàn)組織智能。
目前,明略科技集團(tuán)開發(fā)了多款知識(shí)圖譜產(chǎn)品,覆蓋從原始數(shù)據(jù)獲取到應(yīng)用展現(xiàn)的所有環(huán)節(jié)。其中:
CONA(Connect All the data),即“關(guān)聯(lián)所有數(shù)據(jù)”,是結(jié)構(gòu)化數(shù)據(jù)通用治理平臺(tái),能夠大規(guī)模自動(dòng)化的采集、清洗、歸類、關(guān)聯(lián)所有結(jié)構(gòu)化數(shù)據(jù),形成統(tǒng)一數(shù)據(jù)視圖。另外,通過設(shè)置數(shù)據(jù)轉(zhuǎn)換規(guī)則,結(jié)合數(shù)據(jù)多值溯源和融合策略,可以自動(dòng)完成標(biāo)準(zhǔn)化對(duì)標(biāo),實(shí)現(xiàn)數(shù)據(jù)治理自動(dòng)化,大大提高行業(yè)知識(shí)圖譜構(gòu)建效率。以公共安全領(lǐng)域?qū)嶋H數(shù)據(jù)治理為例,業(yè)務(wù)系統(tǒng)中近千張表,傳統(tǒng)方法和工具做圖譜構(gòu)建可能需要半年以上的時(shí)間,而 CONA 能夠縮短到 2 周。
NEST 是明略自研的一款知識(shí)圖譜數(shù)據(jù)庫,運(yùn)用混合型數(shù)據(jù)存儲(chǔ)技術(shù),可支持?jǐn)?shù)億實(shí)體和數(shù)十億條邊的秒級(jí)響應(yīng)。
SCOPA 是可視化數(shù)據(jù)分析平臺(tái),構(gòu)建在 NEST 之上,根據(jù)業(yè)務(wù)場(chǎng)景和數(shù)據(jù)圖譜特點(diǎn),提供關(guān)系網(wǎng)絡(luò)分析、時(shí)空軌跡碰撞、實(shí)時(shí)多維檢索、信息比對(duì)碰撞、智能協(xié)作系統(tǒng)、實(shí)時(shí)數(shù)據(jù)接入等強(qiáng)大功能,使知識(shí)圖譜行業(yè)解決方案快速落地變成了可能。目前已應(yīng)用到公共安全、金融、稅務(wù)、工業(yè)等多個(gè)行業(yè)幾百個(gè)項(xiàng)目中。
與其他企業(yè)相比,明略在知識(shí)圖譜構(gòu)建的底層技術(shù)上有哪些獨(dú)特之處?具體的實(shí)現(xiàn)細(xì)節(jié)是怎樣的?
張杰解釋道,在自動(dòng)化構(gòu)建知識(shí)圖譜的過程中,明略科技在如下幾個(gè)環(huán)節(jié)積累了一些核心技術(shù):
針對(duì)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),提出了 HAO profiling 技術(shù):對(duì)來自不同數(shù)據(jù)源的結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)時(shí),對(duì)數(shù)據(jù)進(jìn)行匯聚、組織,試圖理解數(shù)據(jù),解決數(shù)據(jù)冗余、沖突等問題,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、連接,形成數(shù)據(jù)的知識(shí)圖譜,進(jìn)行可視化展示,并以統(tǒng)一視圖服務(wù)查詢、計(jì)算等應(yīng)用需要。
針對(duì)非結(jié)構(gòu)化數(shù)據(jù),設(shè)計(jì)、開發(fā)了一套算法工具包:HAO 圖譜。HAO 圖譜包括關(guān)系抽取、事件抽取、實(shí)體對(duì)齊、網(wǎng)絡(luò)結(jié)構(gòu)嵌入式表示、時(shí)空序列數(shù)據(jù)表示、圖譜摘要、基于圖譜的短文本生成等算法,專注于服務(wù)企業(yè)級(jí)知識(shí)圖譜系統(tǒng)的開發(fā)。它既可以獨(dú)立運(yùn)行,也可以交付企業(yè)技術(shù)團(tuán)隊(duì)在其之上進(jìn)行二次開發(fā)。
據(jù)張杰介紹,明略的知識(shí)圖譜核心產(chǎn)品經(jīng)過了 6 年時(shí)間的反復(fù)打磨和優(yōu)化,才最終應(yīng)用于廣告、營銷、公共安全、工業(yè)、金融、數(shù)字城市、供應(yīng)鏈、餐飲等行業(yè)。在技術(shù)研發(fā)迭代期間,張杰將明略在技術(shù)迭代期間最寶貴的經(jīng)驗(yàn)分享給我們。
一句話概括,他的經(jīng)驗(yàn)就是如何處理“專用、復(fù)用、通用”。為了提高實(shí)施項(xiàng)目中的人效比,明略一方面在組織流程上保證項(xiàng)目中的經(jīng)驗(yàn)?zāi)軌?ldquo;回流”到技術(shù)中臺(tái),另一方面加強(qiáng)機(jī)器學(xué)習(xí)技術(shù)在產(chǎn)品“內(nèi)化”中的作用,比如前文提到的 HAO profiling 技術(shù)和 CONA 平臺(tái)。雖然面對(duì)很多行業(yè)客戶,但相同行業(yè)中不同企業(yè)內(nèi)部的業(yè)務(wù)系統(tǒng)在功能、數(shù)據(jù)結(jié)構(gòu)、業(yè)務(wù)邏輯上是趨同的。
明略成功的秘密之一,在于其非常重視行業(yè)經(jīng)驗(yàn)復(fù)用和技術(shù)工具復(fù)用。在行業(yè)經(jīng)驗(yàn)復(fù)用方面,明略成立了行業(yè)咨詢團(tuán)隊(duì),形成了面向行業(yè)的最佳實(shí)踐和成功案例,并且投入到國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、聯(lián)盟標(biāo)準(zhǔn)的制定中,比如,2018 年明略科技與公安部第一研究所聯(lián)合發(fā)布業(yè)內(nèi)首個(gè)《公安知識(shí)圖譜標(biāo)準(zhǔn)化白皮書》。技術(shù)工具復(fù)用方面,技術(shù)能力在全集團(tuán)范圍內(nèi)共享打通,算法攻關(guān)、公共技術(shù)組件、產(chǎn)品迭代、項(xiàng)目交付,各有分工又相互協(xié)作。
技術(shù)研發(fā)固然重要,但是將已有的成果效用最大化,是一條事半功倍的捷徑。
自動(dòng)化機(jī)器學(xué)習(xí)建模用于知識(shí)圖譜
明略的另一個(gè)創(chuàng)新,是將近年來大火的 AutoML 技術(shù)應(yīng)用到知識(shí)圖譜構(gòu)建中。
張杰解釋,在確定、趨同、數(shù)據(jù)量足夠的場(chǎng)景中,為了降低人工訓(xùn)練模型的重復(fù)勞動(dòng),明略采用自動(dòng)化機(jī)器學(xué)習(xí)的方式,面向機(jī)器學(xué)習(xí)建模人員搭建了模型訓(xùn)練平臺(tái) MatrixAI,可以自動(dòng)給出多個(gè)維度的數(shù)據(jù)探查報(bào)告,并據(jù)此在歷史數(shù)據(jù)集和模型集上找到相似任務(wù),根據(jù)相似任務(wù)的最佳實(shí)踐給出算法選擇建議、超參建議,再自動(dòng)評(píng)價(jià)模型性能自動(dòng)調(diào)參。
這是一種在相似任務(wù)的最優(yōu)解附近尋找最優(yōu)解的思路。但是,面對(duì)新領(lǐng)域新任務(wù)時(shí),張杰不建議直接使用自動(dòng)化機(jī)器學(xué)習(xí)的方式,純粹“用算力代替智力”的方式,效果不好且浪費(fèi)計(jì)算資源。
知識(shí)圖譜熱點(diǎn)研究方向與底層技術(shù)現(xiàn)狀
知識(shí)圖譜查詢
知識(shí)圖譜查詢推理是知識(shí)圖譜的重要研究點(diǎn),同時(shí)也是一個(gè)有待攻破的難點(diǎn)。這個(gè)問題難在哪?明略對(duì)此做了哪些嘗試?
張杰答道,目前,明略科技基于知識(shí)圖譜的推理主要在兩個(gè)問題上:多跳關(guān)系預(yù)測(cè)和反事實(shí)預(yù)測(cè)。這兩個(gè)問題的挑戰(zhàn)點(diǎn)在于,專家規(guī)則方式預(yù)測(cè)準(zhǔn)確性不夠,數(shù)據(jù)驅(qū)動(dòng)方式數(shù)據(jù)量不夠,明略做的是 ToB 業(yè)務(wù)應(yīng)用場(chǎng)景,對(duì)于最終結(jié)果的準(zhǔn)確性要求較高,并且需要具備可解釋性。因此,明略嘗試了人機(jī)協(xié)同、人機(jī)交互的方式,首先在專家給出的初步因果關(guān)系圖的基礎(chǔ)上,通過數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)一步補(bǔ)充事件間的因果關(guān)系,形成行業(yè)因果圖譜,然后再將專家經(jīng)驗(yàn)和面向特定場(chǎng)景特定任務(wù)的模型都封裝為算子,經(jīng)過多輪人機(jī)交互之后由專家給出最終答案。
他預(yù)測(cè),這一方向會(huì)在復(fù)雜度較高的行業(yè)中嘗試應(yīng)用,減少應(yīng)用場(chǎng)景對(duì)行業(yè)專家的依賴。
常識(shí)知識(shí)庫
另一方面,構(gòu)建常識(shí)知識(shí)庫是讓知識(shí)圖譜“變聰明”的一種重要途徑,在構(gòu)建常識(shí)知識(shí)庫上,明略已經(jīng)做了一些嘗試。
張杰說道,常識(shí)知識(shí)庫的構(gòu)建還需要借助研究機(jī)構(gòu)和開源的力量,而明略科技未來規(guī)劃的重點(diǎn),則在于構(gòu)建多個(gè)垂直領(lǐng)域知識(shí)庫,將領(lǐng)域事實(shí)、領(lǐng)域規(guī)律分別固化下來,在實(shí)施項(xiàng)目中使其得以不斷的積累和修正。
當(dāng)前,知識(shí)圖譜底層技術(shù)生態(tài)是否完善?周圍的工具支持是否全面呢?
在張杰看來,目前知識(shí)圖譜底層技術(shù)的各個(gè)環(huán)節(jié)仍不夠完善,很多環(huán)節(jié)需要一定程度的人工參與,比如:圖譜 schema 的定義、數(shù)據(jù)映射規(guī)則的開發(fā)、常識(shí)或領(lǐng)域知識(shí)庫的開發(fā)、訓(xùn)練數(shù)據(jù)集的標(biāo)注、知識(shí)融合階段的人工校驗(yàn)等。要想達(dá)到可商用的程度,自動(dòng)化程度至少要到 95%,有些場(chǎng)景甚至要求更高。
而且,目前業(yè)界在知識(shí)圖譜領(lǐng)域并沒有一套功能全面的、面向企業(yè)級(jí)應(yīng)用的工具集。針對(duì)這種情況,明略開發(fā)了上文提到的一套圖譜構(gòu)建的算法工具包——HAO 圖譜。然而,像 HAO 圖譜這種功能全面的工具集在知識(shí)圖譜行業(yè)并不多見,但也正表明了這是知識(shí)圖譜底層技術(shù)生態(tài)待挖掘的一個(gè)缺口,也是機(jī)會(huì)所在。
張杰認(rèn)為,未來,知識(shí)圖譜底層技術(shù)還有很多需要完善的地方,除了技術(shù)方式之外,張杰認(rèn)為還可以考慮促進(jìn)行業(yè)聯(lián)盟數(shù)據(jù)標(biāo)準(zhǔn)化的方式,改造已有 IT 系統(tǒng),將標(biāo)注工作從為了標(biāo)注而標(biāo)注變成眾包的方式等。
未來技術(shù)發(fā)展趨勢(shì)展望
綜上,我們可以得出知識(shí)圖譜領(lǐng)域的技術(shù)和應(yīng)用發(fā)展仍然是一片有待開發(fā)的“藍(lán)海”,不成熟的地方孕育著機(jī)會(huì)和潛力。未來,知識(shí)圖譜技術(shù)的發(fā)展方向有哪些呢?張杰指出了其中一部分有待完善的點(diǎn):
他說道,知識(shí)圖譜相關(guān)的大多數(shù)技術(shù)都仍是開放的,比如:
在信息抽取層面,可以做篇章級(jí)甚至跨篇章的事件抽??;
在知識(shí)表示層面,需要較為通用的方式對(duì)節(jié)點(diǎn)和邊中蘊(yùn)含的語義信息、網(wǎng)絡(luò)結(jié)構(gòu)信息、時(shí)序信息做知識(shí)表示;
在應(yīng)用層面,亟待突破的就是數(shù)據(jù)驅(qū)動(dòng)的方式做因果關(guān)系發(fā)現(xiàn)和因果推斷。
知識(shí)圖譜將世界上各種知識(shí)相互關(guān)聯(lián)起來,形成類人腦的有邏輯、結(jié)構(gòu)化的知識(shí)庫,從而在人類實(shí)踐活動(dòng)中執(zhí)行統(tǒng)一的標(biāo)準(zhǔn),并提供個(gè)性化的服務(wù),提高工作效率。但知識(shí)圖譜距離成為一把無堅(jiān)不摧的鋼刀還有些差距,為了利用它達(dá)到人類的終極目標(biāo)——方便,還需要開發(fā)者們繼續(xù)努力!
采訪嘉賓
張杰博士,明略科技集團(tuán)科學(xué)院知識(shí)工程實(shí)驗(yàn)室主任,研究方向?yàn)闄C(jī)器學(xué)習(xí)、自然語言處理、知識(shí)圖譜,曾就職于華為諾亞方舟實(shí)驗(yàn)室,后做為聯(lián)合創(chuàng)始人創(chuàng)辦金融科技公司并任 CTO,曾主持搭建百科知識(shí)問答、對(duì)話機(jī)器人、推薦引擎、決策引擎、大數(shù)據(jù)風(fēng)控等系統(tǒng),發(fā)表學(xué)術(shù)論文十余篇,發(fā)明專利八十余項(xiàng)。
————————————————
版權(quán)聲明:本文為CSDN博主「AI技術(shù)生態(tài)論」的原創(chuàng)文章,遵循 CC 4.0 BY-NC-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/weixin_45152865/java/article/details/105506780