生物醫(yī)學(xué)作為一門(mén)需要大量論證、實(shí)驗(yàn)、測(cè)試的領(lǐng)域,其研制工作需要大量的參考文獻(xiàn)數(shù)據(jù)支撐,各類(lèi)科學(xué)文獻(xiàn)數(shù)據(jù)沒(méi)有科學(xué)采集、規(guī)范化處理、有效匯集,需要進(jìn)行更專(zhuān)業(yè)的標(biāo)準(zhǔn)化管理和服務(wù)管理以及挖掘數(shù)據(jù)潛在價(jià)值,需要一套開(kāi)放、靈活、可擴(kuò)展的面向科技文獻(xiàn)數(shù)據(jù)采集及規(guī)范處理的系統(tǒng)。
科技文獻(xiàn)數(shù)據(jù)采集及規(guī)范處理系統(tǒng)涉及多種數(shù)據(jù)處理工具、模塊,需要建設(shè)專(zhuān)業(yè)的數(shù)據(jù)中臺(tái)。采用持續(xù)集成方式逐步完成系統(tǒng)整體的構(gòu)建,系統(tǒng)整體以數(shù)據(jù)中臺(tái)為基礎(chǔ),向下與用戶的專(zhuān)用服務(wù)器相連實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)和讀取,向上逐步定制研發(fā)并集成數(shù)據(jù)采集工具、數(shù)據(jù)交互工具、數(shù)據(jù)可視化展示工具、數(shù)據(jù)過(guò)濾分析工具、權(quán)限管理工具、學(xué)科分類(lèi)工具、主題標(biāo)引工具、科研實(shí)體規(guī)范工具和數(shù)據(jù)更新維護(hù)工具,實(shí)現(xiàn)對(duì)領(lǐng)域內(nèi)科技文獻(xiàn)的數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)交互、數(shù)據(jù)過(guò)濾分析、數(shù)據(jù)分類(lèi)、數(shù)據(jù)規(guī)范、數(shù)據(jù)更新維護(hù)等科技文獻(xiàn)數(shù)據(jù)全生命周期管理。同時(shí),在數(shù)據(jù)中臺(tái)對(duì)科技文獻(xiàn)數(shù)據(jù)規(guī)范化的基礎(chǔ)上,將標(biāo)準(zhǔn)化的文獻(xiàn)數(shù)據(jù)以API接口的形式對(duì)外提供數(shù)據(jù)服務(wù),使相關(guān)單位各系統(tǒng)模塊之間數(shù)據(jù)實(shí)現(xiàn)互聯(lián)互通,從而打造一套集數(shù)據(jù)采集、融合、加工、規(guī)范、更新、管理與服務(wù)為一體的科技文獻(xiàn)數(shù)據(jù)全流程生態(tài)鏈。
基于數(shù)據(jù)中臺(tái)的科技文獻(xiàn)數(shù)據(jù)采集及規(guī)范處理解決方案包括科技文獻(xiàn)基礎(chǔ)數(shù)據(jù)采集、結(jié)構(gòu)化數(shù)據(jù)采集及解析、科技文獻(xiàn)數(shù)據(jù)本地保存與管理、科技文獻(xiàn)數(shù)據(jù)規(guī)范化處理、科技文獻(xiàn)數(shù)據(jù)更新維護(hù)。通過(guò)大數(shù)據(jù)與人工智能技術(shù)構(gòu)建科技文獻(xiàn)數(shù)據(jù)采集及規(guī)范處理系統(tǒng),搭建一套面向生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)數(shù)據(jù)管控的數(shù)據(jù)中臺(tái)。
目前面向科技文獻(xiàn)數(shù)據(jù)處理的數(shù)據(jù)中臺(tái),以在中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所建設(shè),一期完成生物醫(yī)學(xué)科技文獻(xiàn)基礎(chǔ)數(shù)據(jù)采集5000多萬(wàn)條。完成科技文獻(xiàn)全文數(shù)據(jù)來(lái)源分析,結(jié)構(gòu)化數(shù)據(jù)采集及解析,全文數(shù)量達(dá)到400多萬(wàn)條。通過(guò)提供數(shù)據(jù)中臺(tái)及服務(wù)幫助研究所實(shí)現(xiàn)對(duì)科技文獻(xiàn)數(shù)據(jù)的采集、融合、加工、規(guī)范、更新、管理與服務(wù),構(gòu)建成為一整套面向科技文獻(xiàn)數(shù)據(jù)采集及規(guī)范處理的工具,實(shí)現(xiàn)各個(gè)模塊之間數(shù)據(jù)的互聯(lián)互通。
針對(duì)高水平數(shù)字文獻(xiàn)信息資源的需求,提供一套可借鑒、可復(fù)制、具有普適性的科技文獻(xiàn)數(shù)據(jù)治理解決方案,科技文獻(xiàn)數(shù)據(jù)治理形成具有基礎(chǔ)、共性的技術(shù)標(biāo)準(zhǔn)和規(guī)范體系。構(gòu)建開(kāi)放、靈活、可擴(kuò)展的面向科技文獻(xiàn)數(shù)據(jù)采集及規(guī)范處理的管理系統(tǒng),支持權(quán)益管理、各類(lèi)數(shù)據(jù)采集,實(shí)現(xiàn)科研論文全文集中管理,覆蓋自主加工、開(kāi)放獲取、購(gòu)置等多來(lái)源國(guó)際高質(zhì)量期刊、文摘數(shù)據(jù)、規(guī)范化引文數(shù)據(jù)的集成文獻(xiàn)數(shù)據(jù)倉(cāng)儲(chǔ),為科技文獻(xiàn)智能服務(wù)、科研學(xué)術(shù)分析提供基礎(chǔ)數(shù)據(jù)支撐,提升科研院所科技文獻(xiàn)數(shù)字化分析水平,全面支撐科研院所相關(guān)領(lǐng)域科學(xué)技術(shù)發(fā)展。