中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的實踐與應用
時間:2022-04-22 08:24:44
導語:中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的實踐與應用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:為推動中醫(yī)藥研究的發(fā)展,并為中醫(yī)藥數(shù)據(jù)應用提供有效的挖掘技術支持,本文設計了基于TCMMiner數(shù)據(jù)庫的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)。在總體思路、總體設計、功能設計、工作流程設計以及完善設計等方面,對系統(tǒng)設計進行細致的闡述。在文本處理、頻次統(tǒng)計、關鍵詞關聯(lián)分析以及作者高頻組合分析等方面應用該系統(tǒng),結果表明本文設計的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)為中醫(yī)藥數(shù)據(jù)挖掘和應用提供了非常有效的工具。
關鍵詞:中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng);TCMMiner數(shù)據(jù)庫;關鍵詞關聯(lián)分析;作者高頻組合分析
大數(shù)據(jù)技術在中醫(yī)藥領域的應用,為中醫(yī)藥研究、疾病診治等方面提供了技術支撐[1]。由于中醫(yī)藥數(shù)據(jù)具有不規(guī)范性、小樣本、寬數(shù)據(jù)以及信息復雜等特點,因此中醫(yī)藥數(shù)據(jù)挖掘與傳統(tǒng)“數(shù)據(jù)挖掘”存在較大差別[1]?;谥嗅t(yī)藥數(shù)據(jù)特征的分析,以突破中醫(yī)藥數(shù)據(jù)挖掘的局限性為重點,設計以TCMMiner數(shù)據(jù)庫為基礎的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)。實驗結果表明,本文設計的數(shù)據(jù)挖掘系統(tǒng)能夠有效幫助系統(tǒng)使用人員進行數(shù)據(jù)拆分與合并及數(shù)據(jù)挖掘等工作,在有效節(jié)約數(shù)據(jù)提取與應用時間的基礎上,為中醫(yī)藥研究工作提供了更有效的參考。
1中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的構建
1.1總體思路
中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的構建需要以技術適應性為基本點,以中醫(yī)藥診療思路和特征分析為重點,確保數(shù)據(jù)挖掘系統(tǒng)具有高度辯證性為前提,構建多維度、多視角的數(shù)據(jù)挖掘系統(tǒng)[2]。
1.2系統(tǒng)總體設計
基于設計的總體思路,以充分發(fā)揮系統(tǒng)的價值為目標,設計包括頁面、應用、功能服務、技術以及數(shù)據(jù)管理5大層次的數(shù)據(jù)挖掘系統(tǒng)[3],如表1所示。
1.3系統(tǒng)功能設計
數(shù)據(jù)挖掘系統(tǒng)設計通常應用關聯(lián)規(guī)則、分類、聚類等方法,包括數(shù)據(jù)挖掘、數(shù)據(jù)分析和數(shù)據(jù)應用等內容,可以實現(xiàn)數(shù)據(jù)信息的精準選擇、變換、評估等[4]。為有效設計與實現(xiàn)中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng),結合中醫(yī)藥數(shù)據(jù)的特點,設計了10個功能模塊,包括數(shù)據(jù)拆分與合并、頻次統(tǒng)計、矩陣轉換數(shù)據(jù)文本轉換以及關聯(lián)規(guī)則挖掘等[5-6],具體如圖1所示。數(shù)據(jù)拆分與合并方面,中醫(yī)藥的處方數(shù)據(jù)信息較多,且數(shù)據(jù)信息的呈現(xiàn)方式具有特殊性,需要數(shù)據(jù)挖掘系統(tǒng)對處方數(shù)據(jù)信息進行有效挖掘、統(tǒng)計及修正。結合表1的內容可知,本系統(tǒng)設計應用TCMMiner數(shù)據(jù)庫,該數(shù)據(jù)庫可以實現(xiàn)數(shù)據(jù)的拆分與合并,有利于中醫(yī)藥處方數(shù)據(jù)信息的進一步統(tǒng)計和處理。頻次統(tǒng)計方面,頻次統(tǒng)計主要是對數(shù)據(jù)進行統(tǒng)計分析。由于中藥處方數(shù)據(jù)信息具有特殊性,通常存在證候的正異名統(tǒng)計問題,因此本次系統(tǒng)設計時,在TCMMiner數(shù)據(jù)庫中錄入中藥、證候等中醫(yī)藥術語內容,以提高術語及中醫(yī)藥處方信息的規(guī)范頻次,確保數(shù)據(jù)挖掘具有精準性和全面性。為提高頻次統(tǒng)計過程中的證候正異名統(tǒng)計實效,本系統(tǒng)錄入了2016年版《醫(yī)學主題詞表(中文)》和2015年版《中華人民共和國藥典》等術語詞匯包,為提高頻次統(tǒng)計的規(guī)范性和精準性以及數(shù)據(jù)挖掘的實用性與針對性奠定了堅實基礎。文本抽取方面,中醫(yī)藥處方數(shù)據(jù)信息通常以大段文字的形式存在,難以避免其中存在無效信息,在一定程度上增加了數(shù)據(jù)挖掘的復雜性。應用TCMMiner數(shù)據(jù)庫,對處方數(shù)據(jù)信息進行處理分析和提取,在提高文本抽取效率的基礎上,為分析處方用藥規(guī)律奠定了堅實基礎??紤]到在實際工作中,文本格式無法被數(shù)據(jù)挖掘系統(tǒng)直接提取和分析,需要進行文本格式轉換,本系統(tǒng)設計應用了中醫(yī)藥ETL模塊,對文本格式進行多格式的轉化。矩陣轉換方面,數(shù)據(jù)挖掘軟件計算功能的設計與實現(xiàn)需要應用TCMMiner數(shù)據(jù)庫技術,對數(shù)據(jù)的形式、格式等進行轉換,以實現(xiàn)用戶與常規(guī)的數(shù)據(jù)挖掘軟件聯(lián)合使用。另外,本系統(tǒng)中設計了數(shù)據(jù)矩陣模塊,該模塊可以提供逆矩陣計算方式,能夠完成符號分隔數(shù)據(jù)的轉換與計算,為數(shù)據(jù)挖掘及應用提供了極大便利。關聯(lián)規(guī)則挖掘方面,關聯(lián)關系挖掘可以發(fā)現(xiàn)數(shù)據(jù)信息之間的隱藏關系。基于數(shù)據(jù)挖掘算法,設置最小支持度、最小置信度來提高數(shù)據(jù)關聯(lián)性的分析效率,可以更有效地獲取數(shù)據(jù)信息的規(guī)律,并實現(xiàn)相關信息的組配關系分析。聚類挖掘方面,本系統(tǒng)設計將聚類挖掘確定為以相似性為標準的個體分類方式。應用k-means算法,設置k值,以便找到聚類個數(shù)。貝葉斯處理方面,在已知的樣本中應用貝葉斯分類方法,根據(jù)樣本類型數(shù)據(jù)模型,預測未知類型樣本的特定概率,可以在計算中藥、癥候等要素間概率關系方面發(fā)揮重要作用。除上述內容外,本研究以強化中醫(yī)藥的傳播與交流為目標,在系統(tǒng)設計過程中設計并應用了專業(yè)文章翻譯模塊。由于翻譯軟件存在中醫(yī)藥信息翻譯精度不高等問題,所以本研究選擇在系統(tǒng)中錄入《醫(yī)學主題詞表(中文)》,并以此為翻譯標準,對中醫(yī)藥術語等內容進行精準翻譯。
1.4系統(tǒng)工作流程設計
在設計挖掘系統(tǒng)的工作流程方面,考慮到中醫(yī)藥數(shù)據(jù)的特征以及數(shù)據(jù)挖掘與應用需求,在文件上傳、參數(shù)配置、結果展示和結果下載等4個方面進行流程設計。文件上傳是系統(tǒng)用戶將文件上傳到系統(tǒng)數(shù)據(jù)庫中,系統(tǒng)進行文件數(shù)據(jù)的展示;參數(shù)配置是基于不同功能服務的應用,對不同數(shù)據(jù)參數(shù)設置、參數(shù)應用需求進行分析,實現(xiàn)以用戶服務為目標的參數(shù)設置;結果展示是系統(tǒng)用戶可以根據(jù)實際需求,在頁面中選取和查看所需參數(shù)結果;結果下載是系統(tǒng)用戶可以將參數(shù)結果下載到本地使用。
1.5系統(tǒng)完善設計
為保證系統(tǒng)具有良好的應用價值,在本系統(tǒng)設計的過程中進行了缺失值的處理和噪音數(shù)據(jù)的處理。缺失值處理方面,在中醫(yī)藥處方信息提取和應用過程中,有可能出現(xiàn)數(shù)據(jù)缺失的問題,例如中醫(yī)藥臨床輔助決策中各類中藥的用量等數(shù)據(jù)確實難以為中醫(yī)藥研究、藥物組合的應用提供有力依據(jù)和參考。為了應對此情況,以中醫(yī)藥數(shù)據(jù)特征分析為基礎,以數(shù)據(jù)決策目標為重點,應用缺失值填充算法補充和完善缺失的數(shù)據(jù)信息。例如,在本系統(tǒng)設計中,應用平均值填充法對缺失的數(shù)值類數(shù)據(jù)進行填充和完善。噪聲數(shù)據(jù)處理方面,本系統(tǒng)設計主要是針對一詞多義、詞義交叉等噪聲數(shù)據(jù)進行處理。噪聲數(shù)據(jù)處理方法主要是以《中醫(yī)診斷術語標準》《中華人民共和國藥典》《中藥學》等為依據(jù)和標準,對噪聲數(shù)據(jù)進行規(guī)范、刪除等處理,確保數(shù)據(jù)挖掘和應用的精確性。
2中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)實踐應用
2.1文本處理
以搜索“針灸療法”為例,在系統(tǒng)中搜索該文本內容,以2018—2021年為時間期限,搜索到460條記錄。搜索完成后,系統(tǒng)用戶可以根據(jù)實際需求選擇文本進行下載,下載格式為.txt,隨后應用TCMMiner,將下載的文本格式轉換為Excel格式。
2.2頻次統(tǒng)計
本系統(tǒng)可以通過TCMMiner將數(shù)據(jù)轉換為單獨詞語,并對詞語及相關詞匯的使用頻次進行統(tǒng)計分析,如中醫(yī)藥數(shù)據(jù)的錄入時間、中醫(yī)藥詞匯來源、所搜文本的關聯(lián)內容等。
2.3關鍵詞關聯(lián)分析
通過關鍵詞的關聯(lián)分析,可以更加充分的了解某個領域的研究熱點,對中醫(yī)藥研究發(fā)展等具有積極意義?;诖四繕朔治?,在中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)中,應用統(tǒng)計產(chǎn)品與服務解決方案(StatisticalProductandServiceSolutions,SPSS)層次聚類法,實現(xiàn)了關鍵詞的聚類分析,并通過TCMMiner的應用,實現(xiàn)關鍵詞詞列向數(shù)據(jù)矩陣的轉換。以“白術、半夏”為例,導入需要進行數(shù)據(jù)挖掘的源數(shù)據(jù),在病名處選擇“咳嗽”并將支持度和置信度選擇為0.5。隨后進行分析,得出表2結果。由表2可知,數(shù)據(jù)挖掘系統(tǒng)中,搜索到關于治療“咳嗽”的藥物組合中,白術→半夏,半夏→白術,薄荷、白術→半夏,薄荷、半夏→白術的置信度皆為100%;白術→半夏、半夏→白術的支持度為79.23%。由此分析可知,白術、半夏為治療“咳嗽”的常用藥,且使用頻率較高。
2.4作者高頻組合分析
應用TCMMiner的關聯(lián)規(guī)則,對高頻組合內容進行挖掘,可以找出高頻組合內容,為數(shù)據(jù)應用情況及中醫(yī)藥研究項目情況的分析提供有力支持,具體如表3所示。通過實踐應用分析表明,本文設計的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)具有較高的應用價值。由于中醫(yī)藥數(shù)據(jù)信息的更新速度較快,且原有中醫(yī)藥詞表無須更新,在使用時間的積累下,系統(tǒng)中的數(shù)據(jù)規(guī)模不斷擴大,數(shù)據(jù)挖掘算法逐漸增多。為保證系統(tǒng)應用有效性,需要不斷優(yōu)化和增強系統(tǒng)功能。本系統(tǒng)設計應用了TCMMiner數(shù)據(jù)庫,不僅可以綜合應用中醫(yī)藥數(shù)據(jù)挖掘功能服務模塊,還可以對服務模塊進行優(yōu)化和完善,為系統(tǒng)有效應用及系統(tǒng)數(shù)據(jù)更新提供更有力的技術支持。
3結語
中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)的設計與應用對中醫(yī)藥研究等產(chǎn)生重要影響。本文綜合中醫(yī)藥數(shù)據(jù)特征的分析,設計了基于TCMMiner數(shù)據(jù)庫的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)。以實踐應用為視角,在文本處理、頻次統(tǒng)計、關鍵詞關聯(lián)分析以及作者高頻組合分析這4個方面驗證了系統(tǒng)應用的有效性。結果表明,基于TCMMiner數(shù)據(jù)庫的中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)為中醫(yī)藥數(shù)據(jù)挖掘及應用提供了有力支撐和有效工具。綜合而言,本次系統(tǒng)設計應用未從社會效益、數(shù)據(jù)更新視角對系統(tǒng)進行優(yōu)化設計和研究,需要在后續(xù)研究中進行深度的分析和探索,以豐富研究成果,從而為中醫(yī)藥數(shù)據(jù)挖掘及中醫(yī)藥研究等工作提供更有力的系統(tǒng)技術支持。
參考文獻
[1]許雪蓮,吳昆侖.數(shù)據(jù)挖掘技術在中醫(yī)藥研究中的應用[J].河南中醫(yī),2020,40(11):1633-1637.
[2]王金虹,馬斌,李艷彥.基于相關系數(shù)與關聯(lián)規(guī)則分析的中醫(yī)藥防治新型冠狀病毒肺炎用藥規(guī)律研究[J].中國中醫(yī)藥圖書情報雜志,2022,46(1):1-5.
[3]陳洪雁,張大偉,萬俊偉,等.基于大數(shù)據(jù)的空間目標監(jiān)測數(shù)據(jù)管理系統(tǒng)設計與應用[J].航天電子對抗,2020,36(4):11-14.
[4]狄宏林,吳瑕,周勇.聚類算法與關聯(lián)規(guī)則在智慧校園數(shù)據(jù)分析中的創(chuàng)新應用與研究[J].貴陽學院學報(自然科學版),2021,16(4):16-19.
[5]伍嘉儀,翁衡,鄭瑋琳,等.基于中醫(yī)藥大數(shù)據(jù)智能處理與知識服務系統(tǒng)探析經(jīng)行頭痛臨床特征與方藥規(guī)律[J].廣州中醫(yī)藥大學學報,2020,37(9):1808-1815.
[6]張靜美,陳曉陽,秦慶廣,等.基于數(shù)據(jù)挖掘與網(wǎng)絡藥理學探討徐學功治療冠心病PCI術后中藥使用規(guī)律與作用機制[J].中醫(yī)藥導報,2021,27(8):148-153.
作者:張晨 單位:中國中醫(yī)科學院眼科醫(yī)院