新聞動(dòng)態(tài)
|
工作進(jìn)展
中國(guó)植物志/云南植物志問答系統(tǒng)正式上線服務(wù) 文章來源:科技信息中心 | 發(fā)布時(shí)間:2025-08-29 | 作者:邱金水 | 瀏覽次數(shù): | 【打印】 【關(guān)閉】 植物志書中記載了植物的分類信息、描述信息、分布信息和用途信息等,由于植物的描述信息、分布信息和用途信息主要以非結(jié)構(gòu)化的文本內(nèi)容為主,因此傳統(tǒng)檢索植物志的方法主要是按結(jié)構(gòu)化程度較高的植物分類信息進(jìn)行檢索,如:輸入植物的中文名稱或拉丁名稱檢索植物的信息(中國(guó)植物物種信息數(shù)據(jù)庫(kù),https://db.kib.ac.cn/Default.aspx)。 大語言模型經(jīng)過多年的快速發(fā)展,其對(duì)自然語言的處理能力已非常成熟,但使用通用大語言模型查詢植物的相關(guān)信息時(shí)依然會(huì)出現(xiàn)幻覺(如圖1,使用DeepSeek問了一個(gè)并不存在的物種拉丁名Arachis cuspidata),其原因主要是由于通用大語言模型是基于概率計(jì)算生成文本答案。 圖1 DeepSeek出現(xiàn)幻覺示例 如何實(shí)現(xiàn)以自然語言的方式對(duì)植物志進(jìn)行檢索并降低通用大語言模型出現(xiàn)幻覺的概率呢?中國(guó)科學(xué)院昆明植物研究所科學(xué)數(shù)據(jù)中心基于大語言模型、數(shù)據(jù)庫(kù)、知識(shí)圖譜和知識(shí)庫(kù)等技術(shù),通過對(duì)植物志數(shù)據(jù)進(jìn)行結(jié)構(gòu)化提取、組織加工、圖譜構(gòu)建和知識(shí)向量化,構(gòu)建了結(jié)構(gòu)化的關(guān)系型數(shù)據(jù)庫(kù)、基于知識(shí)圖譜的圖數(shù)據(jù)庫(kù)和向量化知識(shí)庫(kù),從而研發(fā)實(shí)現(xiàn)基于大語言模型技術(shù)和數(shù)據(jù)融合的中國(guó)植物志/云南植物志問答系統(tǒng)(如圖2,http://agent.iflora.cn:8080),相對(duì)于傳統(tǒng)的檢索植物志方法,本問答系統(tǒng)具有更靈活的檢索方式,如可輸入任意自然語言進(jìn)行檢索植物信息,且相對(duì)于通用大語言模型具有更高的準(zhǔn)確性。 圖2 中國(guó)植物志/云南植物志問答系統(tǒng) 該項(xiàng)工作得到了云南省技術(shù)創(chuàng)新人才培養(yǎng)對(duì)象和中國(guó)科學(xué)院昆明植物研究所所級(jí)中心能力建設(shè)等項(xiàng)目的支持。 |
版權(quán)所有 Copyright © 2002-2025 中國(guó)科學(xué)院昆明植物研究所,All Rights Reserved 【滇ICP備05000394號(hào)】
地址:中國(guó)云南省昆明市藍(lán)黑路132號(hào) 郵政編碼:650201
點(diǎn)擊這里聯(lián)系我們