伊人丁香狠狠色综合久久,日韩欧美精品综合久久,亚洲精品老司机综合影院,成人免费一级在线播放

      科研進(jìn)展

      心理所與自動(dòng)化所合作建立大規模詞匯語(yǔ)義維度評分數據庫

      發(fā)布時(shí)間:2023-03-09 作者:中國科學(xué)院行為科學(xué)重點(diǎn)實(shí)驗室 李興珊研究組 林楠

        如何對語(yǔ)義信息進(jìn)行量化表示一直是認知科學(xué)的一大難題。近年來(lái),人工智能領(lǐng)域出現的分布式語(yǔ)義模型在這方面取得了重大的成功。但是,這一類(lèi)語(yǔ)義模型的底層維度的心理現實(shí)性較低,阻礙了其在心理、教育、認知神經(jīng)科學(xué)等領(lǐng)域的一些應用。另一方面,心理學(xué)和認知神經(jīng)科學(xué)揭示出了大腦中支持語(yǔ)義表征的主要系統,提出了與這些系統相對應的經(jīng)驗語(yǔ)義維度,進(jìn)而開(kāi)發(fā)出了相應的主觀(guān)評分方法來(lái)對其進(jìn)行量化。這一類(lèi)語(yǔ)義維度具有較高的心理和神經(jīng)現實(shí)性。有研究發(fā)現,基于此類(lèi)主觀(guān)語(yǔ)義評分所構建的語(yǔ)義模型相比常用的分布式語(yǔ)義模型能夠更好地擬合和解釋大腦中的神經(jīng)活動(dòng)。

        目前,圍繞上述兩類(lèi)量化語(yǔ)義維度的研究都在如火如荼地展開(kāi),但各自都難以對大量自然語(yǔ)言進(jìn)行可解釋化的量化語(yǔ)義分析:分布式語(yǔ)義模型雖然能夠量化表示所有詞的語(yǔ)義信息,但其語(yǔ)義維度的心理現實(shí)性不足;經(jīng)驗語(yǔ)義維度的可解釋性高,但評分成本也高,難以覆蓋所有詞,不能滿(mǎn)足對任意自然文本進(jìn)行分析的需求。為了解決上述問(wèn)題,中國科學(xué)院行為科學(xué)重點(diǎn)實(shí)驗室李興珊課題組的林楠副研究員與中科院自動(dòng)化所王少楠副研究員組織各自所在研究團隊成員開(kāi)展跨學(xué)科合作,結合心理學(xué)和人工智能兩大學(xué)科的優(yōu)勢,構建了大規模詞匯語(yǔ)義維度評分數據庫——六維語(yǔ)義數據庫。

        研究者首先圍繞心理學(xué)和認知神經(jīng)科學(xué)所揭示出的六個(gè)主要語(yǔ)義維度,即視覺(jué)、動(dòng)作、社會(huì )、情感、時(shí)間、空間,針對17940個(gè)常用中文詞,開(kāi)展了大規模的主觀(guān)語(yǔ)義評分實(shí)驗。進(jìn)而,研究者結合評分實(shí)驗的結果和分布式語(yǔ)義模型,對約143萬(wàn)中文詞和152萬(wàn)英文詞的六維語(yǔ)義評分進(jìn)行了估算。最后,研究者結合本實(shí)驗的數據以及其他已發(fā)表的多個(gè)中、英文語(yǔ)義評分數據庫,對所獲得的主觀(guān)語(yǔ)義評分和估算語(yǔ)義評分進(jìn)行了多項信度和效度檢驗。結果顯示六維語(yǔ)義數據庫所包含的主觀(guān)評分和計算估計評分都具備較高的信效度。

      圖1:17940個(gè)中文詞在各個(gè)語(yǔ)義維度的主觀(guān)評分結果分布

        橫軸表示結果的分數段,縱軸表示該分數段上的詞匯數量。其中情感維度的原始評分范圍是-6到6,分別代表極端消極和積極的情感,為了衡量詞匯絕對情感性的高低,研究者額外提供了這一評分的絕對值加1的分數作為另一個(gè)情感語(yǔ)義維度測量

      圖2:17940個(gè)中文詞在各個(gè)語(yǔ)義維度的評分結果見(jiàn)的相關(guān)系數

        六維語(yǔ)義數據庫的發(fā)布將助力相關(guān)領(lǐng)域研究者對自然語(yǔ)言的語(yǔ)義信息進(jìn)行高效、大規模、可解釋地量化分析,有力地推動(dòng)心理學(xué)、腦科學(xué)、人工智能等相關(guān)領(lǐng)域的研究。

        該數據庫已共享在OSF repository(https://doi.org/10.17605/OSF.IO/N5VKE),并通過(guò)心理科學(xué)數據銀行發(fā)布(https://cstr.cn/31253.11.sciencedb.psych.00107)。

        該研究受?chē)易匀豢茖W(xué)基金(62036001, 31871105, 31871108)和中國科學(xué)院心理研究所自主部署項目(E2CX3625CX)資助,發(fā)表在Nature旗下數據類(lèi)期刊Scientific Data。論文第一作者為中科院自動(dòng)化所王少楠副研究員,通訊作者為中科院心理所林楠副研究員。

        論文信息:

        Wang, S., Zhang, Y., Shi, W., Zhang, G., Zhang, J., Lin, N.*, & Zong, C. (2023) A large dataset of semantic ratings and its computational extension. Scientific Data, 10, 106. https://doi.org/10.1038/s41597-023-01995-6


      附件下載: