• / 30
  • 下載費用:30 金幣  

語義信息生成方法和語義信息生成裝置.pdf

摘要
申請專利號:

CN201610318082.3

申請日:

2016.05.12

公開號:

CN106257440A

公開日:

2016.12.28

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/27申請日:20160512|||公開
IPC分類號: G06F17/27 主分類號: G06F17/27
申請人: 松下知識產權經營株式會社
發明人: 山上勝義; 牛尾貴志; 石井育規
地址: 日本大阪府
優先權: 2015.06.17 JP 2015-121670
專利代理機構: 北京市中咨律師事務所 11247 代理人: 徐健;段承恩
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201610318082.3

授權公告號:

|||

法律狀態公告日:

2018.05.11|||2016.12.28

法律狀態類型:

實質審查的生效|||公開

摘要

提供一種語義信息生成方法及裝置,其中,取得包含自然語言的第一文本數據和第二本數據的第一文本語料庫,第一文本數據包含第一單詞,第二文本數據包含應與第一單詞區別語義的第二單詞、且第二單詞分布與第一單詞分布相似;取得包含第三文本數據的第二文本語料庫,第三文本數據包含與第一單詞和第二單詞中的一方相同的第三單詞、且關于第三單詞的第三單詞分布與第一單詞分布類似;基于第一文本語料庫和第二文本語料庫中的單詞串排列,對第一單詞分配表示第一單詞的語義的第一向量,對第二單詞分配表示第二單詞的語義的第二向量;將第一向量和第一單詞相關聯地存儲,將在向量空間中與第一向量相距預定以上的距離的第二向量和第二單詞相關聯地存儲。

權利要求書

1.一種語義信息生成方法,包括:
取得包含第一文本數據和第二文本數據的第一文本語料庫,所述第一文本數據包含第
一單詞、且是用自然語言來記述的第一文章的文本數據,所述第二文本數據包含應與所述
第一單詞區別語義的第二單詞、且是第二單詞分布與第一單詞分布相似的第二文章的文本
數據,所述第二單詞分布表示所述第二文章中在所述第二單詞之前以及之后的預定范圍內
出現的單詞的種類和出現個數,所述第一單詞分布表示所述第一文章中在所述第一單詞之
前以及之后的所述預定范圍內出現的單詞的種類和出現個數;
取得包含第三文本數據的第二文本語料庫,所述第三文本數據包含作為與所述第一單
詞和所述第二單詞中的至少一方相同的單詞的第三單詞、且是第三單詞分布與所述第一單
詞分布不相似的第三文章的文本數據,所述第三單詞分布表示所述第三文章中在所述第三
單詞之前以及之后的所述預定范圍內出現的單詞的種類和出現個數;
基于所述第一文本語料庫和所述第二文本語料庫中的單詞串的排列,通過對所述第一
單詞分配在預定維度的向量空間中表示所述第一單詞的語義的第一向量,并對所述第二單
詞分配在所述向量空間中表示所述第二單詞的語義的第二向量,進行學習;
對所述第一向量以與所述第一單詞相關聯的方式進行存儲,對在所述向量空間中與所
述第一向量相距預定以上的距離的所述第二向量以與所述第二單詞相關聯的方式進行存
儲。
2.根據權利要求1所述的方法,
所述第二文本語料庫包含所述第三單詞和第四單詞,所述第四單詞是在自然語言的文
本數據中不出現的人為創造的單詞,
在所述第三文本數據中,所述第三單詞之前以及之后的所述預定范圍內所包含的單詞
是所述第四單詞。
3.根據權利要求1所述的方法,
所述第一文本數據和所述第二文本數據由第一語言的單詞構成,
在所述第三文本數據中,所述第三單詞是所述第一語言的單詞,所述第三單詞之前以
及之后的所述預定范圍內所包含的單詞是與所述第一語言不同的第二語言的單詞。
4.根據權利要求1所述的方法,
所述第二單詞是與所述第一單詞相對的反義詞。
5.根據權利要求1所述的方法,
所述第二單詞是具有與所述第一單詞相同的語義、且程度與該第一單詞不同的單詞。
6.根據權利要求1所述的方法,
所述第二單詞是屬于與所述第一單詞相同的概念、且屬性與該第一單詞不同的單詞。
7.根據權利要求1所述的方法,
所述學習使用神經網絡來進行。
8.根據權利要求1所述的方法,
所述學習使用潛在語義索引來進行。
9.根據權利要求1所述的方法,
所述學習使用概率語義索引來進行。
10.根據權利要求1所述的方法,
所述預定維度的向量空間將在所述第一文本語料庫和所述第二文本語料庫中出現的
不同詞的數量作為維數。
11.根據權利要求1所述的方法,
所述第一文本語料庫包含在操作設備的指示中使用的自然語言的文本數據,
所述第三單詞是與所述設備的操作內容有關的單詞。
12.根據權利要求1所述的方法,
所述第一文本語料庫包含醫療診斷中在患者癥狀說明中使用的自然語言的文本數據,
所述第三單詞是與身體的狀態有關的單詞。
13.根據權利要求1所述的方法,
所述第一文本語料庫包含醫療診斷中在癥狀說明或對該癥狀的處置中使用的自然語
言的文本數據,
所述第三單詞是與身體的部位有關的單詞。
14.根據權利要求1所述的方法,
所述第一文本語料庫包含醫療診斷中在對癥狀的處置的說明中使用的自然語言的文
本數據,
所述第三單詞是與處置內容有關的單詞。
15.一種語義信息生成裝置,包括:
取得部,其取得第一文本語料庫和第二文本語料庫,所述第一文本語料庫包含第一文
本數據和第二文本數據,所述第一文本數據包含第一單詞、且是用自然語言來記述的第一
文章的文本數據,所述第二文本數據包含應與所述第一單詞區別語義的第二單詞、且是第
二單詞分布與第一單詞分布相似的第二文章的文本數據,所述第二單詞分布表示所述第二
文章中在所述第二單詞之前以及之后的預定范圍內出現的單詞的種類和出現個數,所述第
一單詞分布表示所述第一文章中在所述第一單詞之前以及之后的所述預定范圍內出現的
單詞的種類和出現個數,所述第二文本語料庫包含第三文本數據,所述第三文本數據包含
作為與所述第一單詞和所述第二單詞中的至少一方相同的單詞的第三單詞、且是第三單詞
分布與所述第一單詞分布不相似的第三文章的文本數據,所述第三單詞分布表示所述第三
文章中在所述第三單詞之前以及之后的所述預定范圍內出現的單詞的種類和出現個數;
學習部,其基于所述第一文本語料庫和所述第二文本語料庫中的單詞串的排列來進行
以下學習:對所述第一單詞分配在預定維度的向量空間中表示所述第一單詞的語義的第一
向量,對所述第二單詞分配在所述向量空間中表示所述第二單詞的語義的第二向量;以及
管理部,其對所述第一向量以與所述第一單詞相關聯的方式進行存儲,對在所述向量
空間中與所述第一向量相距預定以上的距離的所述第二向量以與所述第二單詞相關聯的
方式進行存儲。

關 鍵 詞:
語義 信息 生成 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:語義信息生成方法和語義信息生成裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100813.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图