• / 16
  • 下載費用:30 金幣  

多媒體播放器中的多媒體文件存儲方法和裝置.pdf

摘要
申請專利號:

CN201510350659.4

申請日:

2015.06.19

公開號:

CN106257439A

公開日:

2016.12.28

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):G06F 17/27申請日:20150619|||公開
IPC分類號: G06F17/27; G06F17/30; G10L15/26 主分類號: G06F17/27
申請人: TCL集團股份有限公司
發明人: 藍琪; 鄧益群
地址: 516006 廣東省惠州市仲愷高新技術開發區十九號小區
優先權:
專利代理機構: 深圳中一專利商標事務所 44237 代理人: 張全文
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201510350659.4

授權公告號:

|||

法律狀態公告日:

2017.01.25|||2016.12.28

法律狀態類型:

實質審查的生效|||公開

摘要

本發明提供一種多媒體播放器中的多媒體文件存儲方法和裝置,該方法包括獲取針對多媒體播放器中的多媒體文件輸入的語音信息;對所述語音信息進行語音識別,將所述語音信息識別成對應的文字信息;將所述文字信息與所述多媒體文件進行關聯存儲。本發明可以減少多媒體文件存儲過程中對多媒體播放器的文字輸入設備的使用頻率,進而提高了多媒體文件的存儲效率,另外由于將語音信息識別成文字信息,并將文字信息與多媒體文件進行關聯存儲,從而利用與多媒體信息關聯存儲的文字信息可以對多媒體文件進行快速、高效、準確的定位和檢索。

權利要求書

1.一種多媒體播放器中的多媒體文件存儲方法,其特征在于,所述方法
包括:
獲取針對多媒體播放器中的多媒體文件輸入的語音信息;
對所述語音信息進行語音識別,將所述語音信息識別成對應的文字信息;
將所述文字信息與所述多媒體文件進行關聯存儲。
2.根據權利要求1所述的方法,其特征在于,在所述將所述文字信息與
所述多媒體文件進行關聯存儲之前,所述方法還包括:
對所述文字信息進行語義拆分,從所述文字信息中提取關鍵詞;
所述將所述文字信息與所述音視頻文件進行關聯存儲具體為:
將所述關鍵詞與所述多媒體文件進行關聯存儲。
3.根據權利要求1所述的方法,其特征在于,在所述獲取針對多媒體播
放器中的多媒體文件輸入的語音信息之前,所述方法還包括:
通過多媒體播放器的多媒體采集設備錄制多媒體片段;
通過多媒體播放器中的預設算法對錄制的多媒體片段進行去噪聲和增益
調整處理;
將處理后的多媒體片段存儲成多媒體播放器中的音視頻文件。
4.根據權利要求3所述的方法,其特征在于,所述通過多媒體播放器中
的預設算法對錄制的多媒體片段進行去噪聲和增益調整處理具體包括:
對錄制的多媒體片段進行去噪聲處理;
采用多媒體播放器中預設的回聲抑制算法對去噪處理后的多媒體片段進
行回聲抑制處理;
對回聲抑制處理后的多媒體片段進行增益調整。
5.根據權利要求4所述的方法,其特征在于,所述對錄制的多媒體片段
進行去噪聲具體包括:
將錄制的多媒體片段的頻譜與錄制的環境背景噪聲的頻譜相減,其中所
述環境背景噪聲的頻譜為在錄制多媒體片段時錄制的環境背景噪聲的頻譜,
或者當在錄制多媒體片段時未錄制環境背景噪聲時,統計錄制的多媒體片段
的幅值,將幅值低于預設幅值閾值的多媒體片段的平均頻譜作為環境背景噪
聲的頻譜;
統計與環境背景噪聲的頻譜相減后的多媒體片段的頻率,去除該多媒體
片段中頻率過高以及頻率過低的異常頻段。
6.根據權利要求4所述的方法,其特征在于,所述對回聲抑制處理后的
多媒體片段進行增益調整具體包括:
統計環境背景噪聲的幅值,所述環境背景噪聲的幅值為在錄制多媒體片
段時錄制的環境背景噪聲的,或者為錄制的多媒體片段中幅值低于預設幅值
閾值的多媒體片段的平均幅值;
當錄制的多媒體片段的幅值遠大于環境背景噪聲的幅值時,降低錄制的
多媒體片段的幅值;當錄制的多媒體片段的幅值遠小于環境背景噪聲的幅值
時,提高錄制的多媒體片段的幅值。
7.根據權利要求1所述的方法,其特征在于,所述獲取針對多媒體播放
器中的多媒體文件輸入的語音具體包括:
通過多媒體播放器中的多媒體采集設備采集針對多媒體播放器中的多媒
體文件輸入的語音信息;和/或,
從多媒體播放器中的多媒體文件中提取語音信息。
8.根據權利要求7所述的方法,其特征在于,所述通過多媒體播放器中
的多媒體采集設備采集針對多媒體播放器中的多媒體文件輸入的語音信息具
體包括:
通過多媒體播放器中的多媒體采集設備采集至少一段針對多媒體播放器
中的多媒體文件輸入的語音片段,將所述至少一段語音片段組合成針對多媒
體播放器中的多媒體文件輸入的語音信息,所述語音信息包括主題部分和標
題部分。
9.根據權利要求7所述的方法,其特征在于,從多媒體播放器中的多媒
體文件中提取語音信息具體包括:
按照預設的時間間隔從多媒體文件中截取預設長度的語音片段;
將截取的語音片段的頻率與預先存儲的噪聲語音庫中的噪聲的頻率進行
比對,去除截取的語音片段中的噪聲部分;
在剩余的語音片段的附近位置截取固定長度的語音片段,將截取到的固
定長度的語音片段組合成針對音視頻播放器中的音視頻文件輸入的語音信
息。
10.一種多媒體播放器中的多媒體文件存儲裝置,其特征在于,所述裝
置包括:
語音信息獲取單元,用于獲取針對多媒體播放器中的多媒體文件輸入的
語音信息;
語音識別單元,用于對所述語音信息進行語音識別,將所述語音信息識
別成對應的文字信息;
文件存儲單元,用于將所述文字信息與所述多媒體文件進行關聯存儲。
11.根據權利要求10所述的裝置,其特征在于,所述裝置還包括:
關鍵詞提取單元,用于對所述語音識別單元識別得到的所述文字信息進
行語義拆分,從所述文字信息中提取關鍵詞;
所述文件存儲單元將所述關鍵詞與所述多媒體文件進行關聯存儲。
12.根據權利要求10所述的裝置,其特征在于,所述語音信息獲取單元
具體包括:
語音信息采集模塊,用于通過多媒體播放器中的多媒體采集設備采集針
對多媒體播放器中的多媒體文件輸入的語音信息;和/或,
語音信息提取模塊,用于從多媒體播放器中的多媒體文件中提取語音信
息。
13.根據權利要求12所述的裝置,其特征在于,
所述語音信息采集模塊具體用于通過多媒體播放器中的多媒體采集設備
采集至少一段針對多媒體播放器中的多媒體文件輸入的語音片段,將所述至
少一段語音片段組合成針對多媒體播放器中的多媒體文件輸入的語音信息,
所述語音信息包括主題部分和標題部分;
所述語音信息提取模塊具體用于按照預設的時間間隔從多媒體文件中截
取預設長度的語音片段,將截取的語音片段的頻率與預先存儲的噪聲語音庫
中的噪聲的頻率進行比對,去除截取的語音片段中的噪聲部分,在剩余的語
音片段的附近位置截取固定長度的語音片段,將截取到的固定長度的語音片
段組合成針對音視頻播放器中的音視頻文件輸入的語音信息。

說明書

多媒體播放器中的多媒體文件存儲方法和裝置

技術領域

本發明涉及家電技術領域,更具體地說,涉及多媒體播放器中的多媒體
文件存儲方法和裝置。

背景技術

目前,隨著科技的進步,智能設備越來越多,功能也越來越強大。例如
各種多媒體播放器(如電視、手機、相機等)不僅能夠接入互聯網,實現上
網沖浪,獲取各種網絡資源;同時強大的多媒體功能讓其成為人們制作多媒
體素材的工具,尤其是多媒體播放器中內置有多媒體采集設備(如麥克風等),
給人們帶來了極大的便利。人們可以隨時隨地用多媒體播放器中內置的多媒
體采集設備進行拍照、錄像、錄音等來記錄重要的片段,成為生活和工作的
一部分。但是隨著多媒體播放器采集的多媒體信息的數量的增多,如何快速、
準確、高效的定位或檢索到用戶需要的多媒體信息已經成為目前急需解決的
問題。

尤其隨著多媒體播放器,如電視的智能化發展,智能電視不僅能夠接入
互聯網,實現上網沖浪,獲取各種網絡資源;還將成為家庭娛樂中心,人們
可以方便的在電視上進行K歌、聚會、共享親友視頻、安防監控、留言等,
這些功能的普及將使得電視錄制的各種多媒體文件,如音視頻文件的數量巨
大,但是在電視上對數量巨大的多媒體文件進行管理時,由于電視遙控器操
作較為復雜繁瑣,交互性較差,因此受到電視的文字輸入設備的限制,導致
對電視等多媒體播放器中的多媒體文件進行存儲管理時存在效率低的問題。

發明內容

有鑒于此,本發明提供了一種多媒體播放器中的多媒體文件的存儲方法,
以解決現有的由于受多媒體播放器的輸入設備的限制而導致的對多媒體播放
器中的多媒體文件進行存儲管理時存在的效率低的問題。

第一方面,提供一種多媒體播放器中的多媒體文件的存儲方法,所述方
法包括:

獲取針對多媒體播放器中的多媒體文件輸入的語音信息;

對所述語音信息進行語音識別,將所述語音信息識別成對應的文字信息;

將所述文字信息與所述多媒體文件進行關聯存儲。

優選的,在所述將所述文字信息與所述多媒體文件進行關聯存儲之前,
所述方法還包括:

對所述文字信息進行語義拆分,從所述文字信息中提取關鍵詞;

所述將所述文字信息與所述音視頻文件進行關聯存儲具體為:

將所述關鍵詞與所述多媒體文件進行關聯存儲。

優選的,在所述獲取針對多媒體播放器中的多媒體文件輸入的語音信息
之前,所述方法還包括:

通過多媒體播放器的多媒體采集設備錄制多媒體片段;

通過多媒體播放器中的預設算法對錄制的多媒體片段進行去噪聲和增益
調整處理;

將處理后的多媒體片段存儲成多媒體播放器中的音視頻文件。

優選的,所述通過多媒體播放器中的預設算法對錄制的多媒體片段進行
去噪聲和增益調整處理具體包括:

對錄制的多媒體片段進行去噪聲處理;

采用多媒體播放器中預設的回聲抑制算法對去噪處理后的多媒體片段進
行回聲抑制處理;

對回聲抑制處理后的多媒體片段進行增益調整。

優選的,所述對錄制的多媒體片段進行去噪聲具體包括:

將錄制的多媒體片段的頻譜與錄制的環境背景噪聲的頻譜相減,其中所
述環境背景噪聲的頻譜為在錄制多媒體片段時錄制的環境背景噪聲的頻譜,
或者當在錄制多媒體片段時未錄制環境背景噪聲時,統計錄制的多媒體片段
的幅值,將幅值低于預設幅值閾值的多媒體片段的平均頻譜作為環境背景噪
聲的頻譜;

統計與環境背景噪聲的頻譜相減后的多媒體片段的頻率,去除該多媒體
片段中頻率過高以及頻率過低的異常頻段。

優選的,所述對回聲抑制處理后的多媒體片段進行增益調整具體包括:

統計環境背景噪聲的幅值,所述環境背景噪聲的幅值為在錄制多媒體片
段時錄制的環境背景噪聲的,或者為錄制的多媒體片段中幅值低于預設幅值
閾值的多媒體片段的平均幅值;

當錄制的多媒體片段的幅值遠大于環境背景噪聲的幅值時,降低錄制的
多媒體片段的幅值;當錄制的多媒體片段的幅值遠小于環境背景噪聲的幅值
時,提高錄制的多媒體片段的幅值。

優選的,所述獲取針對多媒體播放器中的多媒體文件輸入的語音具體包
括:

通過多媒體播放器中的多媒體采集設備采集針對多媒體播放器中的多媒
體文件輸入的語音信息;和/或,

從多媒體播放器中的多媒體文件中提取語音信息。

優選的,所述通過多媒體播放器中的多媒體采集設備采集針對多媒體播
放器中的多媒體文件輸入的語音信息具體包括:

通過多媒體播放器中的多媒體采集設備采集至少一段針對多媒體播放器
中的多媒體文件輸入的語音片段,將所述至少一段語音片段組合成針對多媒
體播放器中的多媒體文件輸入的語音信息,所述語音信息包括主題部分和標
題部分。

優選的,從多媒體播放器中的多媒體文件中提取語音信息具體包括:

按照預設的時間間隔從多媒體文件中截取預設長度的語音片段;

將截取的語音片段的頻率與預先存儲的噪聲語音庫中的噪聲的頻率進行
比對,去除截取的語音片段中的噪聲部分;

在剩余的語音片段的附近位置截取固定長度的語音片段,將截取到的固
定長度的語音片段組合成針對音視頻播放器中的音視頻文件輸入的語音信
息。

第二方面,提供一種多媒體播放器中的多媒體文件存儲裝置,所述裝置
包括:

語音信息獲取單元,用于獲取針對多媒體播放器中的多媒體文件輸入的
語音信息;

語音識別單元,用于對所述語音信息進行語音識別,將所述語音信息識
別成對應的文字信息;

文件存儲單元,用于將所述文字信息與所述多媒體文件進行關聯存儲。

優選的,所述裝置還包括:

關鍵詞提取單元,用于對所述語音識別單元識別得到的所述文字信息進
行語義拆分,從所述文字信息中提取關鍵詞;

所述文件存儲單元將所述關鍵詞與所述多媒體文件進行關聯存儲。

優選的,所述語音信息獲取單元具體包括:

語音信息采集模塊,用于通過多媒體播放器中的多媒體采集設備采集針
對多媒體播放器中的多媒體文件輸入的語音信息;和/或,

語音信息提取模塊,用于從多媒體播放器中的多媒體文件中提取語音信
息。

優選的,所述語音信息采集模塊具體用于通過多媒體播放器中的多媒體
采集設備采集至少一段針對多媒體播放器中的多媒體文件輸入的語音片段,
將所述至少一段語音片段組合成針對多媒體播放器中的多媒體文件輸入的語
音信息,所述語音信息包括主題部分和標題部分;

所述語音信息提取模塊具體用于按照預設的時間間隔從多媒體文件中截
取預設長度的語音片段,將截取的語音片段的頻率與預先存儲的噪聲語音庫
中的噪聲的頻率進行比對,去除截取的語音片段中的噪聲部分,在剩余的語
音片段的附近位置截取固定長度的語音片段,將截取到的固定長度的語音片
段組合成針對音視頻播放器中的音視頻文件輸入的語音信息。。

與現有技術相比,本發明所提供的技術方案具有以下優點:

本發明通過多媒體播放器中的音視頻采集設備采集針對多媒體播放器中
的多媒體文件輸入的語音信息,對該語音信息進行語音識別,以將該語音信
息識別成文字信息,將該文字信息與該多媒體文件進行關聯存儲,從而可以
減少多媒體文件存儲過程中對多媒體播放器的文字輸入設備的使用頻率,進
而提高了多媒體文件的存儲效率,另外由于將語音信息識別成文字信息,并
將文字信息與多媒體文件進行關聯存儲,從而利用與多媒體信息關聯存儲的
文字信息可以對多媒體文件進行快速、高效、準確的定位和檢索。

附圖說明

為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實
施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面
描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,
在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。

圖1為本發明第一實施例提供的多媒體播放器中的多媒體文件存儲方法
的實現流程圖;

圖2為本發明第二實施例提供的多媒體播放器中的多媒體文件存儲方法
的實現流程圖;

圖3為本發明第三實施例提供的多媒體播放器中的多媒體文件存儲方法
的實現流程圖;

圖4為本發明實施例提供的圖3中的S32的具體實現流程圖;

圖5為本發明實施例提供的多媒體播放器中的多媒體文件存儲裝置的結
構框圖。

具體實施方式

本發明提供了一種多媒體播放器中的多媒體文件的存儲方法,所述方法
包括:

獲取針對多媒體播放器中的多媒體文件輸入的語音信息;

對所述語音信息進行語音識別,將所述語音信息識別成對應的文字信息;

將所述文字信息與所述多媒體文件進行關聯存儲。

本發明還提供了一種多媒體播放器中的多媒體文件存儲裝置,所述裝置
包括:

語音信息獲取單元,用于獲取針對多媒體播放器中的多媒體文件輸入的
語音信息;

語音識別單元,用于對所述語音信息進行語音識別,將所述語音信息識
別成對應的文字信息;

文件存儲單元,用于將所述文字信息與所述多媒體文件進行關聯存儲。

以上是本發明的核心思想,為使本發明的上述目的、特征和優點能夠更
加明顯易懂,下面結合附圖對本發明的具體實施方式做詳細的說明。

在下面的描述中闡述了很多具體細節以便于充分理解本發明,但是本發
明還可以采用其他不同于在此描述的其它方式來實施,本領域技術人員可以
在不違背本發明內涵的情況下做類似應用,因此本發明不受下面公開的具體
實施例的限制。

其次,本發明結合示意圖進行詳細描述,在詳述本發明實施例時,為便
于說明,表示器件結構的剖面圖會不依一般比例作局部放大,而且所述示意
圖只是示例,其在此不應限制本發明保護的范圍。此外,在實際制作中應包
含長度、寬度及深度的三維空間尺寸。

下面通過幾個實施例詳細描述。

實施例一

圖1示出了本發明實施例提供的多媒體播放器中的多媒體文件的存儲方
法的實現流程,詳述如下:

S11,獲取針對多媒體播放器中的多媒體文件輸入的語音信息。

其中多媒體播放器可以為電視、手機等。多媒體播放器中的多媒體文件
為音頻文件、視頻文件、音視頻文件等。針對多媒體播放器中的多媒體文件
輸入的語音信息可以為語音信息或者包含語音信息的視頻信息等。該語音信
息可以包括一段語音片段,也可以包括兩段或者兩段以上的語音片段。

其中獲取語音信息的方式可以為現有技術提供的任意一種方式,也可以
為本發明實施例提供的如下兩種方式:

一種是通過多媒體播放器中的多媒體采集設備采集針對多媒體播放器中
的多媒體文件輸入的語音信息。其中多媒體采集設備包括但不限于音頻采集
器、視頻采集器、音視頻采集器等。其中音頻采集器包括麥克風等。

另一種是從多媒體播放器中的多媒體文件中提取語音信息。

具體的,通過多媒體播放器中的多媒體采集設備采集針對多媒體播放器
中的多媒體文件輸入的語音信息的具體過程如下:

通過多媒體播放器中的多媒體采集設備采集至少一段針對多媒體播放器
中的多媒體文件輸入的語音片段,將該至少一段語音片段組合成針對多媒體
播放器中的多媒體文件輸入的語音信息。優選的,該語音信息包括主題部分
和標題部分。

在本實施例中,當通過多媒體播放器中的多媒體采集設備采集一段針對
多媒體播放器中的多媒體文件輸入的語音片段時,該語音片段中包括主題部
分和標題部分,其中主題部分和標題部分之間具有一定長度的停頓時間。當
通過多媒體播放器中的多媒體采集設備采集兩段或者兩段以上針對多媒體播
放器中的多媒體文件輸入的語音片段時,至少一段語音片段包含主題部分,
至少另一段語音片段包含標題部分,此時,將采集到的兩段或者兩段以上針
對多媒體播放器中的多媒體文件輸入的語音片段組成針對多媒體播放器中的
多媒體文件輸入的語音信息。

例如在某種場景中(如寶寶5歲生日那天)在不同場合不同時刻分別錄
制并保存了多個不同的音視頻文件,此時,針對每個音視頻文件可以輸入一
段包含主題部分和標題部分的語音,或者針對每個音視頻文件輸入一段包含
主題部分的語音和一段包含標題部分的語音。比如針對錄制的反映寶寶生日
時的同學聚會的場景的音視頻文件,可以輸入一段包含主題為“寶寶5歲生
日”標題為“同學聚會”的語音,或者輸入一段包含主題為“寶寶5歲生日”
的語音和一段包含標題為“同學聚會”的語音。針對錄制的反映寶寶生日時
的生日禮物的場景的音視頻文件,可以輸入一段包含主題為“寶寶5歲生日”
標題為“生日禮物”的語音,或者輸入一段包含主題為“寶寶5歲生日”的
語音和一段包含標題為“生日禮物”的語音。針對錄制的反映寶寶生日時的
舞蹈表演的場景的音視頻文件,可以輸入一段包含主題為“寶寶5歲生日”
標題為“舞蹈表演”的語音,或者輸入一段包含主題為“寶寶5歲生日”的
語音和一段包含標題為“舞蹈表演”的語音。

具體的,從多媒體播放器中的多媒體文件中提取語音信息的具體過程如
下:

A1、按照預設的時間間隔從多媒體文件中截取預設長度的語音片段。

其中預設時間間隔和預設長度可以根據需要和不同場景進行設置,在此
不做任何限定。優選的,該預設長度越小越好。

A2、將截取的語音片段的頻率與預先存儲的噪聲語音庫中的噪聲的頻率
進行比對,去除截取的語音片段中的噪聲部分。

其中預先存儲的噪聲語音庫中存儲有環境背景噪聲,如汽車聲、狗叫聲、
喇叭聲等。在本實施例中,可以通過多媒體播放器的多媒體采集設備采集環
境背景噪聲,并將采集到的環境背景噪聲存儲至噪聲語音庫中。也可以直接
從其它設備,如通過網絡等下載環境背景噪聲,并將下載的環境背景噪聲存
儲至噪聲語音庫中。

優選的,可以對噪聲語音庫中的環境背景噪聲進行分類,如按照環境場
景分類,這樣,在將截取的語音片段的頻率與預先存儲的噪聲語音庫中的噪
聲的頻率進行比對時,可以先根據截取的語音片段的環境場景選擇噪聲語音
庫中的其中一類環境背景噪聲與截取的語音片段的頻率進行比對,從而加快
比對速度。

A3、在剩余的語音片段的附近位置截取固定長度的語音片段,將截取到
的固定長度的語音片段組合成針對音視頻播放器中的音視頻文件輸入的語音
信息。

具體的,在剩余的語音片段的附近位置是指在剩余的語音片段的前后預
設長度的位置。該預設長度可以根據音視頻文件所反映的場景進行設置,在
此不做任何限定。

在本發明另一實施例中,獲取針對多媒體播放器中的多媒體文件輸入的
語音信息的具體過程還可以如下所示:

B1,通過多媒體播放器中的多媒體采集設備采集針對多媒體播放器中的
多媒體文件輸入的語音信息,其具體過程如上所示。

B2,當在步驟B1中未采集到針對多媒體播放器中的多媒體文件輸入的語
音信息時,從多媒體播放器中的多媒體文件中提取語音信息。

在本實施例中,優先采集針對多媒體播放器中的多媒體文件輸入的語音
信息,如果未采集到該語音信息,如用戶未輸入該語音信息或者多媒體播放
器中的音頻采集設備損壞而未采集到該語音信息,才從多媒體播放器中的多
媒體文件中提取語音信息。

S12,對所述語音信息進行語音識別,將所述語音信息識別成對應的文字
信息。

在本實施例中,將S11中針對音視頻播放器中的音視頻文件輸入的語音
信息進行語音識別,將該語音信息識別成文字信息。其中語音識別的具體方
法可以采用現有技術提供的任意一種方式,還可以采用本發明實施例提供的
如下方式:

C1、多媒體播放器將該語音信息上傳至云服務器中;

C2、云服務器根據預設的語音識別算法對上傳的語音信息進行語音識別,
得到對應的文字信息;

其中語音識別算法可以采用現有技術提供的任意一種語音識別算法。由
于語音識別算法是現有技術,在此不再贅述。

C3、云服務器將語音識別得到的文字信息回傳至多媒體播放器。

S13、將該文字信息與多媒體文件進行關聯存儲。

具體的,當該語音信息中包含兩個或者兩個以上的語音片段時,云服務
器對該語音信息中包含的每個語音片段進行語音識別,得到與語音片段對應
的文字片段,并向多媒體播放器回傳針對每個語音片段識別得到的對應文字
片段,多媒體播放器將每個語音片段識別得到的對應文字片段組合成文字信
息。

在將該文字信息與多媒體文件進行關聯存儲時,可以直接將該文字信息
作為該多媒體文件的文件名,或者建立該多媒體文件與該文字信息之間的映
射關系。

在本實施例中,通過多媒體播放器中的音視頻采集設備采集針對多媒體
播放器中的多媒體文件輸入的語音信息,對該語音信息進行語音識別,以將
該語音信息識別成文字信息,將該文字信息與該多媒體文件進行關聯存儲,
從而可以減少多媒體文件存儲過程中對多媒體播放器的文字輸入設備的使用
頻率,進而提高了多媒體文件的存儲效率,另外由于將語音信息識別成文字
信息,并將文字信息與多媒體文件進行關聯存儲,從而利用與多媒體信息關
聯存儲的文字信息可以對多媒體文件進行快速、高效、準確的定位和檢索。

實施例二

圖2示出了本發明另一實施例提供的多媒體播放器中的多媒體文件的存
儲方法的實現流程,詳述如下:

S21,獲取針對多媒體播放器中的多媒體文件輸入的語音信息。其具體過
程如上述實施例一所示,在此不再贅述。

S22,對該語音信息進行語音識別,將該語音信息識別成文字信息。其具
體過程如上述實施例一所示,在此不再贅述。

S23,對該文字信息進行語義拆分,從該文字信息中提取關鍵詞。其具體
過程如下:

將該文字信息進行拆分,形成單詞以及詞組;

去除拆分形成的單詞以及詞組中的文字噪聲,將去除了文字噪聲的單詞
以及詞組的組合作為從該文字信息中提取出的關鍵詞。其中去除拆分形成的
單詞以及詞組中的文字噪聲的具體過程如下:

去除拆分形成的單詞以及詞組中不能組合成單詞的漢字噪聲;

統計單詞詞頻以及逆文檔詞頻,去除拆分形成的單詞以及詞組中單詞詞
頻和逆文檔詞頻均高的單詞。其中單詞詞頻是指該單詞在文字信息中出現的
頻率。逆文檔詞頻是指包含該單詞的語音文件占總語音文件個數的比值。具
體如下:

單詞詞頻:tf=n逆文檔詞頻:

其中n代表單詞在語音信息中出現的次數,m代表語音信息包含的語音
片段的個數。如果單詞詞頻tf和逆文檔詞頻idf的數值都大,則表示該單詞是
一個非關鍵詞的可能性非常大,如常用的結構助詞:的等。

S24,將該關鍵詞與多媒體文件進行關聯存儲。

在將該關鍵詞與多媒體文件進行關聯存儲時,可以直接將該關鍵詞作為
該多媒體文件的文件名,或者建立該多媒體文件與該關鍵詞之間的映射關系。

在本實施例中,通過從語音信息識別得到的文字信息中提取關鍵詞,將
該關鍵詞與多媒體文件進行關聯存儲,從而使得存儲的信息量少而簡潔,進
一步提高了多媒體播放器中多媒體文件的存儲效率,同時更有利于多媒體文
件的定位和檢索。

實施例三

圖3示出了本發明另一實施例提供的多媒體播放器中的多媒體文件的存
儲方法的實現流程,該方法是在上述的實施例一或者二的基礎上,增加了錄
制多媒體播放器中的多媒體文件的步驟,其中錄制多媒體播放器中的多媒體
文件的具體過程如圖3所示,詳述如下:

S31,通過多媒體播放器的多媒體采集設備錄制多媒體片段。

其中多媒體采集設備包括但不限于音頻采集器、視頻采集器、音視頻采
集器等。其中音頻采集器包括麥克風等。

在本發明另一實施例中,在通過多媒體播放器的多媒體采集設備錄制多
媒體片段的同時,可以選擇性的錄制環境背景噪聲,并將環境背景噪聲存儲
至噪聲語音庫中。

S32,通過多媒體播放器中的預設算法對錄制的多媒體片段進行去噪聲和
增益調整處理。

其中通過多媒體播放器中的預設算法對錄制的多媒體片段進行去噪聲和
增益調整處理的具體過程如圖4所示,詳述如下:

S321,對錄制的多媒體片段進行去噪聲處理。其中對錄制的多媒體片段
進行去噪聲處理的具體過程如下:

D1、將錄制的多媒體片段的頻譜與錄制的環境背景噪聲的頻譜相減,其
中環境背景噪聲的頻譜為在錄制多媒體片段時錄制的環境背景噪聲的頻譜,
或者當在錄制多媒體片段時未錄制環境背景噪聲時,統計錄制的多媒體片段
的幅值,將幅值低于預設幅值閾值的多媒體片段的平均頻譜作為環境背景噪
聲的頻譜。

D2、統計與環境背景噪聲的頻譜相減后的多媒體片段的頻率,去除該多
媒體片段中頻率過高以及頻率過低的異常頻段。

S322,采用多媒體播放器中預設的回聲抑制算法對去噪處理后的多媒體
片段進行回聲抑制處理。

其中回聲抑制算法采用歸一化的最小均方算法(NLMS),具體表述為:

<mrow> <msub> <mi>y</mi> <mi>k</mi> </msub> <mo>=</mo> <msub> <mi>W</mi> <mi>K</mi> </msub> <msubsup> <mi>X</mi> <mi>K</mi> <mi>T</mi> </msubsup> </mrow>

ek=dK-yk

Wk+1=WK+2uekXK/PK(x)

其中:XK代表輸入信號向量,T代表轉置,WK代表權向量,yk代表NLMS
濾波器處理過后的輸出信號,ek代表濾波器期望誤差,dK代表濾波器期待響
應,u代表迭代步長,PK(x)代表輸入信號的能量估計。

Wk+1=WK+2uekXK/δ+PK(x)

其中δ是一個很小的正數,可以避免信號輸入過小產生的數值計算問題。

<mrow> <msub> <mi>P</mi> <mi>K</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>a</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>K</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mi>ax</mi> <mi>k</mi> <mn>2</mn> </msubsup> </mrow>

其中a是一個0-1之間的常數。

最終經過多次迭代得到最終的輸出信號yk。

S323,對回聲抑制處理后的多媒體片段進行增益調整。其具體過程如下:

統計環境背景噪聲的幅值,該環境背景噪聲的幅值可以為在錄制多媒體
片段時錄制的環境背景噪聲的,或者為錄制的多媒體片段中幅值低于預設幅
值閾值的多媒體片段的平均幅值。

當錄制的多媒體片段的幅值遠大于環境背景噪聲的幅值時,降低錄制的
多媒體片段的幅值;當錄制的多媒體片段的幅值遠小于環境背景噪聲的幅值
時,提高錄制的多媒體片段的幅值。這樣,可以有效的提高錄制的多媒體片
段的質量。

S33,將處理后的多媒體片段存儲成多媒體播放器中的音視頻文件。

實施例四

圖5示出了本發明實施例提供的多媒體播放器中的多媒體文件存儲裝置
的結構框圖,該多媒體播放器中的多媒體文件存儲裝置可以是內置于多媒體
播放器中的軟件單元、硬件單元或者軟硬件相結合的單元,或者作為獨立的
掛件集成到多媒體播放器或者多媒體播放器的應用系統中。該多媒體播放器
中的多媒體文件存儲裝置包括語音信息獲取單元51,語音識別單元52以及文
件存儲單元53。其中:

語音信息獲取單元51獲取針對多媒體播放器中的多媒體文件輸入的語音
信息。

其中多媒體播放器可以為電視、手機等。多媒體播放器中的多媒體文件
為音頻文件、視頻文件、音視頻文件等。針對多媒體播放器中的多媒體文件
輸入的語音信息可以為語音信息或者包含語音信息的視頻信息等。該語音信
息可以包括一段語音片段,也可以包括兩段或者兩段以上的語音片段。

具體的,所述語音信息獲取單元51包括語音信息采集模塊511和/或語音
信息提取模塊512。其中:

語音信息采集模塊511通過多媒體播放器中的多媒體采集設備采集針對
多媒體播放器中的多媒體文件輸入的語音信息。

具體的,所述語音信息采集模塊511具體用于通過多媒體播放器中的多
媒體采集設備采集至少一段針對多媒體播放器中的多媒體文件輸入的語音片
段,將所述至少一段語音片段組合成針對多媒體播放器中的多媒體文件輸入
的語音信息,所述語音信息包括主題部分和標題部分。

語音信息提取模塊512從多媒體播放器中的多媒體文件中提取語音信息。

具體的,所述語音信息提取模塊512具體用于按照預設的時間間隔從多
媒體文件中截取預設長度的語音片段,將截取的語音片段的頻率與預先存儲
的噪聲語音庫中的噪聲的頻率進行比對,去除截取的語音片段中的噪聲部分,
在剩余的語音片段的附近位置截取固定長度的語音片段,將截取到的固定長
度的語音片段組合成針對音視頻播放器中的音視頻文件輸入的語音信息。

語音識別單元52對所述語音信息進行語音識別,將所述語音信息識別成
對應的文字信息。

其中語音識別單元52將語音信息上傳至云服務器,云服務器根據預設的
語音識別算法對上傳的語音信息進行語音識別,得到對應的文字信息,云服
務器將語音識別得到的文字信息回傳至語音識別單元52。

文件存儲單元53將所述文字信息與所述多媒體文件進行關聯存儲。

在將該文字信息與多媒體文件進行關聯存儲時,可以直接將該文字信息
作為該多媒體文件的文件名,或者建立該多媒體文件與該文字信息之間的映
射關系。

在本發明另一實施例中,該裝置還包括關鍵詞提取單元54。該關鍵詞提
取單元54對所述語音識別單元52識別得到的所述文字信息進行語義拆分,
從所述文字信息中提取關鍵詞,此時所述文件存儲單元53將所述關鍵詞與所
述多媒體文件進行關聯存儲。

具體的,該關鍵詞提取單元54將該文字信息進行拆分,形成單詞以及詞
組;

去除拆分形成的單詞以及詞組中的文字噪聲,將去除了文字噪聲的單詞
以及詞組的組合作為從該文字信息中提取出的關鍵詞。其中去除拆分形成的
單詞以及詞組中的文字噪聲的具體過程如下:

去除拆分形成的單詞以及詞組中不能組合成單詞的漢字噪聲;

統計單詞詞頻以及逆文檔詞頻,去除拆分形成的單詞以及詞組中單詞詞
頻和逆文檔詞頻均高的單詞。

在本發明另一實施例中,該裝置還包括多媒體文件錄制單元55。該多媒
體文件錄制單元55通過多媒體播放器的多媒體采集設備錄制多媒體片段,通
過多媒體播放器中的預設算法對錄制的多媒體片段進行去噪聲和增益調整處
理,將處理后的多媒體片段存儲成多媒體播放器中的音視頻文件。

具體的,該多媒體文件錄制單元55包括去噪聲處理模塊551、回聲抑制
模塊552以及增益調整模塊553。其中:

去噪聲處理模塊551對錄制的多媒體片段進行去噪聲處理。其具體過程
如下:

將錄制的多媒體片段的頻譜與錄制的環境背景噪聲的頻譜相減,其中所
述環境背景噪聲的頻譜為在錄制多媒體片段時錄制的環境背景噪聲的頻譜,
或者當在錄制多媒體片段時未錄制環境背景噪聲時,統計錄制的多媒體片段
的幅值,將幅值低于預設幅值閾值的多媒體片段的平均頻譜作為環境背景噪
聲的頻譜;

統計與環境背景噪聲的頻譜相減后的多媒體片段的頻率,去除該多媒體
片段中頻率過高以及頻率過低的異常頻段。

回聲抑制模塊552采用多媒體播放器中預設的回聲抑制算法對去噪處理
后的多媒體片段進行回聲抑制處理。其具體過程如上述方法所示,在此不再
贅述。

增益調整模塊553對回聲抑制處理后的多媒體片段進行增益調整。其具
體過程如下:

統計環境背景噪聲的幅值,所述環境背景噪聲的幅值為在錄制多媒體片
段時錄制的環境背景噪聲的,或者為錄制的多媒體片段中幅值低于預設幅值
閾值的多媒體片段的平均幅值;

當錄制的多媒體片段的幅值遠大于環境背景噪聲的幅值時,降低錄制的
多媒體片段的幅值;當錄制的多媒體片段的幅值遠小于環境背景噪聲的幅值
時,提高錄制的多媒體片段的幅值。

以上所述僅為本發明的優選實施例,并非因此限制本發明的專利范圍,
凡是利用本發明說明書及附圖內容所作的等效結構或者直接、間接運用在其
他相關的技術領域,均視為包括在本發明的專利保護范圍內。

關 鍵 詞:
多媒體 播放 中的 文件 存儲 方法 裝置
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:多媒體播放器中的多媒體文件存儲方法和裝置.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100798.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图