• / 9
  • 下載費用:30 金幣  

音頻翻譯多語言文字處理方法和系統.pdf

摘要
申請專利號:

CN201610647853.3

申請日:

2016.08.09

公開號:

CN106303695A

公開日:

2017.01.04

當前法律狀態:

實審

有效性:

審中

法律詳情: 實質審查的生效IPC(主分類):H04N 21/4402申請日:20160809|||公開
IPC分類號: H04N21/4402(2011.01)I; H04N21/488(2011.01)I; H04N21/439(2011.01)I; G06F17/28 主分類號: H04N21/4402
申請人: 北京東方嘉禾文化發展股份有限公司
發明人: 馬士華
地址: 100007 北京市東城區藏經館胡同17號嘉城印象B區3層
優先權:
專利代理機構: 北京潤文專利代理事務所(普通合伙) 11317 代理人: 丁繼恩
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201610647853.3

授權公告號:

|||

法律狀態公告日:

2017.02.01|||2017.01.04

法律狀態類型:

實質審查的生效|||公開

摘要

本發明提供了一種音頻翻譯為多語言文字處理方法和系統,包括如下步驟:分析語音音頻文件,根據用戶語音的強弱程度產生多個波形文件;根據每個波形文件的波形特征確定多個語音的開始和結束,生成多個第一格式化處理結果,得到多個第一語音音頻段;對每個第一語音音頻段利用語音識別軟件進行語音到文字的轉換,并生成多個第二格式化的處理結果,得到多個第一語音音頻段對應的多個原始文字文件;將第一格式處理結果、原始文字文件根據序列號進行合并,得到相應的音頻的字幕文件。其實現快速大量甚至批量自動化地生成字幕。

權利要求書

1.一種音頻翻譯為多語言文字處理方法,包括如下步驟:
分析語音音頻文件,根據用戶語音的強弱程度產生多個波形文件;
根據每個波形文件的波形特征確定多個語音的開始和結束,生成多個第一格式處理結
果R1,得到多個語音音頻段R2;
對每個第一語音音頻段R2利用語音識別軟件進行語音到文字的轉換,并生成多個第二
格式處理結果R3,得到多個所述第一格式處理結果R1對應的多個原始文字文件;
將所述第一格式處理結果R1、所述第二格式處理結果R3根據序列號進行合并,得到相
應的音頻的字幕文件。
2.根據權利要求1所述的多語言文字處理方法,其特征在于:
所述分析語音音頻文件之前,還包括如下步驟:
提取視頻文件里的音頻,得到所述視頻文件的語音音頻文件;
所述所述第二格式處理結果R3、所述第一格式處理結果R1根據序列號進行合并之后,
還包括如下步驟:
將得到所述視頻/音頻對應的字幕文件,輸出到視頻/音頻中。
3.根據權利要求1或2所述的多語言文字處理方法,其特征在于:
在得到多個原始文字文件后,還包括如下步驟:
對原始文字文件進行轉換到其它語言的翻譯處理,生成第三格式處理結果R4,得到其
它多種語言的多個多語言文字文件;
所述合并還包括對所述多語言文字文件的合并。
4.根據權利要求3所述的多語言文字處理方法,其特征在于:
所述第一格式處理結果R1包括但不限于一個序列號,時間片的開始時間,時間片的結
束時間。
5.根據權利要求4所述的多語言文字處理方法,其特征在于:
所述第二格式處理結果R3包括第一格式處理結果R1中的序列號、以及該時間段的音頻
的原始文字結果。
6.根據權利要求3所述的多語言文字處理方法,其特征在于:
所述第三格式處理結果R4包括但不限于第一格式處理結果R1中的序列號、以及進行語
言翻譯處理后的翻譯結果。
7.根據權利要求3所述的多語言文字處理方法,其特征在于:
所述利用語音識別軟件進行語音到文字的轉換,包括如下步驟:
利用多種語音識別軟件分別識別,并選擇最優的語音識別作為原始文字文件。
8.一種音頻翻譯為多語言文字處理系統,其特征在于,包括:
波形提取模塊,用于分析語音音頻文件,根據用戶語音的強弱程度產生多個波形文件;
波形識別模塊,用于根據每個波形文件的波形特征確定多個語音的開始和結束,生成
多個第一格式處理結果R1,得到多個第一語音音頻段R2;
語音文字化生成模塊,用于對每個第一語音音頻段R2利用語音識別軟件進行語音到文
字的轉換,并生成多個第二格式處理結果R3,得到多個第一語音音頻段對應的多個原始文
字文件;
合并模塊,用于將原始語語言文字文件與其它多種語言文字文件合并,生成字幕文件,
輸出并合并到視頻中。
9.根據權利要求8所述的多語言文字處理系統,其特征在于:
還包括音頻提取模塊,用于提取視頻文件里的音頻,得到所述視頻文件的語音音頻文
件;
所述合并模塊,還包括輸出子模塊;
所述輸出子模塊,用于將生成的字幕文件,輸出并合并到視頻中。
10.根據權利要求8或9所述的多語言文字處理系統,其特征在于:
還包括翻譯模塊,用于根據多個原始語言文字文件利用翻譯軟件,生成第三格式處理
結果R4,得到其它多種語言文字文件;
所述合并模塊,還包括翻譯合并子模塊;
所述翻譯合并子模塊,用于將格式化處理結果R1、原始文字文件及所述多語言文字文
件的合并,得到多語言的字幕文件。

說明書

音頻翻譯多語言文字處理方法和系統

技術領域

本發明涉及一種視頻/音頻中的音頻處理技術,具體地涉及一種音頻翻譯為多語
言文字處理方法和系統。

背景技術

隨著電影和電視劇全球發行的普及,對多語言字幕的需求越來越強。傳統的字幕
語言翻譯是基于人工的,分為兩個階段:一,根據語音來進行字幕的打點,即分辨出一段語
音的開始時間和結束時間;二,然后根據上一步的打點,來翻譯出這個時間點對應的語言字
幕。但該方法采用純人工的方式,所以效率低下,無法快速大量地產生出字幕。

發明內容

為了解決上述技術問題,本發明提供了一種音頻翻譯為多語言文字處理方法和系
統,其在視頻或者音頻中,利用音頻的聲波來判斷并打點,然后將相應的音頻翻譯為多語
言,實現快速大量甚至批量自動化地生成字幕。

為實現上述目的,本發明提供了一種音頻翻譯為多語言文字處理方法,包括如下
步驟:

分析語音音頻文件,根據用戶語音的強弱程度產生多個波形文件;

根據每個波形文件的波形特征確定多個語音的開始和結束,生成多個第一格式處
理結果(以下簡稱R1),得到多個第一語音音頻段(以下簡稱R2);

對每個第一語音音頻段R2利用語音識別軟件進行語音到文字的轉換,并生成多個
第二格式處理結果(以下簡稱R3),得到多個第一語音音頻段對應的多個原始文字文件;

將第一格式處理結果R1和原始文字文件根據序列號進行合并,得到相應的音頻的
字幕文件。

為實現本發明目的,還提供一種音頻翻譯為多語言文字處理系統,包括:

波形提取模塊,用于分析語音音頻文件,根據用戶語音的強弱程度產生多個波形
文件;

波形識別模塊,用于根據每個波形文件的波形特征確定多個語音的開始和結束,
生成多個第一格式處理結果R1,得到多個第一語音音頻段R2。

語音文字化生成模塊,用于利用語音識別軟件對每個第一語音音頻段R2進行語音
到文字的轉換,并生成多個第二格式處理結果R3,得到多個第一語音音頻段R2對應的多個
原始文字文件;

合并模塊,用于將第一格式處理結果R1、原始文字文件根據序列號進行合并,生成
字幕文件,輸出并合并到視頻中。

采用本發明的音頻翻譯為多語言文字處理方法和系統,其在視頻或者音頻中,利
用音頻的聲波來判斷并打點,然后將相應的音頻翻譯為多語言,實現快速大量甚至批量自
動化地生成字幕。

附圖說明

圖1是本發明實施例的音頻翻譯為多語言文字處理方法流程圖;

圖2是本發明實施例的音頻翻譯為多語言文字處理系統示意圖。

具體實施方式

下面將參考附圖1~2對本發明中詳細的代表性實施例進行描述。

本發明實施例的音頻翻譯為多語言文字處理方法,如圖1所示,包括如下步驟:

步驟S100,提取視頻文件里的音頻,得到所述視頻文件的語音音頻文件。

步驟S200,分析所述語音音頻文件,根據用戶語音的強弱程度產生多個波形文件。

從語音音頻文件提取聲波文件,這個聲波文件展示了語音的強弱,其指出了聲音
的波形強弱。

分析所述語音音頻文件,根據用戶語音的強弱程度產生一個表示聲音強弱的波形
文件,此波形文件具有-128到+127音頻的波形特征來表示每一幀的聲音強弱關系。

步驟S300,根據每個波形文件的波形特征確定多個語音的開始和結束,生成多個
第一格式處理結果R1,得到多個第一語音音頻段R2。

作為一種可實施方式,可以根據聲音波形時間閥值來進行判斷語音的開始和結
束,例如聲音波形靜止時間超過10毫秒的,則表示該段語音開始或者結束。

從對波形文件基于聽覺感知特性,如基音和音高等,可以提取并用于聽覺感知的
檢索,也可以提取其他能夠區分不同聲音的聲學特征,形成特征矢量。比如,按時間片計算
一組聽覺感知特征:基音、響度、音調等。考慮到聲音波形隨時間的變化,最終的特征矢量將
是這些特征的統計值,例如用平均值、方差和自相關值表示。對聲音效果數據進行分類,如
動物聲、機器聲、樂器聲、語音和其他自然聲等。此結果生成第一格式處理結果R1。

該第一格式處理結果R1包括但不限于一個序列號,時間片的開始時間,時間片的
結束時間。

步驟S400,對每個第一語音音頻段R2利用語音識別軟件進行語音到文字的轉換,
并生成多個第二格式處理結果R3,得到多個第一語音音頻段R2對應的多個原始文字文件。

根據第一格式處理結果R1從語音音頻里切出該時間段的音頻文件R2,并通過語音
識別軟件進行語音到預設格式語種的原始文字結果的轉換并生成第二格式處理結果R3,該
第二格式處理結果R3包括但不限于第一格式處理結果中R1的序列號、以及該時間段的音頻
的原始文字結果。

所述的預設格式語種包括但不限于中文、英文、日文、阿拉伯文、法文、德文等中的
一種或者幾種。

原始文字是指該語音對應的語種的原始語言,可以預設或者由本發明進行識別而
設定,并自動全部翻譯為該原始語言。

所述的語音識別軟件包括但不限于OFFICE語音識別軟件、百度語音識別軟件、訊
飛語言等語音識別中的一種或者多種,較佳地,可以利用多種語音識別軟件分別識別,并選
擇最優的語音識別作為原始文字文件。

步驟S500,對原始文字文件進行轉換到其它語言的翻譯處理,生成第三格式處理
結果R4,得到其它多種語言的多個多語言文字文件。

對第二格式處理結果的文字使用現有的翻譯軟件進行轉換到設定的語言的翻譯
處理,生成第三格式處理結果R4。該第三格式處理結果R4包括但不限于第一格式處理結果
R1中的序列號、以及進行語言翻譯處理后的翻譯結果。

步驟S600,將第一格式處理結果R1、原始文字文件與多語言文字文件根據序列號
進行合并得到所述音頻的字幕文件,將得到所述視頻/音頻對應的字幕文件,輸出到視頻/
音頻中。

對第一格式處理結果R1、第二格式處理結果R3和第三格式處理結果R4進行根據序
列號合并,產生一個最終的翻譯的結果,產生的結果可以如下:



采用本發明的音頻翻譯為多語言文字處理方法和系統,其在視頻或者音頻中,利
用音頻的聲波來判斷并打點,然后將相應的音頻翻譯為多語言,實現快速大量甚至批量自
動化地生成字幕。

為了解決上述技術問題,本發明實施例還提供音頻翻譯為多語言文字處理系統,
如圖2所示,包括:

波形提取模塊20,用于分析語音音頻文件,根據用戶語音的強弱程度產生多個波
形文件;

波形識別模塊30,用于根據每個波形文件的波形特征確定多個語音的開始和結
束,生成多個第一格式處理結果R1,得到多個第一語音音頻段R2。

語音文字化生成模塊40,用于對每個第一語音音頻段利用語音識別軟件進行語音
到文字的轉換,并生成多個第二格式處理結果R3,得到多個第一語音音頻段對應的多個原
始文字文件;

合并模塊60,用于將原始語言文字文件與其它多種語言文字文件合并,生成字幕
文件,輸出并合并到視頻中。

作為一種可實施方式,所述多語言文字處理系統,還包括音頻提取模塊10,用于提
取視頻文件里的音頻,得到所述視頻文件的語音音頻文件;

所述合并模塊60,還包括輸出子模塊70;

所述輸出子模塊70,用于將生成的字幕文件,輸出并合并到視頻中。

作為一種可實施方式,所述多語言文字處理系統,還包括翻譯模塊50,用于根據多
個原始語言文字文件利用翻譯軟件生成其它多種語言文字文件;

所述合并模塊60,還包括翻譯合并子模塊80;

所述翻譯合并子模塊80,用于將第一格式處理結果R1、原始文字文件及所述多語
言文字文件的合并,得到多語言的字幕文件。

本發明實施例中的音頻翻譯為多語言文字處理系統,采用與音頻翻譯為多語言文
字處理方法基本相同的過程工作,得到基本相同的結果,取得基本相同的有益效果,因此,
在本發明實施例中,不再一一詳細描述。

本發明實施例的音頻翻譯為多語言文字處理方法和系統,其在視頻或者音頻中,
利用音頻的聲波來判斷并打點,然后將相應的音頻翻譯為多語言,實現快速大量甚至批量
自動化地生成字幕。

本發明的代表性實施例參照附圖得到了詳細的描述。這些詳細的描述僅僅給本領
域技術人員更進一步的相信內容,以用于實施本發明的優選方面,并且不會對本發明的范
圍進行限制。僅有權利要求用于確定本發明的保護范圍。因此,在前述詳細描述中的特征和
步驟的結合不是必要的用于在最寬廣的范圍內實施本發明,并且可替換地僅對本發明的特
別詳細描述的代表性實施例給出教導。此外,為了獲得本發明的附加有用實施例,在說明書
中給出教導的各種不同的特征可通過多種方式結合,然而這些方式沒有特別地被列舉出
來。

關 鍵 詞:
音頻 翻譯 語言 文字處理 方法 系統
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:音頻翻譯多語言文字處理方法和系統.pdf
鏈接地址:http://www.rgyfuv.icu/p-6100568.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图