• / 48
  • 下載費用:30 金幣  

用于故事閱讀的基于位置的增強.pdf

摘要
申請專利號:

CN201480004179.6

申請日:

2014.01.06

公開號:

CN104918670A

公開日:

2015.09.16

當前法律狀態:

授權

有效性:

有權

法律詳情: 授權|||實質審查的生效IPC(主分類):A63F 13/40申請日:20140106|||公開
IPC分類號: A63F13/40; A63F13/30; G09B5/06 主分類號: A63F13/40
申請人: 微軟技術許可有限責任公司
發明人: A.W.彼弗斯; J.C.唐; N.戈克; G.D.維諾利亞; K.I.奎恩; N.漢娜; S.A.龍博頓; K.A.蒂維森
地址: 美國華盛頓州
優先權: 13/735850 2013.01.07 US
專利代理機構: 中國專利代理(香港)有限公司72001 代理人: 李舒; 景軍平
PDF完整版下載: PDF下載
法律狀態
申請(專利)號:

CN201480004179.6

授權公告號:

||||||

法律狀態公告日:

2017.11.21|||2015.10.14|||2015.09.16

法律狀態類型:

授權|||實質審查的生效|||公開

摘要

各種實施例提供了其中可以從遠程位置體驗故事的交互式共享故事閱讀體驗。各種實施例使得能夠實現與故事閱讀體驗關聯的音頻和/或視頻的增強或修改。這可以包括在閱讀故事時讀者的話音、臉和/或與故事關聯的其他內容的增強和修改。

權利要求書

權利要求書
1.  一種計算機實現的方法,包括:
接收與電子故事的讀者關聯的音頻數據,所述電子故事與一個或多個遠程參與者共享;
查明電子故事內的位置;
響應于查明所述位置,至少增強音頻數據以便對讀者的話音變形;以及
使得所述一個或多個遠程參與者能夠消費增強的音頻數據。

2.  權利要求1的方法,其中所述查明使用語音識別而執行。

3.  權利要求1的方法,其中所述查明至少部分地使用觸摸輸入而執行。

4.  權利要求1的方法,進一步包括增強電子故事的視覺內容。

5.  權利要求1的方法,其中所述增強至少部分地基于與電子故事關聯的文件中所包括的元數據而執行。

6.  權利要求1的方法,其中所述查明通過查明讀者正在對其進行閱讀的頁面或段落而執行。

7.  一種計算設備,包括:
一個或多個處理器;
一個或多個計算機可讀存儲介質;
增強效果模塊,其體現在所述一個或多個計算機可讀存儲介質上,并且被配置成由所述一個或多個處理器執行以有效地實現方法,所述方法包括:
捕獲與電子故事關聯的姿態輸入,所述電子故事與一個或多個遠程參與者共享;
響應于捕獲所述姿態輸入,將所述姿態輸入映射為增強效果;
使用所述增強效果來增強電子故事的一個或多個屬性或特性;以及
使得所述一個或多個遠程參與者能夠消費增強的電子故事。

8.  權利要求7的計算設備,其中所述姿態輸入包括基于非觸摸的輸入。

9.  權利要求7的計算設備,其中所述姿態輸入包括基于觸摸的輸入。

10.  權利要求7的計算設備,其中所述增強包括增強電子故事的讀者的話音。

說明書

說明書用于故事閱讀的基于位置的增強
背景技術
遠程地閱讀故事(諸如通過計算機網絡)具有成為非常個人化的體驗的潛力。例如,出差的父母可以向他們的孩子讀他們的孩子最喜歡的睡前故事,以便不會錯過讓他們的孩子蓋好被子安睡。然而,迄今為止,當這被遠程地完成時,體驗受限于以下事實,即:故事就是所共享的全部,或者在最好情況下,如在對等呼叫中那樣,故事加上附加視頻就是所共享的全部。此外,共享體驗多半是單向的(從讀者到聽者),其中讀者與故事分離地傳達情感。
發明內容
本發明內容被提供來以簡化的形式引入概念的選取,這些概念在下面的具體實施方式中進一步加以描述。本發明內容并不預期標識要求保護的主題的關鍵特征或基本特征。
各種實施例提供了其中可以從遠程位置體驗故事的交互式共享故事閱讀體驗。各種實施例使得能夠增強或修改與故事閱讀體驗關聯的音頻和/或視頻。這可以包括在閱讀故事時增強和修改讀者的話音、臉部和/或與故事關聯的其他內容。
按照這種方式,兩個或者更多個遠程參與者可以與基于故事的共享交互式內容實時地通信和交互。可替換地或者附加地,基于故事的共享交互式內容可以被增強或修改,并且被記錄和/或存檔以供后續回放。
附圖說明
具體實施方式參照附圖進行描述。在圖中,附圖標記的最左邊的(一個或者多個)數字標識該附圖標記首次出現的附圖。在說明書的不同示例以及附圖中使用相同的附圖標記可以指示相似或相同的項目。
圖1為依照一個或多個實施例的示例實現方式中的環境的圖示。
圖2為依照一個或多個實施例的示例實現方式中的環境的圖示。
圖3為依照一個或多個實施例的示例增強效果模塊的圖示。
圖4圖示出依照一個或多個實施例的流程圖。
圖5圖示出依照一個或多個實施例的流程圖。
圖6圖示出依照一個或多個實施例的流程圖。
圖7圖示出依照一個或多個實施例的示例用戶界面。
圖8圖示出依照一個或多個實施例的示例用戶界面。
圖9圖示出依照一個或多個實施例的流程圖。
圖10圖示出依照一個或多個實施例的流程圖。
圖11圖示出依照一個或多個實施例的流程圖。
圖12圖示出依照一個或多個實施例的流程圖。
圖13圖示出依照一個或多個實施例的流程圖。
圖14圖示出依照一個或多個實施例的示例系統。
圖15圖示出依照一個或多個實施例的示例系統。
圖16圖示出一個或多個實施例的方面。
圖17圖示出一個或多個實施例的方面。
圖18圖示出一個或多個實施例的方面。
圖19圖示出一個或多個實施例的方面。
圖20圖示出依照一個或多個實施例的流程圖。
圖21圖示出可以被利用來實現本文描述的各種實施例的示例計算設備。
具體實施方式
綜述
各種實施例提供了其中可以從遠程位置體驗故事的交互式共享故事閱讀體驗。各種實施例使得能夠增強或修改與故事閱讀體驗關聯的音頻和/或視頻。這可以包括在閱讀故事時增強和修改讀者的話音、臉部和/或與故事關聯的其他內容。所描述的實施例可以與諸如稱為“電子書”的電子圖書之類的電子或數字內容有關地加以利用。電子書是一種包括文本、圖像或二者的數字形式的圖書長度的出版物,并且在計算機或其他電子設備上制作、通過計算機或其他電子設備公布并且可在計算機或其他電子設備上閱讀。電子書通常在專用電子書閱讀器或者通用平板計算機上閱讀。個人計算機和移動電話也可以用來閱讀電子書。
按照這種方式,兩個或更多個遠程參與者可以與基于故事的共享交互式內容實時地通信和交互。可替換地或者附加地,基于故事的共享交互式內容可以被增強或修改和/或存檔以便后續回放。在各種實施例中,參與者可以欣賞還包括用戶與故事內容的交互的共享視圖,例如,如果一個用戶觸摸圖片或者沿著內容中的詞語追蹤,那么那些動作可以對其他參與者可見。
在接下來的討論中,提供了題為“示例操作環境”的章節,并且其描述了其中可以采用一個或多個實施例的一種環境。在此之后,題為“示例增強效果模塊”的章節描述了依照一個或多個實施例的增強效果模塊。接下來,題為“用于分布式故事閱讀的語音修改”的章節描述了其中可以在閱讀故事的上下文中修改語音的各種實施例。在此之后,題為“使用暗示決定何時增強語音”的章節描述了依照一個或多個實施例可以用于語音增強的各種暗示。接下來,題為“使用觸摸決定何時增強語音”的章節描述了依照一個或多個實施例可以如何利用基于觸摸的輸入造成語音增強。在此之后,題為“使用用戶界面元素決定何時增強語音”的章節描述了依照一個或多個實施例可以如何使用各種用戶界面元素造成語音增強。接下來,題為“使用姿態來應用增強”的章節描述了依照一個或多個實施例可以如何在增強過程中利用各種姿態。在此之后,題為“使用故事內容來應用增強”的章節描述了依照一個或多個實施例可以如何在增強過程中使用特定故事的內容。接下來,題為“使用故事元數據來應用增強”的章節描述了依照一個或多個實施例可以如何在增強過程中利用與故事關聯的元數據。在此之后,題為“使用頁碼和其他故事結構來應用增強”的章節描述了依照一個或多個實施例可以如何在增強過程中利用頁碼和其他故事結構。接下來,題為“實現方式的示例和考慮因素”的章節描述了依照一個或多個實施例的各種實現方式的示例。在此之后,題為“捕獲共享的故事體驗以供后續共享”的章節描述了依照一個或多個實施例可以如何以實時以外的方式來共享故事。接下來,題為“媒體流操縱”的章節描述了依照一個或多個實施例可以如何利用增強效果操縱媒體流。在此之后,題為“示例使用場景”的章節描述了依照一個或多個實施例的各種使用場景。最后,題為“示例設備”的章節描述了可以被利用來實現一個或多個實施例的示例設備。
提供了下面要描述的各種實施例的綜述之后,現在考慮其中可以實現一個或多個實施例的一些示例操作環境。
示例操作環境
本文描述的各種實施例可以在各種各樣的不同環境中實現。圖1和圖2圖示出其中可以實現所述實施例的兩個示例環境。應當領會和理解的是,可以在不脫離要求保護的主題的精神和范圍的情況下利用其他環境。
圖1為在基于分組的網絡上實現的通信系統100的示意圖示,所述基于分組的網絡在這里通過互聯網形式的通信云110表示,其包括多個互連元件。應當領會的是,盡管參照通信系統100描述了各種實施例的方面,但是這些討論僅僅用于說明的目的,并且并非預期限制要求保護的主題的范圍。每個網絡元件連接到互聯網的其余部分,并且被配置成在互聯網上通過傳輸和接收互聯網協議(IP)分組形式的數據而與其他這樣的元件傳送數據。每個元件也具有在互聯網內對該元件定位的關聯IP地址,并且每個分組在其報頭中包括源和一個或多個目的地IP地址。圖1中所示的元件包括多個最終用戶終端102(a)-102(c)(諸如臺式或膝上型PC或者啟用互聯網的移動電話)、一個或多個服務器104(諸如基于互聯網的通信系統的對等服務器等等)以及到另一種類型的網絡108(諸如到傳統的公共交換電話網絡(PSTN)或者其他電路交換網絡,和/或到移動蜂窩網絡)的網關106。然而,當然,將領會的是,比那些明確示出的元件多得多的元件組成互聯網。這在圖1中通過通信云110示意性地表示,該通信云典型地包括許多其他的最終用戶終端、服務器和網關以及互聯網服務提供商(ISP)的路由器和互聯網骨干路由器。此外,圖1的系統也包括電子書的一個或多個源,其示例在下文中提供。
在該圖示和描述的實施例中,最終用戶終端102(a)-102(c)可以通過通信云使用任何適當的技術彼此通信以及與其他實體通信。因此,最終用戶終端可以通過通信云110和/或通過通信云110、網關106和網絡108使用例如互聯網協議語音通信(VoIP)與一個或多個實體通信。為了與另一個最終用戶終端通信,在發起的最終用戶終端上執行的客戶端獲取其上安裝另一個客戶端的終端的IP地址。這典型地使用地址查找表完成。
一些基于互聯網的通信系統由運營商管理,因為它們依賴于一個或多個集中式、運營商運行的服務器以用于進行地址查找(未示出)。在這種情況下,當一個客戶端要與另一個客戶端通信時,那么發起的客戶端聯系由系統運營商運行的集中式服務器以獲得被呼叫者的IP地址。
與這些運營商管理的系統形成對照的是,另一種類型的基于互聯網的通信系統稱為“對等”(P2P)系統。對等(P2P)系統典型地將責任從集中式運營商服務器轉移走并且轉移到最終用戶自身的終端中。這意味著對于地址查找的責任轉移到像被標記為102(a)-102(c)的終端那樣的最終用戶終端。每個最終用戶終端可以運行P2P客戶端應用,并且每個這樣的終端形成P2P系統的節點。P2P地址查找通過在最終用戶節點中的一些最終用戶節點之中分布IP地址數據庫而起作用。該數據庫是一種列表,其將所有在線或者最近在線用戶的用戶名映射到相關IP地址,使得給定用戶名就可以確定IP地址。
IP地址一旦已知,則允許用戶建立話音或視頻呼叫,或者發送IM聊天消息或文件傳遞等等。然而,附加地,也可以在客戶端本身需要自主地與另一個客戶端傳送信息時使用地址。
(一個或者多個)服務器104表示連接到通信系統100的一個或多個服務器,其示例在上文和下文中提供。例如,服務器104可以包括協同工作以實現相同功能性的一批服務器。可替換地或者附加地,服務器104可以包括多個獨立服務器,其被配置成提供根據其他服務器而專門化的功能性。如下文中更詳細地描述的,這些服務器可以用作用于電子書的知識庫,這些電子書典型地在可通過URL訪問的電子庫中維護。
在一個或多個實施例中,單獨的最終用戶終端102(a)-(c)包括電子書閱讀器形式的軟件或者使得能夠閱讀電子書的其他適當配置的應用,諸如web瀏覽器。最終用戶終端也包括增強效果模塊112,該模塊可以用來增強與閱讀在一個或多個其他遠程參與者之中共享的電子書有關的效果。此外,在至少一些實施例中,服務器104可以包括可以如上文和下文中所描述的而進行操作的增強效果模塊112。
在操作中,增強效果模塊112被配置成增強或修改與故事閱讀體驗關聯的音頻和/或視頻。這可以包括在閱讀故事時讀者的話音、臉部和/或與故事關聯的其他內容(例如故事的視覺內容)的增強和修改。
考慮了其中可以利用本發明原理的一個示例系統之后,現在考慮其中可以利用本發明原理的不同的示例系統。
圖2圖示出一種示例系統200,其總體上將(一個或者多個)服務器104和最終用戶終端102示為在其中多個設備通過中心計算設備互連的環境中實現。最終用戶終端包括如上文和下文中描述的增強效果模塊112。中心計算設備可以對所述多個設備是本地的,或者可以位于遠離所述多個設備的位置。在一個實施例中,中心計算設備是“云”服務器群,其包括通過網絡或互聯網或者其他裝置連接到所述多個設備的一個或多個服務器計算機。
在一個實施例中,該互連架構使得功能性能夠跨多個設備輸送以便向所述多個設備的用戶提供共同且無縫的體驗。所述多個設備中的每一個可以具有不同的物理要求和能力,并且中心計算設備使用使得能夠向所述設備輸送體驗的平臺,該平臺既適于該設備,也為所有設備共用。在一個實施例中,創建目標設備“類別”,并且使體驗適于一般設備類別。設備類別可以通過設備的物理特征或用途或者其他常見特性(例如CPU性能)限定。例如,如先前所描述的,最終用戶終端102可以以各種各樣的不同方式配置,例如供移動裝置202、計算機204和電視206使用。這些配置中的每一種具有總體上相應的屏幕尺寸,并且因此最終用戶終端102在該示例系統200中可以被配置成這些設備類別之一。例如,最終用戶終端102可以采取移動裝置202設備類別,其包括移動電話、音樂播放器、游戲設備等等。最終用戶終端102也可以采取計算機204設備類別,其包括個人計算機、膝上型計算機、上網本、平板計算機等等。電視206配置包括涉及休閑環境中的顯示的設備配置,例如電視、機頂盒、游戲控制臺等等。因此,本文描述的技術可以受最終用戶終端102的這些各種配置支持,并且不限于以下章節中描述的特定示例。
在一些實施例中,(一個或者多個)服務器104包括“云”功能性。在這里,云208被圖示為包括用于web服務212的平臺210。平臺210抽象化云208的硬件(例如服務器)和軟件資源的底層功能性,并且因此可以充當“云操作系統”。例如,平臺210可以抽象化將最終用戶終端102與其他計算設備連接的資源。平臺210也可以用來抽象化資源規模以便提供與遇到的對于經由平臺210實現的web服務212的需求相應的規模水平。也可以設想各種各樣的其他示例,諸如服務器群中的服務器負載平衡、對惡意方(例如垃圾郵件、病毒和其他惡意軟件)的防范等等。因此,云208作為涉及軟件和硬件資源的策略的部分而被包括,這些資源經由互聯網或者其他網絡是對于最終用戶終端102可用的。
可替換地或者附加地,服務器104包括如上文和下文中所描述的增強效果模塊112。在一些實施例中,平臺210和增強效果模塊112可以駐留在相同的一組服務器上,而在其他實施例中,它們駐留在分離的服務器上。在這里,增強效果模塊112被示為利用由云208提供的功能性以便與最終用戶終端102互連。
通常,本文描述的任何功能都可以使用軟件、固件、硬件(例如固定邏輯電路系統)、人工處理或者這些實現方式的組合實現。當在本文中使用時,術語“模塊”、“功能性”和“邏輯”通常表示軟件、固件、硬件或者其組合。在軟件實現方式的情況下,所述模塊、功能性或邏輯表示當在處理器(例如一個或多個CPU)上執行或者被處理器執行時執行所指定的任務的程序代碼。該程序代碼可以存儲在一個或多個計算機可讀存儲器設備中。下文中描述的特征是平臺獨立的,這意味著所述技術可以在具有各種各樣的處理器的各種各樣的商業計算平臺上實現。
描述了其中可以利用各種實施例的示例操作環境之后,現在考慮依照一個或多個實施例的示例增強效果模塊的討論。
示例增強效果模塊
圖3圖示出依照一個或多個實施例的示例增強效果模塊112。在該特定示例中,增強效果模塊112包括音頻增強模塊300、視頻增強模塊302和增強暗示模塊304。
在一個或多個實施例中,音頻增強模塊300被配置成使得能夠將音頻效果應用到被讀的故事的讀者的話音或者其他音頻方面,例如背景聲音效果。舉例而言且非限制性地,這樣的效果可以包括閱讀故事時的話音變形和/或閱讀故事時增強音頻故事內容。
在一個或多個實施例中,視頻增強模塊302被配置成使得能夠操縱與故事關聯的視頻。特別地,故事可以以具有其自身關聯內容的電子書的形式駐留。當閱讀故事時,可以將各種增強效果應用到故事的內容。例如,可以利用臉部識別技術捕獲讀者的臉部圖像,并且將捕獲的臉部圖像疊加到故事中的角色上。可替換地或者附加地,如下文中更詳細地描述的,可以對捕獲的圖像變形和/或轉描(rotoscope)。音頻增強模塊300和視頻增強模塊302可以單獨地或者一起使用。當一起使用時,電子故事可以同時讓其音頻和視頻(即視覺內容)增強。
在一個或多個實施例中,增強暗示模塊304被配置成使得能夠在閱讀故事時給予增強效果的暗示。增強暗示模塊304可以以各種各樣的不同方式執行其功能。例如,增強暗示模塊304可以使用在被讀的特定故事內查明讀者的位置的各種手段。通過知曉讀者的位置,可以在適當的時間觸發各種增強效果。舉例而言且非限制性地,查明讀者的位置的各種手段可以包括語音識別和跟蹤、諸如讀者使用其手指或者觸筆沿著被讀的文字進行跟隨之類的觸摸輸入、出現在故事內的觸發和/或允許選取各種增強效果的用戶界面元素、諸如由讀者提供以觸發增強效果的各種姿態之類的自然用戶界面(NUI)輸入、諸如應用與特定故事內出現的標點符號關聯的增強效果之類的內容驅動的機制、在故事內觸發某些增強效果的嵌入的標簽或元數據、使用頁碼觸發增強效果等等。
考慮了依照一個或多個實施例的示例增強效果模塊之后,現在考慮可以由音頻增強模塊300提供的語音修改的各種方面。
用于分布式故事閱讀的語音修改
在圖示和描述的實施例中,彼此遠離的一個或多個讀者可以閱讀交互式故事(諸如出現在電子或數字圖書中的故事),并且可以在閱讀故事時讓他們的語音被修改或變形。在至少一些實施例中,參與遠程閱讀交互式故事的讀者共享數字故事內容的共同視圖。該共同視圖可以且典型地在讀者的計算設備的顯示器上展現,讀者的計算設備諸如上面所描述的計算設備中的一個或多個計算設備。在這些實例中,讀者通過由視頻攝像機提供的視頻通信連接,該視頻攝像機至少捕獲每個讀者的臉部,使得可以向其他讀者顯示這些臉部。此外,麥克風捕獲每個讀者位置處的音頻,即讀者的話音。因此,在每個讀者的計算設備處感測的諸如視頻、音頻和/或與共享數字故事的交互之類的輸入可以與其他參與讀者共享。
語音或音頻變形指的是以各種方式操縱讀者或者呼叫參與者的話音,以便故意聽起來像別的某個人或者某個事物。在一個或多個實施例中,目的在于,這些操縱或變形應當以各種方式引人發笑和令人愉悅。例如,在閱讀電子故事期間,讀者的話音可以變形以便聽起來像花栗鼠、怪物或者故事中的某種其他類型的角色。可以利用任何適當類型的音頻變形軟件來實現預期的效果。一些音頻變形軟件被設計為操縱口頭話音,而其他軟件被設計為操縱人類歌唱的聲音。還有其他軟件可以應用寬范圍的一般和/或特定音頻效果。在至少一些實例中,音頻變形可以包括利用儀器增強用戶的話音或者甚至利用用于自動調整的音高校正來增強用戶的話音。換言之,當參與者在歌唱時,音樂增強可以作為背景音樂而添加。此外,如果歌唱者跑調,那么可以采用音高校正。音樂增強可以被配置成自動地跟隨歌唱者的話音,從而隨著歌唱者加速和減速而加速和減速。在音高校正場景中,首先可以確定歌唱者的音高。這可以利用音高跟蹤算法完成。接下來,可以修改音高以便匹配所查明的“正確”音高。這可以使用各種不同的音高偏移算法完成。
在一個或多個實施例中,變形軟件可以作為獨立的變形平臺而操作。可替換地或者附加地,變形軟件可以封裝成插件,并且隨后加載到適當配置的應用中。典型地,變形軟件包括影響例如變形效果的嚴重性的各種控制參數。而其他變形軟件可以通過諸如IP語音通信(VoIP)應用之類的適當配置的通信應用加載,使得呼叫參與者的音頻可以在VoIP呼叫期間被直接操縱。實現口頭話音操縱的一些示例軟件附件包括ClownFish、MorphVox和Voice Candy。
原則上,被利用來實現話音操縱或變形的根本信號處理技術是本領域技術人員公知且理解的。舉例而言且非限制性地,這些處理技術可以包括重疊-相加合成、音高同步重疊-相加、相位聲碼器(及其變型)、時域濾波、頻域濾波、遞歸延遲線處理、振幅(環形)調制、傳統(時域模擬模型)聲碼器技術、交叉合成、線性預測編碼等等。
如上面所指出的,本上下文中的話音操縱或變形的特定使用預期用于在讀者向遠程的某人讀共享故事時操縱該讀者的話音。使用的根本音頻信號處理算法取決于希望的特定效果。例如,為了對讀者的話音變形,使得它聽起來像花栗鼠,音高偏移算法(SOLA)將是一個適當的算法選擇,其中供應給該算法的控制參數將使其顯著地向上偏移讀者話音的音高。類似地,但是在向下方向上,可以利用控制參數實現讀者話音的低得多的音高,諸如仿效諸如Darth Vader之類的公知角色或者怪物的音高。
在本上下文中可以應用的其他效果示例包括男性到女性的變形、女性到男性的變形、夸大音高輪廓(歇斯底里效果、顫音效果、老婦人效果等等)、移除音高輪廓(機器人效果)、耳語(其中音高信息被噪聲源替代)以及其中將某個人的話音修改為聽起來像特定的其他人的所謂的話音轉換。
如上面所指出的,諸如音頻或話音變形之類的增強可以發生在不同的位置。例如,增強可以發生在發送者或者讀者的計算設備處、諸如服務器之類的中間計算設備處(例如,基于云的方法)和/或接收者的計算設備處。
關于發生在發送者或讀者的計算設備處的增強,考慮以下所述。當捕獲讀者的話音時,增強效果模塊112處理接收自關聯麥克風的音頻數據以便給予它某種類型的不同特性,其示例在上文中提供。然后,對增強的音頻數據編碼和壓縮,并且然后傳輸至服務器以便繼續轉發至一個或多個其他參與者,或者直接傳輸至一個或多個其他客戶端設備,諸如對等網絡中的那些設備。通過在讀者的計算設備上執行增強,可以以最少量的延遲向讀者提供關于其話音聽起來如何的反饋。在該實例中,讀者的體驗可以通過使用可以降低聲反饋的耳機或者其他音頻反饋控制機制而改進。
關于基于云的方法,考慮以下所述。基于云的/服務器的方法允許以下的可得到性,即:獨立于讀者設備或者聽者設備的約束的更多處理能力。在該方法中,可以將由讀者的計算設備產生的音頻數據發送至適當配置的服務器以便進一步處理。在該實例中,服務器包括如上所述的用于處理音頻數據的增強效果模塊112。在該場景中,在將音頻數據發送至服務器之前,可以壓縮或者不壓縮所述音頻數據。如果在發送至服務器之前壓縮音頻數據,那么服務器可以解壓縮所述音頻數據,使用增強效果模塊112處理它,對增強的音頻數據編碼和壓縮并且將其分發至其他參與者。如果以非壓縮格式將音頻數據發送至服務器,那么服務器可以使用增強效果模塊112處理它,對增強的音頻數據編碼和壓縮以便分發至其他參與者。
關于發生在接收者的計算設備處的增強,考慮以下所述。在該實例中,將讀者的音頻數據分發至其他參與者。當其他參與者的計算設備接收到音頻數據時,不管其是壓縮的或是未壓縮的,參與者的計算設備上的增強效果模塊112都如上面所描述的處理音頻數據(如果需要的話,首先解壓縮)以便提供增強。該方法可以向讀者提供對于如何修改他們的話音的較少控制。相應地,每個參與者具有以由他們選擇的方式修改讀者的話音的潛力。
圖4圖示出描述依照一個或多個實施例的方法中的步驟的流程圖。該方法可以結合任何適當的硬件、軟件、固件或者其組合實現。在至少一些實施例中,該方法的方面可以通過適當配置的軟件模塊(諸如圖1-3的增強效果模塊112)實現。
步驟400建立多個參與者之間的通信連接。建立該通信連接被建立以便使得允許參與者能夠共享在參與者之中共享電子故事的交互式閱讀體驗。可以建立任何適當類型的通信連接,其示例在上文中提供。
步驟402接收與電子故事的讀者關聯的音頻數據,該電子故事與一個或多個其他遠程參與者共享。該步驟可以以任何適當的方式執行。例如,當讀者將電子故事讀入麥克風時,可以將關聯的音頻轉換成音頻數據以便進一步處理。
步驟404增強音頻數據。該音頻數據可以以任何適當的方式增強,其示例在上文和下文中提供。此外,該步驟可以在任何適當的位置執行。例如,在至少一些實施例中,該步驟可以在讀者的計算設備處或者由讀者的計算設備執行。可替換地或者附加地,該步驟可以由步驟402的接收音頻數據的服務器執行。可替換地或者附加地,該步驟可以由與遠程參與者的每個遠程參與者關聯的計算設備執行。上文中提供了這可以被如何完成的示例。
步驟406使得遠程參與者能夠消費增強的音頻數據。該步驟可以以任何適當的方式執行。例如,在其中在讀者的計算設備上增強音頻數據的實施例中,步驟406可以通過向與遠程參與者的每個參與者關聯的計算設備傳輸或者以其他方式傳達增強的音頻數據而執行。在其中音頻數據由服務器增強的實施例中,該步驟可以通過服務器將增強的音頻數據分發至與遠程參與者的每個參與者關聯的計算設備而執行。在其中音頻數據由與遠程參與者關聯的計算設備增強的實施例中,該步驟可以通過使得該遠程參與者能夠經由適當配置的應用消費增強的音頻數據而執行。
考慮了可以在共享故事場景中增強語音的各種方式之后,現在考慮可以對決定何時執行語音增強做出確定的各種方式的討論。
使用暗示決定何時增強語音
如上面所指出的,增強暗示模塊304(圖3)被配置成使得在閱讀故事時能夠給予增強效果的暗示。增強暗示模塊304可以以各種各樣的不同方式執行其功能。例如,增強暗示模塊304可以使用在被讀的特定故事內查明讀者的位置的各種手段。通過知曉讀者的位置,可以在適當的時間觸發各種增強效果。可以在不脫離要求保護的主題的精神和范圍的情況下利用在特定故事內查明讀者的位置的任何適當的手段。下面就提供這可以被怎樣完成的各種非限制性示例。
語音識別
在一個或多個實施例中,可以利用自動語音識別來識別在特定敘述中讀者正在閱讀何處并且在適當的時間使用該信息觸發各種增強效果。在這些實例中,增強暗示模塊304包括語音識別部件,該部件通過由適當配置的麥克風捕獲的音頻信號數據的分析來跟蹤讀者正在閱讀故事中的何處。然后,增強暗示模塊304可以酌情觸發增強事件。例如,假定參與者在共享關于Elmo的故事。當讀者到達由Elmo說出的詞語時,可以將讀者的話音變形為聽起來像Elmo。當Elmo的短語結束時,讀者的話音可以返回到其正常聲音。可替換地或者附加地,可以針對由讀者閱讀的特定詞語應用增強效果。例如,當讀者閱讀諸如“風”、“雷”、“雨”等等之類的詞語時,可以觸發背景聲音或效果。
在一個或多個實施例中,可以使用語音識別以便使得能夠實現其他形式的增強效果。例如,如果特定參與者說出與電子頁面上出現的圖像或對象相應的詞語,那么可以應用增強效果。例如,假定參與者之一是小孩并且該小孩響應于出現在電子頁面上的卡車的圖像而說出詞語“卡車”。結果,可以發起卡車的簡短動畫,諸如例如讓卡車的車輪轉動和/或播放卡車引擎的音頻剪輯。在這些實例中,這些有趣的動畫和聲音可以強化該小孩學習與頁面上的對象相應的詞語的積極性。
任何適當類型的語音識別技術可以用來實現所描述的實施例。例如,一些方法可以利用某種形式的自動語音識別(ASR)。ASR具有多種多樣的用途,其包括在電話、計算機游戲和仿真等等領域內。可以利用與這些和其他領域中利用的那些技術相同或相似的技術來識別語音,如上面所描述的。一種這樣的技術稱為全連續ASR。
全連續ASR獲取與讀者的語音相應的音頻數據,并且輸出與所說的(在這種情況下為被閱讀的特定故事的文本)相應的詞語序列。可以通過在從ASR輸出的詞語序列與被閱讀的文本中的詞語之間執行簡單匹配操作而實現定位的確定。如技術人員將領會的,這可以使用諸如用于每個頁面的散列表或者多映射(multi-map)之類的標準容器實現。在這些實例中,利用所識別的詞語作為關鍵詞,并且關聯的映射返回該詞語在頁面上的定位。在一個或多個實施例中,可以在其中讀者可能跳過一個或多個詞語的情況下利用前視(look ahead)的方案,和/或在其中讀者可能重復某些詞語的情況下利用后視(look back)的方案。這可以增加語音識別算法的魯棒性。當確定了定位時,增強暗示模塊304可以如下面所描述的使用該定位作為效果或增強表的索引。
也可以利用其他語音識別方法。例如,可以利用具有降低的計算成本的方法,其采用簡化形式的ASR,這種簡化形式的ASR常被稱為有限詞匯語音識別。在這里,對于可能的詞語的搜索空間限于最后的已知定位(最初為0,如果讀者從頭開始閱讀的話)的鄰域中的詞語。在任何給定時間,該算法只需在也許5-10個詞語之間進行區分,從而大大地簡化了識別問題。如果存在給定詞語的多個實例,例如多映射返回超過一個索引,那么可以降低范圍,直到不存在重復為止。可替換地或者附加地,可以保持計數,使得第一次檢測到重復詞語時,將所述定位取為第一次出現的定位,并且第二次檢測到重復詞語時,將所述定位取為第二次出現的定位,以此類推。像在上面的方法中那樣,可以包括一些前視和后視的技術以便改進算法魯棒性。
在這些方法中的任一方法中以及在其他方法中,可以通過頁碼或者當前顯示的頁碼配對的知識促進語音識別過程。按照這種方式,搜索空間限于出現在那些特定頁面上的那些詞語。在該實例中,系統已經知曉頁面或頁碼,因為這是被采用來確定何時改變顯示以示出電子書的下一頁或者接下來的頁面的機制。
作為可以如何利用使用上面描述的技術提取的定位數據觸發各種增強的示例,考慮下面的表格。
定位話音效果31花栗鼠變形開始44花栗鼠變形結束57機器人變形開始71機器人變形結束
表1。
表1是來自適當配置的定位跟蹤器的定位信息可以如何用作效果表格的索引以便當在表格所綁定的頁面上到達特定詞語時觸發特定增強的示例。在一個或多個實施例中,可以利用單個表格對書中的每一頁觸發增強效果。可替換地,可以對于整本書利用單個表格。在該實例中,表格可以不通過頁面內的定位來被標引,而是通過整本書內的定位來被標引。
此外,可以利用一個或多個表格確定何時觸發背景音頻聲音,例如叢林聲音、雷聲、掌聲等等。如果只有一個表格,那么它可以像在以下示例中那樣通過頁碼來標引。
頁面背景聲音3鳥兒鳴叫8叢林聲14暴雨16鳥兒鳴叫
表2。
在這里,表2包括通過頁碼而標引的全局背景音頻效果。如果對于何時觸發這些背景聲音的更細粒的控制是所希望的,那么通過頁面內的定位而標引的多個元數據表格(例如,每頁一個)可以被包括在內。在這種情況下,表格將具有與表1類似的格式,其中“話音效果”列將由“背景聲音”代替。
圖5圖示出描述依照一個或多個實施例的方法中的步驟的流程圖。該方法可以結合任何適當的硬件、軟件、固件或者其組合實現。在至少一些實施例中,該方法的方面可以通過適當配置的軟件模塊(諸如圖1-3的增強效果模塊112)實現。
步驟500建立多個參與者之間的通信連接。該通信連接被建立以便使得參與者能夠共享在參與者之中共享電子故事的交互式閱讀體驗。可以建立任何適當類型的通信連接,其示例在上文中提供。
步驟502接收與電子故事的讀者關聯的音頻數據,該電子故事正在與一個或多個其他遠程參與者共享。該步驟可以以任何適當的方式執行。例如,當讀者將電子故事讀入麥克風時,可以將關聯的音頻轉換成音頻數據以便進一步處理。
步驟504根據音頻數據查明電子故事內的位置。上文中提供了可以這可以被如何完成的示例。響應于查明電子故事內的位置,步驟506增強音頻數據。該音頻數據可以以任何適當的方式增強,其示例在上文和下文中提供。此外,該步驟可以在任何適當的位置執行。例如,在至少一些實施例中,該步驟可以在讀者的計算設備處或者由讀者的計算設備執行。可替換地或者附加地,該步驟可以由步驟502的接收音頻數據的服務器執行。可替換地或者附加地,該步驟可以由與遠程參與者的每個參與者關聯的計算設備執行。上文中提供了這可以被如何完成的示例。
步驟508使得遠程參與者能夠消費增強的音頻數據。該步驟可以以任何適當的方式執行。例如,在其中在讀者的計算設備上增強音頻數據的實施例中,步驟508可以通過向與遠程參與者的每個參與者關聯的計算設備傳輸或者以其他方式傳達增強的音頻數據而執行。在其中音頻數據由服務器增強的實施例中,該步驟可以通過服務器將增強的音頻數據分發至與遠程參與者的每個參與者關聯的計算設備而執行。在其中音頻數據由與遠程參與者關聯的計算設備增強的實施例中,該步驟可以通過以下而執行,即:使得遠程參與者的設備能夠通過使用適當配置的應用在本地處理音頻數據來增強該音頻數據。
考慮了利用語音識別給予增強效果的暗示的示例實施例之后,現在考慮各種基于觸摸的方法。
使用觸摸決定何時增強語音
在一個或多個實施例中,可以利用觸摸決定何時增強與閱讀電子故事關聯的語音。舉例而言,考慮以下所述。如果讀者使用啟用觸摸的設備參與共享故事體驗,那么當讀者閱讀時,他們可以在讀詞語時將其手指或觸筆沿著詞語進行追蹤。可以基于這些詞語及其在故事中的定位觸發增強。使用該方法可以提供比上面描述的語音識別方法更多的控制。例如,如果用戶將其手指保持在處于導致增強的語音的特定定位,那么用戶可以即興演講并且說出不包括在故事中的詞語,同時使那些詞語增強。
使用該方法,可以通過使用邊界框方法生成基于觸摸的索引,以確定指向頁面上的詞語集合中的哪一個。依照該方法,各詞語具有關聯的邊界框。當觸摸位置落入詞語的邊界框內時,生成其對應的索引。該索引可以結合一個或多個表格(諸如上面所描述的那些表格)使用,以便查明要應用的增強效果。
圖6圖示出描述依照一個或多個實施例的方法中的步驟的流程圖。該方法可以結合任何適當的硬件、軟件、固件或者其組合實現。在至少一些實施例中,該方法的方面可以通過適當配置的軟件模塊(諸如圖1-3的增強效果模塊112)實現。
步驟600建立多個參與者之間的通信連接。該通信連接被建立以便使得參與者能夠共享在參與者之中共享電子故事的交互式閱讀體驗。可以建立任何適當類型的通信連接,其示例在上文中提供。
步驟602接收與共享電子故事的參與者關聯的觸摸輸入,該參與者可以是故事的讀者或者其他遠程參與者之一。該步驟可以以任何適當的方式執行。例如,當讀者將電子故事讀入麥克風時,可以在讀者利用他或她的手指沿著故事的文本進行跟隨時接收關聯的觸摸輸入。
步驟604根據觸摸輸入查明電子故事內的位置。上文中提供了這可以被如何完成的示例。響應于查明電子故事內的位置,步驟606增強音頻數據。該音頻數據可以以任何適當的方式增強,其示例在上文和下文中提供。此外,該步驟可以在任何適當的位置執行,其示例在上文中提供。
步驟608使得遠程參與者能夠消費增強的音頻數據。該步驟可以以任何適當的方式執行,其示例在上文中提供。
考慮了利用觸摸輸入應用增強效果的示例實施例之后,現在考慮可以如何利用故事內容內的用戶界面元素以應用增強。
使用用戶界面元素決定何時增強語音
在一個或多個實施例中,可以利用用戶界面元素決定何時增強語音。用戶界面元素可以包括不是故事內容的一部分的元素。可替換地或者附加地,用戶界面元素可以包括是故事內容的一部分的元素。
在一個或多個實施例中,當在顯示設備上呈現電子故事時,也可以呈現各種控制按鈕或控制小部件以便使得能夠實現音頻增強或其他增強效果。在這些實施例中,控制按鈕或小部件不構成故事內容的一部分。而是,這些按鈕或小部件構成用戶可以通過其與特定故事交互的工具。舉例而言,考慮圖7。在那里,圖示出電子故事的方面的用戶界面總體上示出在700處。在該特定電子故事中,存在兩個演員——Max和Grace,以及兩種效果——下雨和打雷。應當注意,在該示例中,提供了四個控制按鈕702、704、706和708。控制按鈕702和704與故事的演員關聯,而控制按鈕706和708與出現在故事內的效果關聯。當選取與故事的演員關聯的特定控制按鈕(例如702)時,讀者的語音將變形為聽起來像該演員。可替換地,當選取與故事內出現的效果關聯的特定控制按鈕時,將展現與特定效果關聯的音頻。在該特定示例中,選取下雨控制按鈕706將使得為故事的參與者展現下雨聲。這些按鈕可以由參與者中的任一參與者選取。
該方法也可以允許一定程度的即興演講,使得讀者可以“脫離腳本”在若干位置處造成故事內的不同效果,在這些位置處,這樣的效果不是內容開發者所預期的。例如,讀者可以選擇通過在特別的或者幽默的時間按下特定控制按鈕而隨機地應用某種效果。此外,該方法使用特定故事的較少預處理(或者不使用預處理)。例如,在整個故事中提供諸如角色話音、背景聲音等等之類的固定的增強集合,并且何時激活特定增強取決于讀者。
可替換地或者附加地,可以利用構成故事內容的一部分的用戶界面元素作為用于應用增強的基礎。舉例而言,考慮圖8,其類似于圖7并且示出了圖示出電子故事的方面的用戶界面,其總體上示出在800處。然而,在這里,移除了控制按鈕和小部件。在這些實施例中,讀者可以觸摸故事內的對象(諸如圖示出的閃電),以使得某種效果被應用。類似地,通過觸摸特定演員,讀者的話音可以變形為聽起來像那個演員。同樣地,通過觸摸特定短語,例如可能出現在故事文本中的“消防車警笛”,可以應用消防車警笛效果。因此,按照這種方式,可以利用故事內的對象作為觸發增強效果的“隱式”按鈕。
在這些實施例中,讀者的樂趣可以通過向其提供以下能力而加強,即:探索特定頁面上的哪些對象會觸發哪些效果。可替換地,這些“隱式”按鈕可以利用指示可以觸摸它們以激活增強效果的高亮、鏈接或者輪廓線而被可視地指示。
從教育的角度看,使用這些“隱式”按鈕以激活增強效果可以用作對于一個人(諸如孫子女)正確地標識另一個人(諸如祖父母)所說的或者指導的話的獎勵。例如,如果祖父母說“點擊樹來聽森林的聲音”,那么當孫子女正確地點擊書中的樹時,可以播放森林背景聲音作為對該小孩的獎勵。舉另一個示例而言,祖父母可能說“點擊松鼠來使我聽起來像松鼠”。如果小孩點擊松鼠,那么與不正確的猜測相反,他們現在將聽見其被變形為聽起來像松鼠的祖父母的話音。
除了對讀者話音的增強效果之外,觸摸特定對象可以造成以某種方式修改該對象。例如,如果讀者觸摸故事中的特定演員,那么不僅讀者的話音會變形為聽起來像該演員,而且也可以將該演員動畫化,使得其嘴巴和臉部以反映讀者的嘴巴和臉部的方式來移動。這可以通過處理由關聯的視頻攝像機捕獲的讀者的視頻信號來創建可以用來驅動電子書中演員的呈現的模型而完成。例如,可以在算法上將三維網格擬合到讀者的臉部以便實時地跟蹤其臉部特征和定位。該信息然后可以用作用于驅動電子書中演員的呈現的模型。這種方法可以與微軟的用于Windows的Kinect中的方法相同或類似。
圖9圖示出描述依照一個或多個實施例的方法中的步驟的流程圖。該方法可以結合任何適當的硬件、軟件、固件或者其組合實現。在至少一些實施例中,該方法的方面可以通過適當配置的軟件模塊(諸如圖1-3的增強效果模塊112)實現。
步驟900建立多個參與者之間的通信連接。該通信連接被建立以便允許參與者共享在參與者之中共享電子故事的交互式閱讀體驗。可以建立任何適當類型的通信連接,其示例在上文中提供。
步驟902接收和與一個或多個遠程參與者共享的電子故事關聯的用戶界面元素的觸摸輸入。如上文中所指出的,用戶界面元素可以包括或者可以不包括故事內容的一部分。觸摸輸入可以接收自參與者中的任一參與者。
響應于接收到觸摸輸入,步驟904增強故事的一個或多個屬性或特性。例如,可以如上面所描述的增強讀者的話音。可替換地或者附加地,可以如上面所描述的應用一種或多種效果。此外,可以增強或修改故事本身的內容。例如,增強可以進一步包括增強與故事關聯的視頻,例如如上文和下文中描述的操縱故事內的一個或多個對象。此外,該步驟可以在任何適當的位置執行,其示例在上文中提供。
步驟906使得遠程參與者能夠消費增強的電子故事。該步驟可以以任何方式執行,其示例在上文中提供。
考慮了利用觸摸輸入應用增強效果的示例實施例之后,現在考慮可以如何利用姿態來應用增強。
使用姿態來應用增強
在一個或多個實施例中,可以利用姿態來應用增強。姿態可以包括基于觸摸的姿態以及基于非觸摸的姿態,諸如通過自然用戶界面(NUI)提供的那些姿態。在任一情況下,可以將特定姿態映射到各種增強。舉例而言,考慮可以以與微軟的Kinect技術捕獲和分析姿態大致相同的方式由視頻攝像機捕獲且分析的基于非觸摸的姿態。
在該特定實例中,假定讀者正在閱讀與其他參與者共享的故事。前向攝像機捕獲讀者的圖像。當讀者到達故事的特定部分時,他們對故事角色之一做出刷動(swipe)姿態。該刷動姿態然后被映射為這樣的話音效果,即:將讀者的話音變形為刷動姿態在其上出現的角色的話音。類似地,假定在該特定故事中,若干背景聲音是可用的。隨著讀者在故事中前進,他們在雨云上的空間中做出敲擊姿態,其被前向攝像機捕獲并且映射為雷形式的背景聲音。
圖10圖示出描述依照一個或多個實施例的方法中的步驟的流程圖。該方法可以結合任何適當的硬件、軟件、固件或者其組合實現。在至少一些實施例中,該方法的方面可以通過適當配置的軟件模塊(諸如圖1-3的增強效果模塊112)實現。
步驟1000建立多個參與者之間的通信連接。該通信連接被建立以便使得參與者能夠共享在參與者之中共享電子故事的交互式閱讀體驗。可以建立任何適當類型的通信連接,其示例在上文中提供。
步驟1002捕獲和與一個或多個其他遠程參與者共享的電子故事關聯的姿態輸入。該姿態輸入可以是如上面所指出的基于觸摸的輸入或者基于非觸摸的輸入。
響應于捕獲姿態輸入,步驟1004將該姿態輸入映射為增強效果,并且步驟1006使用該增強效果增強故事的一個或多個屬性或特性。例如,可以如上面所描述的增強讀者的話音。可替換地或者附加地,可以如上面所描述的應用一種或多種效果。此外,可以增強或修改故事本身的內容。例如,增強可以進一步包括增強與故事關聯的視頻,例如如上文和下文中描述的操縱故事內的一個或多個對象。此外,該步驟可以在任何適當的位置執行,其示例在上文中提供。
步驟1008使得遠程參與者能夠消費增強的電子故事。該步驟可以以任何方式執行,其示例在上文中提供。
考慮了利用姿態輸入應用增強效果的示例實施例之后,現在考慮可以如何利用故事內容本身來應用增強。
使用故事內容來應用增強
在一個或多個實施例中,故事內容可以提供關于何時應用增強的暗示。例如,增強效果模塊112可以包括解析內容以查找要應用增強的地方的內容解析器。內容解析器可以標識某些詞語,例如“消防車”,這些詞語然后被用作為用于應用增強(例如消防車聲音)的位置的指示。類似地,內容解析器可以查找用于應用增強的某些標點符號暗示。例如,內容解析器可以查找引號并且使用引號的位置作為增強效果表格的索引。考慮以下示例:
Sadie老鼠說“我要移動那塊奶酪。”
[先前的文字是引用區域1]。
Billy老鼠說“你最好快點移動它,因為我想他們正在觀看。”
[先前的文字在引用區域2]。
圖11圖示出描述依照一個或多個實施例的方法中的步驟的流程圖。該方法可以結合任何適當的硬件、軟件、固件或者其組合實現。在至少一些實施例中,該方法的方面可以通過適當配置的軟件模塊(諸如圖1-3的增強效果模塊112)實現。
步驟1100建立多個參與者之間的通信連接。該通信連接被建立以便允許參與者共享在參與者之中共享電子故事的交互式閱讀體驗。可以建立任何適當類型的通信連接,其示例在上文中提供。
步驟1102解析故事的內容以便根據故事的內容標識要發生增強的位置。步驟1104基于根據解析故事內容而標識的位置來增強故事的一個或多個屬性或特性。例如,可以如上面所描述的增強讀者的話音。可替換地或者附加地,可以如上面所描述的應用一種或多種效果。此外,可以增強或修改故事本身的內容。例如,增強可以進一步包括增強與故事關聯的視頻,例如如上文和下文中描述的操縱故事內的一個或多個對象。此外,該步驟可以在任何適當的位置執行,其示例在上文中提供。
步驟1106使得遠程參與者能夠消費增強的電子故事。該步驟可以以任何方式執行,其示例在上文中提供。
考慮了利用故事內容應用增強效果的示例實施例之后,現在考慮故事內容可以如何包括諸如標簽之類的用于指示何時應用增強的元數據。
使用故事元數據來應用增強
在一個或多個實施例中,可以利用制定電子故事內容的一部分的元數據來應用增強。例如,故事文件中的頭部信息可以包括標識故事內要發生增強的各種位置的元數據標簽。類似地,故事內容的正文內的元數據標簽可以標識要發生增強的位置。這樣的元數據標簽不僅可以標識要發生增強的位置,而且可以標識要發生的增強的類型,例如“<morph.reader.voice morph=character_l/>”。在該示例中,故事內容中標簽的位置指示要在何處對讀者的話音變形以及發生的變形操作,即將讀者的話音變形為“character_l(角色_1)”的話音。
圖12圖示出描述依照一個或多個實施例的方法中的步驟的流程圖。該方法可以結合任何適當的硬件、軟件、固件或者其組合實現。在至少一些實施例中,該方法的方面可以通過適當配置的軟件模塊(諸如圖1-3的增強效果模塊112)實現。
步驟1200建立多個參與者之間的通信連接。該通信連接被建立以便使得參與者能夠共享在參與者之中共享電子故事的交互式閱讀體驗。可以建立任何適當類型的通信連接,其示例在上文中提供。
步驟1202在閱讀故事期間檢測與故事關聯的、標識要發生增強的位置的元數據。這可以通過解析內容以標識元數據以及因而可以發生增強的位置來完成。上文中提供了元數據的示例。步驟1204基于從元數據所標識的位置來增強故事的一個或多個屬性或特性。例如,可以如上面所描述的增強讀者的話音。可替換地或者附加地,可以如上面所描述的應用一種或多種效果。此外,可以增強或修改故事本身的內容。此外,該步驟可以在任何適當的位置執行,其示例在上文中提供。
步驟1206使得遠程參與者能夠消費增強的電子故事。該步驟可以以任何方式執行,其示例在上文中提供。
考慮了利用元數據應用增強效果的示例實施例之后,現在考慮可以如何利用電子故事的頁碼和其他結構指示何時應用增強。
使用頁碼和其他故事結構來應用增強
在一個或多個實施例中,可以利用故事的頁碼或者其他故事結構來應用增強。例如,閱讀故事時,當讀者到達特定頁面或段落時,可以應用增強。假定例如正在閱讀某個故事,并且在該故事的第3頁上,整個頁面包括一個角色的對話。在該實例中,當讀者轉到第3頁時,可以應用話音變形和/或其他效果。當讀者轉到第4頁時,可以終止話音變形和/或其他效果。可替換地或者附加地,一旦增強開始,它可以在頁面或段落結束之前自然地結束。
在操作中,使用頁碼或其他故事結構來應用增強可以通過使用伴隨故事的元數據而實現。該元數據可以標識要用于增強的頁面、段落和/或其他故事結構以及要應用的增強類型。這可以使得能夠通常在讀者通讀故事時自動觸發增強。
圖13圖示出描述依照一個或多個實施例的方法中的步驟的流程圖。該方法可以結合任何適當的硬件、軟件、固件或者其組合實現。在至少一些實施例中,該方法的方面可以通過適當配置的軟件模塊(諸如圖1-3的增強效果模塊112)實現。
步驟1300建立多個參與者之間的通信連接。該通信連接被建立以便使得參與者能夠共享在參與者之中共享電子故事的交互式閱讀體驗。可以建立任何適當類型的通信連接,其示例在上文中提供。
步驟1302在閱讀故事期間檢測標識要發生增強的位置的一個或多個頁碼或者其他故事結構。步驟1304基于從頁碼或其他故事結構所標識的位置來增強故事的一個或多個屬性或特性。例如,可以如上面所描述的增強讀者的話音。可替換地或者附加地,可以如上面所描述的應用一種或多種效果。此外,可以增強或修改故事本身的內容。例如,增強可以進一步包括增強與故事關聯的視頻,例如如上文和下文中描述的操縱故事內的一個或多個對象。此外,該步驟可以在任何適當的位置執行,其示例在上文中提供。
步驟1306使得遠程參與者能夠消費增強的電子故事。該步驟可以以任何方式執行,其示例在上文中提供。
考慮了利用電子故事的頁碼和其他結構指示何時應用增強的示例實施例之后,現在考慮一些實現方式的示例。
實現方式的示例和考慮因素
圖14圖示出依照一個或多個實施例的設備1400的實現方式的方面。設備1400包括圖示的麥克風、攝像機和揚聲器。此外,設備包括IP語音通信(VoIP)應用1402、語音識別器1404、定位檢測器1406、預設表1408、話音變形模塊1410、電子書文件1412(即電子書)和展現器或web瀏覽器1414。網絡1416使得設備1400能夠與其他遠程設備連接以便共享交互式故事。在至少一些實施例中,其他遠程設備中的每一個包括如上文和下文中所描述的而進行操作的相同或類似的部件。在該圖示和描述的示例中,VoIP應用1402經由互聯網1416發送和接收視聽流。起源于VoIP應用1402的流可以如上面所描述的通過適當配置的語音識別器1404、定位檢測器1406和預設表1408進行處理。
在一個或多個實施例中,VoIP應用1402包括與運行在相同設備上的諸如web瀏覽器1414之類的web瀏覽器或者與該web瀏覽器集成在一起。在該示例中,經由web上的URL訪問電子書文件1412,該URL使得關聯內容以若干標準電子書格式中的任何格式從服務器下載到設備。一旦下載,該內容在設備的專用于展現器或web瀏覽器1414的屏幕區中本地地展現。當啟動VoIP應用時,以慣常的方式設立呼叫。當雙方或者每方同意共享圖書時,將展現器或web瀏覽器1414引導到與書庫相應的URL。相同的URL也從呼叫發起設備傳輸至其他參與者的設備。然后,每個設備或者應用將打開相同的URL,使得參與者能夠查看相同的庫。一旦參與者就選擇達成一致,并且某個參與者選取了特定圖書的URL,那么該圖書的URL傳輸至其他參與者中的每一個參與者,使得他們可以打開相同的圖書。當訪問所選取的圖書的URL時,來自服務器的控制數據和內容傳輸至設備,并且相應地展現該圖書。根本內容可以以任意數量的格式表示,舉例而言且非限制性地,所述格式包括HTML 5和/或各種EPUB版本或其他專有格式中的任何一種。
在其他實施例中,可以在不使用標準web瀏覽器的情況下展現電子書。在該實例中,專用展現器可以用來展現電子書。服務器上的內容仍然可以以上面列出的任何格式駐留。然而,一個區別是,web瀏覽器的完整功能性不必存在于這些實現方式中。替代地,專用展現引擎可以用于所選擇的、無論何種的電子格式。數據可以通過標準連接直接從服務器傳輸至參與者設備,該標準連接舉例而言且非限制性地例如TCP/IP。然后,當接收到這些數據時,展現引擎讀取控制數據并且展現圖書頁面。
而在其他的實施例中,可以使用上面的任一技術展現電子書,并且然后作為例如視頻流或者一系列靜止圖像直接傳輸至其他參與者。這可以使用典型的屏幕共享設置完成。這可以簡化遠端應用的實現方式,因為無需利用瀏覽器或者展現引擎。
而在其他的實施例中,電子書可以在服務器上展現并且下載到所有所連接的設備。在這種情況下,端點可能是不太強大的平臺,因為它們所需做的一切是回放所接收的音頻和視頻流。這將例如在例如端點表示所謂的“瘦客戶端(thin client)”的情況下起作用。服務器為輸入設備中的每一個輸入設備展現圖書頁面,將所有增強應用到接收自呼叫參與者的音頻和視頻流,并且創建復合圖像,諸如將適當參與者的視頻流覆蓋在上面的書頁。為了與現有的VoIP框架兼容,可以在說話者的設備上對呼叫音頻編碼,并且然后在應用增強效果之前在服務器上對其解碼。服務器然后可以對修改的音頻重新編碼并且將其發送至其他端點。在至少一些實例中,也可能將原始的未壓縮音頻和視頻發送至服務器。這可以節省編碼/解碼往返行程,但是可能會利用相當多的網絡帶寬,因為發送了未壓縮的流。視頻增強可以以相同的方式完成,其中服務器為所有參與者解碼視頻流,應用任何所選取的效果,并且然后對流重新編碼且將它們發送至其他參與者。
捕獲共享的故事體驗以供后續共享
在一個或多個實施例中,可以捕獲共享的故事體驗以供后續共享。在這些實例中,當正在閱讀故事時,共享呼叫的任一端的軟件可以將正在呈現的視頻和音頻流連同任何關聯的效果一起捕獲。所捕獲的視頻和音頻流可以使用諸如MPEG-4等等之類的任意數量的標準視頻格式(諸如MPEG-4等等)存儲在設備的盤(例如非易失性存儲器)上的文件中。在故事結束(如通過關閉圖書而結束)之后,可以就以下內容提示用戶,即:他們是否想要共享他們剛剛欣賞的體驗的視頻。如果選擇是,那么可以將音頻/視頻文件上傳至服務器,例如YouTube、SkyDrive等等,并且隨后與用戶的家庭和/或社區的其他成員共享。這向沒有直接參與到呼叫中的其他人提供了欣賞和連接,并且也可以用來增加故事(事實上是交互式故事應用本身)的流行度。也可以保留文件以供原始參與者以后欣賞。
考慮了捕獲共享故事以供后續共享之后,現在考慮保持遠程客戶端之間的同步的討論。
遠程客戶端之間的同步
在一個或多個實施例中,正在共享的電子書的單個實例可以在所有參與者的計算機之間同步。無論何時參與者之一與圖書交互時,與該交互相應的控制信息都被傳輸至所有其他參與者。交互的示例包括但不限于:前進或倒回到下一頁/前一頁,觸摸頁面內的對象,退出圖書,跳至結尾,設置書簽,選擇現有的書簽,等等。
當接收到該交互控制數據時,它使得其他應用在相應的設備上發起相同的動作(例如下一頁、前一頁、“對象被觸摸”等等)。這些控制可以經由預定協議實現,例如通過TCP/IP發送諸如以下的ASCII字符串:
NEXTPAGE(下一頁)
PREVPAGE(前一頁)
EXITBOOK(退出圖書)
SETBOOKMARK n (設置書簽n)
OPENBOOKMARK n (打開書簽n)
FIRSTPAGE(第一頁)
LASTPAGE(最后一頁)
TOUCHON {x,y} (觸摸開啟{x,y})
TOUCHOFF {x,y} (觸摸關閉{x,y})
SELECTOBJECT n(選取對象n)
一些上面的動作(例如NEXTPAGE(下一頁))可以由參與者中的任一參與者發起。過濾/互鎖機制阻止各種用戶設備變得不同步。當在本地請求頁面變化時,命令立即廣播至所有其他參與者。當遠程設備接收到該命令時,它將臨時鎖定任何(對于該設備而言)本地生成的頁面變化請求,直到它接收到來自發起設備的PAGECHANGECOMPLETE(頁面變化完成)消息為止。遠程設備然后頒布命令(例如轉到下一頁),并且然后將確認(PAGECHANGEACKOWLEDGE(頁面變化確認))消息發送回至發起設備。本地(發起)設備上的頁面不變化,直到所有遠程設備確認收到翻頁命令為止。翻過本地頁面,并且廣播PAGECHANGECOMPLETE消息。當遠程設備接收到該消息時,它們再次自由地去響應本地生成的命令。
如果某個遠程設備接收到由于相應(例如PAGECHANGECOMPLETE)消息沒有被接收到而被阻止的本地生成的命令(例如NEXTPAGE),那么該設備可以觸發諸如例如頁面撕開的聲音之類的聲音或者諸如視覺閃爍、振動等等之類的某個其他可感知的事件以便指示其請求由于潛在沖突的原因而被忽略。這將降低具有臨時無響應的用戶界面所帶來的令人不安的效果。
媒體流操縱
如上面所描述的,一個或多個彼此遠離的讀者可以諸如通過電子和/或數字圖書參與到一起閱讀交互式故事中。在一些實施例中,該交互式體驗可以包括修改、處理和/或增強與故事關聯的視頻,以及將所處理的視頻合并到故事中,如下文中進一步描述的。通過將故事部分地基于關聯的視頻捕獲,交互式故事中的參與者可以加強閱讀體驗。
各種實施例處理視頻以便檢測視頻內包含的臉部、臉部特征和/或區域。響應于檢測到臉部、臉部特征和/或區域,一些實施例至少部分地基于所檢測的臉部、臉部特征和/或區域來增強視頻。在一些情況下,可以將增強的視頻嵌入到故事內。可替換地或者附加地,可以處理視頻以便檢測視頻內包含的姿態和/或移動。與故事關聯的視覺和/或聽覺暗示可以至少部分地基于所檢測的姿態和/或移動。
作為交互式故事體驗的一部分,一些實施例使得用戶能夠將視頻和/或靜止圖像嵌入到故事體驗內。如上面所描述的,可以給予用戶可以修改和/或個性化在故事內的各種點和/或圖像的暗示或指示。例如,在一些實施例中,可以向用戶給予可選取的圖像的暗示。選取圖像可以觸發附加的視頻捕獲和/或圖像處理,其可以隨后用來代替或修改圖像,如下文中進一步描述的。在一些情況下,用戶的視頻可以直接代替關聯的故事圖像。在其他情況下,可以增強和/或過濾用戶的視頻以便反映故事內的角色。
作為視頻捕獲過程的一部分,考慮圖15,其圖示出一個示例實施例,這里示為圖1的最終用戶終端102。如先前在上文中圖示和描述的,最終用戶終端102包含增強效果模塊112,其除了別的以外包括音頻增強模塊300、視頻增強模塊302和增強暗示模塊304。為了本討論的目的,最終用戶終端102及其關聯的元件和環境已經被簡化。然而,應當領會且理解的是,該簡化并非預期限制要求保護的主題的范圍。
除別的以外,最終用戶終端102從攝像機1502接收視頻輸入。攝像機1502表示可以電子地捕獲、記錄和/或處理運動中的一系列圖像的功能性。此外,電子捕獲的圖像可以存儲在任何適當類型的存儲設備上,其示例在下文中提供。在這里,攝像機1502被圖示為最終用戶終端外部的設備,其通過有線連接發送捕獲的視頻。然而,可以使用任何適當類型的連接,諸如無線連接。在一些實施例中,攝像機1502和用戶終端102彼此集成在相同的硬件平臺上(諸如集成在智能電話上的視頻攝像機)。可替換地或者附加地,攝像機1502可以與最終用戶終端102的外設集成在一起,諸如集成在連接到最終用戶終端102的顯示設備上的攝像機。因此,攝像機1502表示可以電子地捕獲視頻和/或將視頻發送至最終用戶終端102的任何形式的設備,不管它們是集成的還是分離的。
視頻捕獲1504表示被最終用戶終端102接收的視頻圖像。在該示例中,視頻捕獲1504由攝像機1502生成,并且本地地存儲在最終用戶終端102上。然而,應當領會的是,視頻捕獲1504也可以遠離最終用戶終端102存儲,而不脫離要求保護的主題的范圍。因此,最終用戶終端102可以以任何適當的方式獲取視頻捕獲,諸如通過直接連接到最終用戶終端102的攝像機(如這里圖示的)或者通過遠程連接獲取視頻捕獲。在一些實施例中,視頻捕獲可以包括諸如所共享的故事體驗的一個或多個參與者和/或讀者之類的一個或多個人的圖像。在這里,視頻捕獲圖像1506表示包括視頻捕獲1504的多幅靜止圖像之一。為了簡單起見,將參照視頻捕獲圖像1506進行討論。然而,應當領會的是,參照視頻捕獲圖像1506描述的功能性可等同地應用到視頻捕獲1504和/或所述多幅圖像。
當參與到多用戶通信會話中時,視頻經常比純文本更有效地傳達與用戶關聯的情感。例如,文本短語“哦”可以被解釋為許多情感之一:驚奇,失望,好奇,興奮,憤怒,厭惡等等。在不知道任何上下文的情況下,閱讀該短語的用戶可能不能如所預期的解釋它,從而導致一定程度上“平淡的(flat)”且誤導性的體驗。然而,觀看說出該短語的第二用戶的視頻的用戶可以根據第二用戶在說該短語時臉部如何變化的視覺暗示更好地解釋預期的情感。按照類似的方式,將這些視覺暗示和/或姿態捕獲到共享的故事中可以加強故事體驗。
在一些實施例中,臉部檢測算法可以自動地檢測視頻捕獲中的臉部和/或臉部區域。這些算法可以標識視頻和/或靜止圖像內的臉部特征,同時忽略和/或不考慮圖像內的其他對象。例如,考慮圖16,其描繪了應用到圖15的視頻捕獲圖像1506的臉部檢測算法1602a、1602b和1602c的方面。臉部檢測算法1602a表示總體上檢測臉部并且使用框標記臉部位置的算法。在該示例中,使用矩形框來限定區域1604以便標識檢測的臉部位于何處。可以使用任何適當的尺寸和形狀,例如正方形框、橢圓形框、圓形框等等。可替換地或者附加地,區域的尺寸可以基于圖像中有多少內容包含所檢測的臉部而變化。在一些情況下,這種總體標識可能在其中存在較少的可用處理能力的環境中是合適的。
臉部檢測算法1602b表示具有比臉部檢測算法1602a更精細的標識的臉部檢測算法。在這里,標識了與臉部檢測關聯的兩個區域,內區域1606和外區域1608。在一些實施例中,內區域1606與外區域1608之間的區域表示由臉部檢測算法標識的要用作“混合”和/或平滑的區域。例如,混合區域可用用來將所標識的臉部和/或視頻轉變到故事內的第二圖像中。在區域1608之外,不存在將被拷貝到故事內的第二圖像中的與視頻捕獲圖像1506關聯的像素和/或內容。相反地,被區域1606包圍的像素和/或內容將被拷貝和/或傳遞。區域1606與1608之間的區域可能導致視頻捕獲圖像1506與第二圖像之間的混合以在單獨的圖像之間平滑地轉變。可以使用任何適當的混合算法,例如阿爾法(Alpha)混合算法。在一些情況下,(一個或者多個)混合算法使用諸如區域1606與區域1608之間的空間之類的空間以將所選取的圖像(諸如視頻捕獲圖像1506)的透明度從0(無透明度,100%可見)轉變到1(完全透明度,0%可見)。按照這種方式,與故事中的參與者關聯的視頻圖像可以疊加在故事內的一個或多個角色上,從而使體驗個性化。
作為另一個示例,臉部檢測算法1602c標識與臉部關聯的特定細節,這里總體示為區域1610。在這里,眼睛、鼻子和嘴巴彼此分開地定位和標識。像在上面的情況下那樣,這些特征可以疊加在故事中包含的一幅或多幅圖像上,諸如代替故事內的卡通角色的眼睛、鼻子和嘴巴。可替換地或者附加地,可以隨著時間監視這些特征以便標識姿態,例如眼色、吻、噴嚏、口哨、談話、叫喊、眨眼、點頭、搖頭等等。所標識的姿態進而又可以驅動故事內的卡通角色的動畫。例如,在一些實施例中,檢測到視頻內的眼色可以進而又使得關聯的卡通角色使眼色。盡管在臉部檢測的上下文中進行討論,但是應當領會且理解的是,可以監視和/或檢測任何適當的姿態,而不脫離要求保護的主題的范圍。
在一些實施例中,用戶可以人工地標識視頻和/或靜止圖像內的一個或多個區域以便合并到共享故事體驗中。考慮圖17,其圖示出一個示例用戶界面1702。用戶界面1702使得用戶和/或參與者能夠定制要增強視頻和/或靜止圖像的哪些部分。在該示例中,作為定制過程的一部分,用戶界面1702向用戶顯示圖15的視頻捕獲圖像1506。該顯示可以被配置成在對視頻捕獲圖像1506做出變化和/或應用變化時更新以反映修改。例如,控件1704允許用戶經由縮放和旋轉修改定位圖像內的關聯頭部。當用戶向左邊或右邊滑動縮放控制條時,用戶界面1702可以更新視頻捕獲圖像1506的顯示以反映關聯的縮放因子。類似地,當用戶向左邊或右邊滑動旋轉控制條時,用戶界面1702可以順時針和/或逆時針旋轉視頻捕獲圖像1506的顯示。這些更新可以在用戶主動地參與控制時和/或在用戶選擇應用所述變化時發生。可替換地或者附加地,一個或多個參考點可以用來錨定圖像的定位。在這里,錨1706指示與包含在視頻捕獲圖像1506內的眼睛關聯的定位。這些錨可以是固定的或者是可調節的。在一些實施例中,用戶界面1702可以被配置成允許用戶拖動和/或移動錨1706。在其他實施例中,錨1706可以在定位上是固定的,并且用戶可以相對于錨將視頻捕獲圖像1506拖動和/或移動到希望的定位。用戶界面1702包括允許用戶找到對視頻捕獲圖像1506做出的調整變化、定位嘴巴的錨并且保存變化的附加控件1708。然而,應當領會且理解的是,任何適當的控件組合和/或類型可以包括在用戶界面1702中,而不脫離要求保護的主題的范圍,諸如與裁剪、修改顏色飽和度、修改顏色著色、標識鼻子定位等等關聯的控件。此外,這些人工標識可以在與視頻捕獲關聯的靜止圖像、與視頻捕獲關聯的一系列圖像或者其任意組合上執行。例如,然后,對靜止圖像做出的標識可以被隨后應用到具有類似的臉部放置和/或縱橫比的一系列其他圖像中。
上面的討論描述了與視頻捕獲和靜止圖像關聯的人工和自動檢測技術。盡管在標識臉部、臉部特征和/或臉部姿態的上下文中進行了描述,但是應當領會的是,可以以任何適當的方式修改和/或應用這些技術。例如,代替臉部識別和/或標識眼色,可以處理視頻以標識揮手、手語姿態等等。如上面所討論的,這些所標識的姿態然后可以用來影響共享故事體驗的動畫和/或行為。可替換地或者附加地,一旦標識了各種特征(諸如臉部檢測),作為講故事過程的一部分,可以增強和/或加強視頻。
一些實施例增強和/或修改視頻捕獲數據作為共享故事體驗的一部分。讀者和/或參與者可以上傳視頻和將視頻捕獲數據的修改版本合并到故事中。在一些情況下,可以將一個或多個濾波器應用到視頻以便修改其外觀,所述濾波器諸如高通濾波器、低通濾波器(使圖像模糊)、邊緣加強技術、彩色濾波器(例如使用源圖像的亮度通道對任意RGB表進行標引)、失真濾波器(紋波、透鏡、垂直波、水平波等等)、棕褐色調濾波等等。例如,“轉描”濾波器可以將“真實世界”圖像的外觀修改為“卡通世界”圖像。轉描可以使用數個濾波器的組合實現(例如,應用對比度加強,然后從RGB顏色空間轉換到HSV顏色空間,然后對V坐標非常粗糙地量化)。專業轉描的一個階段典型地涉及展現要轉描的每張臉部周圍的輪廓線,并且然后應用轉描算法。可替換地或者附加地,故事的可視背景可以個性化為參與者熟悉的東西。例如,背景可以是參與者臥室、住宅或者鄰居的圖片。因此,故事內的圖像和/或對象可以與視頻捕獲和/或靜止圖像的至少一部分相組合。例如,電子故事可以包括顯示坐在臥室中的卡通角色的圖像和/或對象。在一些實施例中,可以上傳單獨的臥室圖像并且將其與卡通角色組合,使得所產生的圖像和/或對象顯示坐在單獨的臥室中的卡通角色。此外,在至少一些實施例中,類似于Kinect類型的場景,可以捕獲讀者的身體運動,并且將其用于驅動故事中的角色的動畫。
考慮圖18,其圖示出轉描濾波器的示例之前和之后。圖像1802圖示出某個男人的靜止圖像。該圖像表示由攝像機(例如圖15的攝像機1502)拍攝的真實世界圖像。在這里,圖像以男人的頭部為中心。在一些實施例中,先前已使用如上面所描述的臉部檢測算法處理了圖像1802以移除臉部周圍的其他元素和/或對象。該圖像可以用作是對于一個或多個濾波器(諸如上面描述的轉描濾波器)的輸入。圖像1804圖示出圖像1802在應用轉描濾波器之后看起來如何。在濾波之后,圖像1804與圖像1802的繪制版本或者卡通版本很相似。盡管在靜止圖像的上下文中進行了討論,但是應當領會的是,可以將濾波器應用到視頻捕獲,而不脫離要求保護的主題的范圍。
如先前所描述的,各種事件的檢測可以給予用戶何時可以個性化、修改和/或定制故事的方面的暗示。響應于這些暗示,用戶可以除別的以外通過修改視頻捕獲并且將所修改的視頻嵌入到故事中而對故事進行個性化。在一些情況下,可以對于與講故事有關的各種特征和/或姿態自動地分析和/或人工地標記視頻捕獲。例如,考慮圖19,其圖示出加強的交互式故事1902。在該示例中,視頻捕獲圖像1506以兩種單獨的方式被增強并且嵌入到加強的交互式故事1902中。增強的視頻1904表示與視頻捕獲圖像1506關聯的轉描圖像。在這里,利用轉描濾波器效果對視頻捕獲圖像1506濾波以便如上面所描述的將關聯的臉部傳遞到“卡通世界”中。除了應用轉描濾波器作為增強過程之外,將所修改的圖像疊加在花的卡通體上。在一些實施例中,增強的視頻1904可以是與視頻關聯的某個靜止圖像,而在其他實施例中,增強的視頻1904可以是一系列圖像。可替換地或者附加地,視頻捕獲圖像1506中檢測的臉部特征可以驅動與故事中包含的卡通關聯的臉部變化。
除了合并增強的視頻1904之外,加強的交互式故事1902包括與疊加在圖像1906上的視頻捕獲圖像1506的臉部關聯的靜止圖像。如上面所討論的,可以使用自動和/或人工臉部檢測過程提取臉部。在這里,臉部特征被簡單地剪切并且粘貼到圖像1906中。然而,在其他實施例中,可以應用其他的增強濾波器,諸如上面描述的阿爾法混合算法。
用戶可以選擇以數種方式將視頻合并到故事體驗中。一些實施例在閱讀過程之前、期間或者之后通知用戶對于視頻插入和/或增強的潛在機會和/或給予用戶這些潛在機會的暗示,其示例在上文中提供。在一些情況下,用戶可以從故事內的可用角色列表中選取角色以便補充、增強或者替換為視頻捕獲。這也可以自動地完成。例如,在讀者讀到來自Elmo的引用的任何時間,將讀者的話音變形為聽起來像Elmo,并且相應地將電子故事中的Elmo的圖片動畫化為讀者的臉部表情。可替換地或者附加地,由用戶選取角色或暗示通知可以激活攝像機和/或視頻捕獲過程。除了通知用戶潛在的增強機會之外,一些實施例使得用戶能夠選取如何對視頻捕獲進行處理、濾波、分析等等。在其他實施例中,當檢測到用于視頻插入和/或增強的機會時,視頻插入和/或增強可以自動地發生。例如,使用上面的Elmo示例,當Elmo的話音被檢測為正被讀時,可以針對姿態而分析視頻捕獲,其隨后可以用來自動地將電子故事中的Elmo圖像動畫化。按照這種方式,故事體驗可以由與故事關聯的所有參與者來個性化。附加地,可以指出的是,視頻處理和/或增強可以發生在系統內的任何適當的設備處,諸如與捕獲視頻關聯的設備、被配置成存儲復合故事體驗的服務器設備和/或接收設備。
為了進一步證明,考慮圖20,其圖示出描述依照一個或多個實施例的方法中的步驟的流程圖。該方法可以由任何適當的硬件、軟件、固件或者其組合執行。在至少一些實施例中,該方法的方面可以通過在一個或多個計算設備上執行的一個或多個適當配置的軟件模塊(諸如圖1-3的增強效果模塊112)實現。
步驟2000接收與電子故事的讀者關聯的視頻數據,該電子故事被配置成與一個或多個遠程參與者共享。在一些實施例中,視頻數據接收自與讀者關聯的計算設備。在其他實施例中,視頻數據從與讀者關聯的計算設備外部的服務器位置中獲取。可替換地或者附加地,視頻數據可以從作為遠程參與者的讀者或者存儲在計算設備本地和/或外部的預先記錄的視頻中獲取。有時,如上文中進一步描述的,可以響應于接收到和與電子故事關聯的提示和/或暗示關聯的輸入而獲取和/或接收視頻數據。
響應于接收到視頻數據,步驟2002增強視頻數據以生成至少一幅新圖像。例如,可以使用諸如臉部檢測算法、姿態檢測算法等等之類的各種算法分析視頻數據。這些檢測算法有時可以更改和/或增強視頻數據以保留感興趣區域和/或圖像并且移除被確定為不太相關的區域和/或圖像。在一些情況下,可以將濾波器應用到視頻數據以生成視頻數據的更改版本,諸如應用轉描濾波器效果以生成視頻數據的“卡通世界”版本,或者將視頻數據與其他圖像混合。在其他情況下,可以分析視頻數據以便標識視頻數據內捕獲的一種或多種姿態。這些姿態然后可以被利用來驅動與電子故事關聯的圖像和/或視頻數據的行為。例如,在電子故事內所關聯的卡通角色的圖像可以模仿視頻數據內標識的姿態。此外,該步驟可以在任何適當的位置執行。在至少一些實施例中,該步驟可以在讀者的計算設備處或者由讀者的計算設備執行。可替換地或者附加地,該步驟可以由接收了步驟2000的視頻數據的服務器執行。可替換地或者附加地,與每個遠程參與者的每個參與者關聯的計算設備可以執行該步驟。上文中提供了這可以被如何完成的示例。應當領會且理解的是,盡管一般地使用術語“圖像”加以描述,但是可以使用圖形/視覺數據的任何表示,而不脫離要求保護的主題的范圍,諸如矢量圖形、位圖圖形、元文件格式、線圖、圖形交換格式(GIF)、交換文件格式(IFF)、聯合圖片專家組(JPEG)、標簽圖像文件格式(TIF)等等。
響應于增強視頻數據以生成至少一幅新圖像,步驟2004使得所述一個或多個遠程參與者能夠消費增強的視頻數據。例如,在其中在讀者的計算設備上增強視頻數據的實施例中,步驟2004可以通過向與遠程參與者的每個參與者關聯的計算設備傳輸或者以其他方式傳達增強的視頻數據而執行。在其中視頻數據由服務器增強的實施例中,該步驟可以通過服務器將增強的視頻數據分發至與遠程參與者的每個參與者關聯的計算設備而執行。在其中視頻數據由與遠程參與者關聯的計算設備增強的實施例中,該步驟可以通過使得該遠程參與者能夠經由適當配置的應用來消費增強的視頻數據而執行。
現在考慮可以采用上面描述的實施例的一些使用場景。
示例使用方案
假定兩個人“Billy”和“Joe叔叔”在遠程地閱讀電子書。該圖書是熟悉的兒童歌曲“公交車上的車輪不停轉動(The Wheels on the Bus Go Round and Round)”的插圖版本。該圖書打開到示出學校公交車、公交車司機、門、車輪和擋風玻璃雨刮器的頁面。當Billy通過觸摸司機的臉部或者某個嵌入式控件而發起增強效果時,應用臉部檢測和轉描以使Joe叔叔的臉部被操縱為卡通版本并且覆蓋在公交車司機的頭部上。當在故事中指示各種不同的動作(如通過由ASR進行跟蹤、對象交互、接收用戶界面輸入等等)時,它們在數字故事顯示中出現(例如雨刮器沙沙擺動,門打開和關閉,嬰兒哭喊等等)。當應用它們時,Joe叔叔和Billy二者都在其設備上看見這些效果。
另一個用途的示例包括利用占位符以用于使其他人參與到故事閱讀中。這些占位符可以嵌入到故事中,并且可以在如果在故事正被閱讀時那些人在線的情況下激活。這可以使得能夠發現與其一起閱讀的人。例如,小孩可能正在為了要閱讀的書而瀏覽庫,并且也看見在線的家庭成員列表。他們然后可以選擇一個或多個家庭成員來共享故事。可替換地,小孩可能正在獨自閱讀圖書,并且在翻到第4頁時,發現祖母在線并且可用來一起閱讀。這可以由故事中的、指示可用于視頻聊天的人的嵌入式控件或小部件指示。通過點擊小部件或控件,可以開始視頻聊天會話。可替換地或者附加地,小部件可以置于圖書外部(例如右邊),使得不管被閱讀的頁面如何,它都可用。可替換地或者附加地,祖母可能已經開始了視頻呼叫并且已經位于第4頁上的占位符位置。可替換地或者附加地,祖母和小孩可能正在一起閱讀,并且當到達第4頁時,他們注意到樹圖形在振動(或者某個其他的視覺暗示)。小孩或祖母然后可以觸摸樹,并且第三人(例如Dan叔叔)加入視頻呼叫,但是時間僅僅夠長來扮演松鼠的角色,以及也許還有短會談,其后Dan離開呼叫并且祖母和小孩重新開始閱讀故事。
另一個用途的示例可以允許讀者或者另一個參與者正好在向遠程參與者讀故事之前將一段簡短內容注入圖書中。這可以保持內容新鮮和迷人,例如,雖然故事仍然相同,但是當你到達故事中的某些段落時,那里可能貯藏著驚奇。所注入的內容可以直接記錄在設備上,或者如果所注入的內容來自另一個參與者,則從駐留在設備上的視頻文件導入。為了實現這點,對于電子書的元數據可以被擴展為包括用于外部文件的容器(槽)。在最簡單的情況下,文件名可以是固定的,像在“externalVideol.mp4”、“externalVideo2.mp4”等等中那樣。當展現電子書時,元數據引導這些視頻流送至元數據標簽內所供應的頁面上的坐標處,如:
<InjectedVideo width=640 height=480 xPos=640 yPos=480 videoContainer="externalVideol.mp4" triggerAction="buttonlPressed"/>
附加的元數據標簽(例如上面的triggerAction(觸發動作))可以指定觸發視頻回放的動作。當將視頻流作為頁面上的特定對象的一部分而嵌入時,其他元數據標簽將更合適。正下方示出了一個示例:
<OverlaidVideo objectAnchor="Schoolbus" offsetX=10 offsetY=20 videoContainer="externalVideo2.mp4" transparentColor=0x0080FF />
在上面的標簽中,Schoolbus(學校公交車)對象要從所指名的文件接收覆蓋的視頻流。它將定位于相對于Schoolbus圖形的邊界框的左上的、偏移量為{10, 20}的位置處。視頻可以使用色度鍵控,使得進入的視頻中具有顏色0x0080FF的所有像素將是透明的。視頻中的所有其他像素將代替電子書頁面的相應像素上的像素。這允許使用傳統的藍屏技術覆蓋例如僅僅人的視頻記錄的頭部和肩部。可以利用諸如背景移除之類的其他技術。
另一個使用場景可以包括所謂的共同定位場景,其中參與者可以坐在一起并且在相同設備上欣賞故事。例如,祖母和她的孫子女可以一起欣賞故事并且將他們的臉部具有變形到故事的角色上的臉部。可以例如在記錄-然后-播放(record-then-play)方法中實現音頻增強。假定例如故事涉及洞穴,并且電子故事具有記錄按鈕形式的用戶界面元素。祖母按下記錄按鈕并且記錄“救救我,我陷在洞穴中”。她的孫子女然后可以觸摸與祖母關聯的角色,并且聽見應用了回聲的該角色話音中的短語。
在上面的示例中,所有參與者典型地欣賞相同的體驗(來自讀者的嵌入式視頻、來自第三方的嵌入式視頻、指示存在第三參與者的圖形元素等等)。
考慮了示例使用場景之后,現在考慮可以被利用來實現一個或多個實施例的示例設備的討論。
示例設備
圖21圖示出可以實現為如參照圖1和圖2描述的實現本文描述的數據啟發式引擎的實施例的任何類型的便攜式和/或計算機設備的示例設備2100的各種部件。設備2100包括通信設備2102,其使得能夠實現設備數據2104(例如接收的數據、正被接收的數據、計劃用于廣播的數據、數據的數據分組等等)的有線和/或無線通信。設備數據2104或者其他設備內容可以包括設備的配置設置、存儲在設備上的媒體內容和/或與設備用戶關聯的信息。存儲在設備2100上的媒體內容可以包括任何類型的音頻、視頻和/或圖像數據。設備2100包括一個或多個數據輸入2106,經由所述數據輸入可以接收任何類型的數據、媒體內容和/或輸入,諸如用戶可選取的輸入、消息、音樂、電視媒體內容、所記錄的視頻內容以及接收自任何內容和/或數據源的任何其他類型的音頻、視頻和/或圖像數據。
設備2100也包括可以實現為以下的一個或者多個的通信接口2108,即:串行和/或并行接口、無線接口、任何類型的網絡接口、調制解調器以及任何其他類型的通信接口。通信接口2108提供設備2100與通信網絡之間的連接和/或通信鏈路,其他電子、計算和通信設備通過其與設備2100傳送數據。
設備2100包括一個或多個處理器2110(例如微處理器、控制器等等中的任何),其處理各種計算機可執行或可讀指令以便控制設備2100的操作并且實現上面描述的實施例。可替換地或者附加地,設備2100可以利用結合總體地標識于2112處的處理和控制電路實現的硬件、固件或固定邏輯電路系統的任何一個或者其組合實現。盡管未示出,但是設備2100可以包括耦合設備內的各種部件的系統總線或數據傳遞傳輸系統。系統總線可以包括不同總線結構中的任何一種或者其組合,諸如例如存儲器總線或存儲器控制器、外設總線、通用串行總線和/或處理器或本地總線,其利用了各種各樣的總線架構中的任何一種。
設備2100也包括計算機可讀存儲介質2114,諸如一個或多個存儲器部件,其示例包括隨機存取存儲器(RAM)、非易失性存儲器(例如只讀存儲器(ROM)、閃存、EPROM、EEPROM等等中的任何一個或多個)和盤存儲設備。盤存儲設備可以被實現為任何類型的磁性或光學存儲設備,諸如硬盤驅動器、可記錄和/或可重寫緊湊盤(CD),任何類型的數字多功能盤(DVD)等等。設備2100也可以包括大容量存儲介質設備2116。計算機可讀存儲介質預期指的是法定形式的介質。因此,計算機可讀存儲介質沒有描述載波或信號本身。
計算機可讀存儲介質2114提供了用于存儲設備數據2104以及各種設
備應用2118和與設備2100的操作方面有關的任何其他類型的信息和/或數據的數據存儲機制。例如,操作系統2120可以利用計算機可讀存儲介質2114作為計算機應用來維護,并且在處理器2110上執行。設備應用2118可以包括設備管理器(例如控制應用、軟件應用、信號處理和控制模塊、源于特定設備的代碼、用于特定設備的硬件抽象層等等),以及其他應用,其可以包括web瀏覽器、圖像處理應用、諸如即時消息傳送應用之類的通信應用、字處理應用和各種各樣的其他不同的應用。設備應用2118也可以包括用于實現本文描述的技術的實施例的任何系統部件或模塊。在該示例中,設備應用2118包括被示為軟件模塊和/或計算機應用的增強效果模塊2122。增強效果模塊2122表示如上面所描述的而進行操作的軟件。可替換地或者附加地,增強效果模塊2122被實現為硬件、軟件、固件或者其任何組合。
設備2100也包括向音頻系統2126提供音頻數據和/或向顯示系統2128提供視頻數據的音頻和/或視頻輸入-輸出系統2124。音頻系統2126和/或顯示系統2128可以包括處理、顯示和/或以其他方式展現音頻、視頻和圖像數據的任何設備。視頻信號和音頻信號可以經由RF(射頻)鏈路、S視頻鏈路、復合視頻鏈路、分量視頻鏈路、DVI(數字視頻接口)、模擬音頻連接或者其他類似的通信鏈路從設備2100傳送至音頻設備和/或顯示設備。在一個實施例中,音頻系統2126和/或顯示系統2128被實現為設備2100外部的部件。可替換地,音頻系統2126和/或顯示系統2128被實現為示例設備2100的集成部件。
結論
各種實施例提供了一種其中可以從遠程位置體驗故事的交互式共享故事閱讀體驗。各種實施例使得能夠增強或修改與故事閱讀體驗關聯的音頻和/或視頻。這可以包括在閱讀故事時增強和修改讀者的話音、臉部和/或與故事關聯的其他內容。
按照這種方式,兩個或更多個遠程參與者可以與基于故事的共享交互式內容實時地通信并且交互。可替換地或者附加地,基于故事的共享交互式內容可以被增強或修改和記錄和/或存檔以供后續回放。
盡管以特定于結構特征和/或方法動作的語言描述了實施例,但是應當理解的是,在所附權利要求中限定的實施例不必限于所描述的特定特征或動作。而是,這些特定特征和動作作為實現要求保護的實施例的示例形式而公開。

關 鍵 詞:
用于 故事 閱讀 基于 位置 增強
  專利查詢網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:用于故事閱讀的基于位置的增強.pdf
鏈接地址:http://www.rgyfuv.icu/p-6373616.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服客服 - 聯系我們

[email protected] 2017-2018 zhuanlichaxun.net網站版權所有
經營許可證編號:粵ICP備17046363號-1 
 


收起
展開
山东11选5中奖结果走势图