應用程序的數量和語音接口的重要性正在迅速增長
技術

應用程序的數量和語音接口的重要性正在迅速增長

俄勒岡州波特蘭市的一個美國家庭最近獲悉,亞歷克斯的語音助手記錄了他們的私人聊天並將其發送給朋友。 這所房子的主人,被媒體稱為丹妮爾,告訴記者,她“永遠不會再插上那個設備,因為她不能被信任。”

Alexa由 Echo (1) 揚聲器和數以千萬計的美國家庭中的其他小工具提供的,當它聽到用戶說出它的名字或“呼叫詞”時開始錄製。 這意味著即使電視廣告中提到了“Alexa”這個詞,設備也可能開始錄製。 硬件分銷商亞馬遜說,這正是在這種情況下發生的事情。

該公司在一份聲明中說:“語音助手將對話的其餘部分解釋為發送消息的命令。” “在某個時候,Alexa 大聲問:“給誰?” 機器本應將關於硬木地板的家庭對話繼續視為客戶聯繫人列表中的項目。” 至少亞馬遜是這麼認為的。 因此,翻譯被簡化為一系列事故。

然而,焦慮依然存在。 因為出於某種原因,在我們仍然感到自在的房子裡,我們必須進入某種“語音模式”,看我們說什麼,看電視正在播放什麼,當然還有抽屜櫃上的這個新揚聲器說。 我們。

然而, 儘管存在技術缺陷和隱私問題,但隨著亞馬遜 Echo 等設備的普及,人們開始習慣使用語音與計算機交互的想法。.

正如亞馬遜首席技術官 Werner Vogels 在 2017 年底的 AWS re:Invent 會議上指出的那樣,迄今為止,技術限制了我們與計算機交互的能力。 我們使用鍵盤在 Google 中輸入關鍵字,因為這仍然是向機器輸入信息的最常見和最簡單的方法。

沃格爾斯說。 -

四大

在手機上使用谷歌搜索引擎時,我們可能注意到很久以前的一個麥克風標誌,上面有一個呼叫通話。 這 谷歌現在 (2),可用於口述搜索查詢、語音輸入消息等。近年來,谷歌、蘋果和亞馬遜都有很大的改進 語音識別技術. Alexa、Siri 和 Google Assistant 等語音助手不僅可以錄製您的聲音,還可以理解您對他們說的話並回答問題。

所有 Android 用戶均可免費使用 Google Now。 例如,該應用程序可以設置警報、查看天氣預報和查看谷歌地圖上的路線。 Google Now 狀態的會話擴展 谷歌助理 () – 對設備用戶的虛擬幫助。 它主要在移動和智能家居設備上可用。 與 Google Now 不同,它可以參與雙向交流。 該助手於 2016 年 3 月作為 Google 消息應用程序 Allo 的一部分以及 Google Home 語音揚聲器 (XNUMX) 首次亮相。

3.谷歌主頁

IOS系統也有自己的虛擬助手, Siri的,這是一個包含在 Apple 操作系統 iOS、watchOS、tvOS homepod 和 macOS 中的程序。 Siri 於 5 年 4 月在 Let's Talk iPhone 大會上隨 iOS 2011 和 iPhone XNUMXs 首次亮相。

該軟件基於對話界面:它可以識別用戶的自然語音(在 iOS 11 中也可以手動輸入命令)、回答問題並完成任務。 由於機器學習的引入,隨著時間的推移成為助手 分析個人喜好 用戶提供更相關的結果和建議。 Siri 需要持續的互聯網連接——這裡的主要信息來源是 Bing 和 Wolfram Alpha。 iOS 10 引入了對第三方擴展的支持。

四大巨頭中的另一個 小娜. 它是微軟創建的智能個人助理。 它在 Windows 10、Windows 10 Mobile、Windows Phone 8.1、Xbox One、Skype、Microsoft Band、Microsoft Band 2、Android 和 iOS 平台上受支持。 Cortana 於 2014 年 XNUMX 月在舊金山舉行的 Microsoft Build 開發者大會上首次推出。 該程序的名稱來自 Halo 遊戲系列中的一個角色的名稱。 Cortana 提供英語、意大利語、西班牙語、法語、德語、中文和日語版本。

已經提到的程序的用戶 Alexa 他們還必須考慮語言限制——數字助理只會說英語、德語、法語和日語。

亞馬遜虛擬助手最初用於亞馬遜 Lab126 開發的亞馬遜 Echo 和亞馬遜 Echo Dot 智能音箱。 它支持語音交互、音樂播放、待辦事項列表創建、鬧鐘設置、播客流、有聲讀物播放以及實時天氣、交通、體育和其他新聞信息,例如新聞 (4)。 Alexa 可以控制多個智能設備來創建家庭自動化系統。 它也可以用來在亞馬遜商店進行方便的購物。

4. 用戶使用 Echo 做什麼(根據研究)

用戶可以通過安裝 Alexa“技能”() 來增強 Alexa 體驗,這是由第三方開發的附加功能,通常稱為其他設置中的天氣和音頻程序等應用程序。 大多數 Alexa 設備允許您使用喚醒密碼(稱為 .

亞馬遜無疑在當今的智能音箱市場佔據主導地位 (5)。 2018 年 XNUMX 月推出新服務的 IBM 正努力進入前四 沃森的助手,專為希望創建自己的語音控制虛擬助手系統的公司而設計。 IBM 解決方案的優勢是什麼? 據公司代表稱,首先,個性化和隱私保護的機會更大。

首先,Watson Assistant 沒有品牌。 公司可以在這個平台上創建自己的解決方案,並貼上自己的品牌標籤。

其次,他們可以使用自己的數據集訓練他們的輔助系統,IBM 表示,與其他 VUI(語音用戶界面)技術相比,這使得向該系統添加功能和命令更容易。

第三,Watson Assistant 不向 IBM 提供有關用戶活動的信息——平台上的解決方案開發人員只能將有價值的數據留給自己。 同時,任何構建設備的人,例如使用 Alexa 的人,都應該意識到他們的寶貴數據最終會在亞馬遜上。

Watson Assistant 已經有多個實現。 例如,該系統被 Harman 使用,該公司為瑪莎拉蒂概念車 (6) 創建了語音助手。 在慕尼黑機場,IBM 助手為 Pepper 機器人提供動力,幫助乘客四處走動。 第三個例子是 Chameleon Technologies,語音技術用於​​智能家居儀表。

6. 瑪莎拉蒂概念車中的 Watson Assistant

值得補充的是,這裡的底層技術也不是新的。 Watson Assistant 包括現有 IBM 產品、Watson Conversation 和 Watson Virtual Agent 的加密功能,以及用於語言分析和聊天的 API。

亞馬遜不僅是智能語音技術的領導者,而且正在將其轉變為直接業務。 然而,一些公司更早地嘗試了 Echo 集成。 BI 和分析行業的公司 Sisense 於 2016 年 XNUMX 月推出了 Echo 集成。 反過來,初創公司 Roxy 決定為酒店業創建自己的語音控制軟件和硬件。 今年早些時候,Synqq 推出了一款筆記應用程序,該應用程序使用語音和自然語言處理來添加筆記和日曆條目,而無需在鍵盤上鍵入它們。

所有這些小企業都有很高的抱負。 然而,最重要的是,他們了解到並非每個用戶都希望將他們的數據傳輸到亞馬遜、谷歌、蘋果或微軟,這些都是構建語音通信平台的最重要參與者。

美國人想買

2016年,語音搜索佔谷歌所有移動搜索的20%。 每天使用這項技術的人都認為它的便利性和多任務處理是其最大的好處。 (例如,駕駛汽車時使用搜索引擎的能力)。

Visiongain分析師估計,目前智能數字助理的市值為1,138億美元,這樣的機制越來越多。 根據 Gartner 的數據,到 2018 年底 30% 的互動 技術將通過與語音系統的對話來實現。

英國研究公司 IHS Markit 估計,人工智能驅動的數字助理市場到今年年底將達到 4 億台設備,到 2020 年這個數字可能會上升到 7 億台。

根據 eMarketer 和 VoiceLabs 的報告,2017 年有 35,6 萬美國人每月至少使用一次語音控制。 這意味著比上一年增長了近 130%。 僅數字助理市場預計將在 2018 年增長 23%。 這意味著您將已經在使用它們。 60,5萬美國人,這將為他們的生產者帶來具體的資金。 RBC Capital Markets 估計,到 2020 年,Alexa 界面將為亞馬遜帶來高達 10 億美元的收入。

洗、烤、洗!

語音接口越來越大膽地進入家用電器和消費電子市場。 這在去年的 IFA 2017 展會上已經可以看到。例如,美國公司 Neato Robotics 推出了一款機器人吸塵器,它可以連接到包括亞馬遜 Echo 系統在內的多個智能家居平台之一。 通過與 Echo 智能揚聲器交談,您可以指示機器在白天或晚上的特定時間清潔您的整個房子。

展會上還展示了其他聲控產品,從土耳其公司 Vestel 以東芝品牌銷售的智能電視到德國公司 Beurer 的加熱毯。 許多這些電子設備也可以使用智能手機遠程激活。

然而,根據博世代表的說法,現在說哪種家庭助理選項將成為主導還為時過早。 在 IFA 2017 上,一家德國技術集團展示了連接 Echo 的洗衣機 (7)、烤箱和咖啡機。 博世還希望其設備在未來能夠與穀歌和蘋果語音平台兼容。

7.連接亞馬遜Echo的博世洗衣機

富士通、索尼和松下等公司正在開發自己的基於人工智能的語音助手解決方案。 夏普正在將這項技術添加到進入市場的烤箱和小型機器人中。 Nippon Telegraph & Telephone 正在招聘硬件和玩具製造商,以適應語音控制的人工智能係統。

舊概念。 她的時代終於到來了嗎?

事實上,語音用戶界面 (VUI) 的概念已經存在了幾十年。 多年前看過《星際迷航》或《2001:太空漫遊》的任何人都可能預計,在 2000 年左右,我們都將用自己的聲音控制計算機。 此外,不僅僅是科幻作家看到了這種界面的潛力。 1986 年,尼爾森研究人員詢問 IT 專業人士,他們認為到 2000 年用戶界面的最大變化是什麼。 他們最常提到語音接口的發展。

有理由希望這樣的解決方案。 語言交流畢竟是人們有意識地交流思想最自然的方式,因此將其用於人機交互似乎是迄今為止最好的解決方案。

最早的 VUI 之一,稱為 鞋盒,由 IBM 在 60 年代初創建。 它是當今語音識別系統的先驅。 然而,VUI 設備的發展受到了計算能力的限制。 實時解析和解釋人類語音需要付出很多努力,並且花了五十多年的時間才真正成為可能。

帶有語音接口的設備在 90 年代中期開始量產,但並未普及。 第一部帶有語音控制(撥號)的電話是 飛利浦火花1996 年發布。 然而,這種創新且易於使用的設備並非沒有技術限制。

其他配備語音接口形式的手機(由 RIM、三星或摩托羅拉等公司開發)經常上市,允許用戶通過語音撥號或發送短信。 然而,所有這些都需要記住特定的命令,並以強制的、人為的形式發音,以適應當時設備的功能。 這會產生大量錯誤,進而導致用戶不滿。

然而,我們現在正在進入一個新的計算時代,機器學習和人工智能的進步正在釋放對話的潛力,作為與技術交互的一種新方式 (8)。 支持語音交互的設備數量已經成為影響VUI發展的重要因素。 今天,世界上近 1/3 的人口已經擁有可用於此類行為的智能手機。 看起來大多數用戶終於準備好適應他們的語音界面了。

8. 語音界面的現代發展史

然而,在我們能夠像《太空漫遊》中的英雄們那樣自由地與計算機交談之前,我們必須克服許多問題。 機器仍然不能很好地處理語言上的細微差別。 除了 許多人仍然對向搜索引擎發出語音命令感到不舒服.

統計數據顯示,語音助手主要用於家庭或親密朋友之間。 受訪者均未承認在公共場所使用語音搜索。 但是,這種封鎖很可能會隨著這項技術的普及而消失。

技術難題

系統 (ASR) 面臨的問題是從語音信號中提取有用數據,並將其與對人具有特定含義的特定單詞相關聯。 每次發出的聲音都不一樣。

語音信號可變性 是它的自然屬性,因此我們可以識別口音或語調。 語音識別系統的每個元素都有特定的任務。 基於處理後的信號及其參數,創建與語言模型相關聯的聲學模型。 識別系統可以在少量或大量模式的基礎上工作,這決定了它所使用的詞彙量的大小。 他們可能是 小詞典 對於識別單個單詞或命令的系統,以及 大型數據庫 包含語言集的等價物並考慮到語言模型(語法)。

語音接口首先面臨的問題 正確理解語音,其中,例如,經常省略整個語法序列,遇到語言和語音錯誤、錯誤、遺漏、語音缺陷、同音異義詞、不合理的重複等。所有這些 ACP 系統都必須快速可靠地工作。 至少這些是期望。

困難的來源也是進入識別系統輸入的識別語音以外的聲學信號,即所有種類 干擾和噪聲. 在最簡單的情況下,您需要它們 過濾掉. 這項任務看起來既常規又簡單——畢竟,各種信號都經過過濾,每個電子工程師都知道在這種情況下該怎麼做。 但是,如果語音識別的結果要符合我們的期望,就必須非常小心謹慎地進行。

當前使用的濾波可以與語音信號一起去除麥克風拾取的外部噪聲以及語音信號本身的內部特性,這些特性使其難以識別。 然而,當對被分析的語音信號的干擾是……另一個語音信號時,就會出現一個更複雜的技術問題,例如,周圍的大聲討論。 這個問題在文獻中被稱為所謂的。 這已經需要使用複雜的方法,即所謂的。 反捲積 (解開)信號。

語音識別的問題還不止於此。 值得注意的是,語音承載著許多不同類型的信息。 人聲暗示主人的性別、年齡、不同的性格或他的健康狀況。 有一個廣泛的生物醫學工程系根據語音信號中發現的特徵聲學現象來處理各種疾病的診斷。

還有一些應用,語音信號的聲學分析的主要目的是識別說話者或驗證他是他聲稱的身份(語音而不是密鑰、密碼或 PUK 碼)。 這可能很重要,尤其是對於智能建築技術。

語音識別系統的第一個組件是 麥克風. 但是,麥克風拾取的信號通常幾乎沒有用處。 研究表明,聲波的形狀和過程會因人、說話的速度以及對話者的心情而有很大的不同——而它們在很小的程度上反映了口頭命令的內容。

因此,必須正確處理信號。 現代聲學、語音學和計算機科學共同提供了一套豐富的工具,可用於處理、分析、識別和理解語音信號。 信號的動態頻譜,即所謂的 動態頻譜圖. 它們相當容易獲得,並且以動態頻譜圖的形式呈現的語音相對容易識別,使用類似於圖像識別中使用的技術。

簡單的語音元素(例如命令)可以通過整個頻譜圖的簡單相似性來識別。 例如,一個語音激活的手機詞典只包含幾十到幾百個單詞和短語,通常是預先堆疊的,以便可以輕鬆有效地識別它們。 這對於簡單的控制任務來說已經足夠了,但它嚴重限制了整體應用。 根據該計劃構建的系統通常僅支持經過特殊訓練的特定揚聲器。 所以如果有新人想用他們的聲音來控制系統,他們很可能不會被接受。

此操作的結果稱為 2-W 頻譜圖,即二維譜。 這個區塊還有一個值得關注的活動—— 分割. 一般來說,我們所說的是將連續的語音信號分解成可以單獨識別的部分。 只有從這些單獨的診斷中,才能對整體進行識別。 這個過程是必要的,因為不可能一次性識別冗長而復雜的語音。 關於在語音信號中區分哪些片段已經寫了整捲,所以我們現在不會決定區分的片段應該是音素(聲音等價物)、音節還是同位異音。

自動識別的過程總是涉及到物體的某些特徵。 對語音信號進行了數百組不同參數的測試,語音信號有 分為識別幀 並擁有 選定的功能在識別過程中呈現這些幀,我們可以執行(分別為每個幀) 分類, IE。 為框架分配一個標識符,它將在將來表示它。

下一階段 將框架組裝成單獨的單詞 - 通常基於所謂的。 隱式馬爾可夫模型 (HMM-)。 然後是文字的蒙太奇 完整的句子.

我們現在可以暫時回到 Alexa 系統。 他的例子展示了機器“理解”一個人的多階段過程——更準確地說:他給出的命令或提出的問題。

理解單詞、理解含義和理解用戶意圖是完全不同的事情。

因此,下一步就是NLP模塊()的工作了,其任務是 用戶意圖識別, IE。 命令/問題在其發出的上下文中的含義。 如果確定了意圖,則 分配所謂的技能和能力,即智能助手支持的具體功能。 如果是關於天氣的問題,則調用天氣數據源,這些數據源仍有待處理成語音(TTS - 機制)。 結果,用戶聽到了所提問題的答案。

嗓音? 圖形藝術? 或者兩者兼而有之?

大多數已知的現代交互系統都基於稱為 圖形用戶界面 (圖形界面)。 不幸的是,GUI 並不是與數字產品交互的最明顯方式。 這要求用戶首先學習如何使用界面,並在每次後續交互中記住這些信息。 在許多情況下,語音更方便,因為您只需與設備對話即可與 VUI 進行交互。 不強制用戶記住和記住某些命令或交互方法的界面導致的問題更少。

當然,VUI 的擴展並不意味著放棄更多的傳統界面——相反,將出現結合多種交互方式的混合界面。

語音界面並不適合移動環境中的所有任務。 有了它,我們可以打電話給開車的朋友,甚至給他發短信,但檢查最新的轉賬可能太困難了——由於傳輸到系統 () 和由系統 (系統) 生成的信息量很大。 正如 Rachel Hinman 在她的 Mobile Frontier 一書中建議的那樣,在執行輸入和輸出信息量較小的任務時,使用 VUI 變得最有效。

連接到互聯網的智能手機很方便,但也很不方便 (9)。 每次用戶想要購買東西或使用新服務時,他們都必須下載另一個應用程序並創建一個新帳戶。 這裡創建了語音接口的使用和開發領域。 專家表示,VUI 不會強迫用戶安裝許多不同的應用程序或為每項服務創建單獨的帳戶,而是將這些繁瑣任務的負擔轉移到人工智能驅動的語音助手上。 方便他進行劇烈的活動。 我們只會給他命令。

9. 智能手機語音界面

今天,連接到 Internet 的不僅僅是電話和計算機。 智能恆溫器、燈、水壺和許多其他物聯網集成設備也連接到網絡 (10)。 因此,我們周圍到處都有無線設備充斥著我們的生活,但並不是所有的無線設備都能自然地融入圖形用戶界面。 使用 VUI 將幫助您輕鬆地將它們集成到我們的環境中。

10.物聯網語音接口

創建語音用戶界面將很快成為設計師的一項關鍵技能。 這是一個真正的問題——實現語音系統的需要會鼓勵您更多地關注主動設計,即嘗試了解用戶的最初意圖,在對話的每個階段預測他們的需求和期望。

語音是一種輸入數據的有效方式——它允許用戶根據自己的條件快速向系統發出命令。 另一方面,屏幕提供了一種高效的信息顯示方式:它允許系統同時顯示大量信息,減輕用戶的記憶負擔。 將它們組合成一個系統聽起來令人鼓舞是合乎邏輯的。

Amazon Echo 和 Google Home 等智能揚聲器根本不提供視覺顯示。 顯著提高了中等距離語音識別的準確性,它們允許免提操作,從而提高了它們的靈活性和效率——即使對於已經擁有語音控制智能手機的用戶來說,它們也是理想的。 但是,缺少屏幕是一個巨大的限制。

只有嗶嗶聲可用於通知用戶可能的命令,並且除了最基本的任務外,大聲閱讀輸出變得乏味。 在烹飪時使用語音命令設置計時器很棒,但沒有必要讓您詢問還剩多少時間。 定期獲取天氣預報對用戶來說是對記憶力的考驗,用戶必須整週聆聽和吸收一系列事實,而不是一眼從屏幕上拿起它們。

設計師們已經 混合解決方案, Echo Show (11),在基本的 Echo 智能音箱上增加了顯示屏。 這極大地擴展了設備的功能。 但是,Echo Show 執行智能手機和平板電腦長期以來提供的基本功能的能力仍然要差得多。 例如,它(還)不能上網、顯示評論或顯示亞馬遜購物車的內容。

視覺顯示本質上是一種更有效的方式,可以為人們提供豐富的信息,而不僅僅是聲音。 語音優先設計可以大大提升語音交互,但長期來看,為了交互而隨意不使用可視化菜單,就如同背負著一隻手打架。 由於端到端智能語音和顯示界面迫在眉睫的複雜性,開發人員應該認真考慮界面的混合方法。

提高語音生成和識別系統的效率和速度,使其可以在以下應用和領域中使用,例如:

• 軍事(飛機或直升機中的語音命令,例如 F16 VISTA),

• 自動文本轉錄(語音轉文本),

• 交互式信息系統(Prime Speech、語音門戶),

• 移動設備(手機、智能手機、平板電腦),

• 機器人(Cleverbot - 結合人工智能的 ASR 系統),

• 汽車(免提控制汽車部件,例如 Blue & Me),

• 家庭應用程序(智能家庭系統)。

注意安全!

汽車、家用電器、加熱/冷卻和家庭安全系統以及許多家用電器開始使用語音界面,通常是基於人工智能的。 在這個階段,從與機器的數百萬次對話中獲得的數據被發送到 計算雲. 很明顯,營銷人員對它們很感興趣。 而且不僅是他們。

賽門鐵克安全專家最近的一份報告建議,語音命令用戶不要控制門鎖等安全功能,更不用說家庭安全系統了。 存儲密碼或機密信息也是如此。 人工智能和智能產品的安全性尚未得到充分研究。

當整個家庭的設備聽每個字時,系統被黑客入侵和濫用的風險就成為一個巨大的問題。 如果攻擊者獲得對本地網絡或其關聯電子郵件地址的訪問權限,則可以更改智能設備設置或將其重置為出廠設置,這將導致有價值信息的丟失和用戶歷史記錄的刪除。

換句話說,安全專家擔心語音驅動的 AI 和 VUI 還不夠聰明,無法保護我們免受潛在威脅,並在陌生人提出要求時讓我們閉嘴。

添加評論