文章專區

2017-11-01YouTube透過機器學習讓影音應用更多元 431 期

Author 作者 李依庭∕本刊主編
近年來,人工智慧與機器學習被各種領域廣泛研發與應用,而在影音媒體產業中也不例外。Google在本(11)月2日舉辦了機器學習在影音上的應用,展示了YouTube平台如何利用機器學習,能自動化的提供使用者最個人化且最適化的影片推薦,另外,也期望透過機器學習導入對影片內容的自動辨識,或認知影片中人類行為等。

為了瞭解平台上為數眾多的使用者,自2011年起YouTube深入探究且更新各種服務,將一開始所計算的「觀看次數」轉為「觀看時間(watchtime)」的演算法、行動裝置的普及化後所帶來的行動界面優化與人性化至影音平台個人化的概念與推薦影片系統的提升等,期望能在使用者選擇前,先行找出使用者可能會喜歡的影片。

然而,影片的推薦也遇到了許多挑戰,由於每分鐘會有超過500小時的影音上傳,因此影音資訊規模的龐大、影音內容更新的速度快與資料內容中包含太多雜訊等,都是導致影片推薦化系統備受挑戰的原因。有鑑於此,Google 在2015年開發出機器學習基礎系統(TensorFlow),並結合候選生成模型(Candidate Generation model)與排名模型(Ranking Model)兩大推薦模型架構,透過此方式提供更合意使用者的影音。

除此之外,Google 也提供影音導入機器學習所衍生出多種不同的應用。舉例來說,提升機器對影片內容的辨識,能降低不適當內容的傳播。為了防止恐怖、暴力主義等內容的傳播,過去是倚賴使用者檢舉方式進行,不過在資訊化快速的時代,透過人工方式審核,其速度遠不及資訊的上傳。因此,利用機器學習去識別暴力、極端主義等內容,並提供判別和進一步的審查。目前,在平台中被強制下架的影片,有87%是藉由此方式先行移除。

過去,機器學習已能藉由照片來辨識人臉,如今Google 則嘗試教導機器觀察並辨識人類的動作,認知影片中的人類行為,因而開發出原子視覺化動作數據學習模式(Atomic visual actions, AVA)。透過影片中清晰的視覺標誌(Visual signatures),將某特定動作進行動作標籤,並建造出原子視覺動作資料庫。

而在資料庫中,目前已分析超過57萬組影音片段、生成21萬個動作標籤並有9.6萬組人類動作被標註。另外,也將人類的互動行為分成3大類,分別是姿勢或移動時的動作表現(pose/movement actions)、人與物品互動行為(person-object Interactions)和人與人互動行為(person-person interactions)。

YouTube大中華與紐澳技術管理負責人葉佳威表示縱使還在初步階段,但未來會投入更多相關的研究,除了希望能模擬更複雜的人類行為,改善認知系統的發展外,也期望能提供不同的檢索方式或更多其他的應用。