據海外媒體報道,上周一款名為LipDub的翻譯軟件正式發布,這款AI程序可以讓視頻創作者在幾分鐘內使用不同語言進行交流。
LipDub由初創公司Captions開發,這家公司成立于2021年,由Gaurav Misra和 Dwight Churchill聯合成立。Captions目前已經獲得了紅杉資本、安德森-霍洛維茨、Instagram聯合創始人Kevin Systrom和Mike Krieger以及Facebook前產品設計副總裁Julie Zhuo的投資支持。
創始人Gaurav Misra來自印度新德里,曾是Snap的設計工程主管。Misra表示,他的成長環境中充滿了印地語、英語、旁遮普語和烏爾都語等各種不同的語言。而Gaurav Misra還花了數年時間學習法語,這幫助他在歐洲、非洲和中東建立了專業的關系網。
Misra相信,AI驅動的翻譯和口型匹配技術可以幫助人們更輕松地聯系和理解他人。
Captions:利用 AI 輕松實現視頻翻譯本地化
Captions以制作AI生成的字幕、語音糾正以及在后期制作中糾正視頻創作者眼球位置的技術而聞名。Misra 和 Churchill 曾在高盛集團擔任產品開發人員,他們早就想在配音翻譯中加入口型匹配功能,但沒想到會這么快實現。Misra說:“我們最初認為這項技術需要10年時間才能夠實現,但現在的技術發展實在太快了,幾乎每月甚至每周都有新東西出現?!?/section>LipDub正在進入一個很有前景的AI翻譯市場。它的競爭對手包括語音克隆翻譯應用 HeyGen 和Verbalate,以及Spotify和視覺特效工作室Monsters Aliens Robots Zombies等公司推出的新工具。過去,許多企業需要聘請多個視頻主持人用不同的語言表達同一個故事,而現在,他們可以通過生成式AI來實現同樣的功能。這些應用程序允許用戶上傳視頻,然后在幾分鐘內將其轉換成流利的土耳其語、法語、阿拉伯語或意大利語。DeepMedia公司的創始人Rijul Gupta表示:“我們基本上已經完美地實現了這項新技術,任何人都可以克隆任何人的聲音,并通過5秒鐘的音頻參考,讓它用不同的語言說話?!?/section>在 X 和Reddit等網站上,一些知名人士的配音視頻已經出現了數千次。Spotify 上個月也加入了這一行列,他們宣布將提供人工智能翻譯的播客,讓這些播客保持原本音色和語調的同時轉換為不同的語言。目前,演員Dax Shepard和Kristen Bell、麻省理工學院研究員Lex Fridman和Steven Bartlett等人都有了西班牙語播客,法語和德語翻譯也將很快推出。新的 Spotify 工具利用了OpenAI最新發布的語音生成技術,可提供更真實的聽覺體驗。去年年初,Misra和 Captions 的團隊開始嘗試口型匹配技術,并與合作伙伴測試該技術在Captions應用程序中的效果。Misra坦言,口型匹配技術發展速度比他預期的要快?!斑@看起來就像是自然地進入下一階段,創造出一種不像是配音或者人工調整的視頻。新的技術讓視頻看起來非常自然且易于理解?!睆臏y試開始,一種新的可能性便已展示在他們面前。Misra表示:“就像我們以前在《星際迷航》中看到的那些科技一樣,這簡直就是科幻!”Captions今年6月獲得了來自Kleiner Perkins領投的2500萬美元的B輪融資。目前Captions 的日活躍用戶已達10萬,Misra認為LipDub推出后該公司將會擁有更多的活躍用戶。目前LipDub 支持28種語言,包括韓語、西班牙語、捷克語、泰米爾語和烏克蘭語,它采用零鏡頭模式,可以在Captions的視頻生成模型在沒見過主題的情況下推出流暢的視頻。LipDubs的內部機器學習算法經過訓練,可以識別講話人的唇部動作,公司還使用 OpenAI 的GPT-4模型,在應用中將視頻翻譯成不同的語言和方言。這種 AI 配音技術已在Captions應用程序中使用,并于今年3月發布,吸引了來自世界各地的用戶。Misra說:“原本無法接觸到特定受眾的人現在可以做到了。這項技術是烏托邦式未來的完美范例,所以我對此感到非常興奮?!?/section>Misra認為,新技術的可能性是無窮無盡的?!拔艺J為直播是一個非??煽康陌咐??!盡isra表示:“無論是 Twitch 上的游戲直播,還是不知名的演講,這些類型的內容都可以通過 AI 輕易地本地化?!?/section>HeyGen:想讓不同語言的視頻傳播像打字一樣簡單
除了Captions,還有很多同類型AI翻譯的公司,比如HeyGen。HeyGen 是一家擁有數百萬用戶的AI公司,是短視頻內容AI口型匹配成和翻譯領域最大的參與者之一。該公司在 9 月7日上線視頻翻譯功能后,在X上迅速走紅。自此以后,數十個逼真的視頻在網上瘋傳,用戶分享了埃隆-馬斯克、梅西和馬克·扎克伯格用多種外語講話的片段。Mark Burginger是玩具公司Qubits的負責人,他曾在一個名為"鯊魚坦克"節目中推銷他以STEM為中心的公司。出于好奇,他于 9 月13日試用了HeyGen的人工智能翻譯功能。他在X上發布了一段自己用西班牙語說話的視頻,盡管他并不懂西班牙語。"你能想象一家一年收入不到一百萬美元的小型玩具公司能夠使用這些價格相當低廉的工具嗎?"Burginger說,他是一名藝術家和發明家,工作地點在北卡羅來納州亨德森維爾,Burginger表示,“這有助于與大公司公平競爭?!?/section>HeyGen 的目標是"消除語言障礙",公司聯合創始人兼首席執行官Joshua Xu說:"我們設想在未來,用不同語言制作視頻內容和傳播信息,就像打字一樣簡單"。在 X 上發布的一段人工智能生成的視頻中,Xu補充說,Coursera、Khan Academy、和MasterClass等教育平臺可以通過"多語言化"來擴大影響力。HeyGen 目前支持10種輸入語言和8種輸出語言,包括英語、西班牙語、中文、意大利語、印地語和日語等。在創辦原名為 Movio的 HeyGen之前,來自 Snap 的XU 和前字節跳動工程師Wayne Liang于2020年創辦了Surreal。當時,Surreal提供逼真的“深度偽造”產品,“深度偽造”是一種視頻合成技術,可以創作出以假亂真的合成視頻。這種技術吸引了希望以更有效方式宣傳產品的電子商務公司。Surreal在中國深圳啟動運營四個月后,在一輪天使投資中獲得了100萬美元的投資。時至今日,Surreal仍活躍在中國,在中國的就業和大學網站上發布招聘和實習信息,但Surreal的HeyGen平臺主要在洛杉磯運營,XU和Liang在洛杉磯工作。Movio 是一個基于Surreal引擎的AI視頻平臺,于2022年7月推出。據該公司稱,其產品僅在7個月內就獲得了100萬美元的收入,之后 XU 和 Liang 將 Movio 更名為HeyGen,自2020年以來,HeyGen和Surreal已從紅杉資本、IDG資本、真格基金和百度的風險投資部門百度風投(Baidu Ventures)獲得了至少900萬美元的融資。除了 LipDub和HeyGen之外,還有一個平臺也在涉足該領域,Verbalate也能將用戶的視頻同步配音成目標語言。不同的是,Verbalate可以為長達30分鐘的視頻配音。據該平臺創始人grant Davies表示,Verbalate純粹是因為疫情流行期間的無聊而誕生的。在2022年的一天,Davies在騎車時聽到Joe Rogan和MrBeast的播客訪談。當時這位YouTuber提到,他的頻道正在使用配音演員將視頻配音成西班牙語、俄語、印地語、葡萄牙語等語言,因為全世界只有不到10%的人說英語。Davies當時正在研究AI技術,他們沒撒航就覺得他們的團隊肯定能夠實現這個功能。Davies利用自己的營銷網絡向希望與海外員工溝通的企業客戶介紹并銷售Verbalate的服務。據悉尼一家外包公司OutSourced Staff的創始人Dom Procter表示:“對我這個銷售和營銷人員來說,它讓我的生活變得更輕松?!?/section>他曾使用 Verbalate視頻向亞洲或東歐的遠程員工發送信息,Dom Procter指出:“用他們的母語制作內容,這改變了游戲規則?!?strong style="outline: 0px;">Verbalate最基本的訂閱計劃每月9美元,允許用戶創建一個10分鐘長的視頻,每分鐘的額外費用為1美元。而HeyGen的創作者包月套餐每月29美元,可以制作多個視頻,每個視頻5分鐘。其他平臺則著眼于更大的市場和更長的視頻播放時間??偛课挥诙鄠惗嗟?MARZ 公司主要通過其LipDub AI平臺(并非 Captions 的LipDub)吸引對逼真配音感興趣的電影和電視制作公司。LipDub AI目前處理一分鐘包含多個鏡頭的視頻片段的運行時間不到20分鐘。雖然該公司目前使用訓練片段來制作這些配音,但它希望在年內通過放棄訓練片段而只依靠音頻和原始片段來加快處理速度。與其他配音平臺不同,LipDub AI不使用大型語言模型,而是使用自己的生成模型,該模型在錄音基礎上進行訓練。MARZ 市場總監Tim Reyes認為,口型合成技術將幫助制片人擴大電影或電視節目的影響力,同時又不會危及演員的工作保障。Reyes認為:“LipDub AI 實際上為新市場開辟了一大堆機會,這不像其他一些人工智能技術,他們破壞了電影業目前的工作流程?!?/section>除了開拓新市場,這些應用程序的創造者們還有更崇高的理想。Davies希望,像 Verbalate 這樣的翻譯程序能夠打破人們對自己語言的隱性偏見,甚至培養一種更加全球化的思維方式。Davies說,在他的團隊在 X 上分享的一個視頻中,可以看到來自不同地區的人們用不同語言發表自己的觀點,這幫助他思考人們是如何能夠跨越國界進行溝通。Davies認為這有可能讓人們變得更人性化一些,因為不同文化背景的人們可以更好地理解彼此"。Davies表示,即使是政治信息,用你自己的語言也會產生不同的效果,如果我們能夠相互傾聽,就有可能幫助人類。