亚洲成人免费视频在线_韩国毛片在线观看_国产在线视频网_国产一区二区不卡视频

推廣 熱搜: 倉儲籠,  干粉  GLW330/7.5/S往復式給料機  鑄鐵T型槽平臺  模具設計  BQG150/0.2氣動隔膜泵  BQG140/0.3氣動隔膜泵  臺面  錳鋼  美白 

微軟、OpenAI用上“數據永動機” 合成數據是蜜糖還是砒霜?夢見死去的親人還活著并和我說話

   日期:2023-11-10     瀏覽:38    評論:0    
核心提示:AI大模型對數據的龐大需求之下,AI公司們正在摸索一條獲取數據的“新路”——從零開始自己“造”數據。  微軟、OpenAI、Cohere等公司已經開始測試使用合成數據來訓練AI模型。Cohere首席執

  AI大模型對數據的龐大需求之下,AI公司們正在摸索一條獲取數據的“新路”——從零開始自己“造”數據。

  微軟、OpenAI、Cohere等公司已經開始測試使用合成數據來訓練AI模型。Cohere首席執行官Aiden Gomez表示,合成數據可以適用于很多訓練場景,只是目前尚未全面推廣。

  已有的(通用)數據資源似乎接近效能極限,開發人員認為,網絡上那些通用數據已不足以推動AI模型的性能發展。Gomez便指出,網絡極為嘈雜混亂,“它并不能為你提供你真正想要的數據,網絡無法滿足我們的一切需求。”

  之前,ChatGPT、Bard等聊天機器人的訓練數據多來自于互聯網,例如電子書、新聞文章、博客、推特與Reddit的推文帖子、Youtube視頻、Flickr圖片等。但隨著AIGC技術愈發復雜,高質量數據的獲取難度也越來越大。開發AI模型的科技公司們,也因不當使用數據而遭受多方抨擊。

  今年5月的一場活動上,OpenAI首席執行官Sam Altman曾被問及,是否擔心監管部門調查ChatGPT可能侵犯用戶隱私的事。Altman對此不置可否,并表示自己“非常有信心,很快所有數據都將是合成數據”。

  ▌人類真實數據售價高昂

  為了大幅提高AI模型的性能,提升它們在科學、醫學、商業等領域的水平,AI模型需要的是“獨特且復雜”的數據集。而這類數據或是需要來自科學家、醫生、作家、演員、工程師等“內行人”,或是需要從藥企、銀行、零售商等大型企業獲取專業數據。

  這也就帶來了讓AI公司們轉向合成數據的另一層原因——數據太貴了。

  且不說那些技術含量極高的制藥、科學數據,光是之前Reddit和推特給出的數據采集要價,都被Gomez“嫌棄”價格太高。

  其中,Reddit本月起開始對數據接口使用收費。根據第三方軟件Apollo的開發者Christian Selig透露,Reddit收費標準為0.24美元/1000次API響應——對于Apollo來說,這大約相當于200萬美元/月開銷。

  而根據推特今年3月發布的API政策,企業需要為抓取推文的API支付每月4萬美元至20萬美元不等的費用,對應可以獲得5000萬至2億條推文。而測算數據顯示,最低一個檔次的套餐只約等于整體推文的0.3%。

  在這種情況下,合成數據自然成了一個實惠方案,不僅可以避開這些數據的高昂售價,還能生成一些更復雜的數據來訓練AI。

  ▌如何用合成數據訓練?

  具體如何用合成數據訓練AI大模型?Gomez舉了一個例子:

  在訓練一個高級數學模型時,Cohere可能會使用兩個AI模型進行對話,其中一個扮演數學老師,另一個則充當學生。之后這兩個模型就會就三角函數等數學問題對話,“其實一切都是模型‘想象’出來的”。

  如果在這個過程中,模型說錯了什么,人類就會在查看這段對話時作出糾正。

  而微軟研究院最近的兩項研究,也表明合成數據可以用來訓練AI模型,這些模型一般比OpenAI的GPT-4、谷歌的PaLM-2更小更簡單。

  在其中一篇論文中,GPT-4生成了一個名為“TinyStories”的短篇故事合成數據集,里面使用的單詞全部非常簡單,一個四歲兒童都能理解。這一數據集被用來訓練一個簡單的大語言模型,后者能生成流暢且語法正確的故事。

  另一篇論文中,AI可以通過合成的Python代碼進行訓練,并在之后的編碼任務中給出相對較好的表現。

  ▌蜜糖還是砒霜?

  想要合成數據的客戶有了,供應商自然也如雨后春筍般涌現,例如Scale AI、Gretel.ai等初創公司。Gretel.ai由來自美國國安局和中情局的前情報分析師成立,其已與谷歌、匯豐銀行、Riot Games、Illumina等公司合作,用合成數據來擴充現有數據,幫助訓練人工智能模型。

  Gretel.ai首席執行官Ali Golshan表示,合成數據的關鍵在于,它既能保護數據集中所有個人的隱私,又能保持數據的統計完整性。

  同時,合成數據還可以消除現有數據中的偏差和不平衡。“舉例來說,對沖基金可以研究黑天鵝事件,我們可以創建一百種變體,看看模型能否破解;而對于銀行來說,欺詐事件通常不到總數據的百分之一,Gretel的軟件可以生成成千上萬的欺詐案例,并以此訓練AI模型。”

  不過,也有人不看好合成數據。

  反對派認為,并不是所有合成數據都經過精心調試,并能反映或改進真實世界。

  來自牛津、劍橋、帝國理工等機構研究人員發現,合成數據的負面影響甚至堪比“毒藥”。如果在訓練時大量使用AI內容,會引發模型崩潰(model collapse),造成不可逆的缺陷。

  新一代模型的訓練數據會被上一代模型的生成數據所污染,從而對現實世界的感知產生錯誤理解。隨著時間推移,模型就會忘記真實基礎數據部分。即使在幾乎理想的長期學習狀態下,這個情況也無法避免——研究人員也將此形容為“AI大模型患上‘癡呆癥’”。

  即便是合成數據從業人員Golshan也坦承,在劣質合成數據上進行訓練可能會阻礙進步。

  網上越來越多的內容都是由AI生成的。隨著時間推移,這確實會導致退化,因為這些大模型產生的知識都是重復的,沒有任何新的見解。

原文鏈接:http://m.lg5658.com/news/show-207624.html,轉載和復制請保留此鏈接。
以上就是關于微軟、OpenAI用上“數據永動機” 合成數據是蜜糖還是砒霜?夢見死去的親人還活著并和我說話全部的內容,關注我們,帶您了解更多相關內容。
 
打賞
 
更多>同類資訊
0相關評論

推薦資訊
網站首頁  |  VIP套餐介紹  |  關于我們  |  聯系方式  |  使用協議  |  版權隱私  |  SITEMAPS  |  網站地圖  |  排名推廣  |  廣告服務  |  積分換禮  |  RSS訂閱  |  違規舉報