每日經濟新聞
AI快訊

每經網首頁 > AI快訊 > 正文

中國銀河給予計算機行業推薦評級:聊天機器人頂流ChatGPT,開啟自然語言處理領域新篇章

每日經濟新聞 2022-12-13 10:39:21

每經AI快訊,中國銀河12月13日發布研報稱:給予計算機推薦(維持)評級。

事件:12月1日,美國人工智能公司OpenAI在網頁上推出自然語言處理領域(NLP)的模型ChatGPT,它能夠通過對話方式進行交互,并根據用戶輸入的自然語言文本內容,自動生成新的文本內容。一周內,ChatGPT的用戶已突破100萬。

什么是ChatGPT:ChatGPT是在GPT3.5大模型語言模型(LLM,即LargeLanguageModel)的基礎上,加入“基于人類反饋的強化學習(RLHF,ReinforcementLearningfromHumanFeedback)”來不斷微調(Fine-tune)預訓練語言模型,使得LLM模型學會理解不同類型的命令指令,并通過多重標準合理判斷基于給定的prompt輸入指令,輸出的是否為優質信息(這些標準包括:富含信息、內容豐富、對用戶有幫助、無害、不包含歧視信息等)。

ChatGPT引爆AIGC,AIGC將迎多場景爆發期:AIGC即AI-GeneratedContent,是繼UGC、PGC之后利用AI技術自動生成內容的新型生產方式。相比UGC和PGC,AIGC的最大不同是基于海量數據、風格隨機多變、跨模態融合、認知交互力等新技術導向特征。隨著ChatGPT的技術日漸成熟,AIGC將在電商虛擬主播、教育、金融、醫療、影視娛樂等多場景爆發,并進一步催生元宇宙的快速發展。

ChatGPT的技術發展路徑:從GPT-1到InstructGPT,數據量與參數量不斷增加,模型精度和能力提升:2018年,在自然語言處理領域(NLP)剛興起時,OpenAI就推出了初代GPT,它的運行邏輯是:先通過無標簽數據學習生成語言模型,并能夠運用于一些與有監督任務無關的NLP任務中。此后再根據特定的下游任務進行有監督的微調,提高其泛化能力。GPT-2擴展了網絡參數和數據集,進行多任務學習,可以在數據量足夠豐富且模型容量足夠大時,通過訓練語言模型就能夠完成有監督學習的任務。對比GPT-2,2020年推出的GPT-3最顯著的特征是龐大的數據量和參數投入,整體訓練過程耗資1200萬美元,投入數據量達上萬億,模型參數量達到1750億。GPT-3延續了前兩代GPT的技術架構,但改變了“大規模數據集預訓練+下游數據標注微調”的方式,采用情境學習(in-contextlearning)來提高模型對話輸出的性能。GPT-3的規模和語言能力幾乎是最強大的。它能在不做微調的情況下,在一些傳統的NLP任務中表現得更好,包括實現閉卷問答、模式解析、純語言建模、機器翻譯等;在新的領域,GPT-3將NLP的應用擴展到缺乏足夠訓練數據的領域,例如在開發程序代碼、文章生成和信息檢索領域取得了實質性的進展。然而,GPT-3在推理和理解能力上還有較長的路要走,在自然語言推理(NLI)任務中表現不佳。InstructGPT和ChatGPT:更好地遵循用戶意圖、更少的虛假信息。OpenAI在2022年初發布了InstructGPT。該語言模型通過“基于人類反饋的強化學習(RLHF)和監督學習”來提高輸出質量。雖然InstructGPT的參數量僅為13億左右,相比于GPT-3縮小了100倍以上;但在遵循指令方面,能夠更好地遵循用戶意圖,將有害的、不真實或者有偏差的信息輸出最小化。在優化的模型上,ChatGPT基于InstructGPT進一步改進,在模型結構和訓練流程上遵循上述方式,但收集和標注數據的方式上發生了變化,通過采取監督學習的方式讓模型學習人類排序的方式。

ChatGPT的優勢與缺陷:優勢是ChatGPT不需要任何額外的訓練就能在多種不同的領域中應用并快速輸出高質量的文本,相較于以前的模型已具備較強的自然語言處理能力。但目前ChatGPT在精準性、真實性、重復率和依賴性等問題上尚待改善:第一、由于技術實現的問題,ChatGPT會不可避免地寫出一些似是而非、或者荒謬的答案,這將導致植入虛假數據和誤導用戶的風險。ChatGPT依然沒有完全克服大型語言模型(LLM)的這一常見缺點;第二、在較長的會話中,由于訓練數據的偏差和過度修正,ChatGPT會過度強調某些短語或者句子,導致重復性高的問題;第三、ChatGPT的強大能力依賴語料庫、數據量的抓取和復雜的訓練過程。ChatGPT模型依賴于大規模離線語料進行訓練,往往不能充分接受并采用在線提供的即時信息,難以理解對話中提及的因果關系,也無法基于已有信息進行推測,這距離人類舉一反三的能力相差較遠。

可能存在的瓶頸:ChatGPT本身的缺陷可能通過技術進步和優化訓練方式得到解決,但它的爆火卻引發了人們對AIGC行業中安全性、倫理約束和創造力的思考,或將成為發展瓶頸:一方面,由于RLFH并不能完全避免ChatGPT訓練庫中學習到的不道德或有偏見的回答,也會導致在模糊提示或引導回答的過程中讓ChatGPT輸出一些有害信息,導致輸出結果的安全性降低。另一方面,在創造性、創作倫理和知識產權等方面并未形成有效界定。在數據挖掘、大規模計算、統計、多線程工作等數據處理分析領域,人工智能有著人類不可比擬的優勢,但是以“創新和感知”為基礎的創造過程是機器學習和模型難以訓練的。目前ChatGPT能夠在用戶的引導下快速生成小說、詩歌、散文、編程等需要創造力的內容,或許將對創作者和以版權為基礎的行業造成沖擊。文本生成的過程是基于數據庫內容的學習,這是否會構成對被抓取作品的侵權,ChatGPT生成的文本內容是否具有著作權,是否屬于該用戶等一系列問題的答案尚不明確。

ChatGPT的能力目前幾乎可以涵蓋各個自然語言交互領域,例如聊天機器人、對話系統、智能客服、信息檢索、主題建模、文本生成和總結、NLP作為服務的翻譯、轉錄、總結等等,未來應用領域將面向藍海:例如,在聊天機器人領域,目前ChatGPT已經能基本滿足用戶的提供個性化需求和信息提供服務;在需要智能客服的電商、金融、醫療、教育、政務等垂直領域等,ChatGPT能夠結合行業特點和需求,構建自動應答系統,為客戶提供快速、準確的問題解答。除此外,在傳媒、娛樂、設計和影視領域,ChatGPT能夠協助完成一些較低層次的任務,包括文稿生成、采訪助手、摘要總結等,或將提高行業的運行效率。

ChatGPT的商業化落地方式還待商榷:第一、由于GPT-3的訓練耗資巨大,且需要大量的數據集和算力,即使ChatGPT未來應用前景廣闊,如果不能降低模型的更新訓練成本和推理成本,將限制中小B端企業的采購意愿。第二、目前正在免費測試階段的ChatGPT還未解決GPT-3模型存在的準確性和安全性問題,還需要進一步優化迭代。此前,OpenAI已嘗試過通過API接口的方式推動GPT-3的商業化,但由于模型問題并未通過測試階段。雖然目前OpenAI已找到方式優化輸出虛假信息的問題,但效力遠遠不足。如果不能解決這兩個問題,GPT的商業化道路還需等待。

投資建議:ChatGPT代表自然語言處理技術一大進步,利好相關AI公司的技術與產品落地,可重點關注拓爾思(300229.SZ)、商湯-W(0020.HK)、科大訊飛(002230.SZ)。

風險提示:技術研發不及預期的風險;商業化落地方式尚不明確的風險;下游需求不及預期的風險。

每經頭條(nbdtoutiao)——經濟學家姚洋:立足常識,發展才是解決一切問題的根本 | 重磅專訪

(記者 王曉波)

免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請核實。據此操作,風險自擔。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

每經AI快訊,中國銀河12月13日發布研報稱:給予計算機推薦(維持)評級。 事件:12月1日,美國人工智能公司OpenAI在網頁上推出自然語言處理領域(NLP)的模型ChatGPT,它能夠通過對話方式進行交互,并根據用戶輸入的自然語言文本內容,自動生成新的文本內容。一周內,ChatGPT的用戶已突破100萬。 什么是ChatGPT:ChatGPT是在GPT3.5大模型語言模型(LLM,即LargeLanguageModel)的基礎上,加入“基于人類反饋的強化學習(RLHF,ReinforcementLearningfromHumanFeedback)”來不斷微調(Fine-tune)預訓練語言模型,使得LLM模型學會理解不同類型的命令指令,并通過多重標準合理判斷基于給定的prompt輸入指令,輸出的是否為優質信息(這些標準包括:富含信息、內容豐富、對用戶有幫助、無害、不包含歧視信息等)。 ChatGPT引爆AIGC,AIGC將迎多場景爆發期:AIGC即AI-GeneratedContent,是繼UGC、PGC之后利用AI技術自動生成內容的新型生產方式。相比UGC和PGC,AIGC的最大不同是基于海量數據、風格隨機多變、跨模態融合、認知交互力等新技術導向特征。隨著ChatGPT的技術日漸成熟,AIGC將在電商虛擬主播、教育、金融、醫療、影視娛樂等多場景爆發,并進一步催生元宇宙的快速發展。 ChatGPT的技術發展路徑:從GPT-1到InstructGPT,數據量與參數量不斷增加,模型精度和能力提升:2018年,在自然語言處理領域(NLP)剛興起時,OpenAI就推出了初代GPT,它的運行邏輯是:先通過無標簽數據學習生成語言模型,并能夠運用于一些與有監督任務無關的NLP任務中。此后再根據特定的下游任務進行有監督的微調,提高其泛化能力。GPT-2擴展了網絡參數和數據集,進行多任務學習,可以在數據量足夠豐富且模型容量足夠大時,通過訓練語言模型就能夠完成有監督學習的任務。對比GPT-2,2020年推出的GPT-3最顯著的特征是龐大的數據量和參數投入,整體訓練過程耗資1200萬美元,投入數據量達上萬億,模型參數量達到1750億。GPT-3延續了前兩代GPT的技術架構,但改變了“大規模數據集預訓練+下游數據標注微調”的方式,采用情境學習(in-contextlearning)來提高模型對話輸出的性能。GPT-3的規模和語言能力幾乎是最強大的。它能在不做微調的情況下,在一些傳統的NLP任務中表現得更好,包括實現閉卷問答、模式解析、純語言建模、機器翻譯等;在新的領域,GPT-3將NLP的應用擴展到缺乏足夠訓練數據的領域,例如在開發程序代碼、文章生成和信息檢索領域取得了實質性的進展。然而,GPT-3在推理和理解能力上還有較長的路要走,在自然語言推理(NLI)任務中表現不佳。InstructGPT和ChatGPT:更好地遵循用戶意圖、更少的虛假信息。OpenAI在2022年初發布了InstructGPT。該語言模型通過“基于人類反饋的強化學習(RLHF)和監督學習”來提高輸出質量。雖然InstructGPT的參數量僅為13億左右,相比于GPT-3縮小了100倍以上;但在遵循指令方面,能夠更好地遵循用戶意圖,將有害的、不真實或者有偏差的信息輸出最小化。在優化的模型上,ChatGPT基于InstructGPT進一步改進,在模型結構和訓練流程上遵循上述方式,但收集和標注數據的方式上發生了變化,通過采取監督學習的方式讓模型學習人類排序的方式。 ChatGPT的優勢與缺陷:優勢是ChatGPT不需要任何額外的訓練就能在多種不同的領域中應用并快速輸出高質量的文本,相較于以前的模型已具備較強的自然語言處理能力。但目前ChatGPT在精準性、真實性、重復率和依賴性等問題上尚待改善:第一、由于技術實現的問題,ChatGPT會不可避免地寫出一些似是而非、或者荒謬的答案,這將導致植入虛假數據和誤導用戶的風險。ChatGPT依然沒有完全克服大型語言模型(LLM)的這一常見缺點;第二、在較長的會話中,由于訓練數據的偏差和過度修正,ChatGPT會過度強調某些短語或者句子,導致重復性高的問題;第三、ChatGPT的強大能力依賴語料庫、數據量的抓取和復雜的訓練過程。ChatGPT模型依賴于大規模離線語料進行訓練,往往不能充分接受并采用在線提供的即時信息,難以理解對話中提及的因果關系,也無法基于已有信息進行推測,這距離人類舉一反三的能力相差較遠。 可能存在的瓶頸:ChatGPT本身的缺陷可能通過技術進步和優化訓練方式得到解決,但它的爆火卻引發了人們對AIGC行業中安全性、倫理約束和創造力的思考,或將成為發展瓶頸:一方面,由于RLFH并不能完全避免ChatGPT訓練庫中學習到的不道德或有偏見的回答,也會導致在模糊提示或引導回答的過程中讓ChatGPT輸出一些有害信息,導致輸出結果的安全性降低。另一方面,在創造性、創作倫理和知識產權等方面并未形成有效界定。在數據挖掘、大規模計算、統計、多線程工作等數據處理分析領域,人工智能有著人類不可比擬的優勢,但是以“創新和感知”為基礎的創造過程是機器學習和模型難以訓練的。目前ChatGPT能夠在用戶的引導下快速生成小說、詩歌、散文、編程等需要創造力的內容,或許將對創作者和以版權為基礎的行業造成沖擊。文本生成的過程是基于數據庫內容的學習,這是否會構成對被抓取作品的侵權,ChatGPT生成的文本內容是否具有著作權,是否屬于該用戶等一系列問題的答案尚不明確。 ChatGPT的能力目前幾乎可以涵蓋各個自然語言交互領域,例如聊天機器人、對話系統、智能客服、信息檢索、主題建模、文本生成和總結、NLP作為服務的翻譯、轉錄、總結等等,未來應用領域將面向藍海:例如,在聊天機器人領域,目前ChatGPT已經能基本滿足用戶的提供個性化需求和信息提供服務;在需要智能客服的電商、金融、醫療、教育、政務等垂直領域等,ChatGPT能夠結合行業特點和需求,構建自動應答系統,為客戶提供快速、準確的問題解答。除此外,在傳媒、娛樂、設計和影視領域,ChatGPT能夠協助完成一些較低層次的任務,包括文稿生成、采訪助手、摘要總結等,或將提高行業的運行效率。 ChatGPT的商業化落地方式還待商榷:第一、由于GPT-3的訓練耗資巨大,且需要大量的數據集和算力,即使ChatGPT未來應用前景廣闊,如果不能降低模型的更新訓練成本和推理成本,將限制中小B端企業的采購意愿。第二、目前正在免費測試階段的ChatGPT還未解決GPT-3模型存在的準確性和安全性問題,還需要進一步優化迭代。此前,OpenAI已嘗試過通過API接口的方式推動GPT-3的商業化,但由于模型問題并未通過測試階段。雖然目前OpenAI已找到方式優化輸出虛假信息的問題,但效力遠遠不足。如果不能解決這兩個問題,GPT的商業化道路還需等待。 投資建議:ChatGPT代表自然語言處理技術一大進步,利好相關AI公司的技術與產品落地,可重點關注拓爾思(300229.SZ)、商湯-W(0020.HK)、科大訊飛(002230.SZ)。 風險提示:技術研發不及預期的風險;商業化落地方式尚不明確的風險;下游需求不及預期的風險。 免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前核實。據此操作,風險自擔。

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

国产午夜精品理伦片,亚洲手机在线人成网站播放,欧美一级一级a做性视频,亚洲国产色精品三区二区一区
久久婷婷色综合2020 | 亚洲资源在线播放站 | 最新国产精品久久精品 | 亚洲A∨中文字幕色 | 亚洲欧美日韩国产高清一区 | 亚洲日韩中文在线 |