科大訊飛集團
近期,以“生成式人工智能”(Generative AI)為核心技術的聊天機器人ChatGPT火爆全球。圍繞網友普遍關心的話題,2月14日,科大訊飛副總裁、研究院執行院長劉聰接受新華網專訪,闡述什么是ChatGPT,它強在哪里?會對未來世界帶來哪些顛覆性影響?以下是專訪實錄:
ChatGPT是什么?它強在哪里?
美國人工智能公司OpenAI于2022年11月30日發布的ChatGPT通用型對話系統,能夠通過學習和理解人類的語言來進行對話,還能根據聊天的上下文進行互動,能更精準地理解用戶意圖及實現類人的回復,能更精確、更加可控地完成撰寫郵件、視頻腳本、文案、代碼等任務,甚至在人類的合適引導下可以完成邏輯推理、新知識快速學習等復雜任務。
ChatGPT本質上是一個由浮點數參數表示的深度神經網絡大模型(目前版本含約1750億個參數),所以仍然屬于深度學習的框架。深度學習自2006年被提出,2010年左右陸續被應用于以語音識別、圖像識別為代表的感知技術領域,極大地推動了人工智能技術和產業的發展。ChatGPT的推出是深度學習提出后又一個里程碑式的技術革命,將為以自然語言處理為核心的認知智能技術發展提供新的“歷史機遇期”。大模型技術從2018年開始興起,近年來國內外也發布了多個模型參數龐大的深度神經網絡大模型,但唯獨這次的ChatGPT引發了全球學術界和產業界的熱議和關注,關鍵原因是ChatGPT通過至少以下五個維度能力的顯著提升綜合實現了初步的“智慧涌現”:(1)海量高價值信息的全量在線記憶能力;(2)自然語言輸入的任意任務和多輪對話理解能力;(3)復雜邏輯的思維鏈推理能力;(4)多角色多風格的長文本生成表達能力;(5)即時新知識學習應用與進化能力。此外,因為引入了代碼作為訓練語料,ChatGPT還額外產生了自動寫代碼和理解代碼的能力。
我們這里挑選了一些ChatGPT在演講稿寫作、程序代碼糾錯、自由人機交互、即時新知識學習應用方面的代表案例,如下圖所示。
綜上來看,ChatGPT的能力之強已不僅是停留在單一場景的人機對話,而是一個同時具備多種能力的通用“對話式AI系統”。與傳統認知智能需要針對各領域任務定制對應的系統不同,它不僅能完成多個場景、多輪的相當自然的人機對話,更為重要的是以自然語言交互式學習的“類人”新范式,能在多輪交互中以“類人”的方式交流、學習和進步,并可以自主、快速、不間斷地學習各領域專業知識并達到人類專家水平。
在ChatGPT讓許多人驚呼AI強大的今天,我們不妨回望一下1956年舉行的達特茅斯會議。正是在這次會議上,人工智能的概念被正式提出,而這來源于參會的信息論創始人、諾貝爾獎獲得者、圖靈獎獲得者等多位世界級頂尖科學家,憑借的是他們扎實的科學基礎、理論分析能力以及前瞻性思考。
回歸現實,作為長期深耕人工智能領域的一名科研人員,我想“求真務實”和“躬身入局”仍然是我們應當繼承、并面對現在人工智能發展的正確態度。我們不僅要結合實際效果和技術原理客觀理性地分析ChatGPT現有的技術水平,還要進一步思索未來的技術發展方向。
ChatGPT為什么這么強?
(一)基于海量高質量文本語料的無監督預訓練。如instructGPT從原始45TB語料清洗得到570GB高質量訓練語料,并通過預訓練策略在大模型里實現了海量信息的有效“存儲”。
(二)創新性地引入代碼文本的訓練策略。如instructGPT使用了GitHub的830GB代碼文本數據,充分利用代碼的函數定義和調用、變量遠距離引用等體現程序員解題思路和邏輯的代碼文本特性,有效增強了復雜邏輯思維鏈推理能力。
(三)基于數萬個Prompt任務的統一生成范式有監督訓練。如instructGPT收集了覆蓋范圍很廣的數萬個語言和知識相關的有監督任務數據集,并轉換為統一的文本生成范式任務,提高了大模型對語義和知識表征的泛化及準確理解能力。
(四)基于人工反饋強化學習實現生成結果的優化。OpenAI公司雇傭了眾包團隊大規模開展了生成結果好壞的人工標注,并基于標注數據進行強化學習,使得大模型生成結果更加無偏見和符合人類預期。
ChatGPT的成功也向全世界明確揭示了深度神經網絡技術繼主導以語音識別、圖像識別為代表的感知智能技術路線后,針對更難的以自然語言處理為基礎的認知智能領域,也體現出了巨大的潛力。

從大模型到ChatGPT,還要跨越哪些鴻溝?
基于以上分析,ChatGPT大模型其實是在GPT3基礎上進一步開發的自然語言處理(NLP)模型。大模型在我國也是研究熱點,國內外各大模型參數規模持續攀升、目前最高達到10萬億級,有些模型還支持圖像、文本、語音等多個模態,但在智慧涌現方面與ChatGPT存在較大差距。
ChatGPT相較于GPT3模型和國內一些代表性大模型在效果體驗上獲得較大提升的原因,我們認為除了算法創新之外,應該是綜合運用了高質量訓練數據(并引入代碼等)、創新模型訓練算法(Prompt提示、多任務的聯合學習、基于人類反饋的強化學習等)與AI工程化(提高研發與計算效率)等多方面因素的系統性創新結果。
ChatGPT以當前業界主流的Transformer模型為主結構。當前我國也研發出了多個基于文本或多模態的預訓練基礎大模型,與國外基礎大模型算法的差距不大,奠定了比較好的大模型訓練的平臺基礎并進行了算法模型的框架積累。以這些大模型為基礎,打造一個類ChatGPT大模型,還需在數據、算力、工程實現等三個方面努力。
在數據方面,對于預訓練模型來說,數據的質量和數量直接影響模型的質量。因此,我們需要在保障數據安全、用戶隱私等符合國家法律法規和政策的前提下,進一步挖掘、收集及清洗高質量、多領域、多行業及多樣性的海量豐富數據,輔以技術和人工結合的高質量清洗工作,并持續通過人工標注反饋強化學習,使得模型生成結果更加可控、合理及可靠,當然數據背后的知識符合道德倫理、法規要求也非常重要。
在算力方面,超大模型由于參數規模大、數據體量大,因此需要更大的算力支持,帶來過高的訓練成本,據了解ChatGPT單次模型訓練耗時1個月,訓練成本達1200萬美元。這里需要注意的是,超大模型的訓練需要大規模計算集群以及對應的模型并行算法框架的支撐,我們判斷1000張主流卡容量的獨立計算集群是完成該類任務的門檻之一。
在工程實現方面,由于大模型在推理階段仍然需要巨大的算力消耗(以對話交互為例,目前單次交互成本大致是主流方法的1000倍左右),如何將大模型部署在線上,以供大規模用戶快速的、經濟化地使用,也是需要關注的。否則研制出的大模型將被束之高閣,難以規?;瘧谩?/span>
更為重要的是,應該需要選擇一個社會剛需應用或有大量活躍用戶的應用作為切入點。這些應用可以結合用戶交互體驗數據,反饋給模型后進一步提升模型的能力,在數據和模型之間形成正向反饋循環的“漣漪效應”,使得迭代更新后的模型越來越強。過去十幾年,面向感知智能領域的“漣漪效應”帶來了智能語音、圖文圖像等領域產業系統效果的很大提升。如今我們需要再次面對難度更大的認知智能領域的“漣漪效應”,如何系統化地設計好相關的方案,很大程度上決定了未來我們在該領域的產業落地、價值兌現之路能走到多遠。

根據2021年第三方發布的研究報告,在認知智能領域相關論文發表數量排名前十的機構中,有六所位于美國。中國在相關技術領域論文發表數量僅次于美國,但是質量上與美國還有一定差距。專利方面,我國相關專利申請數量2017年超過美日韓。產業方面,認知智能已在教育、醫療、金融、政務等多個領域落地,國內一些企業在產業應用模式探索上走在世界前列,具備了很好的技術基礎、場景基礎和數據基礎。
以科大訊飛為例,依托科大訊飛和中國科學技術大學承建的認知智能全國重點實驗室,聚焦面向“幸福中國”實現基于人工智能的教育/醫療優質資源普惠供給的需求、面向“中國智造”升級手機/汽車/家電/辦公/機器人等人機智能交互的需求、面向全世界主要語種構建跨語言溝通無障礙的經濟文化交流環境的需求,取得了一系列領先的技術研究成果,并在產業實現了大規模應用。
在智慧教育領域,實現了全學科智能批改和因材施教等方面的關鍵技術突破,2022年累計獲得常識閱讀理解挑戰賽OpenBookQA、QASC、ReClor等13項認知智能國際競賽冠軍,在高考作文評分和雅思英語作文上都已經超過了人工,實現了全場景因材施教解決方案服務5萬多所學校、1.3億多師生;在智慧醫療領域研發的“智醫助理”系統,已經通過了國家執業醫師資格考試綜合筆試測試,現在作為全科醫生助手已可以診斷1200多種常見病,累計提供5.5億次AI輔診建議;在人機交互領域,實現了智能語音開放平臺AI服務日調用次數超過50億。在多語種技術研究方面,實現了60個語種的語音識別、語音合成、機器翻譯、圖文識別等關鍵技術研發,在中、英等十多個全球應用最主流語種中實現領跑,有力支撐了汽車、家電企業上億臺套出口產品所需的技術需求,其中機器翻譯技術獲得國際口語機器翻譯評測比賽冠軍,參加全國翻譯專業資格(水平)測試,達到英語二級《口譯實務(交替傳譯類)》和三級《口譯實務》合格標準。

ChatGPT的技術演進方向是什么?
會對未來世界帶來哪些顛覆性影響?
ChatGPT的初步突破帶來的當前影響和未來想象空間是巨大的。首先在算法優化和技術演進趨勢方面,我們認為至少有以下四個方向:
2) 在認知智慧涌現的基礎上,通過多模態語義空間的統一,從而具備生成圖像、語音、視頻等多模態內容的能力,實現多維表達和呈現;
在上述技術演化的基礎上,以自然語言處理為代表的人工智能算法有可能重構互聯網和移動互聯網的產品形態,促進教育業、醫療業、汽車業、金融業、消費業、媒體業、服務業和制造業等眾多產業的升級,最終帶來對應商業模式的變革。我們認為類ChatGPT模型的持續發展未來至少會從以下4個方面的能力提升推動產業變革與模式創新:
1)改變現有人機交互模式。未來人們可能用自然對話的方式與智能產品交互,ChatGPT通過精準理解用戶意圖,調用系統的各種軟件或服務來滿足用戶需求,提高交互效率與任務成功率。這種人機交互模式的改變將可能改變當前的APP等應用的使用方式,例如多個功能的軟件能力被整合,甚至出現“大一統”能力的超級通用APP;
2)改變信息分發獲取模式。基于認知智能技術可實現更高效的信息整合和知識推薦等。以搜索為例,傳統搜索引擎根據關鍵字匹配內容,使用者需要在海量搜索結果中篩選出有用信息,而ChatGPT加持的必應直接給出答案,并提高了問題與答案的匹配精準度,大大提升用戶體驗。信息分發獲取模式的改變將影響流量的分布,并改變流量變現的商業模式。
3)革新內容生產模式,提高生產力。作為AIGC(人工智能生成內容)技術的典型代表,ChatGPT一經上線便被大量應用于公文寫作、郵件編寫、代碼編寫等工作領域,ChatGPT的編程能力將極大拓展普通人利用電腦和網絡進行創新和創意的能力。未來ChatGPT被集成到word、excel、ppt等工具軟件后,將提升內容生產效率與豐富度,變革人們的辦公方式,成為新的全行業生產力工具。ChatGPT還將帶動圖像、音頻、視頻等形式的AIGC技術與產業發展,使得AIGC的內容既有“好看的外在”,更有“豐富的內涵”。
4)加速“AI for Science”的發展。對于科研人員,ChatGPT不僅可以輔助生成論文摘要與文獻綜述,隨著其學習的科研數據越來越多,未來有可能提供專業的研究建議甚至主動探索發現新的理論,帶來整個科學研究范式的全新變化,把“AI for Science”推上一個全新的臺階。
這次ChatGPT所帶來的革命將會異常深刻地改變當今世界的生產和生活方式,重構產業格局,是人工智能領域推動工業乃至社會變革的重大戰略機遇,是未來發展兵家必爭之地!

未來的研發計劃是怎么樣的?
數據積累:在嚴格遵守適用法律法規前提下,在多年認知智能系統研發推廣中積累了超過50TB的行業語料和每天超10億人次用戶交互的活躍應用,為訓練實現達到人類專家水平的行業認知大模型提供了海量行業文本語料和用戶反饋數據,也為基于大模型的創新應用研發和試點推廣提供了場景保障。
算力支撐:訊飛在總部自建有業界一流的數據中心,為大模型訓練平臺建設奠定了很好的硬件基石。此外,在工程技術方面實現了百億參數大模型推理效率的近千倍加速,為未來更大更多認知智能大模型技術經濟實惠規模化應用提供了可能。
結合我們多年來在深度學習算法、大模型技術、行業大數據、知識圖譜、多模態感知、系統工程技術方面優勢積累,通過最近兩個多月的系統分析和快速驗證,我們非常有信心實現ChatGPT類似的技術階躍進步,并在中文認知智能領域達到國際領先水平。
行業應用方面,為了進一步提高大模型在細分行業的實用性,我們計劃采用“1+N”架構,其中“1”是通用認知智能大模型算法研發及高效訓練底座平臺,“N”是應用于教育、醫療、人機交互、辦公、翻譯、工業等多個行業領域的專用大模型版本。例如,通過學習海量醫學教材、論文和病例,實現專業的醫療領域對話式AI系統,打造“每個醫生的AI診療助理,每個人的AI健康助手”。
此外,我們也非常希望基于認知大模型與各行各業的伙伴們在企業數字化、行業內容生產等方面開展深入合作,基于行業數據與知識,形成智能化定制解決方案。我們的技術底座和行業積累合力共贏,能助力合作伙伴跨越認知智能技術壁壘,提高產品競爭力,實現協同創新,共同加快行業轉型升級,推進數字中國建設。

但是我們認為興奮歸興奮,關鍵是要踏踏實實把科研做好,把產品做好,把服務做好,最終還是要回到我們提出來的人工智能紅利能否兌現的三大標準:“有沒有看得見摸得著的真實應用案例,有沒有能夠規?;茝V應用的產品,有沒有統計數據能夠證明的應用成效”,只有這些才能夠經得起時間的考驗,才能夠真正把人工智能做實做透。
我們發現,每次浪潮涌起的時候,必有一堆蹭熱點的泡沫出現,引起大家的反感。一方面,資本市場和監管部門會加強監管,另外一方面,行業人士和懂行的網友也對這些蹭熱點行為給予了批評。
從訊飛來說,我們認為首先還是要本著“實事求是”的態度。我們董事長劉慶峰在節后第一個交易日(2023年1月30日)的投資者交流會上就明確進行了說明:“相較國際大廠從芯片算力、數據積累和行業資源整合上,我們要看到從綜合實力、平臺能力方面確實存在的差距。我們首先要緊跟國際最新發展,保持敬畏之心。在跟跑到并跑的同時要在一些擅長的領域做到領跑。如語音識別、翻譯、教育、醫療這些領域,依托行業知識和專業理解能力,形成規模用戶和商業模式的良性迭代,我們是有信心的?!?/span>
本次ChatGPT浪潮讓我們看到中國和美國在人工智能領域的綜合差距,如果不迅速趕上,差距是有可能被拉大的。除了要防止部分企業的過度炒作外,我們也發現有些“成功學”型自媒體,它會刻意不負責任地抓取一些只言片語,然后寫出一些聳人聽聞的題目,讓網友誤以為是某個企業目空一切,從而收割一波自媒體們的“流量紅利”。這種捧殺行為對整個產業是有百害而無一利的。
在當前情況下保持一種健康踏實的良性心態,是非常重要的,希望科學界和產業界的同仁們在這方面能夠共同努力。
來源:新華網