91麻豆国产免费观看_国产成人精品一区二区免费_久久99免费视频_天天干天天操天天摸

首頁(yè) > 知識(shí)技能 > 知識(shí)技能 > 復(fù)雜推理大模型OpenAI o1亮相,數(shù)學(xué)與代碼能力飛躍

復(fù)雜推理大模型OpenAI o1亮相,數(shù)學(xué)與代碼能力飛躍

發(fā)布時(shí)間:2024-09-16 16:25:38來源: 13041198719

平安證券近日發(fā)布AI動(dòng)態(tài)跟蹤系列(三):復(fù)雜推理大模型OpenAI o1亮相,數(shù)學(xué)與代碼能力飛躍。

以下為研究報(bào)告摘要:

9月13日,OpenAI正式發(fā)布并上線o1系列模型o1-preview和o1-mini。

平安觀點(diǎn):

OpenAI計(jì)數(shù)器重置回1,o1系列開啟復(fù)雜推理序幕。本次OpenAI發(fā)布的是o1-preview(預(yù)覽版)和o1-mini(擅長(zhǎng)STEM、更快、更便宜)兩個(gè)版本,ChatGPT付費(fèi)用戶和API用戶可以使用。根據(jù)OpenAI官網(wǎng)介紹,o1系列被定位為用于解決難題的推理模型。對(duì)于復(fù)雜的推理任務(wù)來說,OpenAI認(rèn)為o1是一個(gè)重大進(jìn)步,代表了AI能力的新水平,鑒于此,OpenAI將計(jì)數(shù)器重置回1并將此系列模型命名為OpenAI o1。OpenAI研究發(fā)現(xiàn),隨著強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)計(jì)算)和思考時(shí)間(測(cè)試時(shí)計(jì)算)的增加,o1的性能會(huì)不斷提高。因此在體驗(yàn)上,與此前模型不同點(diǎn)在于,OpenAIo1在作出反應(yīng)之前,需要像人類一樣,花更多時(shí)間思考問題。

o1基準(zhǔn)表現(xiàn)明顯優(yōu)于GPT-4o,數(shù)學(xué)與編碼能力實(shí)現(xiàn)飛躍。OpenAI實(shí)驗(yàn)結(jié)果表明,在絕大多數(shù)推理任務(wù)中,o1的表現(xiàn)明顯優(yōu)于GPT-4o。尤其是在具有挑戰(zhàn)性的推理基準(zhǔn)上,o1實(shí)現(xiàn)了能力飛躍,1)數(shù)學(xué)能力:在美國(guó)數(shù)學(xué)奧林匹克(AIME2024)預(yù)選賽題目中,GPT-4o平均只能解決12%的問題,o1正式版達(dá)到平均74%的準(zhǔn)確率,在使用學(xué)習(xí)評(píng)分函數(shù)重新排名1000個(gè)樣本后準(zhǔn)確率達(dá)到93%,相當(dāng)于美國(guó)排名前500的學(xué)生水平。2)編碼能力:在競(jìng)爭(zhēng)性編程問題(Codeforces)比賽中,o1-preview、o1分別超越了62%、89%的人類競(jìng)爭(zhēng)者,而對(duì)比GPT-4o僅超過11%。3)特定專業(yè)領(lǐng)域能力:GPQA diamond測(cè)試(專門用于評(píng)估模型在化學(xué)、物理和生物學(xué)等領(lǐng)域的專業(yè)知識(shí)水平)中,o1不僅成功完成了測(cè)試,更是超越了人類專家的表現(xiàn),成為首個(gè)在GPQA diamond基準(zhǔn)上擊敗人類專家的AI模型。

o1引入思維鏈優(yōu)化邏輯推理,助力模型性能與安全提升。o1優(yōu)越能力的背后,核心突破在于運(yùn)用思維鏈(chain of thought)方法來處理復(fù)雜任務(wù),OpenAI介紹到,類似于人類在回答困難問題之前可能會(huì)思考很長(zhǎng)時(shí)間,o1在嘗試解決問題時(shí)會(huì)使用思維鏈。通過強(qiáng)化學(xué)習(xí),o1學(xué)會(huì)打磨其思維鏈并改進(jìn)它所使用的策略。o1學(xué)會(huì)了識(shí)別和糾正錯(cuò)誤,學(xué)會(huì)了將棘手的步驟分解為更簡(jiǎn)單的步驟,學(xué)會(huì)了在當(dāng)前方法不起作用時(shí)嘗試不同的方法,此過程顯著提高了模型的推理能力。在OpenAI的一個(gè)官方演示中展示了o1-preview解答復(fù)雜問題的邏輯推理過程,o1-preview在過程中逐步顯示思考、翻譯問題、定義變量、理解問題、構(gòu)建方程、解方程等與人類推理相似的步驟,最終輸出結(jié)論。同時(shí),OpenAI認(rèn)為思維鏈推理也為大模型安全性的提升提供了新思路,o1-preview在關(guān)鍵越獄評(píng)估和用于評(píng)估模型安全拒絕邊界的最嚴(yán)格內(nèi)部基準(zhǔn)上取得了顯著的改進(jìn)。

投資建議:OpenAI推出專攻難題的o1系列大模型,應(yīng)對(duì)復(fù)雜推理任務(wù),o1引入思維鏈(Chain of Thought)提升邏輯推理能力,絕大多數(shù)基準(zhǔn)表現(xiàn)不僅明顯超越GPT-4o,而且在數(shù)學(xué)與編碼能力上實(shí)現(xiàn)了重要飛躍,在理化生等專業(yè)領(lǐng)域的知識(shí)水平也達(dá)到新高度。OpenAI的動(dòng)向始終引領(lǐng)全球大模型的發(fā)展,我們認(rèn)為o1的正式亮相有望開啟復(fù)雜推理大模型的序幕,一方面對(duì)算力提出了更大需求,同時(shí)也將賦能下游AI應(yīng)用(如編程、教育)的快速迭代。我們堅(jiān)定看好AI主題的投資機(jī)會(huì):1)算力方面,推薦工業(yè)富聯(lián)、浪潮信息、中科曙光、紫光股份、神州數(shù)碼、海光信息、龍芯中科,建議關(guān)注寒武紀(jì)、景嘉微、軟通動(dòng)力;2)算法方面,推薦科大訊飛;3)應(yīng)用場(chǎng)景方面,強(qiáng)烈推薦中科創(chuàng)達(dá)、恒生電子、盛視科技,推薦金山辦公,建議關(guān)注萬(wàn)興科技、福昕軟件、同花順、彩訊股份;4)網(wǎng)絡(luò)安全方面,強(qiáng)烈推薦啟明星辰。

知識(shí)技能更多>>

寧德時(shí)代參投新公司,哪吒汽車轉(zhuǎn)經(jīng)銷商,極氪007GT等新車型來襲 預(yù)計(jì)2026年發(fā)布 新款保時(shí)捷Cayenne Coupe諜照曝光 豐田皇冠威爾法墨金版上市,91.9萬(wàn)起售,配置升級(jí)能否打動(dòng)你? 2025款?yuàn)W迪Q2L降價(jià)上市,配置微調(diào),售價(jià)17.18-21萬(wàn)元 智能網(wǎng)聯(lián)與快速充電技術(shù)齊亮相2025武漢新能源汽車技術(shù)及充電樁展會(huì)揭示新能源車新趨勢(shì) 領(lǐng)克900首發(fā):SPA Evo架構(gòu)旗艦SUV,能否撼動(dòng)大型SUV市場(chǎng)? 法拉第未來FX首款原型車諜照曝光,網(wǎng)友:魏牌高山換了個(gè)模具? 搭載高通驍龍數(shù)字底盤 零跑B10或售13萬(wàn)起 等等再出手 四款國(guó)產(chǎn)SUV來襲 比亞迪唐L、領(lǐng)克900領(lǐng)銜 推薦奢享版 2025款名爵MG7購(gòu)車指南 大眾牽手小鵬,合力打造超20000個(gè)自營(yíng)充電終端 嵐圖汽車首發(fā)LFC超級(jí)后驅(qū)技術(shù),既防眩暈,又抗甩尾! 這三款車企車型為何遇冷? 增長(zhǎng)29%!蘇州金龍2024年銷售額超百億 從燃油到新能源,這個(gè)品牌為何從沒有能力天花板? 2025誰(shuí)是下一家盈利的新勢(shì)力汽車車企? 730馬力!Brabus爆改AMG CLC 63 SE 零百加速3.3秒 速騰換殼 捷達(dá)VA7量產(chǎn)下線 預(yù)售12萬(wàn)元起 22.48萬(wàn)起 北京BJ40魔核電驅(qū)版開啟預(yù)售 配增程系統(tǒng)/綜合續(xù)航1200km 彰顯中國(guó)品牌實(shí)力 比亞迪海豹拿下日本年度風(fēng)云車大獎(jiǎng) 降價(jià)6000美元 2025款美版豐田bZ4X上市 配置小幅升級(jí) 有望明年上半年上市 奧迪Q6L e-tron投產(chǎn) A6 e-tron隨后跟進(jìn) 2.9秒破百 BRABUS爆改AMG GT 63 Coupe 動(dòng)力大幅升級(jí) 最高降價(jià)8.5萬(wàn)元 Jeep牧馬人4xe價(jià)格調(diào)整 49.99萬(wàn)元起 名爵MG ES5昆明亮相,首批車主交車,最低僅售9.99萬(wàn)元起! 海馬汽車攜多項(xiàng)專利亮相2024海南國(guó)際知識(shí)產(chǎn)權(quán)交易大會(huì) 余承東攜手“四界”領(lǐng)導(dǎo)人亮相央視,揭秘鴻蒙智行背后的故事 當(dāng)?shù)厥蹆r(jià)916.9萬(wàn)起!極石ROX 01正式亮相俄羅斯市場(chǎng) Momenta獲德國(guó)TÜV萊茵ISO 26262 ASIL D功能安全產(chǎn)品認(rèn)證 蓋世汽車榮獲“AUTOSAR中國(guó)中心年度特別貢獻(xiàn)獎(jiǎng)”