📝📝：堪稱博士生等級的 OpenAI o1 將會稱霸 AI 市場？｜ OpenAI：與過往的模型相比，o1 至少有三大優勢

2024 年 10 月 1 日

本文整理目前 o1 以及 o1 mini 的三大優勢、解答一些常見的疑問（思維鏈是什麼？RLHF 如何運作？）。

目前 Open AI o1 已經公開預覽版模型，該模型的能力堪稱博士生等級，會花時間思考後解決複雜的任務。來源：OpenAI

自 2022 推出 ChatGPT 3.5 後，OpenAI 便開啟了全球的人工智能元年，後繼也推出了兼具處理文、圖、音、影功能的 4o 以及 4o mini。最近，OpenAI 挾著更強大的新模型襲來—— o1 以及 o1 mini。目前僅開放給訂閱 GPT+ 的用戶試用。

o1 堪稱有著人類博士生的推理能力，對於科學、數理有更高的應對技巧。o1 以及 o1 mini 模型具有一些顯著的特色和優勢，讓最新的模型在許多方面超越了之前的 4o 以及 4o mini。

本文整理目前 o1 以及 o1 mini 的三大優勢、解答一些常見的疑問（思維鏈是什麼？RLHF 如何運作？）。

o1 是什麼？為什麼可以如此強大？

依目前已釋出的消息，OpenAI 的 o1 模型之所以如此提升，主要是因為 o1 模型採用了多種先進的技術和方法。主要有兩種技術是最為關鍵的：內部思維鏈技術、基於人類回饋的強化學習

自 2022 推出 ChatGPT 3.5 後，OpenAI 便開啟了全球的人工智能元年。Photo by Andrew Neel on Unsplash

— — —

‧

內部思維鏈技術

o1 模型使用了「內部思維鏈」（chain of thought）的技術，o1 模型在給出答案前，模型會進行多層次的推理過程。

湯森路透公司（Thomson Reuters Corporation）創新發展部主席 Pablo Arredondo 認為這是一次 AI 的重大突破，「雖然產出的所需時間較其他模型長，但是這樣的推理方法是其他模型不曾用過的。」

現任 Open AI 的研究員 Jason Wei 為 o1 模型的開發者之一，這一次的模型之所以導入內部思維鏈，是來源於他在 2021 年的一份研究《Chain-of-thought prompting elicits reasoning in language models》

標準提示要求模型直接給出多個步驟推理問題的答案，而思維鏈則提示、誘導模型將問題分解為數個推理步驟，使用這樣的提問可以大幅提升正確的答案。來源：Jason Wei

Jason Wei 發現，比起使用標準的題詞技巧（standard prompting），用思維鏈提詞（chain of thought prompting），反而可以讓大型語言模型推理得更好，特別適用在需要數字計算的領域或工作。

這也是為什麼 o1 模型需要較長的時間才能產出，當人們對模型提問後，其內部需要時間拆解步驟。Jason Wei 以一個明確的案例，分別呈現了標準題詞與思維鏈提詞的不同產出。上圖同樣都是詢問：23－20＋6＝？

標準提詞：27。（錯誤）
思維鏈提詞：23 - 20 = 3。接著，3 + 6 = 9。（正確）

目前 OpenAI 並未詳細說明思維鏈在 o1 模型如何進行，可以確認的是，思維鏈試圖模仿人類的思考過程，先深入思考、分解問題步驟，然後再逐步推導出答案。

— — —

‧

基於人類回饋的強化學習

o1 模型結合了基於人類回饋的強化學習（Reinforcement Learning with Human Feedback, RLHF）。

這種方法主要蒐集人類的回饋（意見）數據來優化模型的學習過程，使模型能夠更好地理解和回應人類的需求。換言之，正是讓大型語言模型不只模仿結果，也模仿、學習推理的過程。

OpenAI 在宣布新模型的文章中表示：

「我們用不同的方式訓練模型，在做出反應之前花更多時間思考問題，就像人類一樣解決問題。」

o1 模型結合了基於人類回饋的強化學習、蒐集人類的回饋（意見）數據來優化模型的學習過程，使模型能夠更好地理解和回應人類的需求。Photo by John Schnobrich on Unsplash

RLHF 架構下的模型至少會有以下幾個學習步驟：

初始訓練：o1 模型會先學習大量的書本和網路上的知識，了解基本的知識點和回答方式。
人類回饋收集：當學生使用這個應用程式時，有些回答會被送到老師或專家手中，他們會根據回答的準確性和有用性進行評分。
回饋應用：這些評分會告訴模型哪些回答是好的，哪些需要改進。
強化學習：o1 模型會根據這些反饋進行學習，改進模型的回答方式。比如：如果模型的回答不夠詳細，會學習提供更多細節。
持續改進：隨著時間的推移，模型會不斷接收新的反饋並進行調整，變得越來越聰明，能夠更好地幫助學生。

假設一位學生問：「什麼是光合作用？」

學習助手可能會初步回答：

「植物利用陽光製造食物的過程。」

如果這個回答被老師（人類）評為不夠詳細，模型會學習改進。下一次，模型可能會回答：

「光合作用是植物利用陽光、二氧化碳和水製造氧氣，以及轉化成為葡萄糖（Glucose）的過程。」

過往的模型的回答相當於「睜眼說瞎話」，因為在 o1 之前的模型並不具備拆解步驟的能力，也不具備反思（先不論反思一詞的哲學意義為何）的能力只注重輸出的結果「看起來」合理即可，但當前的 o1 模型修正了唬爛的出錯率。

OpenAI 也強調，導入思維鏈的培訓，o1 模型學會優化自己的思考過程，嘗試不同的策略，並認識到自己的錯誤。可以說，o1 模型不只是習得推理，也學會事實查核（fact-check）能力，可以大幅降低看到黑影就開槍的唐突。

o1 的三大優勢，對上 4o 誰更勝一籌？

強大的推理能力

o1 模型在推理能力上有顯著提升，能夠處理複雜的問題並提供深入的分析。例如，在數學和科學領域，o1 模型能夠解決高難度的問題，並且在代碼處理中表現卓越。文後有測試，o1 生成的計畫書也更加完整周全。

據 OpenAI 所言，在國際數學奧林匹克競賽（International Mathematical Olympiad, IMO） 的資格考試中，GPT-4o 僅解決了 13% 的問題，而 o1 模型則為 83%。o1 模型的寫程式能力在 Codeforces（一個舉辦程式設計競賽的國際型網站）比賽中達到了總排名的前 11 %。

— — —

‧

思維鏈生成機制

o1 模型能夠生成內部的思維鏈，相當於人類大腦的神經網絡（neural network）這讓 o1 在推理過程中進行多階段的分析，得出更準確的結論。

思維鏈的推理機制，特別適用在需要深入分析的任務，例如：醫療保健研究人員可以使用 o1 模型來標記細胞測序數據，物理學家可以使用 o1 模型來生成量子光學所需的複雜數學公式。

— — —

‧

多模態功能

OpenAI 未來計劃支援多模態與跨媒介的功能，o1 模型將能夠處理不僅僅是文本，還包括圖像和其他數據形式。例如：o1 模型可以同時分析文本和圖像，提供比 4o 更全面的解決方案。

目前 OpenAI 旨在開發推理能力更強大的「草莓計畫」（Strawberry Project）可以說，o1 模型是草莓計畫重要成果之一，也是未來開發更高階的模型（如：GPT-5）的試金石。

— — —

‧

據悉，目前只有 ChatGPT+、Team 方案的會員，才能使用 o1-preview 和處理速度較快的小模型 o1-mini。

9 月 17 日官方則更新了目前的使用限制：每週可傳送 50 則訊息給 o1-preview、o1-mini 則為每天 50 則訊息。接下來 OpenAI 會陸續開放 Enterprise 和 Edu 方案的會員使用。

o1 像理科生、4o 像文科生

至於大家引頸期盼 o1、4o 哪個比較好用？我分幾個面向測試了兩個不同的模型，製作了一個簡單的表格，在四個不同領域的表現，分別是：詩詞翻譯、哲學申論、活動企劃，和數學計算。

總結來說，各有優劣。o1 確實如官方所說，更擅長推理以及計算，是個妥妥的理科生。而 4o 在翻譯以及文字表述的產出較為擅長，生成的回應也較回口語且人性化，相當於一個文科生。因此，需要看使用的需求，再決定哪個模型較能勝任，並沒有哪個是絕對的好。

詩詞翻譯｜翻譯美國詩人愛倫坡的 A Dream Within a Dream

o1：較為呆板，輸出後的詩詞格式以及斷句會跑掉。
4o：更為靈活，輸出後保留原來的詩詞格式及斷句。

哲學申論｜解釋以及應用哲學家柏拉圖提出的《洞穴預言》

o1：字數相對少（781字），但結構還算完整，內容皆以簡體中文的用法回應（如：數字化、信息、渠道）。
4o：字數相對多（1352字），結構更完整，內容多以繁體中文的用法回應。偶有簡體中文。

活動企劃｜策劃一檔 200 人的路跑活動並向運動品牌提案

o1：企劃書完整，包含流程、需求清單、合作方式、風險控管等，更讓人驚豔的是，o1 考慮到路跑活動的風險，並增加醫療設備需求。
4o：企劃書較為簡略，僅專注於正面預期效益，未考慮戶外活動的潛在風險（如：跑者受傷）。

數學計算｜以 113 年國中教育會考數學科第六題作為題目

o1：答對且步驟完整，詳細解釋題目（前提、方向）的每個步驟，很像坊間看到的大考題目詳解。
4o：令人驚訝的是 4o 也答對了，但答題過程不如 o1 完整。我猜測思維鍊的技術應該也有應用到 4o 上了。

結語｜速度飛快的模仿遊戲

目前推出的 o1 模型，在我看來，比較像是 GPT-5 或是草莓計畫的一個階段性產品，OpenAI 試圖說服大眾：在這場全球大型語言模型競賽上，我才有資本研發跟創新。

OpenAI 試圖說服大眾：在這場全球大型語言模型競賽上，我才有資本研發跟創新。Photo by Igor Omilaev on Unsplash

但不可否認的是，OpenAI 確實有資金和創新的優勢，不僅在全球收穫各家創投的資金，模型更新速度也高過市面上其他的模型。近期，OpenAI 又再度推出「進階語音模式」（Advanced Voice Mode），讓 GPT 可以自訂指令、記憶功能、五種新聲音，甚至讓使用者隨時打斷也無妨。

擁有語言對談功能的 GPT-4o 首次於 2024 年 5 月 13 日發布，當時的 OpenAI 技術長 Greg Brockman 在公開直播展示，GPT-4o 流暢的對談與表達讓世人震驚 AI 的發展，僅僅過了四個月，OpenAI 又再度推出了進階語音模式。

目前只有 ChatGPT+、Team 方案的會員，才能使用 o1-preview 和處理速度較快的小模型 o1-mini。換句話說，每個月須要花費約新台幣 600 元（20 美元）才能使用 o1 模型，如果你對於我如何用不到一半的價格訂閱 ChatGPT+ 感到好奇，可以點選下面的連結。

📝📝：真的假的？原價 1/3 的價格...

CC BY-NC-ND 4.0 授权

喜欢我的作品吗？别忘了给予支持与赞赏，让我知道在创作的路上有你陪伴，一起延续这份热忱！

鋼哥從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、行為經濟學、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

来自作者
相关推荐

📝📝：堪稱博士生等級的 OpenAI o1 將會稱霸 AI 市場？｜ OpenAI：與過往的模型相比，o1 至少有三大優勢

o1 是什麼？為什麼可以如此強大？

內部思維鏈技術

基於人類回饋的強化學習

o1 的三大優勢，對上 4o 誰更勝一籌？

強大的推理能力

思維鏈生成機制

多模態功能

o1 像理科生、4o 像文科生

結語｜速度飛快的模仿遊戲

📝📝：ChatGPT 取代了寫手卻創造了編輯？｜人類正在成為 AI 生成內容的清潔人員

📝📝：為什麼頂大在當代社會不再受青睞？｜美國評論家 David Brooks 指出頂大才有的「六大精英原罪」

📝📝：資訊科技如何衝擊傳統手工藝？｜AI 杜撰的書籍阻隔數百年的蕾絲編織技術

📝📝：ChatGPT 取代了寫手卻創造了編輯？｜人類正在成為 AI 生成內容的清潔人員

📝📝：為什麼頂大在當代社會不再受青睞？｜美國評論家 David Brooks 指出頂大才有的「六大精英原罪」

📝📝：資訊科技如何衝擊傳統手工藝？｜AI 杜撰的書籍阻隔數百年的蕾絲編織技術