文字、攝影/陳欣蔓、張書銜、張英豪
當代AI核心:大型語言模型LLM
隨著人工智慧浪潮席捲全球,大型語言模型(Large Language Model, LLM)已成為驅動當代人工智慧(Artificial Intelligence, AI)應用的核心引擎。作為一種先進的深度學習技術,LLM 不僅展現了卓越的語言理解與生成能力,更引領了各領域的產業變革。

台灣也積極透過「TAIDE 計畫」發展本土化模型,試圖以在地語料與專業場域知識,建構具備國際競爭力的 AI 基石。本系於12月11日特別邀請該計畫核心成員——中央研究院資訊科學研究所黃瀚萱副研究員,以「The Recent Advances of LLMs」為題,深度剖析現今LLM 的技術內涵,探討模型背後的「思考機制」,以及當前欲在算力與效能間取得平衡的技術發展趨勢。
大AI時代來臨:通用性是LLM成功的關鍵
黃副研究員指出,LLM之所以受到歡迎,關鍵在於其高度的通用性。過去的AI模型大多專為單一任務設計,例如車牌辨識,功能單一且受限;而LLM則能透過輸入不同的指令(prompt),幾乎涵蓋及回答各領域的問題,突破了傳統AI對情境與規則上的僵化限制。
近年來,隨著不同模型陸續出現,難免令人好奇到底哪一個模型最強,這個問題可參考lmarena.ai等排名平台,它們提供各領域即時更新的指標。然而,早期模型在數學邏輯推理上常出錯,並沒有現在那麼聰明,其具體原因則需要回到AI的運作機制與思考方式來探討。

AI是如何思考的?解密思維鏈與訓練機制
黃副研究員提到,多數人將LLM視為一個「問題輸入—答案輸出」的普通計算機。然而,要探討內部的運作機制,就必須理解思維鏈(Chain of Thought, CoT)的概念。CoT的精髓在於要求模型不只提供答案,而是要同時輸出中間的推理步驟,就像數學考試要求「寫出計算過程」。要讓模型學會這種「會講過程的思考方式」,背後牽涉兩種主要的訓練做法:第一種是監督式微調(Supervised Fine-Tuning , SFT),人類研究者預先準備大量的標準解答,包含答案與完整、正確的CoT推理步驟,讓模型透過模仿來學習;第二種是強化學習(Reinforcement Learning, RL),模型不必預先看到推論步驟,而是根據其輸出的答案是否正確,或是否符合人類的預期來獲得回饋,從而自我檢驗優劣。在進階的訓練流程中,研究者會先讓模型用自己的方式解很多題,並從中挑出正確又有代表性的思考過程作為種子資料,再搭配更多題目做SFT與RL。透過一輪一輪的自我檢查與自我學習,塑造從CoT表達到回饋強化的訓練流程。
解決運算時間與空間的雙重瓶頸成關鍵課題
隨著 AI 模型推論能力增強,CoT越長、效果越好的趨勢雖成顯學,卻也導致時間與算力成本的暴增。極端情況下,甚至出現模型為了解決簡單數學題而耗時數十秒的「過度推理」現象。黃副研究員分享,為解決此瓶頸,AI 產業界正積極導入六大技術路徑:限制推論長度、難度分流、隱式內部推論、分支探索與修剪、思考過程摘要以及語法限制工程。然而,目前各大方法仍然有其限制。黃副研究員舉「限制推論長度」的方法為例,解釋其就像在訓練時告訴模型:「你答對有獎勵,但如果你講得太長,就要扣分。」雖然能強迫模型簡短回答,但問題是,如果答案太短,模型可能還沒思考清楚就給出了錯的答案。因此,如何在不犧牲複雜推理正確性的前提下有效抑制算力浪費,仍是當前 AI 發展中最大的技術拉鋸戰。
AI 推理競賽的新局:走向更小、更強、更整合的模型
總的來說,AI的競爭正處在白熱化階段,各公司都在努力讓自家AI變得更簡潔、更聰明(Smaller & Smarter)。黃副研究員認為,未來的趨勢將是多模態模型(Multi-modal Models)的整合。這類模型不僅能理解文字(語言),還能處理圖像、音訊等資訊。屆時,AI的應用不再只是寫作、翻譯或解數學,而會朝向更複雜、更需要思考脈絡的領域如醫療診斷、法律諮詢、科學研究等發展,人與AI的協作也會大幅增進。
%E7%9A%84%E5%AD%B8%E7%BF%92%EF%BC%8CGPT-o1%E5%9C%A8%E5%90%84%E9%A0%98%E5%9F%9F%E7%9A%84%E7%AD%94%E9%A1%8C%E6%AD%A3%E7%A2%BA%E7%8E%87%E6%98%8E%E9%A1%AF%E6%8F%90%E5%8D%87.jpg)