噓 MoonCode: 03/07 10:24
噓 DrTech: 1. LLM什麼時後會停止回答,跟你設定多長的 max output to03/07 14:26
→ DrTech: ken無關。2.max output token不是寫在prompt裡面。03/07 14:26
為了避免LLM不處理超過model的max tokens (聽說 LLM會傳回error,往返也是cost)
所以才要靠agent把關, 不是嗎?
Max output token是給agent用的
當有需要減少context,
agent有個機制會壓縮整個context(prompt, history, rules, referenced files..)
再把壓縮後的context送往LLM
→ DrTech: LLM要停止輸出,不看max output tokens,是看有沒有算出EO 03/07 14:32
→ DrTech: S token。與你怎麼設定OS環境變數,是否放在prompt無關。 03/07 14:32
推 Kroner: 我有在用UC2,感覺效果還不錯欸! 03/07 14:32推 DrTech: 按錯,我不是要噓。 03/07 14:45
※ 編輯: pacino (111.249.83.213 臺灣), 03/07/2026 15:16:09
→ DrTech: 完全錯誤。首先,LLM本身不會回傳error或output error。丟 03/07 23:12
→ DrTech: 太長的文字序列或向量進去,向量長度不合,"應用層程式碼" 03/07 23:12
→ DrTech: (例如pytorch)就報error了。 03/07 23:12
推 Chricey: 有人知道如何處理關節痛嗎?求分享! 03/07 23:12→ DrTech: LLM根本沒處理,更不會回傳error,。 03/07 23:12
→ DrTech: 另外,Max output token,不是給agent看的。在預設的情況 03/07 23:17
→ DrTech: ,agent 做任何選擇,agent輸出什麼文字,根本不看Max out 03/07 23:17
→ DrTech: put token設定多少。 max output tokens通常是設定在servi 03/07 23:17
推 Chricey: 樓上UC2當糖吃,天天走拿飛 03/07 23:17→ DrTech: ng service層(例如vllm)跟agent根本無關。 03/07 23:17
→ DrTech: 簡單話:控制LLM輸出的長度,永遠不是LLM在做。是應用層程 03/07 23:22
→ DrTech: 式碼在做。 03/07 23:22
→ DrTech: agent或LLM不會把關長度的。 03/08 00:48