AppleのAI研究者「現在のLLMは表面的なパターンを真似て答えを出しているだけ。真の推論能力は持っていない」

2024年10月14日 2024年10月14日

loki.5ch.net

カープドラ6西川篤夢！「日本を代表する遊撃手になりたい」【ドラフト会議2025】

カープドラ5赤木晴哉！191cm最速153キロ！佛教大の本格派右腕！【ドラフト会議2025】

カープドラ4工藤泰己！159キロ北の剛腕！【ドラフト会議2025】

カープドラ3勝田成！近畿大163cmセカンド！菊池涼介の後継者候補！【ドラフト会議2025】

カープドラ2齊藤汰直！亜大152キロエース！【ドラフト会議2025】

カープドラ1平川蓮！187cmのスイッチヒッター！立石正広を外し2度目の重複も新井監督がクジを引き当てる！【ドラフト会議2025】

【カープ実況】ドラフト会議2025！ドラ1立石正広の獲得なるか

緒方孝市カープドラ3指名で青学出禁！澤﨑俊和の逆指名まで10年間スカウト出禁

【朗報】広島、攻守最強都市だったｗｗｗ

【悲報】彼女「ごめん！俺くんの貯金、情報商材に使っちゃった」→…問い詰めたらギャン泣きされたんだが俺が悪いのか？

AppleのAI研究者「現在のLLMは表面的なパターンを真似て答えを出しているだけ。真の推論能力は持っていない」

1:香味焙煎 ★ 2024/10/13(日) 08:17:42.36 ID:HAk7W1zD9

米AppleのAI研究者らは10月7日（現地時間）、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」（LLMにおける数学的推論の限界を理解する）という論文を発表した。

この論文は、LLM（大規模言語モデル）が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。

研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。

実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている…
続きはソース元で
https://www.itmedia.co.jp/news/articles/2410/13/news070.html

続きを見る

カープドラ6西川篤夢！「日本を代表する遊撃手になりたい」【ドラフト会議2025】

カープドラ5赤木晴哉！191cm最速153キロ！佛教大の本格派右腕！【ドラフト会議2025】

カープドラ4工藤泰己！159キロ北の剛腕！【ドラフト会議2025】

カープドラ3勝田成！近畿大163cmセカンド！菊池涼介の後継者候補！【ドラフト会議2025】

カープドラ2齊藤汰直！亜大152キロエース！【ドラフト会議2025】

カープドラ1平川蓮！187cmのスイッチヒッター！立石正広を外し2度目の重複も新井監督がクジを引き当てる！【ドラフト会議2025】

【カープ実況】ドラフト会議2025！ドラ1立石正広の獲得なるか

緒方孝市カープドラ3指名で青学出禁！澤﨑俊和の逆指名まで10年間スカウト出禁