Skip to Content

AI Weekly Papers Oct. 29~

今週のAI論文のabstractを3行で


今週もAI研究ではさまざまな進展が見られました。特に注目すべきは、高度なトランスフォーマモデルの強化学習やマルチモーダル学習への応用、そしてAIモデルの理解力と生成力のパラドクスについての議論です。

まず最初に、新しい自然言語処理(NLP)の領域について見ていきましょう。"CodeFusion: A Pre-trained Diffusion Model for Code Generation"という研究では、従来の自己回帰モデルの制約を解決する新しいアプローチが提唱されました。また、"ChatCoder: Chat-based Refine Requirement Improves LLMs' Code Generation"という研究では、人間の要件を改善するために大規模言語モデルと対話によって要件を精緻化する手法を示しています。

次に、GANsやその他の画像生成技術の最新研究を見てみましょう。"CapsFusion: Rethinking Image-Text Data at Scale"という研究では、キャプションの効果的な生成と、モデルのパフォーマンス、スケーラビリティ、効率性の向上が描かれています。また、"De-Diffusion Makes Text a Strong Cross-Modal Interface"という研究では画像をテキストとして表現し、それを他のツールやモデルに利用できるようにする革新的な方法が紹介されました。

そして、AIの基礎知識と教育については、AIモデルの理解力と生成力の間のパラドクスが研究されました。特に"The Generative AI Paradox: 'What It Can Create, It May Not Understand'"という研究では、人間の知能との類比を行う際の注意が必要であることを指摘しています。

特定のドメインへの適応力も向上しています。「ChipNeMo: Domain-Adapted LLMs for Chip Design」では、産業向けチップ設計に大規模言語モデルを応用する研究が行われています。

以上、今週のAI研究の動向を簡単にまとめました。それぞれの分野において、革新的な研究によって、AIの可能性はさらに広がっていることがうかがえます。

CodeFusion: A Pre-trained Diffusion Model for Code Generation

link: Arxiv Published: 2023-10-26

  • What: CodeFusionは事前学習された拡散モデルであり、コード生成のために自然言語をエンコードしたプログラムを反復的にノイズ除去することによって制約を解決する。
  • Method: CodeFusionは、自然言語をコードに変換するための事前学習された拡散モデルであり、エンコードされた自然言語に基づいて完全なプログラムを逐次的にノイズ除去する手法を用いている。
  • Novelty: CodeFusionは、以前に生成されたトークンを再考することが容易でない従来の自己回帰モデルの制約を解決する新しいアプローチである。

FP8-LM: Training FP8 Large Language Models

link: Arxiv Published: 2023-10-27

  • What: 大規模言語モデル(LLM)の効率的なトレーニングのためのFP8低ビットデータフォーマットの探索
  • Method: 新しいFP8自動混合精度フレームワークの提案と実験
  • Novelty: 8ビット勾配、オプティマイザの状態、および分散学習の低精度データフォーマットの使用により、大規模言語モデルの学習コストを削減し、リアルメモリ使用量を削減し、高速化を実現できることを示した

Large Language Models as Generalizable Policies for Embodied Tasks

link: Arxiv Published: 2023-10-26

  • What: この研究を一言でいうと、大規模な言語モデルを具体的なタスクへ適応したものです。
  • Method: この研究は、事前学習された凍結されたLLMを使用し、テキスト指示と視覚的な観察を受け取り、環境内で直接行動を生成するLLaRP(Large LAnguage model Reinforcement Learning Policy)という手法を用いています。
  • Novelty: この研究の新規性は、タスク指示の複雑な言い換えに対して頑健であり、新しいタスクにも適用可能な最適な行動を示すことができる点です。また、他の学習済みベースラインやLLMのゼロショット適用と比較して、1,000の未知のタスクで42%の成功率を達成し、1.7倍の成功率を示しています。さらに、言語条件付きの多数のタスクに関する研究を支援するために、本研究では新しいベンチマーク、Language Rearrangementを提供しています。

CapsFusion: Rethinking Image-Text Data at Scale

link: Arxiv Published: 2023-10-31

  • What: この研究を一言でいうと、大規模な多文種データを活用するCapsFusionという枠組みによる画像とテキストのマルチモーダル学習の提案です。
  • Method: この研究では、大規模な言語モデルを用いて、ウェブベースの画像とテキストペアとシンセティックキャプションの情報を統合・洗練する手法を提案しています。
  • Novelty: この研究の新規性は、CapsFusionによるキャプションの効果的な生成と、モデルのパフォーマンス、スケーラビリティ、効率性の向上です。

Learning From Mistakes Makes LLM Better Reasoner

link: Arxiv Published: 2023-10-31

  • What: GPT-4を用いたLearning from Mistakes (LeMa)手法によるLLMの改善
  • Method: LeMaでは、誤り訂正データペアを生成し、GPT-4によって誤りの特定と修正を行う
  • Novelty: LeMa手法により、従来のCoTデータ単独の微調整よりも性能が向上し、難解な数学的推論タスクでも高い精度を達成することができる

The Impact of Depth and Width on Transformer Language Model Generalization

link: Arxiv Published: 2023-10-30

  • What: この研究を一言でいうと、深さと幅がTransformer言語モデルの一般化に与える影響を調査しています。
  • Method: この研究では、深さと幅のトレードオフを行い、一定のパラメータ数を保ちながらTransformerモデルを構築しています。
  • Novelty: この研究の新規性は、深さが一般化に与える効果を調査するだけでなく、言語モデリングや領域内データに対する性能による深さの効果を明らかにしている点です。

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

link: Arxiv Published: 2023-11-01

  • What: この研究を一言でいうと、LLaVA-Interactiveは画像のチャット、セグメンテーション、生成、編集などの機能を統合したデモである。
  • Method: この研究では、LLaVAのビジュアルチャット、SEEMの画像セグメンテーション、およびGLIGENの画像生成と編集といった3つのマルチモーダルスキルを組み合わせたAIモデルを使用している。
  • Novelty: この研究の新規性は、人間とAIのマルチモーダルな対話を可能にし、ビジュアルプロンプトを利用して人間の意図を調整する点にある。また、モデルの追加的なトレーニングなしにAIモデルを組み合わせることで、研究の開発が非常に費用効率的に行われていることも特徴である。

De-Diffusion Makes Text a Strong Cross-Modal Interface

link: Arxiv Published: 2023-11-01

  • What: 画像をテキストとして表現し、それを他のツールやモデルに利用できるようにする方法に関する研究
  • Method: テキストから画像へのデコードには、事前学習済みのテキストから画像への変換モデルを用いる。エンコーダは入力画像をテキストに変換し、固定されたテキストから画像への変換デコーダに入力して元の画像を再構築している。
  • Novelty: ディフュージョンを用いたテキスト表現により、他のテキストから画像への変換ツールやLLMsに容易に適用できるようになる。また、少数の例を用いて大規模言語モデルにプロンプトを与えるだけで、新たな先端的な結果が得られる。

The Generative AI Paradox: "What It Can Create, It May Not Understand"

link: Arxiv Published: 2023-10-31

  • What: この研究を一言でいうと、Generative AIにおける生成能力と理解能力の相違についての調査です。
  • Method: この研究は実験と分析を用いて行われました。
  • Novelty: この研究の新規性は、Generative AIのモデルが生成能力と理解能力が異なることを示し、人間の知能との類比を行う際の注意が必要であることです。

ChatCoder: Chat-based Refine Requirement Improves LLMs' Code Generation

link: Arxiv Published: 2023-11-01

  • What: ChatCoderは人間の要件を改善するために大規模言語モデルと対話によって要件を精緻化する手法です。
  • Method: ChatCoderは大規模言語モデルとの対話によって要件を精緻化する手法です。
  • Novelty: ChatCoderは既存の大規模言語モデルの性能を大幅に向上させる点で優れています。また、要件の改善方法や人間の応答を用いたモデルの改良手法に対しても利点があります。

ChipNeMo: Domain-Adapted LLMs for Chip Design

link: Arxiv Published: 2023-10-31

  • What: ChipNeMoは大規模言語モデル(LLMs)を用いた産業向けチップ設計の応用を探求する研究です。
  • Method: この研究では、カスタムトークナイザ、ドメイン適応型継続事前学習、ドメイン固有の指示を使用した監督された微調整(SFT)、およびドメイン適応型の検索モデルなどのドメイン適応技術を採用しています。
  • Novelty: この研究では、一般的なベースモデルよりもドメイン適応技術によるLLMの性能向上が示されており、設計タスクの範囲で同等またはより良い性能と共にモデルサイズを最大5倍削減することが可能であることが示されています。