AI Weekly Papers Oct. 08~
今週のAI論文のabstractを3行で
主にHuggingface daily papersから注目度の高い記事をまとめています。 了解しました。以下に修正した文章を提供します。
今週のハイライト
言語モデル(LLM)を中心に、コンピュータビジョン分野を含む幅広い領域で革新的な進展を遂げています。以下では、いくつかの注目すべき研究を紹介します。
-
言語モデル(LLM)の新展開
LLMに関連する研究として、Prometheusが登場しました。このオープンソースの言語モデルは、カスタム評価基準に基づいてテキストを評価する能力を提供します。これにより、信頼性の高い評価が可能になり、言語モデルの性能評価に新たな方法が開発されました。
-
長文の物語テキスト生成(EIPE-text)
EIPE-textフレームワークは、言語モデルを活用して長文の物語を生成する手法です。テキストコーパスから計画を抽出し、改善していく方法により、言語モデルの能力を最大限に活用しています。
-
言語を知覚表現として使用したナビゲーション手法(LangNav)
LangNavは、言語を知覚表現として活用した新しいナビゲーション手法です。エージェントの自己中心のパノラマビューを自然言語の記述に変換し、事前学習済みの言語モデルを微調整してナビゲーションの指示に基づいて最適なアクションを選択します。これにより、AIの自然言語理解と行動の統合が実現しました。
-
その他の研究
さらに、コンピュータビジョン分野では、Octopusが環境フィードバックを活用したビジョン-言語プログラムを具現化し、ハイパーリアルな人物画像の生成(HyperHuman)などが進行中です。また、テキストからビデオへの変換のカスタマイズ(MotionDirector)や、テキストから3D生成(GaussianDreamer)など、言語モデルとコンピュータビジョンの融合による新しいアプローチが研究されています。
Octopus: Embodied Vision-Language Programmer from Environmental Feedback
link: Arxiv Published: 2023-10-12
- What: Octopusは、環境フィードバックからの結晶化したビジョン-言語のプログラムを具現化するものである。
- Method: この研究は、GPT-4を利用して強化学習による環境フィードバックを持つエージェントを制御し、訓練データとして行動のブループリントと対応する実行可能なコードを生成するOctoVerseという実験環境を利用して訓練する手法を用いている。
- Novelty: この研究の新規性は、結晶化したビジョン-言語のプログラムを具現化するOctopusという新しいモデルや、強化学習を用いた環境フィードバックの改善手法(RLEF)の提案にある。
Think before you speak: Training Language Models With Pause Tokens
link: Arxiv Published: 2023-10-03
- What: 言語モデルの遅延トークンを用いたトレーニング
- Method: この研究は、(学習可能な)遅延トークンを用いて言語モデルのトレーニングと推論を行っています。
- Novelty: この研究の新規性は、遅延トークンを用いたモデルのトレーニングによる精度向上です。
Lemur: Harmonizing Natural Language and Code for Language Agents
link: Arxiv Published: 2023-10-10
- What: LemurとLemur-Chatは自然言語とコーディングの能力を最適化した言語モデルであり、多目的な言語エージェントの基盤として利用される。
- Method: コーディングに関連するコーパスによる事前学習とテキストとコードのデータによるfine-tuningを行って、モデルの性能を高めている。
- Novelty: 既存のオープンソースモデルとは異なり、自然言語とコーディングの能力をバランス良く持ち、さまざまなテキストやコーディングのベンチマークで最新の性能を達成している。また、Lemurは人間のコミュニケーションやツールの使用、フル観測および不完全観測の環境下でのインタラクションなど、さまざまなエージェントタスクで優れた性能を発揮することが実証されている。自然言語とプログラミング言語の調和により、Lemur-Chatはプロプライエタリモデルとの能力の差を大幅に縮め、高度なオープンソースエージェントの開発に貢献している。
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
link: Arxiv Published: 2023-10-12
- What: Prometheusは、カスタムの評価基準に基づいてテキストを評価するオープンソースのLLMです。
- Method: Prometheusは、GPT-4の評価能力と同等な評価モデルを構築するため、適切なリファレンス資料を使用してトレーニングを行います。
- Novelty: Prometheusは、クローズドソースの評価モデルの代わりにオープンソースの評価モデルとして使われることで、信頼性の高い評価が可能になります。また、Prometheusは人間の評価者との相関性が高く、オープンソースの報酬モデルよりも高い精度を達成します。
MotionDirector: Motion Customization of Text-to-Video Diffusion Models
link: Arxiv Published: 2023-10-12
- What: この研究を一言でいうと、テキストからビデオに変換するモデルの動きをカスタマイズする手法を提案
- Method: この研究は、MotionDirectorというデュアルパスのモデルを使用し、外見と動きの学習を分離する手法を提案
- Novelty: この研究の新規性は、外見の制約を軽減するための新しい損失関数を設計し、カスタマイズされた動きを持つ異なる外見のビデオを生成できることである。また、他の応用にも対応しており、異なるビデオの外見と動きのミックスや、画像に動きを与えることができる。
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion
link: Arxiv Published: 2023-10-12
- What: この研究を一言でいうと、ハイパーリアルな人物画像の生成です。
- Method: この研究では、構造的拡散を用いた人物画像生成モデルを提案しています。具体的には、画像外観と潜在的構造の間の相関を捉えるために、統合されたフレームワークを構築しています。
- Novelty: この研究の新規性は、大規模な人物データセットの構築や統合されたネットワークの設計など、複数の視点からの新しいアプローチです。このアプローチにより、より連続的で自然な人物画像の生成が可能になります。
GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors
link: Arxiv Published: 2023-10-12
- What: テキストから3D Gaussian Splattingによる高速な生成を行う研究
- Method: 3D拡散モデルと2D拡散モデルの組み合わせを用いて、3D Gaussian Splattingを行う
- Novelty: 3D拡散モデルと2D拡散モデルの組み合わせによる高速な3D生成フレームワークの提案
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation
link: Arxiv Published: 2023-10-12
- What: この研究を一言でいうと、自動画像デザインと生成のためのGPT-4V(ision)を用いた反復的な自己改善システム。
- Method: この研究はGPT-4V(ision)を用いた反復的な自己改善による画像デザインと生成を行う手法を提案している。
- Novelty: この研究の新規性は、大規模なMultimodalモデルを用いた反復的な自己改善能力により、未知のモデルや環境を探索することが可能となる点である。
EIPE-text: Evaluation-Guided Iterative Plan Extraction for Long-Form Narrative Text Generation
link: Arxiv Published: 2023-10-12
- What: 長文の物語のテキスト生成のための評価によって導かれた反復的な計画抽出(EIPE)手法
- Method: EIPE-textフレームワークを提案し、テキストコーパスから計画を抽出して改善し、ヒエラルキカルなアプローチを使用して長文の物語を生成する
- Novelty: EIPE-textは、テキストコーパスから計画を抽出し、これをベースに改善していく手法であり、既存の大規模言語モデルを使用した手法よりも優れた結果を得られる
LangNav: Language as a Perceptual Representation for Navigation
link: Arxiv Published: 2023-10-11
- What: この研究を一言でいうと、言語を知覚表現として使用したナビゲーション手法の探索です。
- Method: この研究では、視覚システムを使用してエージェントの自己中心のパノラマビューを自然言語の記述に変換し、事前学習済みの言語モデルを微調整してナビゲーションの指示に基づいて最適なアクションを選択します。
- Novelty: この研究の新規性は、視覚システムの連続的な視覚特徴ではなく(離散的な)言語を知覚表現として使用する点です。