Skip to Content

AI Weekly Papers Sep. 10~

今週のAI論文のabstractを3行で


主にHuggingface daily papersから注目度の高い記事をまとめています。

NExT-GPT: Any-to-Any Multimodal LLM

link: Arxiv Published: 2023-09-11

  • What: 多様なモダリティで入出力を行うことができる多様なMM-LLMシステムNExT-GPT
  • Method: LLMをマルチモーダルアダプタと異なるディフュージョンデコーダと組み合わせることで、任意のテキスト、画像、動画、音声の組み合わせの入出力を可能にする
  • Novelty: 既存の高性能エンコーダとデコーダを利用し、パラメータの少量(1%)のチューニングでNExT-GPTを構築することで、低コストなトレーニングと将来のモダリティ拡張を可能にする。さらに、Modality-switching instruction tuning (MosIT)とハイクオリティのデータセットを導入することで、複雑なクロスモーダルセマンティック理解とコンテンツ生成を実現することができる。

Textbooks Are All You Need II: phi-1.5 technical report

link: Arxiv Published: 2023-09-11

  • What: Transformersベースの言語モデルを使用して一部分野の一般的な論理推論タスクを実行する手法を提案する
  • Method: Transformersベースの言語モデルを使用して、"テキストブッククオリティ"のデータを生成し、それを教育プロセスに活用する
  • Novelty: 全体的なパフォーマンスが大型モデルに匹敵し、より複雑な論理タスクにおいても良好な結果を示す13億パラメータのモデルを提案すること。また、webデータの使用がなされておらず、バイアスが低減される効果がある。

Large-Scale Automatic Audiobook Creation

link: Arxiv Published: 2023-09-07

  • What: この研究を一言でいうと、大規模な自動オーディオブック作成です。
  • Method: この研究はニューラルテキスト音声変換の最近の進展を活用して、オンラインの電子書籍から高品質なオーディオブックを自動生成するシステムを提案しています。
  • Novelty: この研究の新規性は、多様な構造の書籍に対して正確に読み上げるための適切な部分の特定が可能であり、数百冊の書籍を並行して処理できる点です。また、ユーザーはオーディオブックの速度やスタイル、感情的な抑揚、そしてごく少量のサンプル音声を使用して希望の声を選ぶこともできます。さらに、この研究では5,000冊以上のオープンライセンスのオーディオブックと、ユーザーが簡単にカスタマイズできるインタラクティブなデモを提供しています。

PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models

link: Arxiv Published: 2023-09-11

  • What: 顔写真を元にした画像生成のための手法
  • Method: テキストと画像の両方の領域での二重ブランチの条件付け機構を利用している
  • Novelty: テスト時の調整不要で、目標の身元情報のみを使用して高品質の画像を生成できる

Generative Image Dynamics

link: Arxiv Published: 2023-09-14

  • What: 画像のシーンの動きに関する事前モデルを構築する方法
  • Method: 頻度調整拡散サンプリングプロセスを使用して、フーリエ領域でパーピクセルの長期的な動きの表現を予測する
  • Novelty: 動きの表現を生成するために、動画シーケンスから抽出された動きの軌跡のコレクションを学習するという新しいアプローチ

Agents: An Open-source Framework for Autonomous Language Agents

link: Arxiv Published: 2023-09-14

  • What: 誰でも簡単に利用できるオープンソースの自律言語エージェントフレームワークであるAgentsの紹介
  • Method: Agentsは計画、メモリ、ツールの使用、マルチエージェント通信、細かいシンボリック制御などの重要な機能をサポートするために工学的に設計されています
  • Novelty: Agentsは非専門家でも状態-of-the-artの自律言語エージェントを構築、カスタマイズ、テスト、チューニング、展開できるユーザーフレンドリーなライブラリです。さらに、そのモジュール化された設計は研究者にとっても拡張性が高く、研究に適しています。

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation

link: Arxiv Published: 2023-09-12

  • What: この研究は高品質の拡散ベースのテキストから画像生成を一ステップで行うことを目的としています。
  • Method: この研究では、Rectified Flowという手法を使用し、Stable Diffusion (SD) を超高速な一ステップモデルへと変換します。
  • Novelty: この研究の新規性は、Reflow手法を用いてノイズと画像の関係を改善し、SDレベルの画像品質を達成した点にあります。また、従来の手法を大幅に上回る速度と品質を実現しました。

MagiCapture: High-Resolution Multi-Concept Portrait Customization

link: Arxiv Published: 2023-09-13

  • What: MagiCaptureは、少数の被写体やスタイルの参考画像を使用して、高解像度のポートレート画像を生成する個人化手法です。
  • Method: この研究では、Attention Refocusing lossと補助事前分布を組み合わせた弱教師あり学習の設定を用いて、高品質のポートレート画像の生成を行っています。
  • Novelty: この研究の新規性は、被写体とスタイルの概念を統合し、少数の参考画像から高品質なポートレート画像を生成する手法を提案している点です。

From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting

link: Arxiv Published: 2023-09-08

  • What: 密度プロンプティングのチェーンを使用したGPT-4による要約
  • Method: GPT-4は初めにエンティティの少ない要約を生成し、その後欠けている重要なエンティティを追加して要約の密度を高める。
  • Novelty: CoDによって生成される要約は、従来のプロンプティングよりもより抽象的で統合度が高く、リードバイアスが少ない。人間による評価でも、GPT-4によるCoD要約が従来の要約よりも密度が高く、人間が書いた要約にほぼ匹敵するという結果が得られた。また、この研究では500件の注釈付きCoD要約と5,000件の未注釈の要約データが公開されている。

Large Language Models for Compiler Optimization

link: Arxiv Published: 2023-09-11

  • What: 大規模言語モデルをコンパイラ最適化に応用する研究
  • Method: Transformerモデルを使用し、未最適化のアセンブリを最適化するためのコンパイラオプションのリストを出力する
  • Novelty: 訓練中に命令数の予測や最適化されたコードの生成といった補助的な学習タスクを行い、最適化性能を向上させる