HelpSteer: NVIDIAが公開した多属性ラベル付きLLMオープンデータセット
HelpSteerデータセットについての概要をまとめます。
HelpSteer: 多属性有用性データセット
HelpSteer: A Multi-Attribute Utility Dataset HelpSteer huggingface dataset
NVIDIAがcc-by-4.0で公開しているHelpSteerデータセットについて概要をまとめます。
データセットの特徴
-
LLMによる解答生成:
- データセット内の解答は、大規模言語モデル(LLM)を使用して生成されています。具体的には、NVIDIAの43億パラメータモデルが使用されており、各プロンプトに対して4つの異なる応答が生成されています
-
多様なラベル:
- 有用性: 総合的な有用性
- 正確性: 事実の正確さ
- 一貫性: 表現の一貫性と明確さ
- 複雑さ: 応答の知的深度
- 冗長さ: 詳細の量
-
SteerLMでの高性能:
- HelpSteerデータセットを用いてSteerLM手法で訓練されたモデルは、チャット系のベンチマーク(例えば、MT Bench)で高い性能を獲得しています。
- 高い性能を達成できた理由は、データセット内の多様な属性に基づく詳細な注釈により、モデルがより正確で一貫性のある、そしてユーザーにとって有用な応答を生成する能力を向上させたためです。
データセット構成
プロンプトの収集方法
-
10,459のシングルターンプロンプトを収集。
-
約半分は外部データ注釈ベンダーのScale AIから提供され、残りはテンプレートを用いて合成生成。
-
各プロンプトは、以下のタスクに基づいて収集:
- オープン質問応答
- 生成(創造的なテキスト生成)
- ブレインストーミング
- リライト(文章の書き換え)
- 要約
- 分類
- 抽出
- 閉じた質問応答
-
応答生成
- 各プロンプトに対して、NVIDIAの43億パラメータモデルを使用して4つの異なる応答を生成
-
アノテーション方法
- 各応答は、5つの属性(有用性、正確性、一貫性、複雑さ、冗長さ)に基づいてLikert-5スケール(0から4)で評価。
- 注釈プロセスには約200人のアノテーターが参加。
- 各注釈は最低2回の人間によるレビューと自動チェックを通過。
データ分析の結果と洞察
正確性と一貫性の重要性
- 正確性(Pearson's R = 0.8525)と一貫性(Pearson's R = 0.6348)は、有用性に対して強い正の相関を持つ。
- ユーザーにとって、事実に基づいて正確で、一貫性のある情報が最も重要であることがわかる。
複雑さと冗長さの影響
- 複雑さ(Pearson's R = 0.2361)と冗長さ(Pearson's R = 0.2555)は、有用性に対して弱い相関しか持たない。
- ユーザーは必ずしも専門的な内容や詳細な情報を求めているわけではないことが示唆される。
回帰分析の結果
- 正確性、一貫性、複雑さ、冗長さが有用性の73.0%の分散を説明することが判明
- 正確性と一貫性が特に重要であることが確認された
実際の応用と評価
自動評価
- MT Bench、TruthfulQA、パープレキシティ(PPL)、Flesch-Kincaid Grade Level(FGKL)を使用して評価
- SteerLMモデルは、これらの評価指標で高いスコアを達成
人間による評価
- 12人のボランティアが、ブラインド設定でモデル応答の有用性をランク付け
- SteerLMモデルは他のベースラインモデルと比較して高いEloスコアを獲得
所感
- 企業が品質管理を行なってリッチなラベルを付与したデータセットであり、オープンデータセットとしては非常に有用そうに見える
- このラベルはSteerLMに限らずさまざまな学習方法に活用できると思われる