LLaMA

曖昧さ回避 この項目では、大規模言語モデルについて説明しています。その他のラマについては「ラマ」をご覧ください。
曖昧さ回避 LaMDA」とは異なります。

LLaMALarge Language Model Meta AI)は、Meta AI が2023年2月に発表した大規模言語モデル[1][2]。70億パラメータから650億パラメータまで、さまざまなサイズのモデルが学習された。LLaMA の開発者は、130億パラメータモデルがほとんどのNLPベンチマークにおいてGPT-3(1750億パラメータ)の性能を上回ること、最大のモデルは PaLM や Chinchilla などの最先端モデルに匹敵することを報告している。従来、ほとんどの強力な大規模言語モデルは限られた API を通じてしかアクセスできなかったが、Meta は LLaMA のモデルのウェイトを非商用ライセンスで研究コミュニティに公開した。LLaMAのリリースから1週間で、そのウェイトがリークされた[3]

アーキテクチャと学習

LLaMA は、2018年以降の言語モデリングの標準的アーキテクチャである Transformer アーキテクチャを採用している。 LLaMA の開発者は、パラメータの数ではなく、トレーニングデータの量を増やすことで、モデルの性能を上げることに注力した。 これは、トレーニングプロセスの計算コストより、トレーニング済みモデルによる推論のコストの方が支配的であるためである。 LLaMA は、下記のような公開データソースから抽出した1.4兆個のトークンで学習した。

リリースとリーク

LLaMA は、2023年2月23日、ブログ投稿と論文により発表された。 モデルのトレーニングに使用されたコードは、オープンソースのGPLv3ライセンスで公開された[4]。モデルの重みへのアクセスは管理され、「世界中の学術研究者、政府・市民社会・学術機関の関係者、産業界の研究所にケースバイケースで許可される」ことになっていた。

2023年3月2日、LLaMAのウェイトが4chan経由で拡散された[3]

応用

Alpaca

スタンフォード大学の基盤モデル研究センター(Center for Research on Foundation Models, CRFM)は、LLaMA の 70億パラメータ・モデルをファイン・チューニングした、Alpaca をリリースした[5]。Alpaca は OpenAI GPT-3.5シリーズの text-davinci-003モデルに匹敵する性能を獲得した[6]

脚注

[脚注の使い方]

出典

  1. ^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). "LLaMA: Open and Efficient Foundation Language Models". arXiv:2302.13971 [cs.CL3]。
  2. ^ “Introducing LLaMA: A foundational, 65-billion-parameter large language model”. Meta AI (2023年2月24日). 2023年4月1日閲覧。
  3. ^ a b Vincent, James (2023年3月8日). “Meta's powerful AI language model has leaked online — what happens now?”. The Verge. 2023年4月1日閲覧。
  4. ^ llama - GitHub
  5. ^ stanford alpaca - GitHub
  6. ^ Yizhong Wang; Yeganeh Kordi; Swaroop Mishra; Alisa Liu; Noah A. Smith; Daniel Khashabi; Hannaneh Hajishirzi (2022年12月20日), “Self-Instruct: Aligning Language Model with Self Generated Instructions” (英語), arXiv, arXiv:2212.10560, ISSN 2331-8422 , Wikidata Q117202254

関連項目

  • Transformer (機械学習モデル)
  • ROCm(英語版) – Llama.cpp

外部リンク

  • Meta AI
  • Llama
基礎用語
テキスト分析
  • コロケーション抽出(英語版)
  • コンセプト・マイニング(英語版)
  • 共参照解析(英語版)
  • 深い言語処理(英語版)
  • 遠読(英語版)
  • 情報抽出
  • 固有表現抽出
  • オントロジー学習(英語版)
  • 構文解析
  • 品詞タグ付け(英語版)
  • 意味役割付与(英語版)
  • 意味的類似性(英語版)
  • 感情分析
  • 用語抽出(英語版)
  • テキストマイニング
  • テキスト含意(英語版)
  • Truecasing(英語版)
  • 語義の曖昧性解消
  • 語義推定(英語版)
テキストセグメンテーション(英語版)
自動要約
  • 複数文書要約(英語版)
  • センテンス抽出(英語版)
  • テキスト平易化(英語版)
機械翻訳
分布意味論(英語版)モデル
言語資源
データセット・コーパス
種類・基準
データ
  • BabelNet(英語版)
  • Bank of English(英語版)
  • DBペディア
  • フレームネット(英語版)
  • Google Ngram Viewer(英語版)
  • ThoughtTreasure(英語版)
  • UBY(英語版)
  • WordNet
自動認識・
データ取得(英語版)
トピックモデル(英語版)
  • 文書分類
  • 潜在的ディリクレ配分法(英語版)
  • パチンコ配分モデル(英語版)
レビュー支援
ツール(英語版)
自然言語ユーザー
インターフェース(英語版)
他のソフトウェア
  • NLTK(英語版)
  • spaCy
カテゴリ カテゴリ