LLaMA

この項目では、大規模言語モデルについて説明しています。その他のラマについては「ラマ」をご覧ください。

「LaMDA」とは異なります。

LLaMA（Large Language Model Meta AI）は、Meta AI が2023年2月に発表した大規模言語モデル^[1]^[2]。70億パラメータから650億パラメータまで、さまざまなサイズのモデルが学習された。LLaMA の開発者は、130億パラメータモデルがほとんどのNLPベンチマークにおいてGPT-3（1750億パラメータ）の性能を上回ること、最大のモデルは PaLM や Chinchilla などの最先端モデルに匹敵することを報告している。従来、ほとんどの強力な大規模言語モデルは限られた API を通じてしかアクセスできなかったが、Meta は LLaMA のモデルのウェイトを非商用ライセンスで研究コミュニティに公開した。LLaMAのリリースから1週間で、そのウェイトがリークされた^[3]。

アーキテクチャと学習

LLaMA は、2018年以降の言語モデリングの標準的アーキテクチャである Transformer アーキテクチャを採用している。 LLaMA の開発者は、パラメータの数ではなく、トレーニングデータの量を増やすことで、モデルの性能を上げることに注力した。これは、トレーニングプロセスの計算コストより、トレーニング済みモデルによる推論のコストの方が支配的であるためである。 LLaMA は、下記のような公開データソースから抽出した1.4兆個のトークンで学習した。

コモン・クロールでスクレイピングしたWebページ
GitHub のオープンソースリポジトリ
ウィキペディア（20種類の言語）
プロジェクト・グーテンベルクのパブリックドメインの書籍
ArXivにアップロードされた科学論文のLaTeXソースコード
Stack Exchangeウェブサイトの質問と回答

リリースとリーク

LLaMA は、2023年2月23日、ブログ投稿と論文により発表された。モデルのトレーニングに使用されたコードは、オープンソースのGPLv3ライセンスで公開された^[4]。モデルの重みへのアクセスは管理され、「世界中の学術研究者、政府・市民社会・学術機関の関係者、産業界の研究所にケースバイケースで許可される」ことになっていた。

2023年3月2日、LLaMAのウェイトが4chan経由で拡散された^[3]。

応用

Alpaca

スタンフォード大学の基盤モデル研究センター（Center for Research on Foundation Models, CRFM）は、LLaMA の 70億パラメータ・モデルをファイン・チューニングした、Alpaca をリリースした^[5]。Alpaca は OpenAI GPT-3.5シリーズの text-davinci-003モデルに匹敵する性能を獲得した^[6]。

脚注

[脚注の使い方]

出典

^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). "LLaMA: Open and Efficient Foundation Language Models". arXiv:2302.13971 [cs.CL3]。
^ “Introducing LLaMA: A foundational, 65-billion-parameter large language model”. Meta AI (2023年2月24日). 2023年4月1日閲覧。
^ ^a ^b Vincent, James (2023年3月8日). “Meta's powerful AI language model has leaked online — what happens now?”. The Verge. 2023年4月1日閲覧。
^ llama - GitHub
^ stanford alpaca - GitHub
^ Yizhong Wang; Yeganeh Kordi; Swaroop Mishra; Alisa Liu; Noah A. Smith; Daniel Khashabi; Hannaneh Hajishirzi (2022年12月20日), “Self-Instruct: Aligning Language Model with Self Generated Instructions” (英語), arXiv, arXiv:2212.10560, ISSN 2331-8422 , Wikidata Q117202254

外部リンク

Meta AI
Llama

自然言語処理

基礎用語

AI完全
Bag-of-words（英語版）
n-gram
- bi-gram（英語版）
- tri-gram（英語版）
計算言語学
自然言語理解
ストップワード（英語版）
テキスト処理（英語版）

テキスト分析

コロケーション抽出（英語版）
コンセプト・マイニング（英語版）
共参照解析（英語版）
深い言語処理（英語版）
遠読（英語版）
情報抽出
固有表現抽出
オントロジー学習（英語版）
構文解析
品詞タグ付け（英語版）
意味役割付与（英語版）
意味的類似性（英語版）
感情分析
用語抽出（英語版）
テキストマイニング
テキスト含意（英語版）
Truecasing（英語版）
語義の曖昧性解消
語義推定（英語版）

テキストセグメンテーション（英語版）	複合語用語処理（英語版）見出し語化（英語版）字句解析テキストチャンキングステミング（英語版）文区切り（英語版）単語区切り（英語版）

自動要約

複数文書要約（英語版）
センテンス抽出（英語版）
テキスト平易化（英語版）

機械翻訳

翻訳支援ツール
用例ベース（英語版）
ルールベース（英語版）
統計的（英語版）
転送ベース（英語版）
ニューラル

分布意味論（英語版）モデル

BERT
単語文書行列（英語版）
明示的セマンティック分析（英語版）
fastText（英語版）
Glove（英語版）
潜在意味解析
単語の埋め込み
Word2vec

言語資源、
データセット・コーパス

種類・基準	コーパス言語学 Lexical resource（英語版） LLOD（英語版）機械可読辞書（英語版）対訳コーパス（英語版） PropBank（英語版）意味ネットワーク SKOS（英語版）音声コーパス（英語版）コーパスシソーラスツリーバンク Universal Dependecies（英語版）
データ	BabelNet（英語版） Bank of English（英語版） DBペディアフレームネット（英語版） Google Ngram Viewer（英語版） ThoughtTreasure（英語版） UBY（英語版） WordNet