最終更新日:2025年11月30日
| カテゴリー | 引用文献(著者/年) | 概要/説明 (ソースに基づく) |
|---|---|---|
| I. 大規模言語モデル (LLM) および Transformer 基盤技術 | ||
| LLM/Transformer 基盤技術 | Vaswani et al. (2017) |
Transformerアーキテクチャの基盤となる論文「Attention Is All You Need」。 このモデルでは、入力トークンと出力トークンをベクトル次元 $d_{model}$ に変換するために学習済み埋め込みが使用され、デコーダー出力は線形変換とSoftmax関数によって次のトークンの予測確率に変換される。また、サイン・コサイン関数による位置エンコーディング(PE)を採用しており、学習済み位置埋め込み(PE)と比較してほぼ同一の結果が得られたことが報告されている。 |
| LLM/Transformer 基盤技術 | Brown et al. (2020) |
GPT-3に関する研究。「Language Models are Few-Shot Learners」として、大規模モデルがフューショット学習能力を持つことを実証した。 訓練データには、CommonCrawl、拡張WebText、Books1/2、Wikipediaが使用され、高品質なデータセットがより頻繁にサンプリングされた。このモデルは、人間がAI生成ニュース記事を識別する際の精度を52%(175Bモデルの場合)まで低下させ、人間と区別が難しいテキストを生成する能力を持つことを示した。 |
| LLM/Transformer 基盤技術 | Devlin et al. (2018) |
BERT(Bidirectional Encoder Representations from Transformers)に関する論文。深層双方向Transformerによる言語理解のための事前学習について記述している。 arXiv preprint arXiv:1810.04805。 |
| LLM/Transformer 基盤技術 | Achiam et al. (2023) |
GPT-4の技術レポート。 arXiv preprint arXiv:2303.08774。 |
| LLM/Transformer 基盤技術 | Kingma and Ba (2015) | 確率的最適化のための手法であるAdamに関する論文。Transformerモデルの訓練やRLHFの報酬モデルの訓練に使用された。 |
| LLM/Transformer 基盤技術 | Lewis et al. (2019) |
BART: 自然言語生成、翻訳、理解のためのDenoising sequence-to-sequence事前学習。RAG(Retrieval-Augmented Generation)モデルのジェネレーターコンポーネント(パラメトリックメモリ)として利用された。 arXiv preprint arXiv:1910.13461。 |
| II. クリエイティブ/脚本生成 & 評価 (HCI) | ||
| クリエイティブ/脚本生成 & 評価 (HCI) | Mirowski et al. (2023) | Dramatron:LLMを用いた共同脚本作成ツールに関する論文。階層的なプロンプト連鎖(Hierarchical Coherent Story Generation)を使用し、ログラインからタイトル、キャラクター、プロット概要、場所描写、対話へと進む。業界専門家による評価が行われ、ユーザーが階層内の任意の段階で介入・編集できる設計を特徴とする。実装はGoogle Colabで提供されている。 |
| クリエイティブ/脚本生成 | Weber et al. (2024) |
wr-AI-ter:AI駆動の脚本作成における作者性の認識 (Ownership Perception) の向上を目的とした対話型アプリケーション。アプリケーションは「アイデア出し、構成、洗練、エクスポート」の4段階から構成される。特に、AIが提案するクリエイティブなアイデアは、ユーザーがそのまま挿入できないように設計されており、AIによる過度な作者性の侵害を防ぎ、作家の主体的な関与を促す。 https://doi.org/10.1145/3639701.3656325。 |
| クリエイティブ/脚本生成 | Wang et al. (2024) |
CMSGO(Combinational Multi-Stage Genetic Optimization)アルゴリズムをChatGPTと統合し、映画およびTV脚本を自動生成する手法。CMSGOは、脚本の一貫性、対話の流れ、キャラクター開発などの複数の品質要素を定量的に評価し、遺伝的最適化を通じて反復的に強化する。平均脚本品質スコアは20世代の最適化を通じて0.62から0.88へと着実に向上した。 DOI: 10.5750/jme.v1i1.1383。 |
| AIアートワーク/評価 | Wang et al. (2024) |
学習ベースAIアートワークの評価システムに関するサーベイ論文。提案された統一評価システムは、美しさ (Beauty)、色 (Color)、テクスチャ (Texture)、コンテンツ詳細 (Content Detail)、線 (Line)、スタイル (Style)の6つの評価項目で構成され、異なるスタイルのアートワークの客観的評価に適していることがユーザー調査で示された。 https://doi.org/10.1145/3698105。 |
| III. RAG (検索拡張生成) および長文理解 | ||
| RAG (検索拡張生成) / 長文理解 | Arefeen et al. (2024) |
iRAG(Incremental RAG)を提案した論文。動画分析のためのRAGシステムであり、動画全体を事前にテキスト化する従来手法のレイテンシ問題に対し、クエリ認識型オンデマンド抽出を採用。これにより、対話的なユーザー問い合わせへの応答の遅延を、従来のRAGと同等またはそれ以上に改善する。 https://doi.org/10.1145/3627673.3680088。 |
| RAG/情報検索 | Yan et al. (2024) |
CRAG(Corrective Retrieval Augmented Generation)を提案した論文。軽量な検索評価器を訓練し、取得された文書の品質を評価。信頼度に基づいて異なる知識検索アクション(例えば、検索結果が低品質ならWeb検索をトリガーするなど)を動的に実行する、モジュラーRAGの一種。 arXiv preprint arXiv:2401.15884。 |
| RAG/情報検索 | Liu et al. (2024) |
LLMが長文コンテキストをどのように使用するかを研究した論文。長文LLMがRAGよりも平均性能で優れるという結果とは別に、関連情報がコンテキストの「真ん中」に埋もれてしまう(Lost in the middle)問題について言及しており、長文コンテキスト処理の課題を示唆している。 Transactions of the Association for Computational Linguistics, 12:157–173。 |
| RAG/情報検索 | Karpukhin et al. (2020) |
DPR(Dense Passage Retrieval):オープン・ドメインQAのための稠密パッセージ検索。RAGモデルにおいて、Wikipediaの非パラメトリック知識ソースにアクセスするための事前学習されたニューラルリトリーバーとして機能した。 arXiv preprint arXiv:2004.04906。 |
| IV. 評価/人間のフィードバック (RLHF) | ||
| 評価/RLHF | Stiennon et al. (2020) |
人間のフィードバックによる要約の学習に関する研究。従来のROUGEなどの自動指標が要約品質を正確に捉えられない課題を克服するため、64,832件以上の人間による比較データセットを収集し公開した。訓練した報酬モデル(RM)に基づき、PPO(Proximal Policy Optimization)を用いてポリシーをファインチューニングする。RMはROUGEよりも人間の選好を予測する能力に優れ、その結果、人間のフィードバックモデルは教師あり学習モデルよりも優れた要約を生成した。 (NeurIPS 2020)。 |
| 評価/RLHF | Ziegler et al. (2019) |
人間の選好から言語モデルをファインチューニングする手法に関する論文。Stiennon et al. (2020) の先行研究であり、要約タスクにおける人間のフィードバックと強化学習(RL)の適用を試みた。 arXiv preprint arXiv:1909.08593。 |
| V. その他/応用/倫理 | ||
| その他/応用/倫理 | Hutto and Gilbert (2014) | VADER (Valence Aware Dictionary and sentiment Reasoner):ソーシャルメディアテキストの感情分析に特化した辞書とルールベースのモデル。NLTKのモジュールとして、ニュースコーパス「Quantum Criticism」プロジェクトで使用され、記事の感情スコア(-1から+1)を文、段落、記事レベルで生成した。 |
| その他/応用/倫理 | Weidinger et al. (2021) |
「Ethical and social risks of harm from language models」:言語モデルの使用に伴う倫理的および社会的リスクに関する論文。 arXiv:2112.04359。 |
| 業界/著作権 | Alter, A., & Harris, E. A. (2023) | 『Franzen, Grisham and Other Prominent Authors Sue OpenAI』というニューヨーク・タイムズの記事。著名な作家がOpenAIを訴えたという著作権に関する報道。 |

