Papers

2017 Attention is all you need

https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

transformer
2018 Improving Language Understanding by Generative Pre-Training

GPT-1
2019.06 Language models are unsupervised multitask learners

https://storage.prod.researchhub.com/uploads/papers/2020/06/01/language-models.pdf

GPT-2, 1.5B parameters
2020 Language models are few-shot learners

https://proceedings.nips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf

GPT-3
2023.02 LLaMA: Open and Efficient Foundation Language Models

https://arxiv.org/pdf/2302.13971
2023.12 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

https://arxiv.org/pdf/2305.13245
2025.5 Qwen3 Technical Report

https://arxiv.org/pdf/2505.09388
2023.11 A Survey of Large Language Models

https://www.researchgate.net/profile/Tang-Tianyi-3/publication/369740832_A_Survey_of_Large_Language_Models/links/665fd2e3637e4448a37dd281/A-Survey-of-Large-Language-Models.pdf
2025.5 Large language models: A survey

https://arxiv.org/pdf/2402.06196