AIPaperNotes

Record daily reading of papers and related reproduction results in Chinese.

For more notes, please follow the blog: https://nopsled.blog.csdn.net/

Paper Catalog

Architecture

Diffusion:
- DiT
Flow:
- Flow Matching [Link]
MOE:
- Switch Transformer [Link]
- DeepSeekMoE
- Loss-Free Balancing [Link]
Vision Transformer:
- ViT [Link]
- NaViT [Link]

Embedding

NV-EMBED [Link]
Qwen3 Embedding [Link]

LLM

Agent: LLM-based Single/Multi Agent model/system
- DeepResearch:
  - WebSailor [Link]
  - WebWatcher [Link]
  - RE-TRAC [Link]
- Memory:
  - Dynamic Cheatsheet [Link]
  - EgoMem [Link]
  - ReasoningBank [Link]
- Multi Agent Optimization
  - OWL [Link]
  - Multi-Agent Design [Link]
- RAG
  - BookRAG [Link]
- Reflection:
  - Reflexion [Link]
  - Metacognitive Reuse [Link]
- Router:
  - Router-R1 [Link]
- Visual Agent
  - PixelCraft [Link]
  - SWE-Vision
Base Model: Large Language Model
- DeepSeek
  - DeepSeek-V2 [Link]
  - DeepSeek-V3 [Link]
  - DeepSeek-V3.2 [Link]
- Moonshot AI
  - KIMI LINEAR [Link]
- Zhipu AI
  - GLM 4.5 [Link]
  - GLM 5 [Link]
- OpenAI
  - gpt-oss [Link]
Dataset: Data building and processing for Model training
- Pretrain:
  - DELT [Link]
- SFT:
  - OpenSeeker [Link]
Long Sequence
- RLM [Link]
Prompt: Prompt Engineering
- Context Learning
  - ACE [Link]
- Skills
  - Extending Claude’s capabilities with skills and MCP servers [Link]
  - Building agents with Skills: Equipping agents for specialized work [Link]
Omni: LLM-based full modal model
- Qwen2.5 - Omni [Link]
- M3 - Agent [Link]
Quantization: Model Weight/Optimizer/Activation Compressing
- COAT [Link]
Speech: Speech LLM
- ALM: Audio LLM for auido Input
  - Audio Flamingo 3 [Link]
Survey
- DeepRearch [Link]
- Vibe Coding [Link]
Training: LLM Model Training:
- Ptrtrain
  - FIM (fill-in-the-middle) [Link]
- RL
  - RLHF: Reinforcement Learning from Human Feedback
    - BCO [Link]
  - RLRF: Reinforcement Learning with Rich Feedback
    - SDPO [Link]
  - RLVR: Reinforcement Learning with Verifiable Rewards
    - Deepseek - R1 [Link]
    - Dr.GRPO [Link]
    - DAPO [Link]
    - GCG [Link]
    - LUFFY [Link]
    - GSPO [Link]
    - DeepSeek - R1 v2 [Link]
- SFT:
  - EAFT
- Speculative Decoding or MTP: Speculative Decoding or Multi-token Prediction
  - Better & Faster Large Language Models via Multi-token Prediction [Link]
  - CAFT [Link]
  - EAGLE3 [Link]
VLM: Visual LLM
- LLaVA [Link]
- Qwen - VL [Link]
- Qwen2 - VL [Link]
- Qwen2.5 - VL [Link]
- Qwen3 - VL [Link]
- MiniCPM-V 4.5 [Link]
- DeepSeek - OCR [Link]
- DeepSeek - OCR2
- Kimi K2.5 [Link]

Visual Encoder

Image Segment Pretraining
- SAM [Link]
- SAM2 [Link]
Language-Image Representation Learning:
- CLIP [Link]
- SigLIP [Link]
- SigLIP2 [Link]
- LIFT [Link]

Name		Name	Last commit message	Last commit date
Latest commit History 64 Commits
Architecture		Architecture
Embedding/2025		Embedding/2025
LLM		LLM
Visual Encoder		Visual Encoder
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AIPaperNotes

Paper Catalog

Architecture

Embedding

LLM

Visual Encoder

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

AIPaperNotes

Paper Catalog

Architecture

Embedding

LLM

Visual Encoder

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages