본문 바로가기

전체 글

Large Language Diffusion Models https://ml-gsai.github.io/LLaDA-demo/ SOCIAL MEDIA TITLE TAGSOCIAL MEDIA DESCRIPTION TAG TAGml-gsai.github.io https://arxiv.org/abs/2502.09992 Large Language Diffusion ModelsAutoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised.. 더보기
Layer Normalization https://arxiv.org/abs/1607.06450 Layer NormalizationTraining state-of-the-art, deep neural networks is computationally expensive. One way to reduce the training time is to normalize the activities of the neurons. A recently introduced technique called batch normalization uses the distribution of the summedarxiv.org 초록최신의 심층 신경망을 훈련시키는 것은 계산 비용이 많이 듭니다. 훈련 시간을 단축하는 한 가지 방법은 뉴런의 활동을 정규화하는 것입니다. 최근.. 더보기
Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/?ncid=so-link-284103&linkId=100000338909940 Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling | NVIDIA Technical BlogAs AI models extend their capabilities to solve more sophisticated challenges, a new scaling law known as test-time scaling or inference-time s.. 더보기
꼭 들어보면 좋겠는 영상 https://www.youtube.com/watch?v=7xTGNNLPyMI 사실상 llm의 기초는 이보다 쉽게 설명하기 어려워보인다. 더보기
DeepSeek-V3 Technical Report https://arxiv.org/abs/2412.19437 DeepSeek-V3 Technical ReportWe present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-head Latent Attention (MLA) and Deeparxiv.org 초록우리는 토큰당 37B가 활성화되고 총 671B 파라미터를 갖춘 강력한 Mixture-of-Experts(MoE) 언어 모델인.. 더보기
재미있는 의견 https://youtube.com/clip/Ugkx9kck2RL2WE2Bj5-1BW819XGWEusU6qot?si=9aCAqGHZyPCRD9dl 더보기
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning https://arxiv.org/abs/2501.12948 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningWe introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoninarxiv.org 초록우리의 첫 번째 세대 추론 .. 더보기
거의 2,000년 동안 읽히지 않았던 불에 탄 두루마리에서 해독된 첫 단어들 https://edition.cnn.com/2025/02/08/science/vesuvius-scrolls-science-newsletter-wt/index.html 내가 참가했던, Vesuvius Challenge - Ink Detection의 후속 결과가 기사화되어있길래 가져와봤다.스캔된 두루마리에서 번역된 첫 단어 중 하나는 고대 그리스어 διατροπή로, “혐오”를 의미한다.(Vesuvius Challenge)편집자의 주: 이 이야기는 CNN의 Wonder Theory 과학 뉴스레터에 실린 버전이 있습니다. 뉴스레터를 무료로 받아보시려면 여기에서 가입하세요. CNN —잃어버린 것을 발굴하고 해독하기 어려운 퍼즐을 푸는 도전은 과학 세계를 움직이는 원동력이다.이러한 돌파구는 어린 시절 뒷마당에서 .. 더보기