본문 바로가기

전체 글

SmolLM3: smol, multilingual, long-context reasoner https://huggingface.co/blog/smollm3 SmolLM3: smol, multilingual, long-context reasonerCongratulations to the team on the release of SmolLM3! This is a really impressive piece of work, and the detailed ablations on GQA, NoPE, and the other architectural tweaks are super valuable for the community. Your focus on pushing the boundaries of longhuggingface.co 소형 언어 모델(Small Language Models)은 점점 더 중요한.. 더보기
Fast and Simplex: 2-Simplicial Attention in Triton https://arxiv.org/abs/2507.02754?_bhlid=b823264a61f867fcfc11342f5464010c50351360 Fast and Simplex: 2-Simplicial Attention in TritonRecent work has shown that training loss scales as a power law with both model size and the number of tokens, and that achieving compute-optimal models requires scaling model size and token count together. However, these scaling laws assume an infinite suparxiv.org 초.. 더보기
콜랩 완료시 자동 다운로드 코드 from google.colab import filesfiles.download("/content/IMUMODEL.zip") 더보기
Intuitive understanding of 1D, 2D, and 3D convolutions in convolutional neural networks [closed] https://stackoverflow.com/questions/42883547/intuitive-understanding-of-1d-2d-and-3d-convolutions-in-convolutional-neural-n conv에 대해서 햇갈리는 사람이 꽤 있을 것이다. 그런점에서 이 글이 괜찮은것 같아서 가져왔다. C3D에서 가져온 그림을 활용해서 설명하고 싶습니다.한마디로 요약하자면, 합성곱의 방향성과 출력 형태(output shape) 가 매우 중요합니다!↑↑↑↑↑ 1D 합성곱 - 기본 형태 ↑↑↑↑↑단일 방향(시간 축)으로만 합성곱을 계산합니다.입력: [W], 필터: [k], 출력: [W]예시)입력 = [1, 1, 1, 1, 1]필터 = [0.25, 0.5, 0.25]출력 = [1, 1, 1, .. 더보기
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition https://hunyuan-gamecraft.github.io/ Jiaqi Li1,2* Junshu Tang1* Zhiyong Xu1 Longhuang Wu1 Yuan Zhou1 Shuai Shao1 Tianbao Yu1 Zhiguo Cao2 Qinglin Lu1† 1 Tencent Hunyuan 2 Huazhong University of" data-og-host="hunyuan-gamecraft.github.io" data-og-source-url="https://hunyuan-gamecraft.github.io/" data-og-url="https://hunyuan-gamecraft.github.io/" data-og-image="https://scrap.kakaocdn.net/dn/bk21tr/.. 더보기
OmniGen2: Exploration to Advanced Multimodal Generation https://github.com/VectorSpaceLab/OmniGen2 GitHub - VectorSpaceLab/OmniGen2: OmniGen2: Exploration to Advanced Multimodal Generation.OmniGen2: Exploration to Advanced Multimodal Generation. - VectorSpaceLab/OmniGen2github.com https://arxiv.org/abs/2506.18871 OmniGen2: Exploration to Advanced Multimodal GenerationIn this work, we introduce OmniGen2, a versatile and open-source generative model de.. 더보기
Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought https://arxiv.org/abs/2505.12514 Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous ThoughtLarge Language Models (LLMs) have demonstrated remarkable performance in many applications, including challenging reasoning problems via chain-of-thoughts (CoTs) techniques that generate ``thinking tokens'' before answering the questions. While existing tharxiv.org 초록대규모 언어 모델(Lar.. 더보기
RAG의 시대는 곳 갈 것이다 아직도 RAG를 찾는 기업들이 많다. 하지만 GPT에 PDF를 넣는 것으로는 "검색"만 가능할 뿐, 진짜 "이해"는 일어나지 않는다. 곧 등장할 Agentic LLM은 RAG가 아닌 Storage로 직접 가서 문서를 읽고, 스스로 필요한 정보를 판단해 응답하는 구조가 될 것이다.[User Query] ↓[LLM] → "이건 X에 대한 내용이군. 관련 문서 A, B, C를 봐야겠어." ↓[Structured Storage Access] (문서 ID 기준, 인덱스 기반 탐색) ↓[요약/정제/반영 → 응답 생성] 예컨대, 사용자가 "작년 고객 불만사항 요약해줘"라고 묻는다면, Agent는 연간 CS 리포트 문서를 스스로 열람하고, 필요한 항목만 추려 응답하게 될 것이다. 이 방향이 바로 다음 LL.. 더보기