전체 글28 LLaMA: Open and Efficient Foundation Language Models IntroductionLLaMA는 7B~65B Param을 갖는 오픈소스 대형 언어모델이다. 본 연구에서는 공개된 데이터셋만 활용하여 충분히 좋은 성능을 보이는 것을 확인하였다.연구(Hoffman et al, 2022)에 따르면 모델 크기를 키우는 것이 아니라, 더 많은 데이터로 학습 시키는 것이 효과적임을 확인하였다. 따라서, LLaMA는 기존 연구보다 더 많은 토큰으로 학습하였다. 기존 Chinchilla , PaLM(130B), GPT-3와 다르게 public data로만 학습하였다.ApproachPretraining DataLLaMA는 공개 데이터로만 학습하였다. 학습에 사용된 데이터 구성은 다음과 같다.CommonCrawl :C4 [https://paperswithcode.com/dataset/.. 2025. 2. 6. Contrastive Clustering 예... 논문 많이 읽긴 했는데 정리를 안하다가 이제 정리를 하게 되네요. 읽은 논문 중 아이디어가 간단하면서도 엄청난 효과를 가진 Constrastive Clustering에 대해 내용을 다시 정리하고 이해하기 위해 글을 씁니다. ======================================================================================== Motivation : 기존 clustering 기법은 Representation vector에 에 있어서 대표성이 약함. Representation Learning 이 대두됨에 따라 Representation space를 작업해 새로운 가치를 생산해 내는 기법이 발전되고 있음. 기존 클러스터링 기법은 OffLine 방.. 2023. 6. 8. Wind Tunnel: Towards Differentiable ML Pipelines Beyond a Single Model 본 글은 1월 27일 연구실 세미나 후에 정리하여 쓴 글이다. ** 서울대 박사과정 논문이다... 나도 러닝 아키텍쳐/ 파이프라인 공부를 하는 입장에서 많이 배웠다.. 열심히 하자! Motivation •Multi-operator pipeline vs. Single model 이 논문에서는 많은 오퍼레이터를 가진 ml 파이프라인을 싱글 모델로 대체하면 되지 않냐는 물음에 다음과 같이 대답한다. 사이킷 런 모델의 경우 최소 2개의 오퍼레이터에서 최대 43개의 오퍼레이터가 사용된다. 특히 실무에서 사용되는 ml파이프라인은 최소 수십개에서 최대 수백개의 오퍼레이터가 같이 사용되고 있다. 하지만, 본 논문에서는 많은 파이프라인을 하나의 모델로 대체했을 경우 여러가지 조합이 불가능 하다는 점에서 ML 파이프라인은.. 2023. 1. 27. Semi-supervised Active Learning for Semi-supervised Models: Exploit Adversarial Examples with Graph-based Virtual Labels 오랫동안 방치해 놓던 블로그를 다시 시작하면서, 읽었던 논문들을 리뷰하는 시간을 가지고자 한다. 이 글은 연구실 내부 세미나때 발표한 내용을 바탕으로 후에 정리한 내용이다. ICCV2021 에서는 Semi-supervised Active Learning for Semi-supervised Models: Exploit Adversarial Examples with Graph-based Virtual Labels 이라는 논문이 발표되었다. BackGround : 익히 알고 있듯, 데이터가 수집될 때 아무 Annotation이 없는 상태, 즉 Raw한 데이터로서 수집된다. 하지만 Unsupervised Learing의 접근방식이 아닌 이상, Label은 필요하다. 이때 전체 중 조금의 데이터를학습한 모델을 바.. 2023. 1. 17. 이전 1 2 3 4 ··· 7 다음