본문 바로가기
  • 데이터에 가치를 더하다, 서영석입니다.

전체 글177

RAG 구조 설계기: RePlug와 ColBERTv2 1. 서론검색 증강 생성(RAG, Retrieval-Augmented Generation)은 대규모 언어모델에 외부 지식 검색을 결합해 사실성, 최신성, 신뢰성을 강화하는 방법이다. 기본 구조는 검색기(Retriever)와 생성기(Generator)로 나뉘며, 검색된 문서를 생성기의 입력으로 활용한다. 최근 1~2년간 연구에서는 이 구조를 어떻게 설계·통합하느냐에 따라 다양한 혁신이 등장했다.2. 주요 모델별 구조2.1 Atlas – 검색 통합 사전학습Atlas는 검색기를 사전학습 단계부터 모델에 통합한 구조가 특징이다. 검색된 문서를 개별적으로 인코딩한 뒤, 디코더에서 교차 어텐션으로 융합하는 Fusion-in-Decoder(FiD) 방식을 사용한다. 이를 통해 소수 샘플 학습 환경에서도 대규모 파라미.. 2025. 9. 2.
LLM 지식 증류: 거대 모델에서 작은 모델로 0. 개요최근 GPT·LLaMA 같은 대형 언어모델을 직접 다뤄보면서, 성능은 뛰어나지만 응답 속도·비용·배포 난이도라는 큰 벽을 실무에서 마주했다.특히 서비스 환경에서는 “좋은 성능”보다 “빠르고 안정적인 운영”이 더 중요하다는 점을 절실히 느꼈다. 또한 단순히 모델을 잘 만드는 것보다 작지만 똑똑한 모델을 설계하는 것이 더 큰 가치가 있다는 생각이 들었다. 그러면서 모델 경량화, 지식 증류된 모델이 더욱 핫한 주제라는 것을 느끼고, 글을 작성하게 되었다. 1. 왜 지식 증류인가?최근 몇 년 사이 거대 언어모델(LLM)이 엄청난 주목을 받았습니다. GPT-4나 LLaMA 같은 모델은 확실히 똑똑하지만, 막상 서비스에 적용하려고 하면 곤란한 점이 많습니다.너무 크다 보니 GPU 메모리를 잔뜩 먹고,응답 .. 2025. 8. 30.
멀티클래스 vs 멀티레이블 분류 분류 문제에 있어 Multi-Class와 Multi-Label의 헷갈리는 점이 종종 발생해 정리하려고 한다. 요약멀티클래스: 샘플당 정답 1개 (예: 고양이/개/새).멀티레이블: 샘플당 정답 여러 개 가능 (예: 감정 joy+trust).핵심 차이는 출력층, 활성화 함수, 손실함수, 평가 지표, 임계치(Threshold) 운용에 있다.실무에서는 데이터 라벨 표현, 클래스 불균형, 임계치 튜닝, 캘리브레이션, 리콜/정밀 균형이 성패를 가른다.1) 문제 정의와 차이 한눈에 보기항목 멀티클래스 (Multi-Class) 멀티레이블 (Multi-Label)라벨 수1개 고정0~N개 가변출력층크기 = 클래스 수크기 = 라벨 수활성화softmaxsigmoid손실함수CrossEntropyLossBCEWithLogits.. 2025. 8. 25.
위클리 페이퍼 #1. 클래스와 인스턴스, 정적 메소드 01. 클래스와 인스턴스클래스(Class):클래스는 객체를 만들기 위한 설계도 또는 틀클래스는 객체의 속성(데이터)과 행동(메소드)을 정의예를 들어, 동물이라는 클래스를 정의할 때, 동물이 공통적으로 가지는 속성(예: 이름, 나이)과 행동(예: 먹다, 움직이다)을 포함객체(Object):객체는 클래스로부터 생성된 실체클래스를 통해 정의된 속성과 행동예를 들어, 고양이나 강아지는 동물 클래스의 객체인스턴스(Instance):인스턴스는 특정 클래스로부터 생성된 객체를 의미객체는 인스턴스화된 클래스예를 들어, 동물 클래스에서 나비라는 이름을 가진 고양이 객체를 생성하면, 나비는 동물 클래스의 인스턴스02. 정적 메소드(Static Method)정적 메소드:정적 메소드는 클래스에 속해 있지만, 클래스나 객체의 .. 2024. 7. 29.
EEG 및 수면 단계 기준의 분류 AI LAB_Sleep Scoring Modeling EEG 및 수면 단계 기준의 분류 적외선 수면 비디오 및 음성 데이터베이스 구축 프로젝트 - 인공지능 기술을 활용한 질병 진단 [서울대학교병원 참여] 서울대학교병원 주최 하 적외선 수면 비디오 데이터와 음성 데이터를 활용한 질병 진단을 위한 인공지능 기술을 향상시키기 위한 연구 활동에 참여 해당 연구는 기관의 감독 하에 진행되며, 5000시간 이상의 적외선 수면 영상 데이터셋을 구축하였고, 필요한 작업을 완료한 후 익명화 및 표준화 진행 적외선 수면 영상 데이터: 적외선 수면 비디오 데이터와 관련된 수면다원검사 데이터를 구축 이 데이터를 기반으로 질환 예측 모델 및 알고리즘을 개발 인공지능 모델을 기반으로 한 서비스 모델을 구축 음성질환 구별을 위한 .. 2024. 1. 18.
Classification of EEG and Sleep Stages Criteria AI LAB- STUDY_ Sleep Scoring Modeling Infrared sleep video and voice database construction project for disease diagnosis using artificial intelligence technology [Seoul National University Hospital participates] in research activities to enhance artificial intelligence technology for sleep and speech disorders through the construction of infrared sleep video data and voice data, under the superv.. 2024. 1. 17.
[숭실대 현장실습]삼성 SDS 인턴으로서의 일상 안녕하세요. 저는 최근 호주에서 삼성 SDS 인턴으로 일하면서 많은 경험들을 쌓았습니다. 오늘은 제 경험과 배운 점들을 공유하고자 블로그 포스팅을 작성하게 되었습니다.사실.. 호주의 일상을 다 블로그에 담으려고 하였으나.. 귀찮음으로 미뤄두다가 지금이라도 적어보려고 합니다 ㅎㅎ(평일에는 일하고 주말에는 나가서 놀기 바빠서..)  시드니 대학교에서 / 오페라 하우스 앞에서블로그 포스팅에 앞서, 해외에서 떨어져 인턴생활을 함에도 불구하고 학교에서 많은 관심과 보살핌이 있구나를 늘 느끼게 해준 '현장실습센터'에 많은 감사함을 전합니다.1. 국외현장실습 지원 과정사실 저는 교환학생이나 어떠한 이유로든 꼭 해외에서 살아봐야겠다고 생각했습니다!!​전공학점 6학점을 막학기로 남겨둔 저는 교선 9학점에 전선 6학점까지.. 2024. 1. 11.
KRX-Financial-BigData-Idea Idea Title: Development of Funds Based on ETF Analysis and Prediction of Stocks (ETF 종목 분석 및 예측을 통한 펀드 개발) Idea Overview: Utilizing historical quarterly data of individual stocks within a specific sector (semiconductors), machine learning techniques will be applied to predict the data for the upcoming quarters. Using these predicted data, time series analysis will be employed to select stocks wi.. 2024. 1. 9.
딥러닝을 이용한 자연어처리 입문 #12 딥러닝을 이용한 자연어처리 입문 #12 10) 엘모 10) 엘모 (Embeddings from Language Model, ELMo) 언어 모델로 하는 임베딩 특징 : 사전 훈련된 언어 모델 사용 1. ELMo(Embeddings from Language Model) ex) Word2Vec 이나 GloVe 등의 임베딩 방법론으로 bank 라는 단어를 [0.2 0.8 -1.2]라는 임베딩 벡터로 임베딩 하였다고 가정 이 단어는 bank account & river bank 에서의 bank는 전혀 다른 의미임에도 불구하고 모두 같은 벡터 사용 ⇒ 같은 표기의 단어라도 문맥에 따라 다른 워드 임베딩 → 자연어 처리의 성능 상승 ⇒ 워드 임베딩 시 문맥을 고려해서 임베딩 하겠다는 아이디어 : 문맥을 반영한 워드.. 2024. 1. 3.