728x90
반응형

전체 글 430

[Day7] 한 권으로 LLM 온라인 스터디 1기 - 단일 GPU Gemma 파인튜닝 1

3.4 단일 GPU를 활용한 Gemma-2B-it 파인튜닝 3.4.1 런팟 환경설정https://www.runpod.io/ RunPod - The Cloud Built for AIDevelop, train, and scale AI models in one cloud. Spin up on-demand GPUs with GPU Cloud, scale ML inference with Serverless.www.runpod.io H100PCIe x 1Pytorch 2.1Container Disk 200GBVolume Disk 200GBgit clone https://github.com/wikibook/llm-finetuningcd llm-finetuning/chapter3/3.4pip install -r req..

프로그래밍/LLM 2025.01.25

[Day6] 한 권으로 LLM 온라인 스터디 1기 - GPU 병렬화 기법

3.3 GPU 병렬화 기법3.3.1 데이터 병렬 처리(Data Parallelism, DP)전체 데이터를 작은 덩어리 여러 개로 나눠 각각을 서로 다른 GPU에서 동시에 처리학습시간 크게 단축, 메모리 제약 없이 대규모 데이터셋을 효과적으로 다룰 수 있음모든 GPU의 VRAM을 균등하게 활용하지 못함 → 모델 병렬화 기법이 등장 3.3.2 모델 병렬화(Model Parallelism, MP)대규모 신경망 모델을 여러 GPU에서 나누어 처리하는 방식모델을 수직으로 분할해서 처리(수직 모델 병렬화)단일 GPU로는 처리하기 어려운 대규모 모델을 효율적으로 학습하고 실행특정 시점에 대부분의 GPU가 놀고 있을 수 있음기기 간 데이터 복사로 인한 부담이 전체적인 학습속도를 저하시킬 수 있음→ 파이프라인 병렬화 등..

프로그래밍/LLM 2025.01.25

[Day5] 한 권으로 LLM 온라인 스터디 1기 - GPT, Gemma, Llama3 모델 특징 비교

3.2 Gemma와 Llama3 모델 구조 분석 3.2.1 Gemma 모델 구조 분석매개변수(7B, 13B, 34B, 72B 등)의 수를 늘려서 성능을 높이는데 집중했던 재부분의 모델들과는 반대로 모델의 크기를 크게 줄여서 고성능 컴퓨팅 자원이 부족한 환경에서도 언어모델을 황용할 수 있게 하려는 혁신적인 시도a. input_layernorm, post_attention_layernorm 추가 : 그레디언트를 적절한 크기로 유지 → 안정적 학습, 더 좋은 성능b. RoPE(Rotary Position Embedding) 도입 : 각 토큰의 위치를 상대적인 각도로 표시c. 활성화 함수 : ReLU의 한계를 극복하기 위해 GELU와 GLU를 결합한 GeGLU라는 새로운 활성화 함수를 사용  3.2.2 Gemm..

프로그래밍/LLM 2025.01.25

[Day4] 한 권으로 LLM 온라인 스터디 1기 - 파인튜닝 개념

3.1 전체 파인튜닝 데이터 준비3.1.1 전체 파인튜닝의 원리와 종류파인튜닝이란?- 이미 학습되어 공개된 언어 모델(Pre-trained Language Model,)을 특정 작업에 맞게 추가로 학습하는 것- 성능을 높이고자 하는분야나 풀고자 하는 문제의 데이터로 추가 학습   → 모델이 해당 분야에서 더 정확하고 신뢰할 수 있는 응답을 생성할 수 있게 됨파인튜닝을 하는 이유- 처음부터 모델을 개발하는 것 보다 훨씬 더 경제적이고 편리함- 특정분야의 데이터는 매우 적음 → 과적합, 자연스러운 언어생성 능력 부족파인튜닝의 종류- PEFT(Parameter-Efficient Fine-Tuning, 매개변수 효율적 파인튜닝)  a. 어댑터 튜닝(Adapter Tuning) : 기존의 거대한 언어 모델에 작은..

프로그래밍/LLM 2025.01.25

[Day3] 한 권으로 LLM 온라인 스터디 1기 - 멀티헤드 어텐션 & 피드포워드

2.6 멀티헤드 어텐션과 피드포워드 2.6.1 멀티헤드 어텐션 만들기어텐션 메커니즘 : 모델이 입력 데이터의 중요한 부분에 집중할 수 있게 하는 것멀티헤드 어텐션 : 여러개의 어텐션 메커니즘을 병렬로 사용해 다양한 관점에서 정보를 동시에 처리  2.6.2 피드포워드 만들기각 어텐션 블록 뒤에 피드포워드 네트워크를 배치각 시퀀스 위치마다 독립적으로 적용되어 모델의 표현력을 높임어텐션 메커니즘으로부터 얻은 표현을 더욱 풍부하게 만듬→ 모델이 더 복잡한 데이터 패턴을 학습할 수 있게 돕는 과정 2.7 Blocks 만들기복잡한 신경망 모델에서 블록은 모델의 설계와 구현에 중요한 구조적 단위모델 내 다양한 계층과 구성 요소를 하나로 묶어 모듈화, 개사용성, 확장성을 크게 향상시킴각  블록 내에서 주로 어텐션 메커..

프로그래밍/LLM 2025.01.25

미국 대통령 도널드 트럼프, 암호화폐 계획에 대한 코인베이스 브라이언 암스트롱의 언급

기사내용 :  최근 보도에 따르면 미국 대통령 도널드 트럼프가 암호화폐 산업에 대한 새로운 계획을 갖고 있으며, 이는 암호화폐 거래소 코인베이스의 CEO 브라이언 암스트롱에 의해 주목받고 있습니다. 암스트롱은 트럼프의 암호화폐 관련 정책이 기술 발전과 금융 혁신에 긍정적인 영향을 미칠 가능성이 있다고 언급했습니다. 그러나 정확한 정책의 내용과 실행 시기에 대한 정보는 아직 밝혀지지 않았습니다. 트럼프의 행정부는 과거에 암호화폐에 다소 회의적인 입장을 보여왔지만, 새로운 계획이 어떻게 구성될지에 대해 많은 관심이 모아지고 있습니다. 시장에 미치는 영향 :  과거 사례를 살펴보면, 정부의 암호화폐 정책 발표는 시장에 즉각적인 영향을 미칠 수 있습니다. 긍정적인 정책은 투자자들 사이에서 낙관적인 전망을 불러일..

코인 뉴스 2025.01.25

암호화의 상태: 트럼프의 두 번째 첫 주

기사내용 :  트럼프 전 미국 대통령이 2025년 재임했을 당시의 첫 주에 대한 평가를 다루고 있습니다. 싱가포르에서 암호화폐 규제 완화를 강하게 추진했으며, 글로벌 경제에 미치는 영향을 고려한 새로운 정책을 도입했습니다. 그의 정책은 주로 비트코인 및 기타 주요 암호화폐에 긍정적인 영향을 미칠 것으로 예상됩니다.   시장에 미치는 영향 :  역사적으로, 미국 대통령의 정책 변화는 금융 및 암호화폐 시장에 큰 영향을 미쳤습니다. 특히, 트럼프의 이전 임기에서는 규제 완화 및 경제 성장에 중점을 두어 시장의 기대 심리를 높이는 경향이 있었습니다. 따라서 트럼프의 두 번째 임기에서도 비슷한 패턴을 볼 수 있으며, 이러한 정책이 암호화폐 시장의 긍정적 변동성을 증가시킬 것으로 예상됩니다. url :https:..

코인 뉴스 2025.01.25

나스닥, 자산 관리자 블랙록의 비트코인 ETF 신청 '현물 상환' 포함

기사내용 :  블랙록은 최근 나스닥에 비트코인 ETF 상장을 위한 신청서를 제출하였습니다. 이 신청서는 비트코인의 직접 현물 상환이라는 중요한 기능을 포함하고 있습니다. 이는 블랙록이 비트코인 시장에 더 깊숙이 관여하려는 의도를 나타냅니다. 비트코인 현물 상환은 투자자들이 ETF를 통해 비트코인의 실제 소유권을 확보할 수 있음을 의미하며, 이는 잠재적으로 비트코인의 수요를 높일 수 있습니다. 시장에 미치는 영향 :  과거 사례를 살펴보면, 비트코인 ETF에 대한 기대가 높아짐에 따라 비트코인 가격은 상승하는 경향이 있었습니다. ETF 승인 소식은 보통 시장에 긍정적인 영향을 미치며, 투자자들의 관심이 증가하여 유동성이 높아질 수 있습니다. 그러나 ETF 신청이 승인되지 않으면 단기적인 가격 변동성이 커질..

코인 뉴스 2025.01.25

[Day2] 한 권으로 LLM 온라인 스터디 1기 - 언어 모델 구조 및 셀프 어텐션 메커니즘 이해

2.3 언어 모델 만들기2.3.1 라이브러리 설명torch : 텐서 연산과 자동 미분기능 등을 제공해 딥러닝 모델 구현에 필수적인 기능 제공torch.nn : 신경망 구축에 필요한 다양한 레이어와 매개변수 관리 기능 제공이를 통해 모델 아키텍처를 정의하고 매개변수를 초기화하며, 순전파(forward pass)를 구현할 수 있다 2.3.2 __init__ 함수__init__- 클래스 인스턴스가생성될 때 자동으로 호출되는 메서드- 신경망 모델에서는 모델 구조와 필요한 초기설정을 정의함super().__init__()- 부모 클래스의 __init__ 메서드를 호출 → nn.Module의 생성자 호출super()- 여러 클래스를 동시에 상속받을 때 생길 수 있는 복잡한 상황을 관리하기 위함num_embeddin..

프로그래밍/LLM 2025.01.24

[Day1] 한 권으로 LLM 온라인 스터디 1기 - NLP 이해와 런팟 설치

1. NLP(Natural Language Processing)자연어 처리단순한 규칙으로 시작 → 복잡한 언어 모델로 발전 2. 이정표가 되는 논문 세편앨런 튜링https://courses.cs.umbc.edu/471/papers/turing.pdf - 기계는 생각할 수 있는가?- 사고의 개념에 대하서 철학적 논의보다 실용적인 접근을 선호했기 때문프랭크 로젠블랫https://www.ling.upenn.edu/courses/cogs501/Rosenblatt1958.pdf - 인공 신경망 모델은 퍼셉트론 개념을 실제 하드웨어로 구현한 최초의 기계- 현대 인공 신경망과 딥러닝의 기초가 되어 오늘날 사용하는 많은 인공지능의 기반이 됨- 연결주의 접근법, 통계적 접근법- 선형적 분리(시간적 패턴 인식 및 비선형적..

프로그래밍/LLM 2025.01.24
728x90
반응형