프롬프트 엔지니어링과 토크나이저
1. 토크나이저 (Tokenizer)란?토큰화란 자연어 처리(NLP)를 위해 텍스트 데이터를 처리 가능한 단위 즉, 단어,서브단어,문장 부호 등 개별적인 토큰 으로 나누는 도구나 알고리즘을 의미한다.(1) 토큰토큰이란 자연어 처리과정인 머신러닝에서 기계와 상호 의미교환의 역할을 하는것으로서 문장을 구성하는 단어, 구, 또는 문자를 의미한다.(2) 토큰의 활용토큰은 기계 학습 모델에서 임베딩 단계 즉, 텍스트를 숫자로 변환하는 첫 단계에서 사용된다.(3) LLM 모델에서 토큰은 영어 데이터 기준으로 적용GPT 4 기준으로 128,000 토큰 사용,25,000개 단어 처리,65,000개(책 50P 분량) 단어를 기억따라서 LLM 모델은 영어 데이터로 월등히 많은 학습이 이루어져있으므로 영어 입력에 최적화 되..
2025. 9. 29.