🎯 학습 목표
여러분이 직접 문장을 입력하고 토큰화하면서 AI가 어떻게 문장을 이해하고 예측하는지 체험해봅시다!
1
📝 문장 입력하기
2
✂️ 직접 토큰화 해보기
아래 문장에서 단어들을 클릭해서 토큰(의미있는 단위)으로 나누어 보세요!
생성된 토큰들:
💡 토큰화란? 문장을 AI가 처리할 수 있는 작은 단위로 나누는 과정입니다. 의미있는 단어나 구 단위로 나누어 보세요!
🤖 자동 토큰화: AI가 한국어 패턴을 분석하여 조사, 어미 등을 자동으로 분리합니다. 직접 해보고 싶다면 수동으로, 빠르게 진행하려면 자동을 선택하세요!
🤖 자동 토큰화: AI가 한국어 패턴을 분석하여 조사, 어미 등을 자동으로 분리합니다. 직접 해보고 싶다면 수동으로, 빠르게 진행하려면 자동을 선택하세요!
🔍 토큰화 방식 이해하기
예: "철수는"을 어떻게 나눌까요?
📌 형태소 분석 방식 (현재 적용): [철수] + [는]
→ 철수(명사) + 는(주격조사)로 문법적 역할 구분
📌 어절 단위 방식: [철수는]
→ 띄어쓰기 기준으로 단순 분리
💡 왜 [철수] + [는]으로 나누나요?
• AI가 "철수"라는 인물과 "는"이라는 문법 기능을 따로 학습
• "영희는", "민수는" 등에서 패턴을 더 잘 인식
• 문법적 역할을 이해하여 더 정확한 언어 처리 가능
📌 형태소 분석 방식 (현재 적용): [철수] + [는]
→ 철수(명사) + 는(주격조사)로 문법적 역할 구분
📌 어절 단위 방식: [철수는]
→ 띄어쓰기 기준으로 단순 분리
💡 왜 [철수] + [는]으로 나누나요?
• AI가 "철수"라는 인물과 "는"이라는 문법 기능을 따로 학습
• "영희는", "민수는" 등에서 패턴을 더 잘 인식
• 문법적 역할을 이해하여 더 정확한 언어 처리 가능
3
🔢 워드 임베딩
각 토큰을 AI가 이해할 수 있는 숫자 벡터로 변환합니다!
🆕 새로운 단어 처리 (Out-of-Vocabulary)
학습에 없던 새로운 단어도 임베딩해보세요!
새 단어:
새로운 단어를 입력하면 유사한 기존 단어들을 찾아 임베딩을 생성합니다...
💡 워드 임베딩이란? 단어를 숫자들의 리스트(벡터)로 바꾸는 과정입니다. 비슷한 의미의 단어들은 3D 공간에서도 가까이 배치됩니다!
4
🔄 RNN 순차 처리
숫자로 바뀐 토큰들을 하나씩 순서대로 처리해봅시다!
🧠 AI의 기억 상태:
아직 처리 시작 전입니다
5
🔮 다음 단어 예측하기
이제 훈련된 RNN이 다음에 올 단어를 얼마나 잘 예측하는지 테스트해봅시다!
단어를 입력하면 다음에 올 가능성이 높은 단어를 예측합니다:
입력:
예측 결과가 여기에 표시됩니다...
🧩 이해도 체크
질문: RNN의 가장 큰 문제점은 무엇일까요?
A) 토큰화 과정이 복잡하다
B) 워드 임베딩이 어렵다
C) 멀리 있는 정보를 기억하기 어렵다
D) 예측 정확도가 너무 높다