🤖 AI가 문장을 이해하는 전체 과정

직접 문장을 입력하고 토큰화부터 예측까지 체험해보세요!

🎯 학습 목표

여러분이 직접 문장을 입력하고 토큰화하면서 AI가 어떻게 문장을 이해하고 예측하는지 체험해봅시다!

1

📝 문장 입력하기

2

✂️ 직접 토큰화 해보기

아래 문장에서 단어들을 클릭해서 토큰(의미있는 단위)으로 나누어 보세요!

생성된 토큰들:

💡 토큰화란? 문장을 AI가 처리할 수 있는 작은 단위로 나누는 과정입니다. 의미있는 단어나 구 단위로 나누어 보세요!
🤖 자동 토큰화: AI가 한국어 패턴을 분석하여 조사, 어미 등을 자동으로 분리합니다. 직접 해보고 싶다면 수동으로, 빠르게 진행하려면 자동을 선택하세요!

🔍 토큰화 방식 이해하기
예: "철수는"을 어떻게 나눌까요?
📌 형태소 분석 방식 (현재 적용): [철수] + [는]
   → 철수(명사) + 는(주격조사)로 문법적 역할 구분
📌 어절 단위 방식: [철수는]
   → 띄어쓰기 기준으로 단순 분리

💡 왜 [철수] + [는]으로 나누나요?
• AI가 "철수"라는 인물과 "는"이라는 문법 기능을 따로 학습
• "영희는", "민수는" 등에서 패턴을 더 잘 인식
• 문법적 역할을 이해하여 더 정확한 언어 처리 가능
3

🔢 워드 임베딩

각 토큰을 AI가 이해할 수 있는 숫자 벡터로 변환합니다!

🎯 임베딩 품질 선택

현재: 교육용 간단 임베딩 (의미 그룹 기반)

🌐 3D 임베딩 공간 시각화

각 단어가 3차원 공간에서 어떻게 배치되는지 확인해보세요!

🆕 새로운 단어 처리 (Out-of-Vocabulary)

학습에 없던 새로운 단어도 임베딩해보세요!

새 단어:
새로운 단어를 입력하면 유사한 기존 단어들을 찾아 임베딩을 생성합니다...
💡 워드 임베딩이란? 단어를 숫자들의 리스트(벡터)로 바꾸는 과정입니다. 비슷한 의미의 단어들은 3D 공간에서도 가까이 배치됩니다!
4

🔄 RNN 순차 처리

숫자로 바뀐 토큰들을 하나씩 순서대로 처리해봅시다!

🧠 AI의 기억 상태:

아직 처리 시작 전입니다
5

🔮 다음 단어 예측하기

이제 훈련된 RNN이 다음에 올 단어를 얼마나 잘 예측하는지 테스트해봅시다!

단어를 입력하면 다음에 올 가능성이 높은 단어를 예측합니다:

입력:
예측 결과가 여기에 표시됩니다...

🧩 이해도 체크

질문: RNN의 가장 큰 문제점은 무엇일까요?

A) 토큰화 과정이 복잡하다
B) 워드 임베딩이 어렵다
C) 멀리 있는 정보를 기억하기 어렵다
D) 예측 정확도가 너무 높다