워드 임베딩 & RNN 체험하기

장기 의존성 문제: 멀리 떨어진 단어 간 관계(예: "그것" ↔ "책")를 유지하기 어려움.
순차 처리의 병목: 단어를 한 개씩 처리하여 속도가 느리고 병렬화가 어려움.
정보 소실: 은닉 상태만으로 중요한 정보가 뒤로 갈수록 희미해질 수 있음.
개선 아이디어: 중요 부분에 집중하는 어텐션 사용 → 전체를 한 번에 보고 가중치로 선택.
다음 단계 예고: 멀티-헤드 어텐션, 레이어 정규화, 잔차연결 등을 가진 트랜스포머 로 확장.

🎯 학습 목표

여러분이 직접 문장을 입력하고 토큰화하면서 AI가 어떻게 문장을 이해하고 예측하는지 체험해봅시다!

📝 문장 입력하기

✂️ 직접 토큰화 해보기

아래 문장에서 단어들을 클릭해서 토큰(의미있는 단위)으로 나누어 보세요!

생성된 토큰들:

💡 토큰화란? 문장을 AI가 처리할 수 있는 작은 단위로 나누는 과정입니다. 의미있는 단어나 구 단위로 나누어 보세요!
🤖 자동 토큰화: AI가 한국어 패턴을 분석하여 조사, 어미 등을 자동으로 분리합니다. 직접 해보고 싶다면 수동으로, 빠르게 진행하려면 자동을 선택하세요!

🔍 토큰화 방식 이해하기

예: "철수는"을 어떻게 나눌까요?
📌 형태소 분석 방식 (현재 적용): [철수] + [는]
→ 철수(명사) + 는(주격조사)로 문법적 역할 구분
📌 어절 단위 방식: [철수는]
→ 띄어쓰기 기준으로 단순 분리

💡 왜 [철수] + [는]으로 나누나요?
• AI가 "철수"라는 인물과 "는"이라는 문법 기능을 따로 학습
• "영희는", "민수는" 등에서 패턴을 더 잘 인식
• 문법적 역할을 이해하여 더 정확한 언어 처리 가능