깨진 글자를 다시,
획 하나까지.
NotebookLM, Midjourney가 한글을 깨뜨립니다. 자모가 어긋나고 획이 휘어 의미가 사라집니다. 글본은 그 순간을 자모 단위로 되돌립니다.
ViT-Small 인코더와 11,172 음절의 prototype bank가 가장 가까운 한 글자를 찾아냅니다. top-1 정확도 94.8%, top-5 96%—실제 NotebookLM 캡처에서 검증 중입니다.
- 음절 클래스
- 11,172
- top-1 정확도
- 94.8%
- 번들 폰트
- 12 · OFL
얼마나
깨졌었는지,
얼마나
돌아왔는지.
오른쪽은 NotebookLM이 만들어낸 깨진 한글과 글본이 복원한 결과를 나란히 둔 격자입니다. 윗줄이 모델이 생성한 원본—획이 짓이겨지고 받침이 사라진 자모들. 아랫줄이 11,172 음절 prototype bank에서 가장 가까운 한 점을 찾아 다시 세운 결과.
- 01받침 손실 (□) — 종성이 빈 사각형으로 변환되는 가장 흔한 패턴.
- 02획 짓이김 — 초성·중성의 획이 두꺼워지면서 음절이 한 덩어리로 뭉쳐짐.
- 03자모 어긋남 — ㅁ과 ㅂ, ㄴ과 ㄷ처럼 형태가 비슷한 자모가 서로 자리를 바꿈.
- 04음절 단위 정합 — 픽셀이 아니라 11,172 음절 좌표 안에서 nearest-neighbor.

Pipeline · 003
네 단계로
글자를 다시
세웁니다.
- 一
텍스트 추출
완료EasyOCR이 이미지의 모든 글자 영역을 bbox·신뢰도·전경/배경 색까지 함께 잡아냅니다. is_corrupted 플래그가 다음 단계의 게이트입니다.
- 二
음절 복원
완료ViT-Small 인코더와 SupCon contrastive로 학습된 11,172 음절 prototype bank에 nearest-neighbor 매칭. top-1 80%, top-5 94%.
- 三
폰트 매칭
진행 중주변 글자의 ROI에서 stroke width, slant, serif 등 7가지 글리프 특징을 추출해 가장 비슷한 폰트를 12종 OFL 번들에서 선택합니다.
- 四
재렌더
진행 중repair 모드는 깨진 글자만, restyle 모드는 전체 텍스트를 동일 폰트로 재렌더. 결과는 원본 위에 픽셀 정합으로 합성됩니다.
Philosophy · 005
한글은 픽셀이 아니라 자모입니다.
초성·중성·종성은 음절 안에서 정해진 자리에 놓입니다. "한"이라는 글자는 ㅎ + ㅏ + ㄴ의 약속이고, 그 약속이 깨졌을 때 우리는 글자를 잃습니다. 글본은 픽셀을 보정하지 않습니다.
자모 prototype bank의 11,172 좌표 안에서 가장 가까운 한 점을 찾아 다시 약속을 맺습니다. 흐릿한 글자도, 휘어 버린 글자도 본래 모양으로 돌아옵니다.

