데이터 내 사랑

어느 날, 동인에게 연락이 왔다. Dafont의 데이터를 수집하고 싶다는 내용이었다. 그 과업을 살펴보니 Dafont에 등록된 모든 데이터를 수집해야하는 것. 동인은 종종 나에게 흥미로운 과업을 제안해주는데 이것도 그 중 하나였다.

이 책에 수록된 데이터는 2025년 10월 13일 오후 4시 19분까지 수집되었다. 수집 당시 총 데이터는 95,956개이며 Dafont의 웹사이트에서 명시하고 있는 총 데이터는 96,157개이다. 200여개의 차이가 발생하는 것인데 왜 그런 일이 생겼을까?

Dafont의 웹사이트는 동적으로 데이터를 불러오는 구조를 가지고 있기 때문에 한 순간에 모든 데이터를 가져오는 것이 불가능하다. 어떤 API나 Dafont에서 데이터를 가져올 수 있는 방법을 제공하고 있지 않다. 그래서 이 데이터는 모두 에이전트를 이용한 크롤링을 통해 수집되었다. 브라우저를 원격으로 조종하는 방식. 수집하는 중에도 Dafont에 새로운 폰트가 계속 업데이트되고 사라졌기 때문에 순서가 밀리면서 중복과 누락이 발생하였다. 지금은 200개의 실제 데이터와 차이가 있지만 시간이 더 흐르면 얼만큼의 차이가 생길지 궁금하다. 새로운 폰트도 있고 사라지는 폰트도 있을테다. 계속 변동하는 데이터.

제안해준 동인에게 고마운 마음을 전하며.

2025-10-22 서울

빠른 연락 양식

이름이 뭐예요? *

어디로 연락할까요? *

뭐 할까요? *

어떤 분위기가 좋아요? *

어디에서 볼까요? *

추가 정보가 있나요? *