? 데일리펀딩에서 인턴으로 출근한 지 벌써 8주 차의 마지막 날이다. 아침에 출근해서 퇴근까지는 굉장히 시간이 안 가는 것 같은데 눈 깜빡하면 일주일이 지나있고 한 달이 지나있다. 현재 진행하고 있는 ‘비정형 데이터 수집 및 분석’프로젝트 안에서 인스타그램 스크래핑을 어떤 식으로 접근하여 구현하고 있는지 간략하게 소개해 보도록 하겠다. 

 

[?스크래핑 구현 시작!]

인스타그램은 React로 구현된 SPA(Single Page Application)여서 처음 스크래핑을 어떻게 해오나 고민이 되었다. 리서치를 하며 Puppeteer라는 Node 라이브러리를 발견했다. 이를 사용하면 직접 Chrome을 구동해 사용자들이 직접 사용하는 환경과 비슷하게 동작하며 확인이 가능해 편리할 것이라고 생각되었다. 페이지를 열고 간단한 함수들을 통해 선택자로 데이터를 가져올 수 있었다. 

 

[? 처음부터 다시!]

라이브러리를 사용하는 것도 괜찮지만 직접 구현을 해보는 게 더 좋을 것 같다는 피드백을 받아 개발자 도구로 인스타그램 페이지를 다시 분석했다. 우리에게 필요한 데이터가 어디서 호출되는지 어떤 형식으로 저장되어 있는지 개발자도구의 네트워크 창을 보며 확인했다. 다음과 같이 콘솔 창에서 API를 호출하면 우리가 생각한 값이 가져와지는지 검사하며 노션에 분석 내용을 정리하였다. 

 

#1 로그인 구현

로그인 요청 URL :