일반적으로 웹문서의 하이퍼링크는 https://~ 로 시작하는 형태를 가지고 있습니다. 그런데 일부 사이트에서 하이퍼링크 추출 결과가 알 수 없는 함수 형태로 나타나는 경우가 있습니다. 다음의 예가 그렇습니다.

(실제 추출결과에서 해당 사이트의 실제 도메인 부분만 example.com으로 대체하였습니다.)

(실제 추출결과에서 해당 사이트의 실제 도메인 부분만 example.com으로 대체하였습니다.)

위는 임의의 웹사이트를 추출한 결과입니다.

그런데 HREF-1 에 나타나는 주소값이 좀 이상하네요.

위와 같은 형태의 주소는 엑셀에서 클릭해도 특정 페이지로 이동하지 않을 뿐더러, 해당 주소를 직접 주소창에 입력해 보아도 해당 페이지로 접속할 수가 없습니다. 왜냐하면 이러한 형태는 URL이 아니라 웹사이트에서 자체적으로 사용하는 함수이기 때문인데요.

display_goods_view('1005','',this,'goods_view')

이 추출된 함수는 1005 제품을 보여줘라! 라는 기능을 가지고 있습니다.

여기서 1005가 특정 게시글을 가리키는 고유 ID인 것이고요.

위 함수에 해당하는 첫번째 상세페이지를 직접 접속해보면 실제 URL주소는 다음과 같습니다.

https://example.com/goods/view?no=**1005**

이해를 돕기 위해 실제 웹사이트 작동 방식을 재현한 이미지입니다.

이해를 돕기 위해 실제 웹사이트 작동 방식을 재현한 이미지입니다.

<aside> 💡 우리는 이러한 구조적 패턴을 이용해 여러 페이지들의 주소를 한꺼번에 만들 수 있습니다. 여러 페이지들의 주소를 한꺼번에 만들 수 있다면, 리스틀리 그룹추출도 할 수 있습니다.

</aside>