728x90

오프닝: 저는 네이버 파워블로거 '엑셀여신'님과 한국의 잘 나가는 스타트업 '리스틀리'로부터 단 1원도 받지 않았습니다. 좀 받고 싶습니다.

 

저는 이러저러한 기다림 이후 6월 1일부로 모 신생 회계 법인에 입사하게 되었습니다.(아 물론 자영업은 계속 합니다). 대개 회사의 직원들은 여러 가지 부대 업무를 나눠서 하는데 어떤 분은 IT, 어떤 분은 관재...그리고 저는 해외 마케팅입니다. 이유는 제가 한영 번역을 하고 있다고 입을 면접시 열심히 입을 털어서입니다-_-;;;

 

여튼 저는 마케팅 대상 회사들의 연락처를 입수해야 할 처지에 있었습니다. 그래서 여기저기 수소문을 해 봤더니 요즘은 뭐 엑셀 파일로 정리된 건 없고(사실 있다고 해도 그건 요즘 정보 관리상 사외 유출이 쫌 힘들 겁니다) 각 협회에 들어가면 리스트로 정리되어 있다고 하더군요.

 

여기서 제가 생각났던 거는요, 몇 년 전에 쫌 심심해서 CFA 대상 와인 투자에 대한 강의를 들었는데 거기서 강의하는 교수님이 국내 거래 와인의 주요 품목과 빈티지, 가격과 특성을 엄청 잘 데이터 가공하셨길래 오 저게 가능한가? 하고 궁금해졌는데 그걸 주요 와인 거래 사이트에서 조교가 데이터 크롤링을 했다고 하시더라구요. 이를테면...

요런 리스트 안에 있는 각각 링크에 숨어 있는

요런 정보를 싹 긁어서 와인명/원산지/품종/알콜도수/가격... 이렇게 일목요연하게 리스트 업 한다는 얘깁니다. 저는 그래서 어 조교 애도요...하고 그 땐 넘어갔는데 그게 내 일이 될 줄은 몰랐지 ㅋㅋㅋ

뭔 얘기냐면요, 요즘 엑셀에는 세상이 좋아져서 하이퍼링크로 긁어오는 기능이 있습니다.

https://www.youtube.com/shorts/rrde0n6dCkw

오빠두엑셀님 결혼 축하드립니다...행복하세여...

뭔 얘기냐면 웹 페이지의 자료를 단순히 복붙하는 게 아니라 한 번에 불러오고 실시간 갱신도 하고 싶으면 하이퍼링크 주소를 따다 붙이면 바로 가능하다는 얘깁니다. 참 쉽죠? 근데 여기서 몇 가지 문제가 생깁니다.

1. 자료가 한 페이지에 있는 게 아니라 여러 페이지를 일일히 클릭해야 되는 경우가 있습니다.

2. 아까 와인에 나온 것처럼 세부 정보는 각각 상품을 클릭해야  별도의 창으로 보이는 경우가 많습니다.

3. 이게 제일 까다로운 건데, 보안 등등의 이유로 요즘에는 주소창에 풀 링크가 보이지 않는 경우가 많습니다. 예를 들어 

죄송합니다 개발새발 지워서...하지만 정보는 소듕하니까요.

 

1번의 경우는 검색을 쫌 해 보니 블로거 '엑셀여신'(정말 엑셀의 여신님이셨습니다 ㅠㅠ 바로 친구추가했음)님께서 여러 페이지도 쿼리를 이용해서 한 번에 깔끔하게 엑셀로 크롤링하는 방법을 설명하셨더라구요. 제가 설명하면 더 이상해지니께 링크로 대신합니다.

https://blog.naver.com/onwings/222428571517

 

네이버 국제 환율 여러 페이지 엑셀로 웹 클로링_파워 쿼리 매개변수_엑셀강사(김경자)

엑셀 파워 쿼리 활용 웹 클로링 - 네이버 국제 환율 모든 페이지 정보 가져오기- 네이버 금융에서 [국제 환...

blog.naver.com

근데 제 경우에는 1로 끝나는 DB가 있었고, 1+2+3이 복합된 DB가 있었는데 찾아보니께 1+2+3도 쿼리를 잘 정의하거나 파이썬을 이용하면 되는데...제가 파이썬 초보예요;ㅁ; 차라리 그걸 배워서 식을 세우느니 하나씩 입력하겠다(여기까지 오느라 쫌 피곤했음) 싶던 순간 '리스틀리'라는 앱을 발견했습니다.

https://www.listly.io/

 

리스틀리 | 단숨에 웹데이터 추출!

무료 크롬확장프로그램으로 모든 웹사이트에서 데이터 수집하세요. 단숨에 웹 데이터를 엑셀 파일로 변환합니다. 깨끗하게 정리된 데이터로 여러분의 비즈니스를 성장시켜 드립니다.

www.listly.io

우왕, 크롬 확장 프로그램만 설치하면 코딩 안 하고도 한 번에 해결됨;ㅁ; 물론 고급 기능으로 들어가자면 유료 버전을 설치해야 합니다. 14일간 체험판 버전이 있길래 체험판으로 해 보았음.

어, 일단 여러 페이지(1) 문제 해결됐구요, 한 번에 여러 페이지 상세 추출도(2) 해결됐습니다. 근데 주소창에 세부정보가 안 나오는 문제(3)은 설명이 있긴 한데요...쫌 나이브해요.

https://listly.notion.site/LISTLY-158213c9bfc244d1806aa4c778a4d1b5?p=f92798c24bfb4294990888cbe4aa3160&pm=c 

 

1, 2, 3 ・・・ 페이지번호 주소 얻기

페이지번호 주소얻기

listly.notion.site

그니까 URL을 찾아서 상세 주소 끝이 1이면 2, 3, 이런 식으로 딴다는 건데...제가 보기엔 저 팝업창은 협회가 부여한 회사 고유 코드(DART랑은 또 다름)랑 엮여서 그렇게 간단하게 처리가 안 될 것 같거든요. 그래서 개발 창에 들어가서 콘솔과 연결에서 염병천병을 떨어봐도 뭐가 안 나와서 아 안 해...싶었는데요,

개발자가 귀찮았는지 이 홈페이지의 다른 상세화면에서는 상세 URL이 그대로 노출되어 있더라구요 ;ㅁ; 그래서 그걸 그냥 그대로 따왔습니다(걍 운칠기삼이었다는 얘기)

 

그래서 저는 7백여개 되는 회사의 상세 정보와 연락처를 리스틀리로 다 땄습니다. 신상 잘 캐는 건 여전하구나...

 

덧. 각종 마케팅 용도로 코딩 없이 바로 쓰고 싶으신데+장기 사용 가능한데 가격이 부담스러우신 분들은 

https://k-voucher.kr/page/productSearch?mode=update&seq=953 

 

비대면 서비스 바우처 플랫폼

비대면 서비스 도입·활용 등에 사용할 수 있는 최대 400만원(자부담금 30% 포함) 이내 바우처 지급

k-voucher.kr

여기서 연간 27만원으로 이용 가능합니다.

-끗-

+ Recent posts