gyeo-ri.com

[캐글] Real time Advertiser's Auction 데이터셋 개요 본문

Kaggle & Dacon/[K] Real time Advertiser's Auction

[캐글] Real time Advertiser's Auction 데이터셋 개요

겨리_Gyeori 2020. 12. 30. 09:24

(데이터셋 링크)

 

 

타이타닉이나 MNIST와 같은 교육용(?) 데이터셋을 제외하고 다른 데이터로 공부해보려는 생각에 캐글과 데이콘의 데이터셋을 검색하다 Real time Advertiser's Auction라는 데이터셋을 발견했다.

 

첫 회사가 RTB(Real-Time Bidding) 플랫폼을 가지고 있는 곳이어서,  광고 거래와 관련된 데이터는 정말 많이 접했었다. 물론 데이터 유형이 완전히 같지는 않겠지만 Feature Engineering 하는데 조금 더 수월하지 않을까 하여 위 데이터셋으로 실습을 해보기로 했다(실제로 데이터셋을 자세히 보지 않은 상태에서 쓴 글).

 

데이콘의 KBO 외국인 투수 스카우팅 최적화 경진대회(2019)라는 데이터도 관심이 있었는데, 주최측에서 제공하는 데이터 이외에 외부 데이터가 필요하기도 하고, 데이터셋을 이해하는데 조금 더 시간 투자가 필요할 것 같아 Real time Advertiser's Auction을 마무리한 뒤에 진행하려고 남겨두었다. 

 

60%의 디지털 광고 인벤토리는 Real time 1st Auction으로 판매된다는 문구가 어딘가 익숙하다. 한국 데이터가 아니라 실제 60%까지는 안 되겠지만. 데이터셋 페이지를 천천히 읽어보니 옛날(이라기에는 4개월 전) 생각이 나기도 하고, 매일 만들어지는 싱싱한 데이터로 뭘 했나 아쉽기도 하고. 

 

배우는 단계이기 때문에 최대한 업무에서의 (객관적인 사실이 아닌) 경험은 배제하고, 다른 노트북은 참조하지 않고 한 사이클을 수행하고, 그 후에 다른 노트북들과 비교하면서 피드백을 하려고 한다. Description을 포함한 데이터셋의 특징은 따로 정리해서 남길 것.

 

Comments