336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.

네 번째 프로젝트 순서

 

1. 간단한 intro

2. 웹 크롤링 및 전처리

3. 모델 학습 및 평가

 


기간 : 21.06.17 ~ 21.06.24

 

언어 : Python

패키지 : Tensorflow, Scikit-learn, Okt, Beautiful Soup, Pandas, Maplotlib

툴 : Colab, PyCharm, Jupyter Notebook

 

주제 선정 이유 : 보고 있는 카테고리에서, 불필요한 상품까지 노출되는 경우 필터링. 카테고리 분류를 조금 더 깔끔하게 하기 위함.

 

 

 

 

팀원 전체가 프로젝트에 치이고 있는 상태라서 이번에는 지금까지 했던 것을 정리하는 시간을 갖기로 했다. 도서, 영화 등 다른 것도 분류를 할 수 있었으나 이미 다른 팀에서 주제를 선정해서 넘어가게 됐다. 

 

새로운 팀원들이 코드를 다루거나 이해하는 것이 쉽지 않다는 의견이 있어서, 함께 기초부터 같이 하기로 했다. 학원에서 배운 크롤링 기법은 대부분 Selenium을 사용해서 시간이 오래 걸렸다. 그래서 웬만하면 시간이 적게 드는 bs4로 해결하기 위한 코드를 새로 만들었다. 동적인 크롤링을 요하는 상황에서는 어쩔 수 없이 사용하긴 했지만.. 

 

동적 크롤링 : Selenium정적 크롤링 : Beautiful Soup

 

 

 

 

 

GitHub - kes76963/asia_project: NLP - Word2Vec, TFIDF / CNN - Category Classify

NLP - Word2Vec, TFIDF / CNN - Category Classify. Contribute to kes76963/asia_project development by creating an account on GitHub.

github.com

셀레니움보다 bs4가 더 확실하게 긁어오긴 하지만, 처음에 코드를 짜는데 은근히 시간이 걸린다. 셀레니움은 그냥 순서대로 가고 xpath 붙여넣기를 하면 되는데, bs4는 정적이다 보니 각 페이지별 url이나 num_id 값을 구해야하해서 고려할 요소들이 많다. 그리고 코드를 새로 만들면서 느낀 것이 홈페이지 개발자분들께서 가끔씩 특이한 이벤트를 집어넣으셔서 오류가 생긴다. try except 문을 반드시 써주도록 하자 ㅠㅠ

 

 

 

 

시간이 있는 김에 저번에 designer로 만들었던 gui로 앱 느낌의 구현을 하려고 했으나 실패하여, 다섯번째 프로젝트에 적용을 했다. 이 부분은 기대하셔도 좋다. 엄청난 발전이 있었다고 장담한다. (안드로이드 스튜디오로 앱을 만들 때처럼 노가다 느낌이 강하게 느껴진다.)

 

 

 

 

 

 

+ Recent posts