R
과제 아님))) 나이브 베이즈 모델 관련 질문입니다.

나이브 베이즈 모델을 통한 긍정 - 부정 판단을 만들고싶은데요. 

관련 지식이 짧고 독학 위주인터라 기초 개념이 탄탄하지 못해 생기는 문제같습니다.

id document(review) label(rating) 으로 이루어진 영화 평점&리뷰 데이터 셋을 기반으로

document 전처리 과정중 필요없는 몇가지 부분 제거 후 명사만을 추출 후 

rating을 긍정 or 부정으로 나누어 나이브 베이즈 모델에 train 했습니다.

그 뒤에 이를 바탕으로 영화평 뿐만 아니라 다른 용량이 있는 텍스트들에도 이런 판별을 그대로 적용시켜서 긍정 부정을 평가하고 싶은데 두가지 문제를 직면했습니다.

a. 불용어 제거 대신 명사만을 추출시 더 낮아지는 모델 정확도.

b. 학습시에는 rating이라는 척도가 있었으나 다른 데이터셋 (ex. sns크롤링 데이터) 의 긍정부정 판별시 적용 방법.

이 현재로써는 해결할 방법이 보이지 않더군요.

커뮤니티 회원 분들의 고견을 여쭙고 싶습니다.

애초에 나이브 베이즈 모델에는 다른 카테고리의 데이터를 적용 시킬수 없는 것인가요?

 

 

 

 

 

 

댓글 0