• 제목/요약/키워드: 성별 예측

검색결과 416건 처리시간 0.027초

나이브 베이지안에 기반한 성별 예측 및 정확률 추론 기법 (Gender Prediction and Precision Inference Method based on the naive Bayesian)

  • 권태원;이의종;백두권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.588-590
    • /
    • 2016
  • 사용자의 성별은 기본적이면서도 중요한 마케팅 데이터다. 그러나 최근에는 개인정보보호 강화 추세로, 회원가입 시 성별이나 나이 등의 세부 정보를 입력하지 않는 간편 가입이 많아졌다. 이러한 입력되지 않은 정보 추출을 위해 성별 예측 연구의 필요성이 증가되었다. 성별이 입력된 사용자의 정보를 바탕으로 성별이 입력되지 않은 사용자의 성별을 예측하는 기존 연구가 다양한 방법으로 진행되어왔고, 우수한 식별이 가능한 기법들은 이진분류기인 SVM을 기반으로 한 연구가 다수 존재한다. 그러나 SVM 알고리즘은 이진 분류만 가능하기 때문에 성별예측에 대한 정확률은 알 수가 없다. 성별예측의 정확률을 활용하면 부정확한 분류를 예방할 수 있으며 상품추천의 가중치로 사용 될 수 있다. 본 연구는 확률을 기반으로 하여 정확률을 추론 가능한 나이브 베이지안을 응용한다. 그리고 데이터 집합 사례를 균형있게 늘려주는 SMOTE기법을 이용해 클래스 불균형 문제를 개선했으며 또한 성별 예측의 특성에 맞게 노이즈를 제거하고, 성별 분류에 확정적인 아이템에 가중치를 적용했다. 더불어 제안 방법을 실제 데이터에 적용시켜 우수성을 입증하였다.

특징적 단어 및 이모티콘 집합을 활용한 모바일 기기 내 성별 예측 프레임워크 (On-Device Gender Prediction Framework Based on the Development of Discriminative Word and Emoticon Sets)

  • 김소이;최예림;김윤정;박규연;박종헌
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권11호
    • /
    • pp.733-738
    • /
    • 2015
  • 사용자의 인구통계학적 정보는 추천 시스템과 같은 개인화 서비스 발달에 도움이 되며, 모바일 사용 데이터는 사용자의 인구통계학적 정보 예측에 활용될 수 있다. 특히 텍스트 데이터는 성별 예측에 효과적인 것으로 알려져 있지만, 모바일 텍스트 데이터는 프라이버시 이슈가 존재하여 그 활용이 제한되고 있다. 본 연구에서는 디바이스 내 예측 방법론을 제안하여 모바일 텍스트 데이터를 사용하면서 프라이버시 이슈를 최소화는 동시에 사용자의 성별을 효과적으로 예측하고자 한다. 우선, 성별에 따른 특징이 반영된 웹문서를 수집하여 각 성별에 따른 특징적 단어 집합과 특징적 이모티콘 집합을 구성한다. 단어 집합과 이모티콘 집합을 디바이스 내에서 사용자의 모바일 데이터와 비교하여 성별을 각각 예측하고, 두 예측 결과를 앙상블하여 최종적인 성별 예측 결과를 도출한다. 피실험자들의 모바일 텍스트 데이터를 사용하여 성별 예측 실험을 수행하였으며 제안 방법론의 우수한 성능을 확인하였다.

스마트 기기의 멀티 모달 로그 데이터를 이용한 사용자 성별 예측 기법 연구 (A Study on Method for User Gender Prediction Using Multi-Modal Smart Device Log Data)

  • 김윤정;최예림;김소이;박규연;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.147-163
    • /
    • 2016
  • 스마트 기기 사용자의 성별 정보는 성공적인 개인화 서비스를 위해 중요하며, 스마트 기기로부터 수집된 멀티 모달 로그 데이터는 사용자의 성별 예측에 중요한 근거가 된다. 하지만 각 멀티 모달 데이터의 특성에 따라 다른 방식으로 성별 예측을 수행해야 한다. 따라서 본 연구에서는 스마트 기기로부터 발생한 로그 데이터 중 텍스트, 어플리케이션, 가속도 데이터에 기반한 각기 다른 분류기의 예측 결과를 다수결 방식으로 앙상블하여 최종 성별을 예측하는 기법을 제안한다. 텍스트 데이터를 이용한 분류기는 데이터 유출에 의한 사생활 침해 문제를 최소화하기 위해 웹 문서로부터 각 성별의 특징적 단어 집합을 도출하고 이를 기기로 전송하여 사용자의 기기 내에서 성별 분류를 수행한다. 어플리케이션 데이터에 기반한 분류기는 사용자가 실행한 어플리케이션들에 성별을 부여하고 높은 비율을 차지하는 성별로 사용자의 성별을 예측한다. 가속도 기반 분류기는 성별에 따른 사용자의 가속도 데이터 인스턴스를 학습한 SVM 모델을 사용하여 주어진 성별을 분류한다. 자체 제작한 안드로이드 어플리케이션을 통해 수집된 실제 스마트 기기 로그 데이터를 사용하여 제안하는 기법을 평가하였으며 그 결과 높은 예측 성능을 보였다.

LDA를 이용한 트윗 유저의 연령대, 성별, 지역 분석 (Analyzing ages, gender, location on Twitter using LDA)

  • 이호경;천주룡;송남훈;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.116-119
    • /
    • 2013
  • 요즘 많은 사람들은 트위터를 통해 짧은 문장의 트윗을 작성하여 자신의 의견이나 생각을 표현한다. 사람들이 작성한 트윗은 사용자의 연령, 성별, 지역에 따라 다른 특성이 담겨있다. 이러한 정보를 이용하여, 기업에서는 연령대, 성별, 지역에 따라 각기 다른 마케팅 전략을 세울 수 있을 것이다. 본 논문에서는 트위터 사용자들의 트윗을 분석하여 연령대, 성별, 지역을 예측하려 한다. 네이버 오픈사전의 자질, 한국전자통신연구원(ETRI)의 개체명 사전을 이용한 자질 및 한국어 형태소 분석, 음절 단위의 bigram을 클래스별 의미 있는 자질로 선택하고 LDA를 이용하여 예측된 확률분포를 활용하여 분류한 결과, 연령 72%, 성별 75%, 지역 43%의 납득할만한 예측 정확도 결과를 얻게 되었다.

  • PDF

문체 분석을 활용한 한국어 트위터 사용자의 연령대 및 성별 예측 (Age and Gender Prediction from Korean Tweets with Stylometric Analysis)

  • 김상채;박종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.303-305
    • /
    • 2012
  • 사람들은 주변의 영향을 받아 가면서 각자의 독특한 글쓰기 양식을 만들어간다. 따라서 같은 연령대와 성별을 가지는 사람들은 유사한 글쓰기 양식을 나타내는 경향이 있다. 이와 같은 가정을 바탕으로, 본 연구에서는 다양한 연령대와 성별의 사람들이 작성한 트윗의 문체를 분석하여 임의의 트윗을 작성한 저자의 연령대와 성별을 예측하는 실험을 진행하였다. 한국어 웹 언어에서 자주 보이는 표현들을 토대로 구성한 자질들과, 그에 비해 데이터와 관계가 적은 n-gram 단위의 자질들을 함께 사용하여 예측을 진행함으로써, 최대 공산 기준치보다 25%가량 높은 정확도를 보이는 예측 결과를 얻게 되었다. 이와 함께 각 자질 구성이 예측에 얼마나 효율적으로 기여하는지에 대한 이해도를 높일 수 있었다.

모바일 사용자의 성별 예측을 위한 식별 및 인기 단어 집합 기반 2단계 기기 내 분석 (A Two-Phase On-Device Analysis for Gender Prediction of Mobile Users Using Discriminative and Popular Wordsets)

  • 최예림;박규연;김소이;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.65-77
    • /
    • 2016
  • 모바일 기기 데이터를 활용한 분석에서 사용자의 프라이버시를 보호하는 것이 주요한 이슈로 대두됨에 따라 데이터를 외부로 전송하지 않고 모바일 기기 안에서 분석을 수행하는 기기내 분석이 주목 받고 있다. 기기 내 분석을 활용하면 문자 메시지, 검색 단어, 북마크, 연락처등 매우 개인적이지만 성별 구분에 효과적이라고 알려진 모바일 텍스트를 이용한 성별 예측이 가능하며, 사전에 선정된 단어들의 집합을 모바일 기기로 전송하여 이 단어들과 모바일 텍스트를 비교를 통해 성별을 예측하는 단어 비교 방식을 이용하면 모바일 기기의 제한된 자원 문제를 극복할 수 있다. 특히, 확실한 근거를 이용하여 필터링 한 후 예측을 수행하면 정확도를 극대화하고 복잡도를 낮출 수 있다. 따라서 본 논문에서는 단어의 식별력과 인기도를 순차적으로 고려하는 2단계의 기기 내 성별 예측 방법을 제안한다. 구체적으로, 제안하는 방법론은 소수의 높은 식별력을 가지는 단어를 이용하여 전체 사용자의 성별을 예측하고 이어서 인기도가 높은 단어를 활용하여 앞서 예측이 되지 않은 사용자의 성별을 예측한다. 실제 데이터를 이용한 실험에서 제안하는 방법론은 비교 방법론보다 우수한 성능을 나타내었다.

성별(性別)이 직업과 시장노동 장소의 선택 및 소득에 미치는 영향에 관한 연구 : 미국의 직장근무자와 재택근무자의 비교를 중심으로 (A study the effect of sex on choice of occupation and work location and on earnings : Comparison of on-site workers with home-based workers in the U.S.)

  • 김효정
    • 대한가정학회지
    • /
    • 제36권7호
    • /
    • pp.123-141
    • /
    • 1998
  • 본 연구는 미국의 직장근무자와 재택근무자의 비교를 통해, 남성과 여성의 소득차이를 살펴보고 이를 설명하는 요소들에 대해 분석하였다. 본 연구를 위해 설정된 가설은 다음과 같다.: (1) 성별은 직업과 시장노동의 장소를 선택하는데 있어서 유의한 요소이다. (2) 직업 및 시장노동의 장소가 결정된 후에도 성별은 시간당 소득에 영향을 미치는 변수이다. 연구자료로는 Census of Population and Housing, 1990 [United States]: Public Use Microdata Sample: 1/10,000 Sample이 이용되었으며, 16세 이상, 65세 이하의 응답자로 일주일에 적어도 한 시간 이상 일하는 근로자를 중심으로 하여 7,272명이 연구 대상으로 고려되었다. 직업 및 시장노동의 장소에 대한 선택에서 성별의 영향을 살펴보기 위해 판별분석이 행해졌으며, 분석 결과 교육수준, 연령, 인종, 남녀의 수, 주택구조와 함께 성별이 유의한 요소임이 밝혀졌다. 직업과 시장노동의 장소가 결정된 후 성별이 시간당 소득에 미치는 영향을 알아보기 위해 전체표본과 6개의 직업범주에 따라 회귀분석이 실시되었다. 전체표본을 대상으로 한 회귀분석의 결과, 시간당 소득을 예측하는데 있어서 성별은 유의하지 않은 것으로 나타났으나, 6개의 직업범주에 따라 시간당 소득을 추정한 결과, 성별은 모든 직업범주에서 유의한 것으로 나타났다. 그러나 재택근무자가 되는 것은 시간당 소득을 규정하는데 있어서 유의한 변수가 아닌 것으로 나타났다. 이것은 특정 직업 내에서 시장노동의 장소보다는 성별이 재택근무자에 있어서 소득의 차이를 설명하는데 중요한 요소임을 암시하고 있다. 본 연구에서 사용된 자료는 직업 및 시장노동의 장소에 대한 결정이나 소득에 영향을 미칠 수 있는 변수들에 대한 충분한 정보를 갖고 있지 않고, 또한 재택근무자의 표본수가 너무 적었기 때문에 일부 변수들은 직업의 선택이나 소득을 예측하기 위한 요소들로 포함될 수 없었다. 따라서 후속연구에서는 이를 보완해야 할 것이며, 최근 들어 우리 나라에서도 재택근무에 대한 관심이 대두되고 있으나 아직 개념정의나 그 중요성과 가치, 그리고 실태 파악과 같은 연구가 활발히 이루어지지 못하고 있으므로 이에 대한 심층적인 연구가 행해져야 할 것이다.

  • PDF

청소년의 휴대전화 의존 예측변인에 대한 성차 연구 (The Gender Difference in Predictors of Mobile Phone Dependency in Youth)

  • 김현순;최영준
    • 한국콘텐츠학회논문지
    • /
    • 제15권5호
    • /
    • pp.340-352
    • /
    • 2015
  • 본 연구의 목적은 청소년의 성별에 따라 휴대전화 의존 예측변인에 차이가 있는가를 검증하는 것이다. 이를 위해 한국청소년정책연구원에서 실시한 한국아동 청소년패널조사(KCYPS) 중에서 중학교 1학년 패널 3차 년도(2012)의 데이터를 활용 분석하였다. 예측 변인으로 주의집중결핍, 공격성, 우울, 사회적 위축, 부모의 학대, 부모의 방임, 학습활동, 또래소외를 설정하고 단계적(stepwise) 회귀분석을 통해 분석하였다. 연구결과는 다음과 같다. 첫째, 휴대전화 의존도는 성별에 따라 유의미한 차이를 보여, 여학생의 휴대전화 의존도는 남학생의 휴대전화 의존도보다 유의미하게 높았다. 둘째, 남학생의 휴대전화 의존을 가장 잘 설명하는 예측변인은 공격성이고 그 다음이 부모의 학대, 주의집중 결핍, 그리고 학습활동 순이었으며, 여학생의 예측변인은 첫째가 우울이고 그 다음이 주의집중 결핍, 공격성, 학습활동 그리고 사회적 위축 순으로 나타났다. 여학생의 휴대전화 의존은 남학생의 경우보다 더 많은 변인의 영향을 받으며, 남학생의 경우와는 달리 우울과 사회적 위축과 같은 관계지향적인 변인에 의해 더 영향을 받고 있음을 확인할 수 있었다. 본 연구결과에 근거하여 청소년의 휴대전화 의존의 예방 및 치료를 위한 개입의 실천적 방안은 모든 대상자들에게 일괄적으로 적용되기 보다는 성별에 따라 차별적으로 이루어져야 할 필요가 있음을 제언하였다.

홍수특성별 인적·물적 피해자료의 회귀분석 (Regression Analysis of Human and Economic Damage Cost Records by Flood Characteristics)

  • 이종석;임연택;박도현;최현일
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.378-378
    • /
    • 2020
  • 우리나라에서 발생하는 자연재해 중 대부분이 홍수와 관련되어, 주로 호우를 동반한 태풍이나 돌발적인 집중호우에 의해 홍수피해가 해마다 발생하고 있다. 따라서 홍수발생 시 예상되는 피해지역과 피해의 규모를 예측하는 사전예방적인 홍수관리대책이 필요하며, 이를 위해 지역별 홍수특성별 피해양상에 대한 파악과 분석이 필요하다. 본 연구에서는 여러 수문학적 요소 중 홍수재해에 가장 영향력이 높은 강우특성과 재해발생으로 인한 직접적인 피해특성인 인적피해와 물적피해의 상관관계 분석을 위해, 홍수발생 원인에 따라 시군구별 강우-피해특성에 대한 회귀분석을 수행하여 향후 시군구별 홍수로 인한 피해 예측 및 대응에 활용하는 것을 목적으로 한다. 연구방법은 행정안전부의 국민재난안전포털에서 제공하는 재해연보 자료로부터 시군구별 호우 및 태풍으로 인한 이재민수와 인명피해자수를 종합한 인적피해특성과 총 재산피해액을 종합한 물적피해특성 자료를 구축하고, 홍수발생기간 동안의 강우특성을 파악하고자 전국 권역 기상청 관측자료를 수집하여 홍수피해 사상별 강우량 자료를 구축한다. 회귀분석 과정에서는 분석 결과에 악영향을 미칠 가능성이 있는 이상치가 존재할 경우, 이를 제거하여 시군구별 3가지 재해원인별(호우, 태풍, 종합), 피해특성별(인적, 물적) 강우조건에 따른 피해특성 예측을 위한 최적 회귀식을 선정한다. 본 연구를 통해 시군구별 강우조건에 따른 홍수피해 규모의 예측이 가능하다면, 행정구역별 호우 및 태풍으로 인한 인적 및 물적 피해예측 및 저감대책 수립에 기초자료가 될 것으로 판단된다.

  • PDF

음운 변동 실현 오류의 예측 인자 분석 (Analysis of Predictors of Phonological Variation Realization)

  • 안성민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.498-500
    • /
    • 2021
  • 본 연구에서는 음운 변동에서 나타나는 오류가 어떤 변수에 영향을 받는지 확인하여 음운 변동 연구 및 교육의 기초 자료를 제공하고자 하는 데에 목적이다. 이를 위해 유음화 발음 데이터를 이용하여 성별, 유음화의 방향, 품사, 단어의 빈도, 단어의 음절수와 유음화의 발음 적격 유무를 변수로 설정하였다. 유음화 적격률에 영향을 줄 수 있는 독립변수를 찾기 위해 카이제곱 검정과 다중공선성의 팽창계수를 먼저 확인하였다. 이후 다중 로지스틱 회귀분석과 오즈비를 통해 유의한 예측인자를 검토하였다. 그 결과 5개의 독립 변수 중 성별과 유음화의 방향, 품사가 결과를 오류에 영향을 주는 주요한 인자가 되는 것을 확인할 수 있었다.

  • PDF