• Title/Summary/Keyword: 성별 예측

Search Result 416, Processing Time 0.023 seconds

Gender Prediction and Precision Inference Method based on the naive Bayesian (나이브 베이지안에 기반한 성별 예측 및 정확률 추론 기법)

  • Kwon, TaeWon;Lee, Euijong;Baik, Doo-Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.588-590
    • /
    • 2016
  • 사용자의 성별은 기본적이면서도 중요한 마케팅 데이터다. 그러나 최근에는 개인정보보호 강화 추세로, 회원가입 시 성별이나 나이 등의 세부 정보를 입력하지 않는 간편 가입이 많아졌다. 이러한 입력되지 않은 정보 추출을 위해 성별 예측 연구의 필요성이 증가되었다. 성별이 입력된 사용자의 정보를 바탕으로 성별이 입력되지 않은 사용자의 성별을 예측하는 기존 연구가 다양한 방법으로 진행되어왔고, 우수한 식별이 가능한 기법들은 이진분류기인 SVM을 기반으로 한 연구가 다수 존재한다. 그러나 SVM 알고리즘은 이진 분류만 가능하기 때문에 성별예측에 대한 정확률은 알 수가 없다. 성별예측의 정확률을 활용하면 부정확한 분류를 예방할 수 있으며 상품추천의 가중치로 사용 될 수 있다. 본 연구는 확률을 기반으로 하여 정확률을 추론 가능한 나이브 베이지안을 응용한다. 그리고 데이터 집합 사례를 균형있게 늘려주는 SMOTE기법을 이용해 클래스 불균형 문제를 개선했으며 또한 성별 예측의 특성에 맞게 노이즈를 제거하고, 성별 분류에 확정적인 아이템에 가중치를 적용했다. 더불어 제안 방법을 실제 데이터에 적용시켜 우수성을 입증하였다.

On-Device Gender Prediction Framework Based on the Development of Discriminative Word and Emoticon Sets (특징적 단어 및 이모티콘 집합을 활용한 모바일 기기 내 성별 예측 프레임워크)

  • Kim, Solee;Choi, Yerim;Kim, Yoonjung;Park, Kyuyon;Park, Jonghun
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.11
    • /
    • pp.733-738
    • /
    • 2015
  • User demographic information is necessary in order to improve the quality of personalized services such as recommendation systems. Mobile data, especially text data, is known to be effective for prediction of user demographic information. However, mobile text data has privacy issues so that its utilization is limited. In this regard, we introduce an on-device gender prediction framework utilizing mobile text data while minimizing the privacy issue. Discriminative word and emoticon sets of each gender are constructed from web documents written by authors of each gender. After gender prediction is performed by comparing discriminative word and emoticon sets with a user's mobile text data, an ensemble method that combines two prediction results draws a final result. From experiments conducted on real-world mobile text data, the proposed on-device framework shows promising results for gender prediction.

A Study on Method for User Gender Prediction Using Multi-Modal Smart Device Log Data (스마트 기기의 멀티 모달 로그 데이터를 이용한 사용자 성별 예측 기법 연구)

  • Kim, Yoonjung;Choi, Yerim;Kim, Solee;Park, Kyuyon;Park, Jonghun
    • The Journal of Society for e-Business Studies
    • /
    • v.21 no.1
    • /
    • pp.147-163
    • /
    • 2016
  • Gender information of a smart device user is essential to provide personalized services, and multi-modal data obtained from the device is useful for predicting the gender of the user. However, the method for utilizing each of the multi-modal data for gender prediction differs according to the characteristics of the data. Therefore, in this study, an ensemble method for predicting the gender of a smart device user by using three classifiers that have text, application, and acceleration data as inputs, respectively, is proposed. To alleviate privacy issues that occur when text data generated in a smart device are sent outside, a classification method which scans smart device text data only on the device and classifies the gender of the user by matching text data with predefined sets of word. An application based classifier assigns gender labels to executed applications and predicts gender of the user by comparing the label ratio. Acceleration data is used with Support Vector Machine to classify user gender. The proposed method was evaluated by using the actual smart device log data collected from an Android application. The experimental results showed that the proposed method outperformed the compared methods.

Analyzing ages, gender, location on Twitter using LDA (LDA를 이용한 트윗 유저의 연령대, 성별, 지역 분석)

  • Lee, Ho-Kyung;Chun, Ju-Ryong;Song, Nam-Hoon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.116-119
    • /
    • 2013
  • 요즘 많은 사람들은 트위터를 통해 짧은 문장의 트윗을 작성하여 자신의 의견이나 생각을 표현한다. 사람들이 작성한 트윗은 사용자의 연령, 성별, 지역에 따라 다른 특성이 담겨있다. 이러한 정보를 이용하여, 기업에서는 연령대, 성별, 지역에 따라 각기 다른 마케팅 전략을 세울 수 있을 것이다. 본 논문에서는 트위터 사용자들의 트윗을 분석하여 연령대, 성별, 지역을 예측하려 한다. 네이버 오픈사전의 자질, 한국전자통신연구원(ETRI)의 개체명 사전을 이용한 자질 및 한국어 형태소 분석, 음절 단위의 bigram을 클래스별 의미 있는 자질로 선택하고 LDA를 이용하여 예측된 확률분포를 활용하여 분류한 결과, 연령 72%, 성별 75%, 지역 43%의 납득할만한 예측 정확도 결과를 얻게 되었다.

  • PDF

Age and Gender Prediction from Korean Tweets with Stylometric Analysis (문체 분석을 활용한 한국어 트위터 사용자의 연령대 및 성별 예측)

  • Kim, Sang-Chae;Park, Jong-C.
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.303-305
    • /
    • 2012
  • 사람들은 주변의 영향을 받아 가면서 각자의 독특한 글쓰기 양식을 만들어간다. 따라서 같은 연령대와 성별을 가지는 사람들은 유사한 글쓰기 양식을 나타내는 경향이 있다. 이와 같은 가정을 바탕으로, 본 연구에서는 다양한 연령대와 성별의 사람들이 작성한 트윗의 문체를 분석하여 임의의 트윗을 작성한 저자의 연령대와 성별을 예측하는 실험을 진행하였다. 한국어 웹 언어에서 자주 보이는 표현들을 토대로 구성한 자질들과, 그에 비해 데이터와 관계가 적은 n-gram 단위의 자질들을 함께 사용하여 예측을 진행함으로써, 최대 공산 기준치보다 25%가량 높은 정확도를 보이는 예측 결과를 얻게 되었다. 이와 함께 각 자질 구성이 예측에 얼마나 효율적으로 기여하는지에 대한 이해도를 높일 수 있었다.

A Two-Phase On-Device Analysis for Gender Prediction of Mobile Users Using Discriminative and Popular Wordsets (모바일 사용자의 성별 예측을 위한 식별 및 인기 단어 집합 기반 2단계 기기 내 분석)

  • Choi, Yerim;Park, Kyuyon;Kim, Solee;Park, Jonghun
    • The Journal of Society for e-Business Studies
    • /
    • v.21 no.1
    • /
    • pp.65-77
    • /
    • 2016
  • As respecting one's privacy becomes an important issue in mobile device data analysis, on-device analysis is getting attention, in which the data analysis is conducted inside a mobile device without sending data from the device to outside. One possible application of the on-device analysis is gender prediction using text data in mobile devices, such as text messages, search keyword, website bookmarks, and contact, which are highly private, and the limited computing power of mobile devices can be addressed by utilizing the word comparison method, where words are selected beforehand and delivered to a mobile device of a user to determine the user's gender by matching mobile text data and the selected words. Moreover, it is known that performing prediction after filtering instances using definite evidences increases accuracy and reduces computational complexity. In this regard, we propose a two-phase approach to on-device gender prediction, where both discriminability and popularity of a word are sequentially considered. The proposed method performs predictions using a few highly discriminative words for all instances and popular words for unclassified instances from the previous prediction. From the experiments conducted on real-world dataset, the proposed method outperformed the compared methods.

A study the effect of sex on choice of occupation and work location and on earnings : Comparison of on-site workers with home-based workers in the U.S. (성별(性別)이 직업과 시장노동 장소의 선택 및 소득에 미치는 영향에 관한 연구 : 미국의 직장근무자와 재택근무자의 비교를 중심으로)

  • 김효정
    • Journal of the Korean Home Economics Association
    • /
    • v.36 no.7
    • /
    • pp.123-141
    • /
    • 1998
  • 본 연구는 미국의 직장근무자와 재택근무자의 비교를 통해, 남성과 여성의 소득차이를 살펴보고 이를 설명하는 요소들에 대해 분석하였다. 본 연구를 위해 설정된 가설은 다음과 같다.: (1) 성별은 직업과 시장노동의 장소를 선택하는데 있어서 유의한 요소이다. (2) 직업 및 시장노동의 장소가 결정된 후에도 성별은 시간당 소득에 영향을 미치는 변수이다. 연구자료로는 Census of Population and Housing, 1990 [United States]: Public Use Microdata Sample: 1/10,000 Sample이 이용되었으며, 16세 이상, 65세 이하의 응답자로 일주일에 적어도 한 시간 이상 일하는 근로자를 중심으로 하여 7,272명이 연구 대상으로 고려되었다. 직업 및 시장노동의 장소에 대한 선택에서 성별의 영향을 살펴보기 위해 판별분석이 행해졌으며, 분석 결과 교육수준, 연령, 인종, 남녀의 수, 주택구조와 함께 성별이 유의한 요소임이 밝혀졌다. 직업과 시장노동의 장소가 결정된 후 성별이 시간당 소득에 미치는 영향을 알아보기 위해 전체표본과 6개의 직업범주에 따라 회귀분석이 실시되었다. 전체표본을 대상으로 한 회귀분석의 결과, 시간당 소득을 예측하는데 있어서 성별은 유의하지 않은 것으로 나타났으나, 6개의 직업범주에 따라 시간당 소득을 추정한 결과, 성별은 모든 직업범주에서 유의한 것으로 나타났다. 그러나 재택근무자가 되는 것은 시간당 소득을 규정하는데 있어서 유의한 변수가 아닌 것으로 나타났다. 이것은 특정 직업 내에서 시장노동의 장소보다는 성별이 재택근무자에 있어서 소득의 차이를 설명하는데 중요한 요소임을 암시하고 있다. 본 연구에서 사용된 자료는 직업 및 시장노동의 장소에 대한 결정이나 소득에 영향을 미칠 수 있는 변수들에 대한 충분한 정보를 갖고 있지 않고, 또한 재택근무자의 표본수가 너무 적었기 때문에 일부 변수들은 직업의 선택이나 소득을 예측하기 위한 요소들로 포함될 수 없었다. 따라서 후속연구에서는 이를 보완해야 할 것이며, 최근 들어 우리 나라에서도 재택근무에 대한 관심이 대두되고 있으나 아직 개념정의나 그 중요성과 가치, 그리고 실태 파악과 같은 연구가 활발히 이루어지지 못하고 있으므로 이에 대한 심층적인 연구가 행해져야 할 것이다.

  • PDF

The Gender Difference in Predictors of Mobile Phone Dependency in Youth (청소년의 휴대전화 의존 예측변인에 대한 성차 연구)

  • Kim, Hyun-Soon;Choi, Young-Joon
    • The Journal of the Korea Contents Association
    • /
    • v.15 no.5
    • /
    • pp.340-352
    • /
    • 2015
  • The purposes of this study is to analyze gender difference in predictors of mobile phone dependency in youth. The analysis is performed with third-year panel survey data of middle school 1st grade students from Korean Child-Youth Panel Survey. The results are as follows. First, the female students' mobile phone dependency is more serious than the male students' mobile phone dependency. Second, while the identified male gender predictors are aggression, parental abuse, aprosexia, study activity and social withdrawal, the identified female gender predictors are depression, aprosexia, aggression, study activity and social withdrawal. Based on these results, theoretical and practical implications in planning of prevention or intervention of mobile phone dependency are proposed.

Regression Analysis of Human and Economic Damage Cost Records by Flood Characteristics (홍수특성별 인적·물적 피해자료의 회귀분석)

  • Lee, Jong Seok;Lim, Yeon Taek;Park, Do Hyeon;Choi, Hyun Il
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2020.06a
    • /
    • pp.378-378
    • /
    • 2020
  • 우리나라에서 발생하는 자연재해 중 대부분이 홍수와 관련되어, 주로 호우를 동반한 태풍이나 돌발적인 집중호우에 의해 홍수피해가 해마다 발생하고 있다. 따라서 홍수발생 시 예상되는 피해지역과 피해의 규모를 예측하는 사전예방적인 홍수관리대책이 필요하며, 이를 위해 지역별 홍수특성별 피해양상에 대한 파악과 분석이 필요하다. 본 연구에서는 여러 수문학적 요소 중 홍수재해에 가장 영향력이 높은 강우특성과 재해발생으로 인한 직접적인 피해특성인 인적피해와 물적피해의 상관관계 분석을 위해, 홍수발생 원인에 따라 시군구별 강우-피해특성에 대한 회귀분석을 수행하여 향후 시군구별 홍수로 인한 피해 예측 및 대응에 활용하는 것을 목적으로 한다. 연구방법은 행정안전부의 국민재난안전포털에서 제공하는 재해연보 자료로부터 시군구별 호우 및 태풍으로 인한 이재민수와 인명피해자수를 종합한 인적피해특성과 총 재산피해액을 종합한 물적피해특성 자료를 구축하고, 홍수발생기간 동안의 강우특성을 파악하고자 전국 권역 기상청 관측자료를 수집하여 홍수피해 사상별 강우량 자료를 구축한다. 회귀분석 과정에서는 분석 결과에 악영향을 미칠 가능성이 있는 이상치가 존재할 경우, 이를 제거하여 시군구별 3가지 재해원인별(호우, 태풍, 종합), 피해특성별(인적, 물적) 강우조건에 따른 피해특성 예측을 위한 최적 회귀식을 선정한다. 본 연구를 통해 시군구별 강우조건에 따른 홍수피해 규모의 예측이 가능하다면, 행정구역별 호우 및 태풍으로 인한 인적 및 물적 피해예측 및 저감대책 수립에 기초자료가 될 것으로 판단된다.

  • PDF

Analysis of Predictors of Phonological Variation Realization (음운 변동 실현 오류의 예측 인자 분석)

  • An, Sung-min
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.498-500
    • /
    • 2021
  • 본 연구에서는 음운 변동에서 나타나는 오류가 어떤 변수에 영향을 받는지 확인하여 음운 변동 연구 및 교육의 기초 자료를 제공하고자 하는 데에 목적이다. 이를 위해 유음화 발음 데이터를 이용하여 성별, 유음화의 방향, 품사, 단어의 빈도, 단어의 음절수와 유음화의 발음 적격 유무를 변수로 설정하였다. 유음화 적격률에 영향을 줄 수 있는 독립변수를 찾기 위해 카이제곱 검정과 다중공선성의 팽창계수를 먼저 확인하였다. 이후 다중 로지스틱 회귀분석과 오즈비를 통해 유의한 예측인자를 검토하였다. 그 결과 5개의 독립 변수 중 성별과 유음화의 방향, 품사가 결과를 오류에 영향을 주는 주요한 인자가 되는 것을 확인할 수 있었다.

  • PDF