• 제목/요약/키워드: Generation Prediction

검색결과 803건 처리시간 0.025초

추천 시스템의 성능 안정성을 위한 예측적 군집화 기반 협업 필터링 기법 (Predictive Clustering-based Collaborative Filtering Technique for Performance-Stability of Recommendation System)

  • 이오준;유은순
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.119-142
    • /
    • 2015
  • 사용자의 취향과 선호도를 고려하여 정보를 제공하는 추천 시스템의 중요성이 높아졌다. 이를 위해 다양한 기법들이 제안되었는데, 비교적 도메인의 제약이 적은 협업 필터링이 널리 사용되고 있다. 협업 필터링의 한 종류인 모델 기반 협업 필터링은 기계학습이나 데이터 마이닝 모델을 협업 필터링에 접목한 방법이다. 이는 희박성 문제와 확장성 문제 등의 협업 필터링의 근본적인 한계를 개선하지만, 모델 생성 비용이 높고 성능/확장성 트레이드오프가 발생한다는 한계점을 갖는다. 성능/확장성 트레이드오프는 희박성 문제의 일종인 적용범위 감소 문제를 발생시킨다. 또한, 높은 모델 생성 비용은 도메인 환경 변화의 누적으로 인한 성능 불안정의 원인이 된다. 본 연구에서는 이 문제를 해결하기 위해, 군집화 기반 협업 필터링에 마르코프 전이확률모델과 퍼지 군집화의 개념을 접목하여, 적용범위 감소 문제와 성능 불안정성 문제를 해결한 예측적 군집화 기반 협업 필터링 기법을 제안한다. 이 기법은 첫째, 사용자 기호(Preference)의 변화를 추적하여 정적인 모델과 동적인 사용자간의 괴리 해소를 통해 성능 불안정 문제를 개선한다. 둘째, 전이확률과 군집 소속 확률에 기반한 적용범위 확장으로 적용범위 감소 문제를 개선한다. 제안하는 기법의 검증은 각각 성능 불안정성 문제와 확장성/성능 트레이드오프 문제에 대한 강건성(robustness)시험을 통해 이뤄졌다. 제안하는 기법은 기존 기법들에 비해 성능의 향상 폭은 미미하다. 또한 데이터의 변동 정도를 나타내는 지표인 표준 편차의 측면에서도 의미 있는 개선을 보이지 못하였다. 하지만, 성능의 변동 폭을 나타내는 범위의 측면에서는 기존 기법들에 비해 개선을 보였다. 첫 번째 실험에서는 모델 생성 전후의 성능 변동폭에서 51.31%의 개선을, 두 번째 실험에서는 군집 수 변화에 따른 성능 변동폭에서 36.05%의 개선을 보였다. 이는 제안하는 기법이 성능의 향상을 보여주지는 못하지만, 성능 안정성의 측면에서는 기존의 기법들을 개선하고 있음을 의미한다.

Selection for Duration of Fertility and Mule Duck White Plumage Colour in a Synthetic Strain of Ducks (Anas platyrhynchos)

  • Liu, H.C.;Huang, J.F.;Lee, S.R.;Liu, H.L.;Hsieh, C.H.;Huang, C.W.;Huang, M.C.;Tai, C.;Poivey, J.P.;Rouvier, R.;Cheng, Y.S.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제28권5호
    • /
    • pp.605-611
    • /
    • 2015
  • A synthetic strain of ducks (Anas platyrhynchos) was developed by introducing genes for long duration of fertility to be used as mother of mule ducklings and a seven-generation selection experiment was conducted to increase the number of fertile eggs after a single artificial insemination (AI) with pooled Muscovy semen. Reciprocal crossbreeding between Brown Tsaiya LRI-2 (with long duration of fertility) and Pekin L-201 (with white plumage mule ducklings) ducks produced the G0. Then G1 were intercrossed to produce G2 and so on for the following generations. Each female duck was inseminated 3 times, at 26, 29, and 32 weeks of age. The eggs were collected for 14 days from day 2 after AI. Individual data regarding the number of incubated eggs (Ie), the number of fertile eggs at candling at day 7 of incubation (F), the total number of dead embryos (M), the maximum duration of fertility (Dm) and the number of hatched mule ducklings (H) with plumage colour were recorded. The selection criterion was the breeding values of the best linear unbiased prediction animal model for F. The results show high percentage of exhibited heterosis in G2 for traits to improve (19.1% for F and 12.9% for H); F with a value of 5.92 (vs 3.74 in the Pekin L-201) was improved in the G2. Heritabilities were found to be low for Ie ($h^2=0.07{\pm}0.03$) and M ($h^2=0.07{\pm}0.01$), moderately low for Dm ($h^2=0.13{\pm}0.02$), of medium values for H ($h^2=0.20{\pm}0.03$) and F ($h^2=0.23{\pm}0.03$). High and favourable genetic correlations existed between F and Dm ($r_g=0.93$), between F and H ($r_g=0.97$) and between Dm and H ($r_g=0.90$). The selection experiment showed a positive trend for phenotypic values of F (6.38 fertile eggs in G10 of synthetic strain vs 5.59 eggs in G4, and 3.74 eggs in Pekin L-201), with correlated response for increasing H (5.73 ducklings in G10 vs 4.86 in G4, and 3.09 ducklings in Pekin L-201) and maximum duration of the fertile period without increasing the embryo mortality rate. The average predicted genetic response for F was 40% of genetic standard deviation per generation of selection. The mule ducklings' feather colour also was improved. It was concluded that this study provided results for a better understanding of the genetics of the duration of fertility traits in the common female duck bred for mule and that the selection of a synthetic strain was effective method of improvement.

산업장 교대근무 근로자의 건강증진행위 예측요인 (Predictive Factors of Health promotion behaviors of Industrial Shift Workers)

  • 김영미
    • 한국직업건강간호학회지
    • /
    • 제11권1호
    • /
    • pp.13-30
    • /
    • 2002
  • Industrial shift workers feels suffer mental stresses which are caused by unfamiliar day sleep, noisy environment, sleeping disorder by bright light, unusual contacts with family, difficulty in meeting with friends or having formal social meetings and other social limitations such as the use of transportation. Such stresses influence health of the workers negatively. Thus the health promotion policy for shift workers should be made considering the workers' ways of living and shift work specially. This study attempted to provide basic information for development of the health promotion program for industrial shift workers by examining predictive factors influencing health promotion behaviors of those workers. In designing the study, three power generation plants located in Pusan and south Kyungsang province were randomly selected and therefrom 280 workers at central control, boiler and turbine rooms and environmental chemistry parts whose processes require shift works were sampled as subjects of the study. Data were collected two times from September 17 to October 8, 1999 using questionnaires with helps of safety and health managers of the plants. The questionnaires were distributed through mails or direct visits. Means for the study included the measurement tool of health promotion behavior provided by Park(1995), the tool of self-efficacy measurement by Suh(1995), the tool of internal locus of control measurement by Oh(1987), the measurement tool of perceived health state by Park(1995) and the tool of social support measurement by Paek(1995). The collected data were analyzed using SPSS program. Controlling factors of the subjects were evaluated in terms of frequency and percentage ratio Perceived factors and health promotion behaviors of the subjects were done so in terms of mean and standard deviation, and average mark and standard deviation, respectively. Relations between controlling and perceived factors were analyzed using t-test and ANOVA and those between perceived factors and the performance of health promotion behaviors, using Pearson's Correlation Coefficient. The performance of health promotion behaviors was tested using t-test, ANOVA and post multi-comparison (Scheffe test). Predictive factors of health promotion behavior were examined through the Stepwise Multiple Regression Analysis. Results of the study are summarized as follows. 1. The performance of health promotion behaviors by the subjects was evaluated as having the value of mean, $161.27{\pm}26.73$ points(min.:60, max.:240) and average mark, $2.68{\pm}0.44$ points(min.:1, max.:4). When the performance was analyzed according to related aspects, it showed the highest level in harmonious relation with average mark, $3.15{\pm}.56$ points, followed by hygienic life($3.03{\pm}.55$), self-realization ($2.84{\pm}.55$), emotional support($2.73{\pm}.61$), regular meals($2.71{\pm}.76$), self-control($2.62{\pm}.63$), health diet($2.62{\pm}.56$), rest and sleep($2.60{\pm}.59$), exercise and activity($2.53{\pm}.57$), diet control($2.52{\pm}.56$) and special health management($2.06{\pm}.65$). 2. In relations between perceived factors of the subjects(self-efficacy, internal locus of control, perceived health state) and the performance of health promotion behaviors, the performance was found having significantly pure relations with self-efficacy (r=.524, P=.000), internal locus of control (r=.225, P=.000) and perceived health state(r=.244, P=.000). The higher each evaluated point of the three factors was, the higher the performance was in level. 3. When relations between the controlling factors(demography-based social, health-related, job-related and human relations characteristics) and the performance of health promotion behaviors were analyzed, the performance showed significant differences according to marital status (t=2.09, P= .03), religion(F=3.93, P= .00) and participation in religious activities (F=8.10, P= .00) out of demography-based characteristics, medical examination results (F=7.20, P= .00) and methods of the collection of health knowledge and information(F=3.41, P= .01) and methods of desired health education(F=3.41, P= .01) out of health-related characteristics, detrimental factors perception(F=4.49, P= .01) and job satisfaction(F=8.41, P= .00) out of job-related characteristics and social support(F=14.69, P= .00) out of human relations characteristics. 4. The factor which is a variable predicting best the performance of health promotion behaviors by the subjects was the self-efficacy accounting for 27.4% of the prediction, followed by participation in religious activities, social support, job satisfaction, received health state and internal locus of control in order all of which totally account for 41.0%. In conclusion, the predictive factor which most influence the performance of health promotion behaviors by shift workers was self-efficacy. To promote the sense, therefore, it is necessary to develop the nursing intervention program considering predictive factors as variables identified in this study. Further industrial nurses should play their roles actively to help shift workers increase their capability of self-management of health.

  • PDF

합천댐 하류 하천지형 변화 예측 및 흐름파가 수리기하 변화에 미치는 영향 (Channel Changes and Effect of Flow Pulses on Hydraulic Geometry Downstream of the Hapcheon Dam)

  • 신영호
    • 한국수자원학회논문집
    • /
    • 제42권7호
    • /
    • pp.579-589
    • /
    • 2009
  • 황강은 1989년 합천 본댐 및 조정지댐의 건설후 하도폭, 하상재료, 식생 및 하천구간내 사주의 형성 등 많은 하천 지형학적 변화가 있었다. 이러한 변화는 댐 건설후 흐름 및 유사이송의 변화에 기인한다. 합천댐은 약 591천 $m^3$/년의 유사를 차단한 것으로 파악되었다. 조정지댐 준공후 연최대피크 방류량은 654.7 $m^3$/s에서 126.3 $m^3$/s로 감소되었다 (댐건설전의 19.3%). 합천조정지댐 하류로부터 낙동강 합류점까지 45 km 구간의 1982, 1993 및 2004년의 항공사진을 분석한 결과 비식생하도폭(non-vegetated active channel width)은 평균 152m 감소되었다 (1982년의 약 47%). 비식생하도의 면적 역시 평균 6.6$km^2$ (1982년의 44%)가 감소하였다. 평균 중앙입경(D50)의 크기는 1983년 및 2003년에 1.07mm에서 5.72 mm로 평균 하상구배는 0.000943에서 0.000847로 각각 변하였다. 하상 세굴깊이는 조정지댐으로 부터 하류 20 km 구간에서 평균 약 2.6 m였다. 1차원 유사모형인 GSTAR-1D를 이용하여 장기하상변동을 예측하였는데 최심하상고는 2013-2015년 사이에 안정된 상태에 도달하는 것으로 나타났다. 합천 조정지댐에 의해 홍수기에 발생되는 흐름파가 하류 하천 지형변화에 미치는 영향을 파악하기 위해 해석적인 방법을 개발하고 유사모의모형으로 예측한 값과 비교 검토한 결과, 일주기파(daily pulse)와 홍수피크(flood peak)는 각각의 평균값이 흐를 때와 비교하여 하천지형변화에 훨씬 큰 영향을 미치는 것으로 나타났는데 이는 각각의 평균일 경우 보다 21%와 15%의 유사이송량의 증가를 보여주었다.

부과방식 공적연금의 거시경제적 영향 (Macroeconomic Consequences of Pay-as-you-go Public Pension System)

  • 박창균;허석균
    • KDI Journal of Economic Policy
    • /
    • 제30권2호
    • /
    • pp.225-270
    • /
    • 2008
  • 본 연구는 간단한 일반균형 중첩세대모형을 사용하여 공적연금의 거시경제적 영향에 대한 정성적(qualitative) 분석 결과를 제시하는 것을 목적으로 한다. 이는 분석적인(analytical) 방법으로 균형을 찾고 그 성질을 탐구하는 것이 불가능하여 다양한 형태의 수치 분석적 기법을 동원하는 기존 선행연구들이 제시하고 있는 정량적(quantitative) 분석의 결과를 이론적으로 해석할 수 있는 기제를 마련한다는 차원에서 의미를 가지는 것으로 평가된다. 본 연구는 우선 논의의 단순화를 위해 확정급여(defined benefit)형 부과방식(pay-as-you-go) 공적연금체제하의 2세대 일반균형 중첩세대모형을 제시하고 이로부터 명시적인 균형해를 도출한다. 다음으로 본 연구에서는 공적연금의 존재 및 그로 인한 이전재원규모의 증감, 고령화를 비롯한 경제활동인구의 감소 등과 같은 상황이 경제의 자본 축적 및 자본의 기대수익률에 미치는 영향을 분석한다. 더불어 기본모형의 신용제약 존재 여부, 그리고 확정기여(defined contribution)형 부과방식 혹은 적립방식(funded system) 공적연금의 도입에 따른 거시경제적 영향을 논의한다. 그 결과 공적연금의 도입 및 이전재원규모의 증가는 자본 축적에 부정적인 영향을 미친다는 사실을 확인하였다. 다음으로 고령화의 진전이 자본 축적에는 부정적인 결과를 초래하지만 자본의 기대 수익률에 미치는 영향에 대해서는 확정적인 결론을 내릴 수 없었음을 발견하였다. 다만, 위험자산, 즉 자본에 지급되는 위험 프리미엄이 고령화가 가속화되는 시기에는 커지는 반면 고령화의 진전이 더디어지는 시기에는 작아진다는 결과를 도출함으로써 고령화에 따른 자산시장 붕괴(meltdown) 현상의 발생가능성을 배제할 수는 없으나 부과방식 공적연금하에서는 그 가능성이 그리 크지 않을 수도 있음을 확인하였다. 한편, 확정급여형에 비하여 확정기여형의 공적연금이 시장에서 거래되는 위험자산인 자본 축적을 구축하는 경향이 더 크다는 사실을 확인하였는데, 이는 저축의 주체인 청년층이 확정기여형 공적연금의 수급권을 자본과 대체관계를 형성하는 대안적 위험자산으로 인식하기 때문인 것으로 나타났다.

  • PDF

트윗 데이터를 활용한 IT 트렌드 분석 (An Analysis of IT Trends Using Tweet Data)

  • 이진백;이충권;차경진
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.143-159
    • /
    • 2015
  • 불확실한 환경변화에 대처하고 장기적 전략수립을 위해 기업에게 있어서 IT 트렌드에 대한 예측은 오랫동안 중요한 주제였다. IT 트렌드에 대한 예측을 기반으로 새로운 시대에 대한 인식을 하고 예산을 배정하여 빠르게 변화하는 기술의 추세에 대비할 수 있기 때문이다. 해마다 유수의 컨설팅업체들과 조사기관에서 차년도 IT 트렌드에 대해서 발표되고는 있지만, 이러한 예측이 실제로 차년도 비즈니스 현실세계에서 나타났는지에 대한 연구는 거의 없었다. 본 연구는 현존하는 빅데이터 기술을 활용하여 서울지역을 중심으로 지난 8개월동안(2013년 5월1일부터 2013년12월31까지) 정보통신산업진흥원과 한국정보화진흥원에서 2012년 말에 발표한 IT 트렌드 토픽이 언급된 21,589개의 트윗 데이터를 수집하여 분석하였다. 또한 2013년에 나라장터에 올라온 프로젝트들이 IT트렌드 토픽과 관련이 있는지 상관관계분석을 실시하였다. 연구결과, 빅데이터, 클라우드, HTML5, 스마트홈, 테블릿PC, UI/UX와 같은 IT토픽은 시간이 지날수록 매우 빈번하게 언급되어졌으며, 이 같은 토픽들은 2013년 나라장터 공고 프로젝트 데이터와도 매우 유의한 상관관계를 가지고 있는 것을 확인할 수 있었다. 이는 전년도(2012년)에 예측한 트렌드들이 차년도(2013년)에 실제로 트위터와 한국정부의 공공조달사업에 반영되어 나타나고 있는 것을 의미한다. 본 연구는 최신 빅데이터툴을 사용하여, 유수기관의 IT트렌드 예측이 실제로 트위터와 같은 소셜미디에서 생성되는 트윗데이터에서 얼마나 언급되어 나타나는지 추적했다는 점에서 중요한 의의가 있고, 이를 통해 트위터가 사회적 트랜드의 변화를 효율적으로 추적하기에 유용한 도구임을 확인하고자 할 수 있었다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

전립선암쥐모형의 신생혈관생성의 평가를 위해 시행된 역동적 조영 증강 초음파에서 얻은 변수간의 상관성연구 (The Correlations of Parameters Using Contrast Enhanced Ultrasonography in the Evaluation of Prostate Cancer Angiogenesis)

  • 황성일;이학종;김길중;정진행;정현숙;전종준
    • Ultrasonography
    • /
    • 제32권2호
    • /
    • pp.132-142
    • /
    • 2013
  • 목적: 전립선암 (PC-3, LNCaP)의 이종이식쥐 모델에서 초음파 조영제를 이용하여 측정한 시간-신호강도 곡선을 통해 얻은 역학적 변수를 조직병리적 변수와 비교하고자 하였다. 대상 및 방법: 20마리의 누드마우스에 인간전립선암세포(15 PC-3, 5 LNCaP)를 다리에 주입하여 이종이식쥐 모델을 제작하였다. 이후 $500{\mu}L$의 2세대 초음파 조영제인 Sonovue를 후안와정맥을 통해 주입하였다. 관심영역은 종양의 전체를 포함할 수 있게 그린 후, 시간-신호강도 곡선을 얻고 이를 감마변량함수에 적합시켰다. 최고신호강도(A), 최고도달시간 (Tp), 최고유입률 (washin), 최고 유출률 (washout), 50초까지의 곡선하면적 ($AUC_{50}$), 유입기면적 ($AUC_{in}$), 유출기면적 ($AUC_{out}$) 등을 감마변량함수에서 도출하였다. VEGF와 CD31에 대한 면역조직화학염색법을 시행하였고, 종양부피, 시야당 VEGF 면적백분율, CD31 양성 미세혈관수 (MVD) 등을 계산한 후 이를 시간신호강도에서 얻은 역학적 변수와 상관성을 조사하였다. 결과: PC-3 와 LNCaP간 동적 및 조직병리학적 변수의 통계적 차이는 없었다. MVD는 A (r=0.625, p=0.003), washin (r=0.462, p=0.040), AUC (r=0.604, p=0.005), $AUC_{out}$ (r=0.587, p=0.007) 과 유의한 상관관계를 보였다. 또한 종양부피와 $AUC_{50}$ (r=0.481, p=0.032), washin(r=0.662, p=0.001), $AUC_{out}$ (r=0.547, p=0.012) 도 유의한 양의 상관관계를 보였으며, washout은 MVD (r=-0.454, p=0.044) 및 종양부피 (r=-0.464, p=0.039)에 모두 음의 상관관계를 보였다. 그러나 시야당 VEGF 면적백분율은 역학적 변수와 유의한 상관관계를 보이지 않았다. 결론: MVD는 다수의 역학적 변수와 상관관계를 보였다. 초음파 조영제를 이용한 초음파는 전립선암 동물모델에서 종양의 혈관성을 예측할 수 있는 가능성을 보였다.

지형에 따른 강원지역의 강설입자 크기 분포 특성 분석 (Characteristics Analysis of Snow Particle Size Distribution in Gangwon Region according to Topography)

  • 방원배;김권일;염대진;조수정;이청룡;이대형;예보영;이규원
    • 한국지구과학회지
    • /
    • 제40권3호
    • /
    • pp.227-239
    • /
    • 2019
  • 강원지역은 우리나라의 다설지로서 복잡한 지형 때문에 강설량의 공간변동성이 크다. 특히 동풍조건에서 강설이 발생할 시 강설량의 공간적 변동을 예측하기 어렵다. 동풍조건에서는 강원지역 내 위치에 따라 대기환경조건이 다르며 이는 강설의 특성에도 영향을 줄 수 있다. 본 연구에서는 동풍 조건에서 태백산맥의 풍상측과 풍하측에서 강설의 미세물리적 특성을 서로 비교 분석하였다. 강원지역 내 4개 관측지점을 선정하여 파시벨 수적계로 입자크기분포를 관측하였다. 얻어진 강설입자 크기 분포의 특성을 풍상측과 풍하측간 비교한 결과, 풍상측의 강설입자 크기 분포는 풍하측에 비해 넓은 분포를 가졌고 작은 강설입자의 수도 많았다. 강설입자의 수농도에 비례하는 보편특성수농도와 강설입자의 직경에 비례하는 보편특성직경 둘 다 풍상측에서 상대적으로 큰 값을 보였다. 또한, 얼음수함량과 강설강도 비교에서도 풍상측 지점에서 큰 평균값을 가졌다. 이 결과가 나타난 원인은 태백산맥 산사면에서 공기덩어리의 강제적 상승효과로 풍상측 지점 상공에 새로운 강설입자의 생성이 활발했기 때문으로 추정된다. 또한, 풍상측은 따뜻하고 습한 동풍이 불어오므로 이로 인해 지상기온이 $0^{\circ}C$ 근처에 머무르며 강한 부착과정이 일어나기 좋은 조건이다.

다중 레이블 분류의 정확도 향상을 위한 스킵 연결 오토인코더 기반 레이블 임베딩 방법론 (Label Embedding for Improving Classification Accuracy UsingAutoEncoderwithSkip-Connections)

  • 김무성;김남규
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.175-197
    • /
    • 2021
  • 최근 딥 러닝 기술의 발전으로 뉴스, 블로그 등 다양한 문서에 포함된 텍스트 분석에 딥 러닝 기술을 활용하는 연구가 활발하게 수행되고 있다. 다양한 텍스트 분석 응용 가운데, 텍스트 분류는 학계와 업계에서 가장 많이 활용되는 대표적인 기술이다. 텍스트 분류의 활용 예로는 정답 레이블이 하나만 존재하는 이진 클래스 분류와 다중 클래스 분류, 그리고 정답 레이블이 여러 개 존재하는 다중 레이블 분류 등이 있다. 특히, 다중 레이블 분류는 여러 개의 정답 레이블이 존재한다는 특성 때문에 일반적인 분류와는 상이한 학습 방법이 요구된다. 또한, 다중 레이블 분류 문제는 레이블과 클래스의 개수가 증가할수록 예측의 난이도가 상승한다는 측면에서 데이터 과학 분야의 난제로 여겨지고 있다. 따라서 이를 해결하기 위해 다수의 레이블을 압축한 후 압축된 레이블을 예측하고, 예측된 압축 레이블을 원래 레이블로 복원하는 레이블 임베딩이 많이 활용되고 있다. 대표적으로 딥 러닝 모델인 오토인코더 기반 레이블 임베딩이 이러한 목적으로 사용되고 있지만, 이러한 기법은 클래스의 수가 무수히 많은 고차원 레이블 공간을 저차원 잠재 레이블 공간으로 압축할 때 많은 정보 손실을 야기한다는 한계가 있다. 이에 본 연구에서는 오토인코더의 인코더와 디코더 각각에 스킵 연결을 추가하여, 고차원 레이블 공간의 압축 과정에서 정보 손실을 최소화할 수 있는 레이블 임베딩 방법을 제안한다. 또한 학술연구정보서비스인 'RISS'에서 수집한 학술논문 4,675건에 대해 각 논문의 초록으로부터 해당 논문의 다중 키워드를 예측하는 실험을 수행한 결과, 제안 방법론이 기존의 일반 오토인코더 기반 레이블 임베딩 기법에 비해 정확도, 정밀도, 재현율, 그리고 F1 점수 등 모든 측면에서 우수한 성능을 나타냄을 확인하였다.