• 제목/요약/키워드: random search

검색결과 491건 처리시간 0.03초

양질콩 품종육성을 위한 고함황단백질 및 Iopoxygenase 저활성도 품종의 탐색과 그의 유전 및 선발효과 1. 고함황 아미노산 품종의 탐색과 그의 유전 및 선발효과 (Studies on the Search for Varieties of higher Sulfur-Containing Protein with Lower Lipoxygenase Activity and their Inheritance and Selection Efficiency for the Breeding of Good Quality Soybean Cultivar 1. Search for Varieties with Higher Sulfur-Containing Amino Acids and their Inheritance and Selection Efficiency)

  • 이홍석;박의호;구자환;심재욱
    • 한국작물학회지
    • /
    • 제38권6호
    • /
    • pp.499-506
    • /
    • 1993
  • 콩의 함황아미노산 함량의 향상을 위한 유전육종학적 기초연구의 일환으로 서울대학교 농학과에서 유지해오고 있는 품종 및 계통과 국내 수집 계통 등 518점을 공시재료로 하여 황함량을 분석조사하고 아울러 함황단백질, 함황아미노산과의 관계를 알아보고 황함량의 유전현상과 잡종초기세대에 있어서의 황함량의 선발효과를 분석조사하였다. 종실중의 황함량은 재배중은 0.20~0.45%의 변리로 평균함량은 0.33%였고 국내 수집 야생콩(30계통)은 0.19~0.62%의 변이로 평균 0.35%였다. 종실중의 황함량은 함황단백질 및 함황아미노산과 각각 r=0.924$^{**}$, r=0.974$^{**}$의 높은 상관관계를 보였고 종실 특성 및 생육 특성 구분에 의한 품종 또는 계통군의 황함량은 성숙이 늦은 것, 종피에 피분이 존해하는 것, 푸른 자엽색인 것들의 황함량평균이 높았으며 종실중의 황함량과 당함량 및 100립증과는 각각 r=-0.312$^{**}$, r=-0.383$^{**}$의 유의상관을 나타냈다. 종실중 황함량의 유전현상은 양적형질의 유전현상을 나타냈으며 황함량을 높이는 상가적효과가 우성효과보다 큰 것으로 나타났고 종실중의 황함량을 높게하는 유전자와 낮게하는 유전자의 분포비율은 비슷한 것으로 추정되었다. 그리고 추정된 협의의 유전력과 광의의 유전력은 0.75(Hn), 0.88(Hb)로 나타났고 선발효율은 고, 저 양방향으로의 조기세대 선발에 의해 높은 방향의 선발에서 14.7~18.8%가 높아졌고, 낮은 방향의 선발에서 8.8~15.6%가 저하되었으며 모든 경우 유의하게 선발효과가 있었다.

  • PDF

합성곱 신경망의 비지니스 응용: 런웨이 이미지를 사용한 의류 분류를 중심으로 (Business Application of Convolutional Neural Networks for Apparel Classification Using Runway Image)

  • 서이안;신경식
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.1-19
    • /
    • 2018
  • 최근 딥러닝은 오디오, 텍스트 및 이미지 데이터와 같은 비 체계적인 데이터를 대상으로 다양한 추정, 분류 및 예측 문제에 사용 및 적용되고 있다. 특히, 의류산업에 적용될 경우 딥러닝 기법을 활용한 의류 인식, 의류 검색, 자동 제품 추천 등의 심층 학습을 기반으로 한 응용이 가능하다. 이 때의 핵심모형은 합성곱 신경망을 사용한 이미지 분류이다. 합성곱 신경망은 입력이 전달되고 출력에 도달하는 과정에서 가중치와 같은 매개 변수를 학습하는 뉴런으로 구성되고, 영상 분류에 가장 적합한 방법론으로 사용된다. 기존의 의류 이미지 분류 작업에서 대부분의 분류 모형은 의류 이미지 자체 또는 전문모델 착용 의류와 같이 통제된 상황에서 촬영되는 온라인 제품 이미지를 사용하여 학습을 수행한다. 하지만 본 연구에서는 통제되지 않은 상황에서 촬영되고 사람들의 움직임과 다양한 포즈가 포함된 스트릿 패션 이미지 또는 런웨이 이미지를 분류하려는 상황을 고려하여 분류 모형을 훈련시키는 효과적인 방법을 제안한다. 이동성을 포착하는 런웨이 의류 이미지로 모형을 학습시킴으로써 분류 모형의 다양한 쿼리 이미지에 대한 적응력을 높일 수 있다. 모형 학습 시 먼저 ImageNet 데이터셋을 사용하여 pre-training 과정을 거치고 본 연구를 위해 수집된 32 개 주요 패션 브랜드의 2426개 런웨이 이미지로 구성된 데이터셋을 사용하여 fine-tuning을 수행한다. 학습 과정의 일반화를 고려해 10번의 실험을 수행하고 제안된 모형은 최종 테스트에서 67.2 %의 정확도를 기록했다. 본 연구 모형은 쿼리 이미지가 런웨이 이미지, 제품 이미지 또는 스트릿 패션 이미지가 될 수 있는 다양한 분류 환경에 적용될 수 있다. 구체적으로는 패션 위크에서 모바일 어플리케이션 서비스를 통해 브랜드 검색을 용이하게 하는 서비스를 제공하거나, 패션 잡지사의 편집 작업에 사용되어 브랜드나 스타일을 분류하고 라벨을 붙일 수 있으며, 온라인 쇼핑몰에서 아이템 정보를 제공하거나 유사한 아이템을 추천하는 등의 다양한 목적에 적용될 수 있다.

C소아치과의원의 개량형 Dentocult-SM검사를 이용한 계속관리에 관한 조사 연구 (A study on the incremental oral health care of C pediatric clinic using a Dentocult-SM test)

  • 우희선
    • 한국치위생학회지
    • /
    • 제8권2호
    • /
    • pp.39-51
    • /
    • 2008
  • The research was conducted to 100 child patients selected by random sampling, which got a Dentocult-SM test in the first visit and then was being continuously managed, out of child patients of a pediatric clinic located in Gyeonggi-do. The period of there search is one year from June 2007 to May 2008, Using Dentocult-SM test, we analyzed the correlation between the distribution of dental plaque, a streptococcus mutans in saliva and condition of dental caries cavity in the teeth of child patients, then we measured the distribution of a streptococcusmutans. According to SM score, we applied incremental oral heath care for child patients to clinical and obtained the following results, 1. In terms of the age of child patients in research, the number of 3 years old patients was 29(lst ranked), the number of 2 years old patients was 28(2nd ranked). 2. The result of SM score showed that female child patients(52.0%) was higher than male ones in negative, male child patients(52.0%) was higher than female ones in mild, female child patients(68.2%) was higher than male ones in moderate, male child patients(57.1%) was higher than female ones in severe. 3. At the first visit, the SM score showed statistically remarkable difference between dt and dmft. We can also confirm the average of severe is the highest. 4. At the second visit, the SM score showed statistically remarkable difference among dt, ft, and dmft index We can also confirm the average of severe is the highest. 5. At the third visit, The SM score showed statistically remarkable difference among dt, ft, and dmft index We can also confirm the average of severe is the highest. 6. The comparison of dmft index differences to SM score showed statistically no remarkable difference in incremental oral heath care for negative and mild, In addition to that, we can confirm that the incremental oral heath care makes statistically remarkable differences in moderate and severe. 7. The comparison of dt index differences to SM score showed statistically no remarkable difference in incremental oral heath care for negative, mild, and moderate, In addition to that, we can con firm that the incremental oral heath care makes statistically remarkable differences in severe. 8. The comparison of mt index differences to SM score showed statistically no remarkable difference in incremental oral heath care for mild and moderate, In addition to that, we can confirm that the incremental oral heath care makes statistically remarkable differences m severe. 9. The comparison of ft index differences to SM score showed statistically no remarkable difference in incremental oral heath care for mild, In addition to that, we can confirm that the incremental oral heath care makes statistically remarkable differences in negative, moderate, and severe. 10. According to the comparison of dmft index to the age, the 4 years old patients showed the highest number(5.50 in the first visit and 6,08 in the second one). In the third visit, the 6 years old patients showed the highest number(7.00). By the above results, we can find that the incremental oral heath care by SM score makes the results of oral care better. Therefore, the improvement or maintenance in oral health of child patients needs continuing personal oral health management and regular systematic management focused on prevention by the specialist.

  • PDF

비타민 D와 소아 호흡기 감염의 위험성: 무작위 대조 연구에 대한 체계적 문헌고찰 및 메타분석 (Vitamin D and Risk of Respiratory Tract Infections in Children: A Systematic Review and Meta-analysis of Randomized Controlled Trials)

  • 안종균;이도경;김경효
    • Pediatric Infection and Vaccine
    • /
    • 제23권2호
    • /
    • pp.109-116
    • /
    • 2016
  • 목적: 최근 관찰연구들에서 낮은 혈중 25(OH)D 농도가 호흡기 감염과 관련이 있다는 결과들이 보고되고 있다. 하지만, 소아의 무작위 대조 연구에서 비타민 D의 투여가 호흡기 감염을 예방하는 효과에 대해서는 아직 논란의 여지가 있다. 이번 연구는 비타민 D 보충 요법이 호흡기 감염 예방에 미치는 영향을 체계적 문헌고찰과 메타분석을 통하여 알아보고자 한다. 방법: MEDLINE, EMBASE, the Cochrane Central Register of Controlled Trial을 이용하여 소아의 호흡기 감염 예방을 위해 비타민 D 보충을 실험한 무작위 대조 연구들이 분석 대상에 포함되었다. 문헌의 비뚤림 위험도를 평가하기 위해 코크란 연합의 질 평가 방법(Cochrane Collaboration's tool for assessing the risk of bias)을 사용하였다. 연구별로 상대위험도와 95% 신뢰구간을 추출한 후, Review Manager 5.3을 이용하여 메타분석을 시행하였다. 결과: 총 7편의 무작위 대조 연구들이 메타분석 대상에 포함되었다. 임의효과모형을 사용하여 산출된 전체 비타민 D 보충군에서 상대적 위험도는 0.82 (95% CI: 0.69-0.98)이었고, 이질성에 대한 $I^2=62%$ 이었다. 연구 간의 이질성 원인을 파악하기 위해 시행한 하위 집단 분석에서 추적 관찰 기간이 1년 미만인 경우, 대상군의 나이가 5세 이상인 경우, 대상군이 환자인 경우, 비타민 D 투여 요법이 매일 요법인 경우 이질성이 감소하였다. 깔때기 그림에서 출판 비뚤림의 가능성을 시사하는 비대칭 소견을 보였다. 결론: 메타분석 결과는 소아에서 비타민 D 보충요법이 호흡기 감염을 예방하는 데 효과가 있을 수 있음을 보여준다. 하지만, 이번 연구에서는 분석대상에 포함된 연구들이 적고, 연구들 간에 이질성이 존재하며, 출판 비뚤림이 존재할 가능성이 있어 결과를 주의해서 해석할 필요가 있다.

Sleep Duration and Cancer Risk: a Systematic Review and Meta-analysis of Prospective Studies

  • Zhao, Hao;Yin, Jie-Yun;Yang, Wan-Shui;Qin, Qin;Li, Ting-Ting;Shi, Yun;Deng, Qin;Wei, Sheng;Liu, Li;Wang, Xin;Nie, Shao-Fa
    • Asian Pacific Journal of Cancer Prevention
    • /
    • 제14권12호
    • /
    • pp.7509-7515
    • /
    • 2013
  • To assess the risk of cancers associated with sleep duration using meta-analysis of published cohort studies, we performed a comprehensive search using PubMed, Embase and Web of Science through October 2013. We combined hazard ratios (HRs) from individual studies using meta-analysis approaches. A random effect dose-response analysis was used to evaluate the relationship between sleep duration and cancer risk. Subgroup analyses and sensitivity analyses were also performed. Publication bias was evaluated using Funnel plots and Begg's test. A total of 13 cohorts from 12 studies were included in this meta-analysis, which included 723, 337 participants with 15, 156 reported cancer outcomes during a follow-up period ranging from 7.5 to 22 years. The pooled adjusted HRs were 1.06 (95% CI: 0.92, 1.23; P for heterogeneity =0.003) for short sleep duration, 0.91 (95% CI: 0.78, 1.07; P for heterogeneity <0.0001) for long sleep duration. In subgroup analyses stratified by cancer type, long duration of sleep showed an inverse relation with hormone-related cancer (HR=0.79; 95% CI: 0.65, 0.97; P for heterogeneity =0.009) and a greater risk of colorectal cancer (HR=1.29; 95% CI: 1.09, 1.52; P for heterogeneity =0.346). Further meta-analysis on dose-response relationships showed that the relative risks of cancer were 1.00 (95% CI: 0.99, 1.01; P for linear trend=0.9151) for one hour of sleep increment per day, and 1.00 (95% CI: 0.98, 1.01; P for linear trend=0.7749) for one hour of sleep increment per night. No significant dose-response relationship between sleep duration and cancer was found on non-linearity testing (P=0.5053). Our meta-analysis suggests a positive association between long sleep duration and colorectal cancer, and an inverse association with incidence of hormone related cancers like those in the breast. Studies with larger sample size, longer follow-up times, more cancer types and detailed measure of sleep duration are warranted to confirm these results.

온톨로지 지식 기반 특성치를 활용한 Bidirectional LSTM-CRF 모델의 시퀀스 태깅 성능 향상에 관한 연구 (Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature)

  • 진승희;장희원;김우주
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.253-266
    • /
    • 2018
  • 본 연구는 질의 응답(QA) 시스템에서 사용하는 개체명 인식(NER)의 성능을 향상시키기 위하여 시퀀스 태깅 방법론을 적용한 새로운 방법론을 제안한다. 사용자의 질의를 입력 받아 데이터베이스에 저장된 정답을 추출하기 위해서는 사람의 언어를 컴퓨터가 알아들을 수 있도록 구조화 질의어(SQL)와 같은 데이터베이스의 언어로 전환하는 과정이 필요한데, 개체명 인식은 사용자의 질의에서 데이터베이스에 포함된 클래스나 데이터 명을 식별하는 과정이다. 기존의 데이터베이스에서 질의에 포함된 단어를 검색하여 개체명을 인식하는 방식은 동음이의어와 문장성분 구를 문맥을 고려하여 식별하지 못한다. 다수의 검색 결과가 존재하면 그들 모두를 결과로 반환하기 때문에 질의에 대한 해석이 여러 가지가 나올 수 있고, 계산을 위한 시간복잡도가 커진다. 본 연구에서는 이러한 단점을 극복하기 위해 신경망 기반의 방법론을 사용하여 질의가 가지는 문맥적 의미를 반영함으로써 이러한 문제를 해결하고자 했고 신경망 기반의 방법론의 문제점인 학습되지 않은 단어에 대해서도 문맥을 통해 식별을 하고자 하였다. Sequence Tagging 분야에서 최신 기술인 Bidirectional LSTM-CRF 모델을 도입함으로써 신경망 모델이 가진 단점을 해결하였고, 학습되지 않은 단어에 대해서는 온톨로지 기반 특성치를 활용하여 문맥을 반영한 추론을 사용하였다. 음악 도메인의 온톨로지(Ontology) 지식베이스를 대상으로 실험을 진행하고 그 성능을 평가하였다. 본 연구에서 제안한 방법론인 L-Bidirectional LSTM-CRF의 성능을 정확하게 평가하기 위하여 학습에 포함된 단어들뿐만 아니라 학습에 포함되지 않은 단어들도 포함한 질의를 평가에 사용하였다. 그 결과 L-Bidirectional LSTM-CRF 모형을 재학습 시키지 않아도 학습에 포함되지 않은 단어를 포함한 질의에 대한 개체명 인식이 가능함을 확인하였고, 전체적으로 개체명 인식의 성능이 향상됨을 확인할 수 있었다.

한국비행 청소년의 가정환경 및 개인내적 특성 (THE CHARACTERISTICS OF THEIR FAMILY ENVIRONMENT AND CHARACTER TRAIT AMONG DELINQUENT ADOLESCENTS IN KOREA)

  • 김헌수;김현실
    • Journal of the Korean Academy of Child and Adolescent Psychiatry
    • /
    • 제8권1호
    • /
    • pp.57-69
    • /
    • 1997
  • 본 연구의 목적은 비행청소년의 가정환경, 개인내적 특성을 규명함으로써 청소년 비행행동의 원인요인을 탐색하기 위함이다. 본 연구는 조사연구로써 자료수집방법은 설문지조사법, 학생생활기록부, 소년원생활기록부 참조와 필요시 면담방법을 병행하였다. 연구대상자는 현재 중학교 1학년에서 고등학교 3학년까지 재학중인 학생 청소년 1,236명과 소년원, 분류심사원에 재소중인 비행, 범죄청소년 707명을 선정하였으며 연령범위는 12세에서 18세 사이였다. 표본추출방법은 비례층화표본추출법을 적용하여 지역(서울-지방) 및 조사기관의 유형(중학교, 고등학교, 소년원, 분류심사원)을 함께 고려하여 조사대상집단을 무작위로 선정하였다. 총표집 대상자 1,943명중 불충분한 응답자 80명을 제외한 1,863명을 연구대상으로 하여 응답률은 95.9%(비행군:92.9%, 학생군:97.6%)이었다. 자료처리는 연구자와 보조연구원들이 면담, 설문지법, 학교생활기록부나 기타 소년원재원기록에서 얻은 자료를 종합검토하여 불충분한 자료는 제거한후 SAS 프로그램을 통하여 분석하였다. 본 연구에서 사용한 통계방법은 Chi-square 검정과 주성분 분석등이었다. 본 연구에서 제시한 가설 검정 결과는 다음과 같다. 1) 비행청소년의 가정환경은 학생청소년의 가정환경보다 보다 더 역기능적이었다. 즉 비행청소년은 학생청소년에 비해 부모의 자녀 양육방식이 일관성이 적었으며 가정안정도는 낮았고 부모-자녀 관계 및 가족간의 관계도 원만하지 않았으며 가족원의 가정만족도도 낮았다. 그러나 본 조사결과에서는 비행청소년의 모친이 학생청소년의 모친보다 사회활동이 낮게 나타나 비행청소년의 모친이 학생청소년의 모친보다 사회활동이 높을 것이다는 가설은 지지받지 못하였다. 2) 비행청소년의 성격특성은 학생청소년의 성격보다 더 부적응적이었다. 즉 비행청소년은 학생청소년에 비해 욕구좌절, 반사회적 성격양상, 정신신체증상호소성향, 우울성향은 높은 반면 사회성향은 낮았다.

  • PDF

EST로부터 개발된 SSR 마커를 이용한 상추 유전자원 및 유통품종의 식별 (Identification of Lettuce Germplasms and Commercial Cultivars Using SSR Markers Developed from EST)

  • 홍지화;권용삼;최근진;;김두환
    • 원예과학기술지
    • /
    • 제31권6호
    • /
    • pp.772-781
    • /
    • 2013
  • 본 연구의 목적은 상추(Lactuca sativa)의 expressed sequence tag(EST)로부터 simple sequence repeat(SSR) 마커를 개발하고, 개발된 EST-SSR 마커를 이용하여 상추의 3가지 야생종의 유전자원 9점과 61개의 유통품종을 식별하는 것이다. NCBI 데이터베이스로부터 총 81,330개의 상추 EST를 대상으로 SSR을 탐색하였고, 총 4,229개의 SSR을 발견하였다. SSR의 반복 motif 중 trinucleotide(59.12%, 2,500개)가 가장 많았고, 그 다음으로 dinucleotide(29.70%, 1,256개), hexanucleotide(6.62%, 280개) 순의 분포를 나타내었다. EST로부터 총 474개의 EST-SSR primers를 개발하였고, 이 중 267개의 primer를 9점의 유전자원과 61품종에 대한 유전적 다양성 평가에 활용하였다. 267개의 마커 중 47개의 EST-SSR 마커가 7개 품종 내에서 다형성을 보였으며, 이 중 다형성 정도와 반복 재현성 및 밴드의 선명성을 고려하여 26개의 EST-SSR 마커를 선발하였다. 최종 선발된 26개의 SSR 마커를 이용하여 70개 공시재료를 분석한 결과 대립유전자 수는 총 127개였으며, 최소 2개에서 9개의 분포를 나타내었으며 마커당 평균 대립유전자 수는 4.88개를 나타내었다. PIC평균값은 0.542로 나타났으며, 0.269-0.768의 범위를 나타내었다. 70개 공시재료의 유전적 거리는 0.05-0.94로 나타났으며, 유사도 지수 0.34를 기준으로 할 때 7개의 주요 그룹으로 나누어졌다. 26개의 EST-SSR 마커를 이용한 유전적 다양성 분석 결과 9점의 유전자원과 61개의 유통품종이 마커의 유전자형에 의해 모두 식별이 되었다. 본 연구를 통해 신규 개발된 EST-SSR 마커는 상추의 품종식별과 구별성, 균일성, 안정성 검정에 유용하게 활용될 수 있을 것으로 사료된다.

한국인 치료순응도 향상을 위한 개입 효과에 대한 메타분석 (Meta-Analysis on Effectiveness of Intervention to Improve Patient Compliance in Korean)

  • 김춘배;조희숙;현숙정;박애화
    • 보건행정학회지
    • /
    • 제12권2호
    • /
    • pp.23-42
    • /
    • 2002
  • 본 연구는 최근 20년간의 치료순응도 관련 국내연구를 수집하여 연구 동향을 파악하고, 계량적 메타분석을 통하여 순응도 향상을 위한 개입 효과를 산출하여 제시하고자 하였다. 연구 결과는 다음과 같다. 첫째, 1980년대 이후 20여년간 치료순응도와 관련된 연구는 133편에 달하였다. 이중 순응도 향상을 위한 실험연구가 11.3%, 단면연구 및 전향적 관찰연구가 88.7%에 해당하였으며, 후자의 경우 주로 순응도 향상 관련 요인에 관한 연구들이었다. 둘째, 연구대상의 상병 종류는 고혈압이 전체 연구의 24.1%로 가장 많았고, 다음으로 기타 만성질환, 당뇨병 및 결핵의 순으로 주로 이환기간이 길고 완치가 어려워서 치료순응도에 많은 노력을 기울일 필요가 있는 질환들이었다. 셋째, 133편 논문의 질적 메타분석과정을 거쳐 선별기준에 부합되는 논문은 10편으로 순응도 측정은 고혈압의 경우 혈압 조절과 같은 건강효과를, 당뇨병의 경우 뇨당, 혈당 저하와 같은 직접적인 지표 측정의 방법을 측정하였고, 이외에도 약속 이행과 환자의 주관적 보고, 약물 복용이행과 같은 객관적 지표를 측정하였다. 한편 개입방법으로는 행동변화를 적용한 1편의 연구 이외에 교육적, 행동적 및 정서적 개입의 방법을 모두 병행하여 적용하고 있었다. 넷째, 이들 중 6편의 논문에 대하여 순응도 향상에 대한 개입의 통합효과크기를 산출한 결과, 개입을 하지 않은 군에 비하여 개입이 이루어진 경우에 치료순응도 향상 효과는 4.1192여서 커지는 것으로 나타났다. 이를 다시 순응도 측정방법으로 구분하여 분석한 결과, 치료 순응도를 건강결과(혈압)로 측정한 경우 개입으로 인한 유효크기는 0.4679였고, 직접 측정지표(혈당/뇨당)에 의한 경우 개입 후 유효크기는 0.7753으로 나타나 순응도가 향상되었음을 알 수 있다. 이상의 결과에서 다양한 개입활동들이 환자의 치료순응도를 향상시키는 데 기여할 수 있음을 제시할 수 있다. 그러나 계량적 메타분석 기준에 부합되는 연구의 논문 수가 제한적이라는 한계점이 있으며, 연구에 사용되는 개입방법의 시도가 더욱 다양화될 필요성이 제시되고 있어 향후 이와 관련된 많은 연구들이 활성화되기를 기대한다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.