• 제목/요약/키워드: Random Model

검색결과 3,700건 처리시간 0.041초

지식이전 선행요인에 관한 다차원 분석: 사회적 자본 이론과 사회연결망 이론의 결합 (Multi-level Analysis of the Antecedents of Knowledge Transfer: Integration of Social Capital Theory and Social Network Theory)

  • 강민형;허용석
    • Asia pacific journal of information systems
    • /
    • 제22권3호
    • /
    • pp.75-97
    • /
    • 2012
  • Knowledge residing in the heads of employees has always been regarded as one of the most critical resources within a firm. However, many tries to facilitate knowledge transfer among employees has been unsuccessful because of the motivational and cognitive problems between the knowledge source and the recipient. Social capital, which is defined as "the sum of the actual and potential resources embedded within, available through, derived from the network of relationships possessed by an individual or social unit [Nahapiet and Ghoshal, 1998]," is suggested to resolve these motivational and cognitive problems of knowledge transfer. In Social capital theory, there are two research streams. One insists that social capital strengthens group solidarity and brings up cooperative behaviors among group members, such as voluntary help to colleagues. Therefore, social capital can motivate an expert to transfer his/her knowledge to a colleague in need without any direct reward. The other stream insists that social capital provides an access to various resources that the owner of social capital doesn't possess directly. In knowledge transfer context, an employee with social capital can access and learn much knowledge from his/her colleagues. Therefore, social capital provides benefits to both the knowledge source and the recipient in different ways. However, prior research on knowledge transfer and social capital is mostly limited to either of the research stream of social capital and covered only the knowledge source's or the knowledge recipient's perspective. Social network theory which focuses on the structural dimension of social capital provides clear explanation about the in-depth mechanisms of social capital's two different benefits. 'Strong tie' builds up identification, trust, and emotional attachment between the knowledge source and the recipient; therefore, it motivates the knowledge source to transfer his/her knowledge to the recipient. On the other hand, 'weak tie' easily expands to 'diverse' knowledge sources because it does not take much effort to manage. Therefore, the real value of 'weak tie' comes from the 'diverse network structure,' not the 'weak tie' itself. It implies that the two different perspectives on strength of ties can co-exist. For example, an extroverted employee can manage many 'strong' ties with 'various' colleagues. In this regards, the individual-level structure of one's relationships as well as the dyadic-level relationship should be considered together to provide a holistic view of social capital. In addition, interaction effect between individual-level characteristics and dyadic-level characteristics can be examined, too. Based on these arguments, this study has following research questions. (1) How does the social capital of the knowledge source and the recipient influence knowledge transfer respectively? (2) How does the strength of ties between the knowledge source and the recipient influence knowledge transfer? (3) How does the social capital of the knowledge source and the recipient influence the effect of the strength of ties between the knowledge source and the recipient on knowledge transfer? Based on Social capital theory and Social network theory, a multi-level research model is developed to consider both the individual-level social capital of the knowledge source and the recipient and the dyadic-level strength of relationship between the knowledge source and the recipient. 'Cross-classified random effect model,' one of the multi-level analysis methods, is adopted to analyze the survey responses from 337 R&D employees. The results of analysis provide several findings. First, among three dimensions of the knowledge source's social capital, network centrality (i.e., structural dimension) shows the significant direct effect on knowledge transfer. On the other hand, the knowledge recipient's network centrality is not influential. Instead, it strengthens the influence of the strength of ties between the knowledge source and the recipient on knowledge transfer. It means that the knowledge source's network centrality does not directly increase knowledge transfer. Instead, by providing access to various knowledge sources, the network centrality provides only the context where the strong tie between the knowledge source and the recipient leads to effective knowledge transfer. In short, network centrality has indirect effect on knowledge transfer from the knowledge recipient's perspective, while it has direct effect from the knowledge source's perspective. This is the most important contribution of this research. In addition, contrary to the research hypothesis, company tenure of the knowledge recipient negatively influences knowledge transfer. It means that experienced employees do not look for new knowledge and stick to their own knowledge. This is also an interesting result. One of the possible reasons is the hierarchical culture of Korea, such as a fear of losing face in front of subordinates. In a research methodology perspective, multi-level analysis adopted in this study seems to be very promising in management research area which has a multi-level data structure, such as employee-team-department-company. In addition, social network analysis is also a promising research approach with an exploding availability of online social network data.

  • PDF

메타분석 방법을 적용한 서울시 대기오염과 조기사망의 상관성 연구 (1991년$\sim$1995년) (A Meta-analysis of Ambient Air Pollution in Relation to Daily Mortality in Seoul, $1991\sim1995$)

  • ;김춘배;지선하;정용;이종태
    • Journal of Preventive Medicine and Public Health
    • /
    • 제32권2호
    • /
    • pp.177-182
    • /
    • 1999
  • 유럽과 미국을 비롯한 선진 산업국가에서 1930년에서 1950대 사이에 발생하였던 일련의 대기오염사건을 경험한 이후, 대기오염과 인체건강영향과의 상관성을 평가하려는 체계적인 연구수행이 있어왔다. 국내에서도 최근 2-3년 동안 단면적 연구 설계에서 벗어나 시계열적 분석방법을 적용한 연구결과들이 발표되었으며, 외국에서의 결과와 유사하게 현재 수준의 대기오염도에서도 인체건강영향 특히 조기사망발생과 유의한 상관성이 있음이 제시되었다. 특히 서울시를 대상으로 한 일련의 연구결과가 대기오염도와 일별사망과에 유의한 상관관계가 있음을 보이고 있어 이에 대한 보다 정밀한 연구수행 필요성이 제기되었다. 따라서 본 연구는 메타분석적 방법론을 적용하여 서울시내의 구별분석 결과를 통합하여 기존의 연구결과와 비교함으로써 대기오염과 인체건강영향의 원인적 상관성을 규명하는 보조적 자료를 제공하기 위하여 수행되었다. 대기오염 자동측정기가 설치된 서울시 내 총 18개 구를 대상으로 대기오염도와 사망과의 상관관계를 추정하는 구별 예측치를 산출하였다. 이렇게 산출된 각 개별 예측치는 전체로서 총괄되는 가중평균 예측치를 계산하기 위하여 사용되었으며 이 때 모수효과 모형 또는 랜덤효과 모형을 적용하여 가중평균 예측치를 산출하였다. 지역별 또는 구별 예측치간의 변이차를 검정하는 동질성 검정의 결과 세 오염물질의 경우 모두 지역간 변이가 큰 것으로 평가되었으며 따라서 랜덤효과 모형의 결과를 최종결과로 선정하여 제시하였다. 랜덤효과 모형의 결과를 보면 총부유분진과 아황산가스의 경우 일별사망과 유의한 상관관계가 있는 것으로 평가되었으나 오존의 경우는 그렇지 않았다. 또한 메타분석 결과가 기존의 연구결과와 비교할 때 유사하게 평가된 점으로 미루어 현재 수준의 대기오염도와 일별사망 또는 인체건강영향과 밀접한 상관관계가 있음을 알 수 있다. 메타분석 방법을 적용하였어도 직접적 개인노출평가가 이루어지지 않았다는 점에서 정보편견의 가능성을 제외할 수 없다. 그러나 이러한 메타분석 방법이 기존의 연구(서울시 전체를 대상으로 하는)에 비하여 정보편견을 어느정도 줄여줄 수 있을 것으로 기대되었으며, 분석결과 기존 연구에서 제시하는 것과 매우 유사함을 알 수 있다. 결론적으로 대기오염 역학 연구에 있어서 이와 같은 메타분석적 방법이 유용하며, 본 연구결과도 기존의 연구에서와 같이 현재 수준의 대기오염도가 인체 건강에 위해한 영향을 미칠 수 있음을 보여 준다는 점에서 향후 보다 강화된 대기오염관리 방안 마련의 필요성을 제기한다고 하겠다. 이를 위하여 대기 오염기준치의 강화뿐 아니라 대기오염에 민감한 인구집단, 즉 어린이나 노약자 등에 대한 각별한 감시와 연구수행이 필요시 된다.

  • PDF

온톨로지 지식 기반 특성치를 활용한 Bidirectional LSTM-CRF 모델의 시퀀스 태깅 성능 향상에 관한 연구 (Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature)

  • 진승희;장희원;김우주
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.253-266
    • /
    • 2018
  • 본 연구는 질의 응답(QA) 시스템에서 사용하는 개체명 인식(NER)의 성능을 향상시키기 위하여 시퀀스 태깅 방법론을 적용한 새로운 방법론을 제안한다. 사용자의 질의를 입력 받아 데이터베이스에 저장된 정답을 추출하기 위해서는 사람의 언어를 컴퓨터가 알아들을 수 있도록 구조화 질의어(SQL)와 같은 데이터베이스의 언어로 전환하는 과정이 필요한데, 개체명 인식은 사용자의 질의에서 데이터베이스에 포함된 클래스나 데이터 명을 식별하는 과정이다. 기존의 데이터베이스에서 질의에 포함된 단어를 검색하여 개체명을 인식하는 방식은 동음이의어와 문장성분 구를 문맥을 고려하여 식별하지 못한다. 다수의 검색 결과가 존재하면 그들 모두를 결과로 반환하기 때문에 질의에 대한 해석이 여러 가지가 나올 수 있고, 계산을 위한 시간복잡도가 커진다. 본 연구에서는 이러한 단점을 극복하기 위해 신경망 기반의 방법론을 사용하여 질의가 가지는 문맥적 의미를 반영함으로써 이러한 문제를 해결하고자 했고 신경망 기반의 방법론의 문제점인 학습되지 않은 단어에 대해서도 문맥을 통해 식별을 하고자 하였다. Sequence Tagging 분야에서 최신 기술인 Bidirectional LSTM-CRF 모델을 도입함으로써 신경망 모델이 가진 단점을 해결하였고, 학습되지 않은 단어에 대해서는 온톨로지 기반 특성치를 활용하여 문맥을 반영한 추론을 사용하였다. 음악 도메인의 온톨로지(Ontology) 지식베이스를 대상으로 실험을 진행하고 그 성능을 평가하였다. 본 연구에서 제안한 방법론인 L-Bidirectional LSTM-CRF의 성능을 정확하게 평가하기 위하여 학습에 포함된 단어들뿐만 아니라 학습에 포함되지 않은 단어들도 포함한 질의를 평가에 사용하였다. 그 결과 L-Bidirectional LSTM-CRF 모형을 재학습 시키지 않아도 학습에 포함되지 않은 단어를 포함한 질의에 대한 개체명 인식이 가능함을 확인하였고, 전체적으로 개체명 인식의 성능이 향상됨을 확인할 수 있었다.

데이터 증강을 통한 딥러닝 기반 주가 패턴 예측 정확도 향상 방안 (Increasing Accuracy of Stock Price Pattern Prediction through Data Augmentation for Deep Learning)

  • 김영준;김여정;이인선;이홍주
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.1-12
    • /
    • 2019
  • 인공지능 기술이 발전하면서 이미지, 음성, 텍스트 등 다양한 분야에 적용되고 있으며, 데이터가 충분한 경우 기존 기법들에 비해 좋은 결과를 보인다. 주식시장은 경제, 정치와 같은 많은 변수에 의해 영향을 받기 때문에, 주식 가격의 움직임 예측은 어려운 과제로 알려져 있다. 다양한 기계학습 기법과 인공지능 기법을 이용하여 주가 패턴을 연구하여 주가의 등락을 예측하려는 시도가 있어왔다. 본 연구는 딥러닝 기법 중 컨볼루셔널 뉴럴 네트워크(CNN)를 기반으로 주가 패턴 예측률 향상을 위한 데이터 증강 방안을 제안한다. CNN은 컨볼루셔널 계층을 통해 이미지에서 특징을 추출하여 뉴럴 네트워크를 이용하여 이미지를 분류한다. 따라서, 본 연구는 주식 데이터를 캔들스틱 차트 이미지로 만들어 CNN을 통해 패턴을 예측하고 분류하고자 한다. 딥러닝은 다량의 데이터가 필요하기에, 주식 차트 이미지에 다양한 데이터 증강(Data Augmentation) 방안을 적용하여 분류 정확도를 향상 시키는 방법을 제안한다. 데이터 증강 방안으로는 차트를 랜덤하게 변경하는 방안과 차트에 가우시안 노이즈를 적용하여 추가 데이터를 생성하였으며, 추가 생성된 데이터를 활용하여 학습하고 테스트 집합에 대한 분류 정확도를 비교하였다. 랜덤하게 차트를 변경하여 데이터를 증강시킨 경우의 분류 정확도는 79.92%였고, 가우시안 노이즈를 적용하여 생성된 데이터를 가지고 학습한 경우의 분류 정확도는 80.98%이었다. 주가의 다음날 상승/하락으로 분류하는 경우에는 60분 단위 캔들 차트가 82.60%의 정확도를 기록하였다.

  • PDF

손익공유형 민간투자사업의 투자위험분담 가치 산정 (Real Option Analysis to Value Government Risk Share Liability in BTO-a Projects)

  • 구석모;이성훈;이승재
    • 대한교통학회지
    • /
    • 제35권4호
    • /
    • pp.360-373
    • /
    • 2017
  • 국내 민간투자사업의 추진 방식 중 수익형 민간투자사업은 수요 위험이 존재하는 방식이다. 수요 위험이 현실화 될 경우 민간사업자는 예상보다 낮은 수입으로 인해 재무적인 어려움을 겪으며, 정부도 안정적인 사회기반시설 운영에 차질을 빚을 수 있다. 따라서 정부는 수요 위험에 따른 위험 분담 정책을 다양하게 적용해 오고 있다. 하지만 정부의 위험 분담은 수요의 불확실성으로 인한 정부의 우발채무이며, 실시협약의 문구로 표현되어 기존의 전통적인 사업평가 방식인 NPV 방식으로는 위험을 계량화 할 수 없다. 본 연구는 수요 위험 분담 정책의 하나로 2015년에 도입된 손익공유형 방식(BTO-a)을 대상으로 수요 위험을 고려한 정부의 투자위험 분담 가치를 산정하는데 목적을 두고 있다. 투자위험 분담은 금융에서의 옵션(option) 형태를 갖게 된다. 민간사업자는 수입이 감소했을 때 정부로 부터 보조금을 청구할 권리를 가지고 있으며, 반대로 정부는 일정 조건하에서 보조금을 지급할 의무를 가지고 있다. 본 연구에서는 Black-Scholes 옵션가격결정 모형을 활용하여 투자위험 분담의 가치추정 방법론을 정립하고 사례 사업을 통해 결과의 적정성을 살펴보았다. 사례 사업은 제안된 고속도로 민간투자사업을 대상으로 하였으며, 분석결과 투자위험 분담 가치는 약 120억원으로 추정되어 민간이 투자한 투자비의 약 4%를 차지하는 것으로 나타났다. 즉, 정부가 투자위험을 분담함으로써 120억원의 재정지원을 추가로 투입하는 효과로 볼 수 있다. 교통량 위험을 확률변수로 가정할 경우 사례사업에서 도출된 옵션가치는 평균이 122억원이고 표준편차는 36.7억원으로 도출되었다. 누적분포를 도출한 결과 90% 확률 구간의 옵션가치가 69억원에서 188억원의 범위에서 결정될 것으로 나타났다. 본 연구에서 제시한 방법은 미래수요의 불확실성하에서 정부와 민간사업자가 더 나은 위험 분석과 투자위험 분담에 대한 경제적인 가치를 이해하는데 도움을 줄 것으로 기대한다.

성인 유치악자 상악골의 악궁과 치열궁의 형태에 관한 조사 (A STUDY OF INTRAORAL ANATOMIC LANDMARKS OF KOREAN ADULT-UPPER JAW)

  • 오유리;이성복;박남수;최대균
    • 대한치과보철학회지
    • /
    • 제33권4호
    • /
    • pp.753-768
    • /
    • 1995
  • For accurate impression taking of dental patient and esthetic denture treatment of ednetulous patient, measuring between intraoral anatomic landmarks is useful.In this study the subjects selected at a random were two-jundred forty persons with a mean age 22.5(range 21-24) and were taken impression of by irreversible hydrocolloid impression material(Alginate). On the study model made by dental stone, each individual tray was made and final impresion was taken by border moilding. On final model measurings were performed with 3-dimensional measuring device and the values were analyzed by t-test The results is following : ABOUT THE MEASURED VALUES. 1. The width between maxillary right and left canine cusp tip was average 36.44mm(s.d. 2.48), man 36.67mm, woman 35.83mm(p<0.05). 2. The width between labial height of contour of maxillary right and left canine was average 40.08mm(s.d. 2.42), man 40.29mm, woman 39.52mm(p<0.05). 3. The width between mesio-lingual cusps of maxillary first molar was average 43.14mm(s.d. 3.33), man 43.56mm, woman 42.05mm(p<0.05). 4. The width between buccal alveolar ridge on axis of mesiolingual cusp of right and left maxillary first molar was average 64.89mm(s.d. 3.88), man 65.58mm, woman 62.92mm(p<0.05). 5. The width between buccal alveolar ridge on axis of mesiolingual cusp of right and left maxillary second molar was average 68.58mm(s.d. 3.91), man 69.29mm, woman 66.30mm (p<0.05). 6. The width between right and left hamular notch was average 49.80mm(s.d. 3.96), man 50.70mm, woman 48.20mm(p<0.05). 7. The length from labial heigth of contour of maxillary central incisor to center of incisive papilla was average 9.52mm(s.d. 1.18), man 9.46mm, woman 9.63mm(p>0.05). 8. The length from labial heigth of contour of maxillary central incisor to palatine fovea was average 53.27mm(s.d. 2.93), man 53.93mm, woman 52.08mm(p<0.05). 9. The center of incisive papilla ws located posterior to intercanine line at 0.40mm(s.d. 1.16), man 0.51mm, woman 0.11mm(p<0.05). 10. The height from incisal edge of maxillary central incisor to the labial vestibule was average 21.84mm(s.d. 1.38), man 22.01mm, woman 21.00mm(p<0.05). 11. The height from mesiolingual cusp of maxillary first molar to buccalvestible was average 17.45mm(s.d. 1.42), man 17.56mm, woman 17.08mm(p>0.05). 12. The height from hamular notch to standard occlusal plane was average 6.84mm(s.d. 1.06), man 6.91mm, woman 6.70mm(p>0.05). 13. The height from the deepest point of palatal vault to standard occlsalplane was average 19.95 mm(s.d. 2.03), man 20.19mm, woman 19.12mm(p<0.05). ABOUT THE ARCH FORM 1. The arch form was able to classify into four typr by the rate of the measured values. Each arch form distribution was that the 1 group had 32.46% the 2 group 2.19%, the 3 group 52.83%, the 4 group 12.72%. The sexual composition was that in 1 group man had 73.5%, woman 26.5%, in 2 group man had 40.0%, woman 60.0%, in 3 group man had 83.3%, woman 16.7%, and in 4 group man had 55.17%, woman 44.83%. 2. When canine cusp tip was marked as point O, the intersection point between labial height of contour of maxillary central incisor and intermaxillary suture as point A, height of contour of maxillary second molar buccal alveolar ridge as B point, ${\angle}$AOB was measured $133.8^{\circ}$for the 1 group, $133.0^{\circ}$for the 2 group, $132.3^{\circ}$for the 3 group, $128.9^{\circ}$for the 4 group.

  • PDF

한우의 도체중, 배장근단면적 및 근내지방도의 유전모수 추정방법 (Methods for Genetic Parameter Estimations of Carcass Weight, Longissimus Muscle Area and Marbling Score in Korean Cattle)

  • 이득환
    • Journal of Animal Science and Technology
    • /
    • 제46권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 한우 종모우 선발을 위한 유전능력 평가에서 고려되는 형질들 중 이산형 형태로 조사되는 근내지방도의 유전변이가 추정방법에 따라 어느 정도 차이가 있는지 알아보기 위한 모의실험을 실시하였다. 모의실험 자료는 연속변량으로 간주되는 도체중 및 배장근단면적과 근내지방도의 잠재변수를 다변량 정규분포함수에서 생성하였고 근내지방도의 잠재변수를 이용하여 특정 임계값을 중심으로 순서화된 근내지방도 점수로 변화 하였따. 근내지방도의 점수 부여방법으로써 비거세우에서 조사된 근내지방도의 점수 1${\sim}$5점 사이에 정규분포에서 크게 어긋나는 분포특성을 갖도록 자료(DSI)를 생성하였고 또한 한우 거세우에서 현재 조사되고 있는 점수 1${\sim}$7점 사이에 정규 분포에 좀더 접근한 분포특성을 갖는 모의 자료(DS2)를 생성하였다. 분석방법간에 유전변이 추정의 정확도를 알아보기 위하여 1) 생성된 이들 자료를 선형으로 간주하고 다형질 혼합 선형 개체모형에서 REML 분석방법으로 유전변이를 추정하였고 2) 특정 임계치를 중심으로 잠재변수가 존재한다는 가정하에 다형질 임계 개체 혼합모형을 설정하여 Gibbs sampling 방법으로 유전변이를 추정하였다. 여기서 추정된 유전변이(유전력, 유전상관 및 잔차상관)에 대하여 모수와의 차이를 검정함으로써 편의되는 정도를 알아보았다. 모의실험은 각 자료에 대하여 10회 실시하였다. 분석결과, 근내지방도의 유전력 추정치는 DS1에서는 다형질 임계개체혼합모형을 설정하여 Gibbs sampling 방법으로 모수에 대한 사후분포의 평균으로 계산한 결과 참값과 유의적인 차이가 없는 것으로 분석되었다. 반면에 근내지방도를 선형으로 간주하고 다형질 선형 개체혼합모형에 의한 유전력 추정치는 모수보다 매우 낮은 유전력을 보였다(0.500 vs 0.315). 유전상관 추정치는 선형모형에서의 REML 방법 또는 임계모형에서의Gibbs sampling 방법에서 모두 모수와 유의적인 차이가 없는 것으로 분석되었으나 근내지방도의 잔차상관에 있어서 REML 방법으로 분석하였을 경우에 모수보다 낮게 추정되었다. 반면에 범주형 모형에서는 모수와 추정치 간에 유의적인 차이가 없는 것으로 분석되었다. 또한 7개의 범주형으로 조사된 자료(DS2)에서 이들 추정치는 DS1에서와 동일한 경향을 보였는데 그 편의 정도는 다소 적어지는 경향을 보였다. 따라서 이산형으로 조사되는 근내지방도에 대한 유전변이를 추정하기 위해서는 범주형 임계모형이 선형모형 보다 사소 정확한 추정을 할 수 있을 것으로 판단 되었다.

Microsatellite 표지를 이용한 부안지역 소나무 집단의 화분 유동과 교배양식 추정 (Estimating the Parameters of Pollen Flow and Mating System in Pinus densiflora Population in Buan, South Korea, Using Microsatellite Markers)

  • 김영미;홍경낙;박유진;홍용표;박재인
    • 한국자원식물학회지
    • /
    • 제28권1호
    • /
    • pp.101-110
    • /
    • 2015
  • 부안지역 소나무 집단의 화분유동과 교배양식 모수를 추정하기 위하여 7개 microsatellite 표지로 모수, 주변 성목 및 종자에 대한 유전변이를 분석하였다. 이형접합도 기대치($H_e$)와 근교계수(F)는 각각 모수에서 0.614과 0.018, 종자에서 0.624과 0.087이며, 각 세대간에 차이는 없었다(P > 0.05). MLTR로 추정한 타가교배율($t_m$)은 0.967이며, 양친간 근연계수($t_m-t_s$)는 0.057, 부계상관($r_p$)은 0.012로 나타났다. 기존에 보고된 소나무의 동위효소 분석 결과에 비하여 타가교배율은 높고 근친교배 및 부계상관은 낮았으나, microsatellite 표지를 이용한 소나무류의 결과들과는 유사하였다. TwoGener로 추정한 최적 화분비산 모델은 유효밀도(d = 220 trees/ha)를 가정한 정규확산모델로 판명되었으며, 평균 화분비산거리(${\delta}$)는 11.42 m로 계산되었다. 화분원 유전적 분화(${\Phi}_{ft}$)는 0.021이며, Mental 검증에서 모수간 지리적 거리와 화분원의 유전적 분화는 상관성이 없는 것으로 나타났다(r = -0.141, P > 0.05). 부안지역 소나무 집단은 대부분의 화분이 가까운 거리에서 공급되지만, 화분수의 유전다양성이 높고 화분원의 유전적 차이가 작은 상태로 추정된다. 이러한 조건에서 완전한 임의교배가 이루어지기 때문에 종자의 유전자형이 다양하며 세대간 유전변이의 감소가 없는 것으로 사료된다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

제주마 주파기록에 대한 연도별 추세 및 환경효과 분석 (Estimation of Annual Trends and Environmental Effects on the Racing Records of Jeju Horses)

  • 이종안;이수현;이재구;김남영;최재영;신상민;최정우;조인철;양병철
    • 생명과학회지
    • /
    • 제31권9호
    • /
    • pp.840-848
    • /
    • 2021
  • 본 연구는 제주마의 연도별 주파기록 특성을 파악하고 경주기록에 대한 환경효과 분석을 위해 수행되었다. 한국마사회가 2002년부터 2019년까지 수집한 제주마 2,167두의 48,645개 관측치 정보가 분석에 사용되었다. 환경효과 분석을 위하여 관측치 빈도가 가장 높은 800 m 기준으로 주파기록은 보정되었다. 거리별 경주기록은 동일거리 기준으로 변환되었으며 연도별 비교가 가능했다. 그 결과 표현형에서 매년 주파기록이 0.242초(R2=0.66) 단축됨을 알 수 있었다. 보정된 주파기록에 대한 환경효과의 유의성 검증 위해 일원분산분석을 수행하였고 모형에서 설정한 모든 변수에서 고도의 유의성을 나타내었다(p<0.001). 이들 변수에 대해 단계적 변수 선발법을 적용, AIC 값 산출을 통해 모형 적합도를 평가하였으며 연도, 부담구분, 기수 순위, 조교사 순위, 주로상태, 날씨, 마령, 성별 순으로 변수 선택 시 가장 낮은 AIC 값을 갖는 모형이 수립되었다. 최종적으로 주파기록에 영향하는 환경효과 분석을 위하여 기수, 조교사 순위 및 마령 3가지 변수를 임의효과로 가정하였다. 그 결과 기수와 마령을 임의효과로 설정하였을 때 주파기록에 영향하는 환경효과 분석에 가장 적합한 모형인 것으로 나타났다. 본 연구에서 도출된 결과는 제주마 유전능력 평가를 위한 모형설정 시 기초자료로 활용 가능할 것으로 사료된다.