• 제목/요약/키워드: 단어 축소

검색결과 37건 처리시간 0.024초

사전 정보를 이용한 단어 중의성 해소 모형에 관한 실험적 연구 (An Experimental Study on an Effective Word Sense Disambiguation Model Based on Automatic Sense Tagging Using Dictionary Information)

  • 이용구;정영미
    • 정보관리학회지
    • /
    • 제24권1호
    • /
    • pp.321-342
    • /
    • 2007
  • 이 연구에서는 수작업 태깅없이 기계가독형 사전을 이용하여 자동으로 의미를 태깅한 후 학습데이터로 구축한 분류기에 대해 의미를 분류하는 단어 중의성 해소 모형을 제시하였다. 자동 태깅을 위해 사전 추출 정보 기반방법과 연어 공기 기반 방법을 적용하였다. 실험 결과, 자동 태깅에서는 복수 자질 축소를 적용한 사전 추출 정보 기반 방법이 70.06%의 태깅 정확도를 보여 연어 공기 기반 방법의 56.33% 보다 24.37% 향상된 성능을 가져왔다. 사전 추출 정보 기반 방법을 이용한 분류기의 분류 정학도는 68.11%로서 연어 공기 기반 방법의 62.09% 보다 9.7% 향상된 성능을 보였다. 또한 두 자동 태깅 방법을 결합한 결과 태깅 정확도는 76.09%, 분류 정확도는 76.16%로 나타났다.

음소 모델링 방식들의 성능 비교 (Performance Comparison of Acoustic Modeling Technique)

  • 송명규
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 2호
    • /
    • pp.377-380
    • /
    • 1998
  • HMM 기반의 음성 인식기를 구현하는데 있어서 모델의 복잡도와 제한된 훈련 데이터 사이의 균형을 유지하는 것은 중요한 문제이다. 중간규모 또는 대용량 어휘 인식 시스템은 정교한 모델을 얻기 위해서 문맥종속 음소 모델링이 필수적이다. 그러나, 제한된 훈련 데이터로는 발생 가능한 모든 context를 포함하기가 어렵고, 더구나 훈련 데이터에서 관찰된 context중에서도 그 관찰빈도가 낮은 것이 많아서 신뢰성 있는 문맥종속 모델들을 얻기에는 여전히 어려움이 따른다. 또한 경우에 따라서는 계산량의 감축을 위하여 모델 규모를 축소시킬 필요도 생긴다. 이러한 문제를 해결하기 위해 본 논문에서는 unit reduction 방법들과 state tying을 이용한 방법들의 성능을 실험을 통해 비교한다. 고립단어 인식 실험결과 state tying을 이용한 방법이 unit reduction에 비하여 우수함을 확인 할 수 있었다.

  • PDF

스토리기반 저작물에서 감정어 분류에 기반한 등장인물의 감정 성향 판단 (Detection of Character Emotional Type Based on Classification of Emotional Words at Story)

  • 백영태
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권9호
    • /
    • pp.131-138
    • /
    • 2013
  • 본 논문에서는 등장인물이 대사에서사용한감정어를 이용하여 등장인물의 감정 유형을 분류하는 방법을 제안하고 성능을 평가한다. 감정 유형은 긍정, 부정, 중립의 3 종류로 분류하며, 등장인물이 사용한 감정어를 누적하여 3 종류의 감정 유형 중에 어디에 속하는지를 파악한다. 대사로부터 감정어를 추출하기 위해 WordNet 기반의 감정어 추출 방법을 제안하고 감정어가 가진 감정 성분을 벡터로 표현하는 방식을 제안한다. WordNet은 영어 단어 간에 상위어와 하위어, 유사어 등의 관계로 연결된 네트워크 구조의 사전이다. 이 네트워크 구조에서 최상위의 감정항목과의 거리를 계산하여 단어별감정량을 계산하여 대사를 30 차원의 감정벡터로 표현한다. 등장인물별로 추출된 감정 벡터 성분들을 긍정, 부정, 중립의 3가지 차원으로 축소하여 표현한 후, 등장인물의 감정 성향이 어떻게 나타나는지를 추출한다. 또한 감정 성향의 추출 성능에 대해 헐리우드 영화 4개의 영화에서 12명의 등장인물을 선정하여 평가하여 제안한 방법의 효율성을 측정하였다. 대사는 영어로 이루어진 대사만을 사용하였다. 추출된 감정 성향 판단 성능은 75%의 정확도로 우수한 추출 성능을 나타내었다.

건설 공정관리에서의 적시생산을 위한 통합 프로세스 설계 (Design of Integration Process for JIT System in Construction Schedule Management)

  • 진유나;이상범
    • 한국건설관리학회:학술대회논문집
    • /
    • 한국건설관리학회 2003년도 학술대회지
    • /
    • pp.517-520
    • /
    • 2003
  • 최근 기업 환경에서 아웃소싱(outsourcing)이라는 단어가 많이 사용되고 있다. IMF와 함께 몰아닥친 지속된 불황은 기업의 불필요한 조직을 축소하게 하는 구조조정을 .가능하게 하였고 우리 기업이 가지고 있던 '고비용 저효율'(비효율적이고 비경제적인 생산방식)의 구조를 무너뜨리는 기회를 제공하였다. 이러한 환경 변화는 건설업에서도 예외가 아니었으며 하도급, 외주, 하청이라는 단어로 이미 많은 부분에서 아웃소싱을 도입, 시행하고 있다. 건설업에서의 성공적인 아웃소싱을 위해서는 상호간의 긴밀한 유대관계와 협조가 선행되어야 하며 이러한 관계를 개선시켜 주는 도구가 JIT 시스템이라 할 수 있다. 본 연구에서는 건설업에서의 아웃소싱이 차지하는 비율과 그 중요성을 인식하고, JIT시스템이 건설업에서 적용될 수 있는 효용성과 요소를 체계적으로 검토하여 궁극적으로 생산성을 향상시킬 수 있는 방안을 제안하였다.

  • PDF

건설 공정관리에서의 적시생산을 위한 통합 프로세스 설계 (Design of Integration Process for JIT System in Construction Schedule Management)

  • 진유나;이상범
    • 한국건설관리학회논문집
    • /
    • 제5권5호
    • /
    • pp.117-125
    • /
    • 2004
  • 최근 들어 기업 환경에서 아웃소싱(outsourcing)이라는 단어가 많이 사용되고 있다. IMF와 함께 몰아닥친 불황은 기업의 불필요한 조직을 축소하는 구조조정을 하게 하였고 우리 기 업이 가지고 있던 '고비용 저효율' (비효율적이고 비경제적인 생산방식)의 구조를 무너뜨리는 기회를 제공하였다. 이러한 환경 변화는 건설업에서도 예외가 아니었으며 이미 하도급, 외주, 하청이라는 단어로 많은 부분에서 아웃소싱 비율은 증가되어 시행되고 있다. 건설업에서의 성공적인 아웃소싱을 위해서는 상호간의 긴밀한 유대관계와 협조가 선행되어야 하며 이러한 관계를 개선시켜 주는 도구중의 하나가 JIT 시스템이라 할 수 있다. 본 연구에서는 건설업에서의 아웃소싱이 차지하는 비율과 그 중요성을 인식하고, JIT 시스템이 건설업에서 적용될 수 있는 효용성과 요소를 체계적으로 검토하여 궁극적으로 생산성을 향상시킬 수 있는 통합 프로세스를 제안하였다.

음성인식을 위한 성도 길이 정규화 (Vocal Tract Length Normalization for Speech Recognition)

  • 지상문
    • 한국정보통신학회논문지
    • /
    • 제7권7호
    • /
    • pp.1380-1386
    • /
    • 2003
  • 화자들 사이의 성도의 길이의 변이에 의하여 음성 인식기의 성능이 저하된다. 본 연구에서는 입력 음성에서 추출한 단구간 스펙트럼의 주파수축을 확대하거나 축소하여 음성인식기에 미치는 화자사이의 성도 길이의 영향을 최소화하는 방법을 사용한다 성도의 길이를 정규화하기 위한 주파수 변환 함수로서, 선형의 주파수 변환 함수와 조각적 선형적인 변환 함수를 고려하였다. 또한, 커다란 성도길이의 변이에 따른 주파수축의 척도변화를 보다 효과적으로 모의할 수 있는 가변구간 조각적 선형함수를 제안한다. TIDIGITS 연결 숫자음 음성자료에 대하여 제안한 방법을 적용한 결과, 단어의 오인식률을 2.15%에서 0.53%로 크게 감소시킴으로서, 성도 길이 정규화가 화자 독립 음성인식기의 성능 향상에 필수적임을 알 수 있었다.

국어 로마자 표기 자동 변환 시스템 설계 및 구현 (The design and implementation of automatic translation system for hangul's romanization)

  • 김홍섭
    • 한국컴퓨터정보학회지
    • /
    • 제2권1호
    • /
    • pp.45-54
    • /
    • 1995
  • 본 연구는 ASCII 코드중에서 잘 쓰이지 않는 코드를 반달점(ˇ)으로 할당, 글꼴을 제작하여, 사용자가 국어 로마자 표기법 기본원칙을 모르더라도 한글단어, 문장, 문서를 문자열(string)로 입력받아 알고리즘화된 음운법칙을 적용하여 소리글자로 자동 변환 후 현행 정부 표준안인 국어 로마자 표기법 테이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 설계하였으며, 예외어 처리, 화면색상 및 풀다운 팝업 메뉴 방식을 지원, 마우스 활용 방식을 채택, 사용자 편리성을 제공하였으며, 다양한 서체, 글꼴 확대 및 축소, 이단ㆍ혼합 인쇄기능 등을 고려 C언어를 이용하여 구현하였다.

  • PDF

대화 데이터셋에서 멘션 경계와 멘션 쌍을 이용한 상호참조해결 파이프라인 모델 (Coreference Resolution Pipeline Model using Mention Boundaries and Mention Pairs in Dialogues)

  • 김담린;박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.307-312
    • /
    • 2022
  • 상호참조해결은 주어진 문서에서 멘션을 추출하고 동일한 개체의 멘션들을 군집화하는 작업이다. 기존 상호참조해결 연구의 멘션탐지 단계에서 진행한 가지치기는 모델이 계산한 점수를 바탕으로 순위화하여 정해진 비율의 멘션만을 상호참조해결에 사용하기 때문에 잘못 예측된 멘션을 입력하거나 정답 멘션을 제거할 가능성이 높다. 또한 멘션 탐지와 상호참조해결을 종단간 모델로 진행하여 학습 시간이 오래 걸리고 모델 복잡도가 높은 문제가 존재한다. 따라서 본 논문에서는 상호참조해결을 2단계 파이프라인 모델로 진행한다. 첫번째 멘션 탐지 단계에서 후보 단어 범위의 점수를 계산하여 멘션을 예측한다. 두번째 상호참조해결 단계에서는 멘션 탐지 단계에서 예측된 멘션을 그대로 이용해서 서로 상호참조 관계인 멘션 쌍을 예측한다. 실험 결과, 2단계 학습 방법을 통해 학습 시간을 단축하고 모델 복잡도를 축소하면서 종단간 모델과 유사한 성능을 유지하였다. 상호참조해결은 Light에서 68.27%, AMI에서 48.87%, Persuasion에서 69.06%, Switchboard에서 60.99%의 성능을 보였다.

  • PDF

선택적 자질 차원 축소를 이용한 최적의 지도적 LSA 방법 (Optimal supervised LSA method using selective feature dimension reduction)

  • 김정호;김명규;차명훈;인주호;채수환
    • 감성과학
    • /
    • 제13권1호
    • /
    • pp.47-60
    • /
    • 2010
  • 기존 웹 페이지 자동분류 연구는 일반적으로 학습 기반인 kNN(k-Nearest Neighbor), SVM(Support Vector Machine)과 통계 기반인 Bayesian classifier, NNA(Neural Network Algorithm)등 여러 종류의 분류작업에서 입증된 분류 기법을 사용하여 웹 페이지를 분류하였다. 하지만 인터넷 상의 방대한 양의 웹 페이지와 각 페이지로부터 나오는 많은 양의 자질들을 처리하기에는 공간적, 시간적 문제에 직면하게 된다. 그리고 분류 대상을 표현하기 위해 흔히 사용하는 단일(uni-gram) 자질 기반에서는 자질들 간의 관계 분석을 통해 자질에 정확한 의미를 부여하기 힘들다. 특히 본 논문의 분류 대상인 한글 웹 페이지의 자질인 한글 단어는 중의적인 의미를 가지는 경우가 많기 때문에 이러한 중의성이 분류 작업에 많은 영향을 미칠 수 있다. 잠재적 의미 분석 LSA(Latent Semantic Analysis) 분류기법은 선형 기법인 특이치 분해 SVD(Singular Value Decomposition)을 통해 행렬의 분해 및 차원 축소(dimension reduction)를 수행하여 대용량 데이터 집합의 분류를 효율적으로 수행하고, 또한 차원 축소를 통해 새로운 의미공간을 생성하여 자질들의 중의적 의미를 분석할 수 있으며 이 새로운 의미공간상에 분류 대상을 표현함으로써 분류 대상의 잠재적 의미를 분석할 수 있다. 하지만 LSA의 차원 축소는 전체 데이터의 표현 정도만을 고려할 뿐 분류하고자 하는 범주를 고려하지 않으며 또한 서로 다른 범주 간의 차별성을 고려하지 않기 때문에 축소된 차원 상에서 분류 시 서로 다른 범주 데이터간의 모호한 경계로 인해 안정된 분류 성능을 나타내지 못한다. 이에 본 논문은 새로운 의미공간(semantic space) 상에서 서로 다른 범주사이의 명확한 구분을 위한 특별한 차원 선택을 수행하여 최적의 차원 선택과 안정된 분류성능을 보이는 최적의 지도적 LSA을 소개한다. 제안한 지도적 LSA 방법은 기본 LSA 및 다른 지도적 LSA 방법들에 비해 저 차원 상에서 안정되고 더 높은 성능을 보였다. 또한 추가로 자질 생성 및 선택 시 불용어의 제거와 자질에 대한 가중치를 통계적인 학습을 통해 얻음으로써 더 높은 학습효과를 유도하였다.

  • PDF

한글 웹 문서 클러스터링 성능향상을 위한 자질선정 기법 비교 연구 (A Comparative Study of Feature Selection Methods for Korean Web Documents Clustering)

  • 김영기
    • 한국문헌정보학회지
    • /
    • 제39권1호
    • /
    • pp.45-58
    • /
    • 2005
  • 이 연구는 한글 웹 문서를 클러스터링 하기 위한 자질 선정 방법에 대한 비교연구이다. 이 연구에는 두 개의 코퍼스가 사용되었다. 클러스터링을 위한 실험 문서는 Naver의 자연과학 범주에서, 자질 선정을 위한 학습문서는 Yahoo Korea의 같은 범주에서 수집하였다. 우선 실험 문서를 단어자질과 동시링크, 그리고 이 둘을 혼합한 방법으로 클러스터링 한 다음 그 성능을 비교하였다. 다음으로 학습문서에서 카이제곱 통계량$(X^2)$, 정보획득량(IG), 그리고 상호정보량(MI)을 이용하여 용어자질을 선정한 다음. 이를 실험문서에 적용하여 클러스터링 성능을 비교하였다. 석기에 각 범주별로 최댓값을 갖는 용어들만을 해당 범주를 대표하는 자질로 선정하는 '최댓간 자질 선정기법'을 실험적으로 도입하여 적용해 보았다. 실험 결과 사용된 자질에 따른 한글 웹 문서 클러스터링 정확률은 자연어 $ 72.3\%$, 동시링크 $74.3\%$, 단어-링크 혼합 $74.8\%$, $X^2\;79.6\%\;Max\;X^2\;83.8\%$로 나타났다. 전통적 자질 선정 기법 중에서는 $X^2$가 약간 나은 성능을 보여 주었지만 큰 차이는 발견되지 않았다. 그러나 최댓값 자질 선정기법을 적용하였을 때 클러스터링 성능은 크게 향상되었다. 이 논문에서 제안된 최댓간 자질 선정 기법은 웹 문서의 자질 공간 축소와 한글 웹 문서의 클러스터링을 위한 간단하면서도 효과적인 수단이다.