• 제목/요약/키워드: natural language process

검색결과 249건 처리시간 0.026초

한국어 비교 문장 유형 분류를 위한 변환 기반 학습 기법 (Transformation-based Learning for Korean Comparative Sentence Classification)

  • 양선;고영중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권2호
    • /
    • pp.155-160
    • /
    • 2010
  • 본 논문은 비교마이닝(comparison mining)의 일환인 비교 문장 유형 자동 분류에 관하여 연구한다. 비교마이닝은 텍스트 마이닝의 한 분야로서 대용량의 텍스트를 대상으로 비교 관계를 분석하며, 크게 세 단계의 과정을 거치게 되는데 첫 번째 단계는 대용량의 문서에서 비교 문장만을 식별 후 추출해 내는 과정이고, 두 번째 단계는 추출된 비교 문장들을 비교 유형별로 분류하는 과정이며, 앞의 두 선행 과정이 끝나면 유형별로 비교 속성을 추출 및 비교 관계를 분석하는 세 번째 단계를 수행하게 된다. 본 연구에서는 변환 기반 학습(transformation-based learning) 기법을 이용하여 비교 문장들을 일곱 가지의 유형으로 자동 분류하는 두 번째 과제를 수행한다. 자연어 처리 분야 여러 부문에서 사용되고 있는 변환기반 학습은 오류를 감소시키는 최적의 규칙을 자동으로 생성하여 정답을 찾아가는 규칙 기반 학습 방법이다. 웹상의 다양한 도메인에서 추출된 비교 문장들을 대상으로 유형 분류를 수행한 결과 정확도 80.01%의 성능으로 일곱 가지 유형을 분류할 수 있었다.

가변 운율 모델링을 이용한 고음질 감정 음성합성기 구현에 관한 연구 (A Study on Implementation of Emotional Speech Synthesis System using Variable Prosody Model)

  • 민소연;나덕수
    • 한국산학기술학회논문지
    • /
    • 제14권8호
    • /
    • pp.3992-3998
    • /
    • 2013
  • 본 논문은 고음질의 대용량 코퍼스 기반 음성 합성기에 감정 음성 코퍼스를 추가하여 보다 다양한 합성음을 생성할 수 있는 방법에 관한 것이다. 파형 접합형 합성기에서 사용할 수 있는 형태로 감정 음성 코퍼스를 구축하여 기존의 일반 음성 코퍼스와 동일한 합성단위 선택과정을 통해 합성음을 생성할 수 있도록 구현하였다. 감정 음성 합성을 위해 태그를 사용하여 텍스트를 입력하고, 억양구 단위로 일치하는 데이터가 존재하는 경우 감정 음성으로 합성하고, 그렇지 않은 경우 일반 음성으로 합성하도록 하였다. 그리고 음성에서 운율을 구성하는 요소로 휴지기(break)가 있는데, 감정 음성의 휴지기는 일반 음성보다 불규칙한 특성이 있다. 따라서 합성기에서 생성되는 휴지기 정보를 감정 음성 합성에 그대로 사용하는 것이 어려워진다. 이 문제를 해결하기 위해 가변 휴지기(Variable break)[3] 모델링을 적용하였다. 실험은 일본어 합성기를 사용하였고, 그 결과 일반 음성의 휴지기 예측 모듈을 그대로 사용하면서 자연스러운 감정 합성음을 얻을 수 있었다.

한글-로마자 인명 변환의 통계적 순위 추천 시스템 (Statistical Ranking Recommendation System of Hangul-to-Roman Conversion for Korean Names)

  • 이정훈;김민호;권혁철
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1269-1274
    • /
    • 2017
  • 본 논문에서는 한글-로마자 인명 변환을 다루며, 기존에 사용되고 있는 다양한 표기를 인정하고 인명 변환의 사용 빈도에 따라 결과를 제공함을 목표로 한다. 한글-로마자 인명 표기가 다양해진 이유는 크게 두 가지이다. 첫째로 국내외에서 만들어진 다양한 표기법의 무분별한 사용이며, 둘째로 현행표기법에서의 관습적인 표기를 허용하기 때문이다. 이런 이유로 한글 인명 하나에도 다양한 로마자 표기가 가능해졌다. 시스템에서는 400만 명의 인명 데이터를 통계 사전으로 구축하여 변환한다. 첫 단계에서는 성씨의 매칭과정을 통해 인명 유무를 판단하고, 두 번째 단계에서는 이름 전체를 통계사전에서 비교하여 변환한다. 마지막 단계에서는 이름의 음절을 비교 후 변환하여 결과를 사용 빈도에 따라 순위로 제공한다. 본 논문에서는 기존의 웹에서 서비스 중인 시스템과 비교하여 성능을 측정하였으며, 타 시스템에 비해서 다소 높은 성능을 보였다.

욕설문장 분류의 불균형 데이터 해결을 위한 전이학습 방법 (A Transfer Learning Method for Solving Imbalance Data of Abusive Sentence Classification)

  • 서수인;조성배
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1275-1281
    • /
    • 2017
  • 욕설문장을 지도학습 접근법으로 분류하기 위해서 욕설인지 아닌지 판별된 학습 문장이 필요하다. 문자수준의 컨볼루션 신경망이 각 문자에 대해 강건성을 가지기 때문에 욕설분류에 적합하지만, 학습에 많은 데이터가 필요하다는 단점이 있다. 본 논문에서는 이를 해결하기 위해 임의로 생성한 욕설/비욕설 문장 쌍을 컨볼루션 신경망을 기반으로 하는 분류기에 학습시켜 컨볼루션 신경망의 필터가 욕설의 특징을 분류하도록 조정한 후, 실제 훈련문장을 학습시킬 때 필터를 재사용하는 전이학습방법을 제안한다. 이로써 데이터 부족과 클래스 불균형으로 인한 영향이 감소하여 분류 성능이 향상될 것이다. 실험 및 평가는 총 3가지 데이터에 대해 수행되었으며, 문자수준 컨볼루션 신경망을 활용한 분류기는 모든 데이터에서 전이학습을 적용했을 때 더 높은 F1 점수를 획득하였다.

초등과학 수업을 위한 애니메이션 기반 튜터링 다이얼로그 에이전트 개발 (On the Development of Animated Tutoring Dialogue Agent for Elementary School Science Learning)

  • 정상목;한병래;송기상
    • 정보교육학회논문지
    • /
    • 제9권4호
    • /
    • pp.673-684
    • /
    • 2005
  • 본 연구에서는 인간 교사를 모사하는 "컴퓨터 교사" 역할을 하는 애니메이션 된 튜터링 다이얼로그 에이전트를 구현하고 초등학교 과학과 교수-학습 자료와 통합시켜서 자연어를 기반으로 한 일대일 대화를 통한 교수 학습이 이루어지는 교수-학습 시스템을 개발하였다. 개발된 교수용 다이얼로그 에이전트는 학습자의 대답을 분석하고, 웹 코스웨어를 학습한 후에 초등과학 학습과제에서 요구되는 성취 수준과 비교하여 적절한 질문이나 대답을 제공하는데, TTS(Text-to-Speech) 기능을 이용하여 학습자에게 구어체로 질문이나 대답을 주는 기능을 갖고 있으며 애니메이션 된 인간 교사의 얼굴을 통하여 학습자에게 피드백을 제시할 수 있도록 하였다. 구현된 대화형 인터페이스는 6학년 초등학생 64명에게 현장 실험을 하였다. 현장 실험 결과 비교집단보다 실험집단의 학습 성취도가 평균 10.797점이 향상됨을 보여주었다. 이러한 학습효과는 기존의 웹 코스웨어와 달리 "묻고-답하는" 과정과 인간 교사의 감정을 담은 애니메이션 된 캐릭터를 통하여 학습자들의 호기심을 자극하여 보다 쉽게 교수-학습 과정에 몰입하게 함으로서 학습 효과를 증진시킨 결과로 판단된다.

  • PDF

SGML 표기법을 이용하는 수식 편집기의 설계 및 구현 (An Implementation of Mathematics Editor Using SGML Notation)

  • 김태훈;현득창;이수연
    • 한국정보처리학회논문지
    • /
    • 제3권5호
    • /
    • pp.1082-1092
    • /
    • 1996
  • 현재, 과학, 기술 문서 등에 많은 사용되는 수식의 표기법이 TeX, EQN등과 같이 가특정 시스템에 의존하여 시스템간의 상호교환이 안되고 있다. 따라서 본 논문에서는 워드프로세서나 전자출판등에서 작성되는 수식 정보의 공유 및 시스템간 상호 교환성 을 확보하기 위하여, 국제 표준 SGML 표기법으로 수식을 표현할 수 있고, 또한 수식용 문서형 정의(Document Type Definition)에 따라 수식 구조의 오류 검사 기능을 갖는 대화형 수식 편집기의 설계 및 구원을 한다. 사용자 접속으로는 수식 심볼 아이콘에 대한 마우스 입력과 키보드 입력 등의 직접 조작 방식을 구현하였다. 구현 환경으로는 워크스테이션 상에서 UNIX를 운영 체제로 하는 X 윈도우 시스템과 그래픽컬 사용자 접속인 OSF Motif를 사용하였고 메뉴 및 화면 구성을 위하여 OSF UIL(User Interface Language)을 사용하였다.

  • PDF

영상감시시스템에서 움직임의 비교사학습을 통한 비정상행동탐지 (Unsupervised Motion Learning for Abnormal Behavior Detection in Visual Surveillance)

  • 정하욱;장형진;최진영
    • 전자공학회논문지SC
    • /
    • 제48권5호
    • /
    • pp.45-51
    • /
    • 2011
  • 본 논문에서는 비교사학습법을 통해 영상의 방대한 정보를 효율적으로 모델링 하는 방법을 제안하고자 한다. 여기서 이동궤적들은 자연어 처리에 사용되는 알고리즘인 잠재 디리클레 할당 모형(Latent Dirichlet Allocation)에 의해 직진, 좌회전, 우회전등 각 상황 별로 주제에 따라 그 영역을 효과적으로 분류할 수 있다. LDA를 이용해 주제별로 의미 있는 영역을 분류한 후, 각 주제별로 분류된 궤적을 관측열로 보고 은닉 마르코프 모델(Hidden Markov Model)의 바움-웰치 알고리즘을 사용하여 학습한다. 전향 알고리즘을 사용하여 입력된 행동과 학습된 행동을 비교함으로써 영상내의 행동이 정상인지 비정상인지를 효과적으로 판단할 수 있다. 실험결과 다양한 영상에 대해 의미있는 주제별로 영역이 잘 분류되며 추적에러로 인한 궤적의 노이즈에도 강인하게 물체의 무단횡단, 신호위반과 같은 상황을 효과적으로 탐지하는 것을 확인할 수 있다.

기초 알고리즘을 활용한 프로그래밍 언어 학습 시스템 (Learning System of Programming Language using Basic Algorithms)

  • 박경욱;오경숙;류남훈;이혜미;김응곤
    • 한국전자통신학회논문지
    • /
    • 제5권1호
    • /
    • pp.66-73
    • /
    • 2010
  • 알고리즘을 비롯한 프로그래밍 교육 과정은 전자공학 및 컴퓨터 관련학과를 비롯한 많은 이공계 학과에서 매우 중요한 교과목으로 인식된다. 하지만 과목의 특성 상 많은 학생들이 어려워하고 있으며, 이로 인해 상위 단계의 교과목 수강 시 많은 어려움을 겪고 있다. 순서도는 어떤 문제를 해결하는데 필요한 논리적인 단계들을 그림으로 표현한 것으로, 알고리즘의 흐름을 이해하는데 많이 활용된다. 알고리즘 및 프로그래밍은 구현 과정의 이해를 돕기 위해서 실습 중심의 교육이 매우 중요하다. 더욱이 알고리즘의 개념 이해 및 프로그램 실행 과정에 대한 이해력을 높일 수 있는 보조 프로그램의 필요성이 절실히 요구된다. 본 논문에서는 프로그래밍 과정 중 기본 알고리즘에 대해 쉽게 익힐 수 있도록 기초 알고리즘을 활용한 프로그래밍 언어 학습 시스템을 설계하고 구현하였다.

Applying the Fuzzy Decision-Making Method for Program Evaluation and Management Policy of Vietnamese Higher Education

  • TONG, Kiet Hao;NGUYEN, Quyen Le Hoang Thuy To;NGUYEN, Tuyen Thi Mong;NGUYEN, Phong Thanh;VU, Ngoc Bich
    • The Journal of Asian Finance, Economics and Business
    • /
    • 제7권9호
    • /
    • pp.719-726
    • /
    • 2020
  • Education policy is a dynamic process featuring social development trends. The world countries have focused their education program on empowering the learners for future life and work. This paper aims to assess the higher education curriculum based on a survey of 280 students, employers, alumni, and lecturers in both social sciences and natural sciences in Ho Chi Minh City, Vietnam. The fuzzy decision-making method, namely the Fuzzy Extent Analysis Method (F-EAM), was applied to measure the relative weight of each parameter. Seven factors under the curriculum development have been put in the ranking. Input with emphasis on foreign language was the highest priority in curriculum development, given the expected demand of the labor market. Objective and learning outcome and teaching activities ranked second and third, respectively. The traditional triangle of teaching content, methodology, and evaluation and assessment are still proven their roles, but certain modifications have been defined in the advanced curriculum. Teaching facilities had the least weight among the seven dimensions of curriculum development. The findings are helpful for education managers to efficiently allocate scarce resources to reform the curriculum to bridge the undergraduate quality gap between labor supply and demand, meeting the dynamic trends of social development.

한국어 서술어와 지식베이스 프로퍼티 연결 (Linking Korean Predicates to Knowledge Base Properties)

  • 원유성;우종성;김지성;함영균;최기선
    • 정보과학회 논문지
    • /
    • 제42권12호
    • /
    • pp.1568-1574
    • /
    • 2015
  • 본 논문은 자연언어 문장을 지식베이스의 지식 골격에 맞추어 지식의 형태로 변환하기 위한 과정 중의 하나인 관계추출(Relation Extraction)을 목표로 한다. 특히, 문장 내에 있는 서술어(Predicate)에 집중하여 서술어와 관련성 높은 지식베이스 프로퍼티(Property or Relation)를 찾아내고, 이를 통해 두 개체(Entity)간의 의미를 파악하는 관계추출에 초점을 둔다. 이에 널리 활용되는 원격지도학습(Distant Supervision) 접근 방식에 따라, 지식베이스와 자연언어 텍스트로부터 원격 학습이 가능한 레이블(Labeled) 데이터를 자동으로 마련하여 지식베이스 프로퍼티에 대한 어휘화 작업을 수행한다. 즉, 두 개체 사이의 관계로 표현되는 서술어와, 온톨로지로 정의할 수 있는 프로퍼티와의 연결을 통해, 텍스트로부터 구조적 정보를 생성할 수 있는 기반을 마련하고 최종적으로 지식베이스 확장의 가능성을 열어준다.