• 제목/요약/키워드: Natural languages

검색결과 130건 처리시간 0.031초

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

국제 음소의 자동 생성을 활용한 연속음성인식에 관한 연구 (A Study on the Continuous Speech Recognition for the Automatic Creation of International Phonetics)

  • 김석동;홍성수;신좌철;우인성;강흥순
    • 한국게임학회 논문지
    • /
    • 제7권2호
    • /
    • pp.83-90
    • /
    • 2007
  • 자동 음성 인식(Automatic Speech Recognition)기술은 세계적인 의사소통과 협력을 원활히 할 수 있는 가능성을 제시한다. 현재까지 대부분의 연구들은 주로 사용되는 단일 언어의 말하기에만 집중되어 있다. 따라서 다른 언어들과 함께 사용되는 특정 ASR 시스템을 도입하는 데에는 비싼 비용이 뒤따른다. 본 논문은 다국어 음성 인식에 대한 일반적 접근으로 각 나라 언어를 대표한 발음사전(어휘모델)을 만들기 위하여 음성 인식에 이용하는 어휘 모델을 만들기 위하여 음소 언어 인식(PLI, Phonetic Language Identity) 형식의 입력된 파일을 해석하는 국제 음소 엔진(IPE, International Phoneticizing Engine)를 제안한다. IPE는 독립적이며 규칙을 기본으로 한다. 어휘모델 생성 과정은 Java 언어로 구현된 프로그램에 의해 이루어지고, 이 과정들은 규칙 상충을 줄여주며, 언어학적 훈련을 받지 않은 사람의 규칙 생성도 가능하게 한다. IPE에 의해 생성된 어휘모델을 연속 음성 인식기에 적용한 결과 우리말 인식률이 92.55%, 영어에 대하여 89.93%를 얻었다.

  • PDF

영어 리뷰데이터를 이용한 딥러닝 기반 다국어 감성분석 (Deep learning-based Multilingual Sentimental Analysis using English Review Data)

  • 성재경;김영복;김용국
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.9-15
    • /
    • 2019
  • 영어로 된 아마존과 같은 대형 글로벌 온라인 쇼핑몰은 전 세계를 대상으로 영어 또는 판매 해당국가 언어로 서비스를 하고 있다. 온라인 쇼핑몰 이용자 중, 많은 고객은 상품 리뷰평가를 참조하여 상품을 구매하고 있다. 그래서 고객들이 작성한 대량의 리뷰데이터를 이용하여 구매 상품에 대해 긍정과 부정을 판정하는 감성분석을 영어를 중심으로 활발히 연구되고 분석 결과는 고객의 타켓 마케팅에 활용되고 있다. 하지만 이와 같은 영어 중심의 감성분석 시스템을 전 세계의 다양한 언어에 그대로 적용하기는 어렵다. 따라서 본 연구에서는 영어로 된 50만개 이상의 아마존 푸드 상품 리뷰데이터를 학습과 테스트 데이터로 분리하여 딥러닝 기술 기반의 감성분석 시스템을 구현하였다. 먼저 영어 테스트데이터의 3가지 모델에 대한 감성분석 평가 실험을 한 후에, 같은 데이터를 자동번역기로 7개국(한국어, 일본어, 중국어, 베트남어, 불어, 독어, 영어) 언어로 번역 후에 다시 영어로 번역하여 실험 결과를 얻었다. 감성분석 정확성은 영어(94.35%)에 비해 각 7개국 언어의 평균(91.59%)보다 정확도가 2.77% 정도 낮게 나왔으나 번역 성능 수준에서 실용 가능성을 확인하였다.

다국어 사용자 후기에 대한 속성기반 감성분석 연구 (A study on the aspect-based sentiment analysis of multilingual customer reviews)

  • 지성영;이시윤;최대우;강기훈
    • 응용통계연구
    • /
    • 제36권6호
    • /
    • pp.515-528
    • /
    • 2023
  • 전자상거래 시장의 성장과 더불어 소비자들은 상품 및 서비스 구매 시 다른 사용자가 작성한 후기 정보에 기반하여 구매 의사를 결정하게 되며 이러한 후기를 효과적으로 분석하기 위한 연구가 활발히 이루어지고 있다. 특히, 사용자 후기에 대해 단순 긍/부정으로 감성분석하는 것이 아니라 다면적으로 분석하는 속성기반 감성분석 방법이 주목받고 있다. 속성기반 감성분석을 위한 다양한 방법론 중 최신 자연어 처리 기술인 트랜스포머 계열 모델을 활용한 분석 방법이 있다. 본 논문에서는 최신 자연어 처리 기술 모델에 두 가지 실제 데이터를 활용하여 다국어 사용자 후기에 대한 속성기반 감성분석을 진행하였다. 공개된 데이터 셋인 SemEval 2016의 Restaurant 데이터와 실제 화장품 도메인에서 작성된 다국어 사용자 후기 데이터를 활용하여 속성기반 감성분석을 위한 트랜스포머 계열 모델의 성능을 비교하였고 성능 향상을 위한 다양한 방법론도 적용하였다. 다국어 데이터를 활용한 모델을 통해 언어별로 별도의 모델을 구축하지 않고 한가지 모델로 다국어를 분석할 수 있다는 점에서 효용 가치가 클 것으로 예상된다.

Data Dictionary 기반의 R Programming을 통한 비정형 Text Mining Algorithm 연구 (A study on unstructured text mining algorithm through R programming based on data dictionary)

  • 이종화;이현규
    • 한국산업정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.113-124
    • /
    • 2015
  • 미리 선언된 구조를 이용하여 수집 저장된 정형적 데이터와는 달리 웹 2.0의 시대에서 일반 사용자들이 평상시에 사용하는 자연어 형태로 작성된 비정형 데이터 분석은 과거보다 훨씬 더 넓은 응용범위를 가지고 있다. 데이터 양이 폭발적으로 증가하고 있다는 특성뿐 만 아니라 인간의 감성이 그대로 표현된 특성을 가진 텍스트에서 의미 있는 정보를 추출하는 빅데이터 분석 기법을 텍스트마이닝(Text Mining)이라 하며 본 연구는 이를 주제로 하고 있다. 본 연구를 위해 오픈 소스인 통계분석용 소프트웨어 R 프로그램을 이용하였으며, 비정형 텍스트 문서를 웹 환경에서 수집, 저장, 전처리, 분석 작업과 시각화(Frequency Analysis, Cluster Analysis, Word Cloud, Social Network Analysis)작업 등의 과정에 관한 알고리즘 구현을 연구하였다. 특히, 연구자의 연구 영역 분석에 초점을 더욱 높이기 위해 Data Dictionary를 참조한 키워드 추출 기법을 사용하였다. 실제 사례에 적용한 R은 다양한 OS 구동, 일반적 언어와의 인터페이스 지원 등 통계 분석용 소프트웨어로써 매우 유용하다는 점을 발견할 수 있었다.

한국어 구 단위화를 위한 규칙 기반 방법과 기억 기반 학습의 결합 (A Hybrid of Rule based Method and Memory based Loaming for Korean Text Chunking)

  • 박성배;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권3호
    • /
    • pp.369-378
    • /
    • 2004
  • 한국어나 일본어와 같이 부분 어순 자유 언어에서는 규칙 기반 방법이 구 단위화에 있어서 매우 유용한 방법이며, 실제로 잘 발달된 조사와 어미를 활용하면 소수의 규칙만으로도 여러 가지 기계학습 기법들만큼 높은 성능을 보일 수 있다. 하지만, 이 방법은 규칙의 예외를 처리할 수 있는 방법이 없다는 단점이 있다. 예외 처리는 자연언어처리에서 매우 중요한 문제이며, 기억 기반 학습이 이 문제를 효과적으로 다룰 수 있다. 본 논문에서는, 한국어 단위화를 위해서 규칙 기반 방법과 기억 기반 학습을 결합하는 방법을 제시한다. 제시된 방법은 우선 규칙에 기초하고, 규칙으로 추정한 단위를 기억 기반 학습으로 검증한다. STEP 2000 말뭉치에 대한 실험 결과, 본 논문에서 제시한 방법이 규칙이나 여러 기계학습 기법을 단독으로 사용하였을 때보다 높은 성능을 보였다. 규칙과 구 단위화에 가장 좋은 성능을 보인 Support Vector Machines의 F-score가 각각 91.87과 92.54인데 비하여, 본 논문에서 제시된 방법의 최종 F-score 는 94.19이다.

BIG의 건축에서 나타나는 스토리텔링에 의한 형태생성 프로세스와 표현 특성에 관한 연구 (A Study on the Process Form Generation and Expressive Characteristic by Storytelling in BIG's Architecture)

  • 김종성;김개천
    • 한국실내디자인학회논문집
    • /
    • 제24권6호
    • /
    • pp.79-86
    • /
    • 2015
  • This study started from the concern for Bjrake Ingels, an emerging architect in the architecture circle, who is creative and popular. Recently, the architecture field provides architects with a foundation to express a process on a new form creation through various new expressive languages, design concepts, and methods. The global Danish group BIG(Bjarke Ingels Group) develops a story by their distinctive architectural language. The storytelling is being used in various fields and now the tool called 'story' is settling down as an important element in the life that human lives. Bjarke Ingels leading the group BIG aims for the form expression by the scientific analysis and adaptation after being affected by Danish regional background and OMA. It creates a form to share stories with local members by visually simplifying the region, culture, environment, social phenomenon, economy, and politics that are invisible and do not have the form in the modern society. The elements and expressive features of the space storytelling include locality, cultural, natural environment, and connectivity which are the content structure(story) that enables you to intervene in the story according to the main agent to imagine a new space. The expressive element includes the watching moving line story of the successive, hierarchical, and organic structures which are constructive elements creating various spaces through the mixture, transmutability, and relocation of the program and inducing users to the space. The space storytelling is composed of the symbolism, community, and eco-friendliness to appear diversely through BIG's case analysis. This study will have significance that it drew a method and feature looked at by many contemporary architects from the storytelling viewpoint in the form-creating process, classified the form-creating process through a new storytelling type, and showed a possibility on the development of various methodologies.

원 영상 복원을 위한 TV 자막 특성 분석에 관한 연구 (A Study on Analyzing Caption Characteristic for Recovering Original Images of Caption Region in TV Scene)

  • 전병태
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권4호
    • /
    • pp.177-182
    • /
    • 2010
  • 자막의 원영상 복원은 동영상 재 사용성이란 측면에서 많은 연구가 진행되어 왔다. 외국에서 수입된 동영상의 경우 외국어 자막이 삽입된 경우가 종종 발생하며 자막에 삽입된 외국어를 자국어로 대치할 필요가 종종 발생한다. 원영상 손실없이 자연스런 자막교환을 위해서는 자막 부분의 원영상 복원이 필요하며, 자막의 원영상 복원은 동영상 재 사용성이란 측면에서 많은 연구가 진행되어 왔다. 이러한 원영상 복원의 중요성에 불구하고 복원의 대상이 되는 자막 특성에 대한 체계적인 분석이 이루어 지지 않는 문제점이 있다고 볼 수 있다. 본 논문에서는 TV 프로그램 장르별 구분 방법을 학계, 방송사, 방송기구별로 분류 조사하고, 각 장르별 자막의 출현 빈도, 자막 내용의 중요도 및 복원의 필요성에 대하여 분석한다. 복원의 필요성이 크게 인식되는 자막에 대한 특성을 분석하고 그 정보를 복원 정보로 사용한다.

기초 알고리즘을 활용한 프로그래밍 언어 학습 시스템 (Learning System of Programming Language using Basic Algorithms)

  • 박경욱;오경숙;류남훈;이혜미;김응곤
    • 한국전자통신학회논문지
    • /
    • 제5권1호
    • /
    • pp.66-73
    • /
    • 2010
  • 알고리즘을 비롯한 프로그래밍 교육 과정은 전자공학 및 컴퓨터 관련학과를 비롯한 많은 이공계 학과에서 매우 중요한 교과목으로 인식된다. 하지만 과목의 특성 상 많은 학생들이 어려워하고 있으며, 이로 인해 상위 단계의 교과목 수강 시 많은 어려움을 겪고 있다. 순서도는 어떤 문제를 해결하는데 필요한 논리적인 단계들을 그림으로 표현한 것으로, 알고리즘의 흐름을 이해하는데 많이 활용된다. 알고리즘 및 프로그래밍은 구현 과정의 이해를 돕기 위해서 실습 중심의 교육이 매우 중요하다. 더욱이 알고리즘의 개념 이해 및 프로그램 실행 과정에 대한 이해력을 높일 수 있는 보조 프로그램의 필요성이 절실히 요구된다. 본 논문에서는 프로그래밍 과정 중 기본 알고리즘에 대해 쉽게 익힐 수 있도록 기초 알고리즘을 활용한 프로그래밍 언어 학습 시스템을 설계하고 구현하였다.

OECD Education 2030 교육과정 내용 맵핑 본검사 참여 연구 : 수학과를 중심으로 (A study on content curriculum mapping of Korea in the OECD education 2030 project: Focused on mathematics)

  • 조성민;이미경
    • 한국수학교육학회지시리즈A:수학교육
    • /
    • 제58권4호
    • /
    • pp.507-518
    • /
    • 2019
  • OECD는 학습 프레임워크를 개발하고 국제 비교 연구의 일환으로 교육과정을 분석하는 Education 2030 프로젝트를 수행하고 있다. 우리나라는 OECD Education 2030 프로젝트의 일환으로 수행된 국어, 수학, 사회/역사, 과학, 체육, 예술(미술/음악), 기술·가정/정보 교과에 대한 교육과정 내용 맵핑 연구(Curriculum Content Mapping, 이하 CCM)의 본 검사에 참여하였다. 본 연구는 CCM 본검사에 참여한 결과 중 수학과의 내용을 정리한 것으로, 우리나라 2015 개정 중학교 수학과 교육과정에 CCM 프레임워크의 역량이 어느 정도로 어떻게 반영되었는지를 확인하고 이를 바탕으로 우리나라 수학과 교육과정 및 교육과정 국제 비교 연구를 위한 시사점을 도출하였다.