• 제목/요약/키워드: 존재의 언어

검색결과 711건 처리시간 0.021초

최대 엔트로피 부스팅 모델을 이용한 영어 전치사구 접속과 품사 결정 모호성 해소 ((Resolving Prepositional Phrase Attachment and POS Tagging Ambiguities using a Maximum Entropy Boosting Model))

  • 박성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.570-578
    • /
    • 2003
  • 최대 엔트로피 모델은 자연언어를 모델링하기 위한 좋은 방법이다. 하지만, 최대 엔트로피 모델을 전치사구 접속과 같은 실제 언어 문제에 적용할 때, 자질 선택과 계산 복잡도의 두 가지 문제가 발생한다. 본 논문에서는, 이런 문제와 자연언어 자원에 존재하는 불균형 데이터 문제를 해결하기 위한 최대 엔트로피 부스팅 모델(maximum entropy boosting model)을 제시하고, 이를 영어의 전치사구 접속과 품사 결정 모호성 해소에 적용한다. Wall Street Journal 말뭉치에 대한 실험 결과, 문제의 모델링에 아주 작은 노력을 들였음에도 불구하고, 전치사구 접속 문제에 대해 84.3%의 정확도와 품사 결정 문제에 대해 96.78%의 정확도를 보여 지금까지 알려진 최고의 성능과 비슷한 결과를 보였다.

사용자 정의 타입에 기반한 메타데이터 레지스트리를 위한 일관성 있는 질의 언어 (User-defined types Based Consistent Query Language for Metadata Registry)

  • 김장원;정동원;백두권
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제39차 동계학술발표논문집 16권2호
    • /
    • pp.1-4
    • /
    • 2009
  • 이 논문에서는 메타데이터 레지스트리(ISO/IEC 11179: Metadata Registry)들이 가지고 있는 메타데이터 정보를 검색하고, 공유하기 위해 일관성 있는 질의 언어를 제안한다 메타데이터 레지스트리는 국제 표준으로서 메타데이터들을 정의하고 이들을 관리 및 공유를 하기 위해 만들어졌다. 이와 같은 국제 표준을 기반으로 한 메타데이터 레지스트리들이 서지, 환경, 의료 분야 등의 다양한 영역에서 사용되고 있다. 이와 함께 메타데이터 레지스트리를 기반으로 하여 기존에 저장된 메타데이터들을 검색하고, 공유하고, 관리하고자 하는 이슈에 대한 연구가 진행되고 있다. 하지만 현재까지 다양한 분야에 있는 메타데이터 레지스트리가 가지고 있는 정보를 가져오기 위한 표준 인터페이스가 제공되고 있지 않다. 이러한 문제를 해결하기 위한 연구로 SQL에 메타데이터 레지스트리를 위한 공통 연산자들을 추가하여 메타데이터 레지스트리에 존재하는 데이터들을 활용하는 연구가 있다. 하지만 이런 연산자들을 이용하기 위해서는 상용 DBMS 엔진에 추가되어야 하며, 연산자들이 없는 경우 일관된 질의어를 수행할 수 없다는 문제를 가지고 있다. 따라서 이 논문에서는 이와 같은 문제를 해결하기 위해서 국제 표준인 SQL(ISO/IEC 9075) 에서 정의하고 있는 사용자 정의 타입(User-defined types) 을 기반으로 한 일관성 질의 언어를 제안한다.

  • PDF

표상의 실재성과 가능성 (Reality and Function of Representation)

  • 소흥렬
    • 인지과학
    • /
    • 제2권2호
    • /
    • pp.205-220
    • /
    • 1990
  • 물질적으로 존재하는 모든 실체는 질료인과 형상인을 갖춘 개별 물체로 실재하면서 어떤 기능을 할 \ 수도 있고,동력인과 기능인을 갖춘 비물체적 양상으로 실재하면서 기능망(functional network)으로서 형상을 가질 수도 있다.기능망은 신경망,신경기능망,심리기능망 등 차원을 다르게 하면서 상하로 연관된 계층으 이루고 있으며 심리기능망 안에서도 비언어적 기능망,언어적 기능망이 구별되어 차원적 언어기능을 가능하게 하는 것으로 볼수 있다.이러한 기능망의 실재성은 신경과학과 인공지능학의 발전에 따라 확인, 수정,보완될 수 있을 것이다.

ELMo와 멀티헤드 어텐션을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using ELMo and Multi-head Attention)

  • 박성식;오신혁;김홍진;김시형;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.8-12
    • /
    • 2018
  • 구문 분석이란 문장을 단어, 어절, 구 등의 구성 성분으로 분해하고 각각의 구조적 정보를 분석하여 문장의 구조를 알아내는 작업을 말한다. 최근 의존 구문 분석은 심층 신경망을 이용하는 방법이 활발히 연구되고 있다. 특히 포인터 네트워크를 사용하는 방법은 다른 심층 신경망보다 높은 성능을 보이고 있다. 그러나 포인터 네트워크의 사용만으로 의존 관계와 의존 관계명을 예측하는 것은 한계가 존재한다. 본 논문에서는 최근 사용하는 단어 표상 방법 별로 비교 실험을 진행하고 의존 구문 분석에서 GloVe의 성능이 가장 좋음을 보인다. 또한 언어 모델을 통한 단어 표상 방법인 ELMo와 멀티헤드 어텐션을 사용하여 포인터 네트워크만을 사용 했을 때보다 높은 성능(UAS 92.85%, LAS 90.65%)을 보였다.

  • PDF

21세기 세종계획 관용표현 전자사전 구축에 대하여 (On the development of a computational lexical database of idiomatic expressions in the frmework of 21st Sejong Project)

  • 박만규;이선웅;나윤희;이광호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.334-340
    • /
    • 2001
  • 본고는 올해 처음 시도하는 세종계획 관용표현 전자사전 구축에 관한 글이다. 본 전자사전이 완성되면 관용표현의 총체적 정보(형태, 통사, 의미, 화용 정보)를 수록하는 최초의 업적이 될 뿐만 아니라 실제 언어 자료에서 흔히 볼 수 있는 관습적 표현까지 모두 포괄하는 4만 표제어의 대규모 사전이 될 것이다. 본 사전에서는 관용표현의 형태 통사적 구성과 그 분포적 속성뿐 아니라, 관용표현이 가지는 논항의 존재 유무, 구조, 조사 통합 양상, 그리고 고정명사에 대한 수식어 제약, 어휘적 통사적 변형 양상, 선어말어미 제약, 어말어미 제약, 문장 유형 제약 등이 수록된다. 또한 각 논항의 의미역과 선택제약에 관한 정보, 그 외 다양한 의미 화용 정보 어원 표기 정보 등도 담기게 된다. 본고에서는 그러한 정보의 표기 양식을 하나하나 명시적으로 설명할 것이다.

  • PDF

대화형 개인 비서 시스템의 언어 인식 모듈(SLU)을 위한 미등록어(OOV) 처리 기술 (A Out-of-vocabulary Processing Technology for the Spoken Language Understanding Module of a Dialogue Based Private Secretary Software)

  • 이창수;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2014
  • 대화형 개인 비서 시스템은 사람의 음성을 통해 인식된 음성 인식 결과를 분석하여 사용자에게 제공할 정보가 무엇인지 파악한 후, 정보가 포함되어 있는 앱(app)을 실행시켜 사용자가 원하는 정보를 제공하는 시스템이다. 이러한 대화형 개인 비서 시스템의 가장 중요한 모듈 중 하나는 음성 대화 인식 모듈(SLU: Spoken Language Understanding)이며, 발화의 "의미 분석"을 수행하는 모듈이다. 본 논문은 음성 인식결과가 잘못되어 의미 분석이 실패하는 것을 방지하기 위하여 음성 인식 결과에서 잘못 인식된 명사, 개체명 단어를 보정 시켜주는 미등록어(OOV:Out-of-vocabulary) 처리 모듈을 제안한다. 제안하는 미등록어 처리 모듈은 미등록어 탐색 모듈과 미등록어 변환 모듈로 구성되며, 미등록어 탐색 모듈을 통해 사용자의 발화에서 미등록어를 분류하고, 미등록어 변환 모듈을 통해 미등록어를 사전에 존재하는 유사한 단어로 변환하는 방법을 제안한다. 제안한 방법을 적용하였을 때의 실험 결과, 전체 미등록어 중 최대 52.5%가 올바르게 수정되었으며, 음성 인식 결과를 그대로 사용했을 경우 "원본 문장"과 문장 단위 67.6%의 일치율을 보인 것에 반해 미등록어 처리 모듈을 적용했을 때 17.4% 개선된 최대 85%의 문장 단위 일치율을 보였다.

  • PDF

SOA기반 워크플로우 환경에서 DSML의 구조적 접근방법을 사용한 프라이버시 정책 모델의 통합과 검증 (Integration and Verification of Privacy Policies Using DSML's Structural Semantics in a SOA-Based Workflow Environment)

  • 이용환;얀워너;야노스스테파노비치
    • 인터넷정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.139-149
    • /
    • 2009
  • 본 논문에서는 데이터 보호 규정에 관련된 요구사항들이나 규칙들이 소프트웨어에 잘 표현되어 있는지를 검증하기 위하여 도메인 고유의 언어인 DSML(Domain Specific Modeling Language)을 사용해 정책을 정규화 혹은 계산적 표현에 관련된 솔루션을 제시하고 있다. 모든 정책들은 공식적으로 프롤로그( Prolog) 언어 기반으로 표현된 후 DSML에 통합되며 정책검증은 요구사항 준수가 언제 평가되어야 하는지에 따라 정적 정책검증과 동적 정책검증의 두가지 정책이 존재한다.

  • PDF

문자열 커널을 이용한 인터넷 영화평의 감정 분석 (A Sentiment Analysis of Internet Movie Reviews Using String Kernels)

  • 김상도;윤희근;박성배;박세영;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.56-60
    • /
    • 2009
  • 오늘날 인터넷은 개인의 감정, 의견을 서로 공유할 수 있는 공간이 되고 있다. 하지만 인터넷에는 너무나 방대한 문서가 존재하기 때문에 다른 사용자들의 감정, 의견 정보를 개인의 의사 결정에 활용하기가 쉽지 않다. 최근 들어 감정이나 의견을 자동으로 추출하기 위한 연구가 활발하게 진행되고 있으며, 감정 분석에 관한 기존 연구들은 대부분 어구의 극성(polarity) 정보가 있는 감정 사전을 사용하고 있다. 하지만 인터넷에는 나날이 신조어가 새로 생기고 언어 파괴 현상이 자주 일어나기 때문에 사전에 기반한 방법은 한계가 있다. 본 논문은 감정 분석 문제를 긍정과 부정으로 구분하는 이진 분류 문제로 본다. 이진 분류 문제에서 탁월한 성능을 보이는 Support Vector Machines(SVM)을 사용하며, 문서들 간의 유사도 계산을 위해 문장의 부분 문자열을 비교하는 문자열 커널을 사용한다. 실험 결과, 실제 영화평에서 제안된 모델이 비교 대상으로 삼은 Bag of Words(BOW) 모델보다 안정적인 성능을 보였다.

  • PDF

네트웍 관리를 위한 MIB의 자동생성 (Automatic Generation of MIB for Network Management)

  • 유재우;김영철;김성근
    • 한국통신학회논문지
    • /
    • 제25권6A호
    • /
    • pp.848-854
    • /
    • 2000
  • TMN에서의 네트웍 관리는 네트웍에 존재하는 운영체제나 통신 장비를 객체로 정의하고 관리한다. 이들 객체를 기술하기 위해 GDMO(Guidelines for the DefInition of Managed Objects)를 사용하고 있다. GDMO는 네트웍 관리를 위해 직접 이용되지 않으며, 객체지향 파라다임을 가지는 언어로 변환되어 사용된다. 또한 GDMO는 객체들을 관리하기 위하여 ASN.1(Abstract Syntax Notation One)을 참조한다. 본 논문에서는 ASN.1 & GDMO 명세를 Managed object Instance Base(MIB) 생성에 사용되는 객체지향 언어로 자동 번역하는 번역기를 설계하고 구현하였다. 본 시스템은 기존의 네트워크 관리를 위한 원시코드 생성기와는 달리 MIB 생성에 이용될 수있는 다양한 객체지향 언어를 자동 생성할 수 있도록 고안되었으며, ASN.1과 GDMO를 하나의 부라우져에서 처리할 수 있는 통합 환경을 제공함으로써 응용프로그램을 개발하는데 편리하도록 하였다.

  • PDF

한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법 (Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model)

  • 김훈래;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.507-511
    • /
    • 2022
  • 문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

  • PDF