• 제목/요약/키워드: 언어적 정보

검색결과 4,756건 처리시간 0.03초

YDK-Term : 한국어 용언의 다국어 통합정보사전 (A Thesaurus for Korean Language)

  • 최용준;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.321-326
    • /
    • 1998
  • 통합정보사전은 각종 자연언어처리 시스템에 있어서 고도의 언어처리 및 성능향상을 위한 필수 요소이며, 아무리 좋은 언어 처리 도구와 처리 알고리즘이라도 계산언어학에 근거한 양질의 체계적인 전자사전이 없는 한 이의 실용화는 불가능하다. 기존에 출판되어 있는 사전은 자연언어처리 및 이해의 관점에서 개발된 사전이 아니며, 자연언어처리 도구 및 응용시스템에 사용되는 사전은 목적에 따라 각기 다른 체계에 의해 구축되어 있어 이용하는데 있어서 비효율적이다. 따라서, 고도의 언어처리 및 이해를 목적으로 한 체계적이며 과학적인 방법론을 이용하여 형태소, 구문, 의미정보 등 각종 정보가 통합된 통합정보사전의 개발이 반드시 필요하다. 본 논문에서는 다국어 통합정보사전 구축을 위한 한국어 용언의 통합정보사전을 설계한다. 이를 위해 사전구축 방법론을 정립하고, 정립된 방법론을 바탕으로 하여 통합 정보사전의 개발을 위한 통합정보사전 개발 시스템을 설계하고 구현하였다.

  • PDF

워드 임베딩을 활용한 관용표현 인식 연구 (Korean Idiom Classification Using Word Embedding)

  • 박서윤;강예지;강혜린;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.548-553
    • /
    • 2020
  • 우리가 쓰는 일상 언어 중에는 언어적 직관이 없는 사람은 의미 파악이 힘든 관용표현이 존재한다. 관용표현을 이해하기 위해서는 표현에 대한 형태적, 의미적 이해가 수반되어야 하기 때문이다. 기계도 마찬가지로 언어적 직관이 없기 때문에 관용표현에 대한 자연어 처리에는 어려움이 따른다. 특히 일반표현과 중의성 관계에 있는 관용표현의 특성이 고려되지 않은 채 문자적으로만 분석될 위험성이 높다. 본 연구에서는 '관용표현은 주변 문맥과의 관련성이 떨어진다'라는 가정을 중심으로 워드 임베딩을 활용한 관용표현과 일반표현에 대한 구분을 시도하였다. 실험은 4개 표현에 대해 이루어 졌으며 Skip-gram, Fasttext를 활용한 방법을 통해 관용표현은 주변 단어들과의 유사성이 떨어짐을 확인하였다.

  • PDF

언어별 웹 화면 제공 시스템 (Multilingual Web-Page Providing system)

  • 진성근;이재경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1545-1548
    • /
    • 2000
  • 본 고는 인터넷 이용자가 원하는 웹페이지 링크시 발생할 수 있는 여러 가지 문제 중, 언어적인 장벽을 해결하기 위한 시스템을 설계하고 이를 이용하여 언어적인 문제를 해결할 수 있는 방법을 제시한다. 인터넷 이용자의 DNS 서버와 로컬 데이터베이스를 이용하여 인터넷 이용자의 언어 정보를 추정하고, 추정한 언어로 구성된 웹페이지를 인터넷 이용자에게 제공하는 시스템을 설계한 것이다. 이로 인해, 인터넷 이용자들에게 발생하는 언어적인 장벽 문제 해결, 웹페이지 상에서의 불필요한 클릭 수 감소, 웹페이지 링크 수 증가, 시간 절약 등의 여러 가지 편의를 제공할 수 있다.

  • PDF

언어적 특징을 반영한 한국어 프레임넷 확장 및 개선 (Expansion and Improvement of Korean FrameNet utilizing linguistic features)

  • 김정욱;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.85-89
    • /
    • 2016
  • 프레임넷 (FrameNet) 프로젝트는 버클리에서 1997년에 처음 제안했으며, 최근에는 다양한 언어적 특징을 반영하여 여러 국가에서 사용되고 있다. 하지만 문장의 프레임을 분석하는 것은 자연언어처리 전문가들이 많은 시간을 들여야 한다. 이 때문에, 한국어 프레임넷을 처음 만들 때는 충분한 훈련을 받은 번역가들이 영어 프레임넷의 문장들과 그 주석 정보들을 직접 번역하는 방법을 사용했다. 결과적으로 상대적으로 적은 비용이 들지만, 여전히 한 문장에 여러 번 등장하는 프레임 정보를 모두 번역하고 에러를 분석해야 했기에 많은 노력이 들어갔다. 본 연구에서는 일본어와 한국어의 언어적 유사성을 사용하여 비교적 적은 비용으로 한국어 프레임넷을 확장하는 방법을 제시한다. 또한 프레임넷에 친숙하지 않은 사용자가 더욱 쉽게 프레임 정보를 활용할 수 있도록 PubAnnotation 기술을 도입하고 "조사"라는 특성을 고려한 Valence pattern 분류를 통해 한국어 공개 프레임넷 사이트를 개선하였다.

  • PDF

퍼지 언어적 관련도에 근거한 시소러스 모델 (Thesaurus Model based on Fuzzy Linguistic Relation Degree)

  • 최명복;김민구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.72-74
    • /
    • 1998
  • 정보검색 시스템에서 시소러스는 정보항목에 대한 용어들간의 관계를 계층적 구조로 나타낸다. 따라서 정보검색 시스템에서 시소러스의 사용은 이용자의 질의에 있는 탐색어와 관련된 정보항목들을 검색할 수 있기 때문에 정보검색 시스템의 검색효율을 크게 증가시킬 수 있다. 그러나 기존의 시소러스 모델들은 용어들간의 관련 정도를 무시하거나 정량적인 수치값으로 부여하기 때문에 인간의 주관성과 부정확성을 다루는데 적합하지 않다. 용어들간 의미의 밀접한 정도(Degree of Closeness)는 모호하고 부정확한 판단에 근거하는 인간의 정성적인 측정 단위이다. 그러므로 관련정도를 정량적으로 표현하는 것은 정성적 개념을 정확한 숫자 값으로 변환하는 것이기 때문에 인간의 정성적 측정 단위를 정확하고 용이하게 정량적으로 측도하여 반영한다는 것은 어렵다. 따라서 본 논문에서는 용어들간의 관련도를 정성적으로 부여한 시소러스 모델을 제안한다. 이 시소러스 모델에서는 색인어간의 관련도를 정성적으로 표현하기 위해 퍼지 집합 이론에 근거한 언어적 설명자들을 정의한다. 언어적 설명자들은 존재론적 문제가 고려되고 다분히 인식론적인 표현에 근거한다.

  • PDF

언어사전의 명사항목 구성을 위한 통사 어휘 정보 (Pour un traitement lexicographique des proprietes syntaxiques et lexicales des noms coreens)

  • 홍재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.96-98
    • /
    • 1989
  • 본 발표는 현대 한국어 어휘에 대한 공시적 시각 우위의 총체적 기술을 지향하는 대규모 언어사전의 명사 항목 내에 표시 되어야할 주요 통사 어휘 정보가 어떠한 것인가 하는 문제를 다룬다. 특히 기간 한국어 사전에서 소홀히 취급되었거나 무시되었으나, 언어학적으로는 중요하고, 따라서 언어 사전에 기록되는 것이 바람직한 한국어 명사의 통사 어휘적 속성의 일부를 소개해 보기로 한다.

  • PDF

양방향 언어 모델을 활용한 자연어 텍스트의 시간 관계정보 추출 기법 (Temporal Relationship Extraction for Natural Language Texts by Using Deep Bidirectional Language Model)

  • 임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-84
    • /
    • 2019
  • 자연어 문장으로 작성된 문서들에는 대체적으로 시간에 관련된 정보가 포함되어 있을 뿐만 아니라, 문서의 전체 내용과 문맥을 이해하기 위해서 이러한 정보를 정확하게 인식하는 것이 중요하다. 주어진 문서 내에서 시간 정보를 발견하기 위한 작업으로는 시간적인 표현(time expression) 자체를 인식하거나, 시간 표현과 연관성이 있는 사건(event)을 찾거나, 시간 표현 또는 사건 간에서 발생하는 시간적 연관 관계(temporal relationship)를 추출하는 것이 있다. 문서에 사용된 언어에 따라 고유한 언어적 특성이 다르기 때문에, 만약 시간 정보에 대한 관계성을 고려하지 않는다면 주어진 문장들로부터 모든 시간 정보를 추출해내는 것은 상당히 어려운 일이다. 본 논문에서는, 양방향 구조로 학습된 심층 신경망 기반 언어 모델을 활용하여 한국어 입력문장들로부터 시간 정보를 발견하는 작업 중 하나인 시간 관계정보를 추출하는 기법을 제안한다. 이 기법은 주어진 단일 문장을 개별 단어 토큰들로 분리하여 임베딩 벡터로 변환하며, 각 토큰들의 잠재적 정보를 고려하여 문장 내에 어떤 유형의 시간 관계정보가 존재하는지를 인식하도록 학습시킨다. 또한, 한국어 시간 정보 주석 말뭉치를 활용한 실험을 수행하여 제안 기법의 시간 관계정보 인식 정확도를 확인한다.

  • PDF

새로운 언어 설계의 지침을 위한 C 시큐어 코딩 규칙 분류 (Categorizing C Secure Coding Rules for a Design Guideline of a New Language)

  • 김연어;우균
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.571-574
    • /
    • 2014
  • 현대 사회에서 정보보안은 무엇보다 중요한 요소로 자리 잡고 있다. 시큐어 코딩은 정보보안 기법의 하나로 보안 취약점을 원천적으로 차단하여 보안 비용을 획기적으로 줄이는 방법이다. 하지만 기존 시큐어 코딩 가이드는 C나 Java와 같은 특정 언어에 대한 가이드만 제공하고 있다. 이 논문에서는 다양한 언어에서도 기존의 시큐어 코딩 가이드를 활용할 수 있도록 언어적 특징을 기반으로 시큐어 코딩 가이드를 재분류하고자 한다. 이를 위해 이 논문에서는 많은 언어의 기반이 되는 C 언어의 시큐어 코딩 가이드 중 안전행정부에서 발표한 C 시큐어 코딩 가이드를 이용하여 재분류 작업을 수행하였다. 그 결과 총 58개의 취약점 중 언어와 관련이 있는 취약점은 19개로 약 33%가 프로그래밍 언어와 관련 있는 것을 확인하였다. 또한, 제안 방법의 내용 중 언어적 특성쪽의 취약성을 모두 해결할 수 있도록 문법을 설계한다면 C 언어보다 보안성이 높은 언어를 설계할 수 있다.

퍼지추론을 이용한 회전기계의 정밀진단법 (Vibration Diagnosis of Rotating Machinery Using Fuzzy Inference)

  • 전순기;양보석
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 1995년도 추계학술대회논문집; 한국종합전시장, 24 Nov. 1995
    • /
    • pp.284-288
    • /
    • 1995
  • 최근 애매성이 수반되는 정보를 Zadeh는 멤버쉽함수(membership function)를 이용하여 새로운 정보처리 방식으로서 퍼지이론을 제안하였고, 그후 의료계에서도 퍼지이론을 도입한 진단법들이 제안되었다. 회전기계의 이상진단법으로는 주파수득점법(Point counting method), 퍼지역연산법(Inverse method of fuzzy theory)등이 보고되고 있으며, 저자들도 퍼지이론을 이용하여 구름베어링의 결함진단, 회전기계의 간이 이상진단법등을 보고하였다. 이들은 주로 진동주파수의 스펙트럼 데이터 만을 이용하고 있고, 다른 많은 데이터를 복합적으로 이용할 수 없다. 이 때문에 주로 소규모 문제의 간이진단에서는 효과적이나 진단대상이 복잡하고 대규모로 되면 보다 정확한 원인 추정이 곤란하게 된다. 또한 수치데이터만을 취급할 수 있으므로 진동전문가가 진단에 이용하는 각종의 수치화 될 수 없는 데이터(언어적인 정보)가 취급될 수 없다. 따라서 이들의 진단법은 개략적인 진단은 가능하나 상세한 원인까지는 진단할 수 없는 단점이 있다. 회전기계의 이상판단시 참고가 되는 각종 정보로는 주로 진동진폭의 크기, 진폭과 위상의 변화, 진폭의 변화, 진동파형, 진동벡터의 시간변화 등이 있고, 이들은 수치적으로 표현할 수 있는 계량데이터와 판단의 경계가 불명확한 언어정보(범위데이터)로 나눌 수 있다. 후자는 애매성(fuzziness)을 많이 포함하고 있으며, 엄밀히 측정되는 수치데이터에서도 퍼지성을 가지고 있다. 이러한 언어적인 정보의 애매성을 퍼지추론에서는 [수치적 진리치](numeric truth)와 [언어적 진리치](linguistic truth)의 개념으로 표현하게 되었다. 수치적 진리치는 확실함의 척도를 [0,1] 사이의 수치를 이용하여 표현하고 있으며, 이 수치는 소견의 확실도로서 가능성을 표현한 것이다. 예를 들면, 진동진폭 스펙트럼상에 2X 성분이 상당히 크게 나타나 정렬불량의 가능성이 0.7 정도라고 판정하는 것 등은 이러한 수치적진리치를 이용하는 방법이다. 그러나 상기의 수치적 표현만으로는 확실도를 한개의 수치로서 대표하게 하는 것은 진단의 정밀도에 문제가 있을 것으로 생각된다. 따라서 언어적진리치가 도입되어 [상당히 확실], [확실], [약간 확실] 등의 언어적인 표현을 이용하여 애매성을 표현하게 되었다. 본 논문에서는 간이진단 결과로부터 추출된 애매한 진단결과중에서 가장 가능성이 높은 이상원인을 복수로 선정하고, 여러 종류의 수치화할 수 없는 언어적(linguistic)인 정보ㄷㄹ을 if-then 형식의 퍼지추론으로 종합하는 회전기계의 이상진단을 위한 정밀진단 알고리즘을 제안하고 그 유용성을 검토한다.

  • PDF

언어 지식과 통계 정보의 보완적 특성을 이용한 품사 태깅 (Part-of-Speech Tagging Using Complemental Characteristics of Linguistic Knowledge and Stochastic Information)

  • 임희석;김진동;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.102-108
    • /
    • 1997
  • 기존의 품사 태깅 방법에서 독립적으로 사용해온 언어 지식과 통계 정보는 품사 태깅의 정확도와 처리 범위의 향상을 위해서 상호 보완적인 특성을 갖는다. 이에 본 논문은 언어 지식과 통계 정보의 보완적 특성을 이용한 규칙 우선 직렬 품사 태깅 방법을 제안한다. 제안된 방법은 언어 지식에 의한 품사 태깅 결과를 선호함으로써 규칙 기반 품사 태깅의 정확도를 유지하며, 언어 지식에 의해서 모호성이 해소되지 않은 어절에 통계 정보에 의한 품사 태깅 결과를 할당함으로써 통계 기반 품사 태깅의 처리 범위를 유지한다. 또한, 수정 언어 지식에 의해 태깅 결과의 오류를 보정함으로써 품사 태깅의 정확도를 향상시킨다. 약 2만 어절 크기의 외부 평가 코퍼스에 대해 수행된 실험 결과, 규칙 우선 직렬 품사 태깅 시스템은 통계 정보만을 이용한 품사 태깅의 정확도보다 32.70% 향상된 95.43%의 정확도를 보였다.

  • PDF