• 제목/요약/키워드: 한국어 의존구조 분석

검색결과 74건 처리시간 0.032초

세종 의존명사/대명사/수사 전자사전의 정보표상 구조 (The Representational Structure of Lexical Informations of Korean non-autonomous nouns in the Sejong Electronic Dictionary)

  • 방성원;호정은;김종인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.341-347
    • /
    • 2001
  • 세종전자사전이 궁극적으로 범용전자사전을 지향한다는 점에 비추어 볼 때, 텍스트 자동 분석과 생성, 정보 검색 및 자동 번역 등에 활용될 데이터베이스로서의 전자사전은 자연 언어 어휘의 내적 구조와 기능방식에 관한 정보들, 가령 음운 통사 의미 화용적 가치와 실현 조건 등에 관한 정보들을 체계적이고도 정교하게 담고 있어야만 한다. 의존명사, 대명사, 수사 범주에 속하는 언어 단위들은 단일 명사와 구별되는 어휘 통사적 속성들을 지니며, 사전의 기술 구조에는 그 정보 값들을 체계적으로 명시화할 수 있는 정보 항목과 표상 구조가 설정되어야 한다. 가령 의존명사처럼 통사 의미적 자율성을 지니지 않는 언어 요소의 경우, 어휘 관계 정보보다는 인접하는 여타 언어 단위들과의 호응관계나 결합제약 조건들이 더 중요한 정보일 수 있다. 본 사전이 체언사전의 하위사전으로 별도로 구축되는 것은 단일어 사전에서 그러한 정보들을 효과적으로 표상하기 어렵기 때문이다. 그러나 본 사전은 실제적으로는 체언사전에 통합되어 운영된다는 점에서 이중적 지위를 누린다고 하겠다.

  • PDF

텍스트 이해 모델에 기반한 정보 검색 시스템 (Text Undestanding System for Summarization)

  • 송인석;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

한국어 분석의 중의성 해소를 위한 하위범주화 사전 구축 (Development of Subcategorization Dictionary for the Disambiguation Korean Language Analysis)

  • 이수선;박현재;우요섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-264
    • /
    • 1999
  • 자연언어 처리에 있어 문장의 성분 구조를 파악하는 통사적 해석에서는 애매성 있는 결과가 많이 생성된다. 한국어의 경우 어순 등의 통사적 특성뿐 아니라 상황과 의미, 문맥이 문장의 분석에 더 중요한 역할을 하기 때문에 문맥 자유 문법에 의한 접근 방법만으로는 중의적 구조의 해결이 어렵다. 이는 또한 의미 분석시 애매성을 증가시키는 원인이 된다. 이러한 통사적, 의미적 중의성 해결을 위해 용언 중심의 하위범주화 사전을 구축하였다. 본 논문에서는 용언에 따라 제한될 수 있는 하위범주 패턴을 정의하고 패턴에 따라 하위범주 사전을 구축하였다. 하위범주화 사전에는 명사의 시소러스와 정합하여 보어를 선택 제한(Selectional Restriction)할 수 있도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 말뭉치를 통해 수집된 용언 12,000여개를 대상으로 25,000여개의 하위범주 패턴을 구축하였고 이렇게 구축한 하위범주화 사전이 120,000여 명사에 대한 의미를 갖고 있는 계층 시소러스 의미 사전과 연동하도록 하였다. 또한 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 2만여 문장의 말뭉치를 통해 검증 작업을 수행하고, 의존관계와 어휘의 의미를 포함하고 있는 말뭉치에 하위범주 패턴이 어느정도 정합되는지를 분석하여, 하위범주 패턴과 말뭉치의 의존관계만 일치하는 경우와 어휘의 의미까지 일치하는 경우에 대해 평가한다. 이 과정에서 하위범주 패턴에 대한 빈도 정보나, 연어 정보를 수집하여 데이터베이스에 포함시키고, 각 의미역과 용언의 통계적 공기 정보 등을 추출하는 방법도 제시하고자 한다.을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

한국어 초록 작성의 자동화에 관한 연구 -미생물학분야 학술지의 논문을 대상으로- (A Study on the Automatic Abstracting System for Journal Articles in Korean in the Field of Microbiology)

  • 이태영
    • 정보관리학회지
    • /
    • 제9권2호
    • /
    • pp.43-79
    • /
    • 1992
  • 자연 언어 처리 문법 중 격문법, 개념 의존 문법, PATR-II, DCG를 응용하여 미생 물학 분야에 대한 한국어 자동 초록 시스템의 구축을 연구하였다. 표본으로 선택된 초록들 을 분석하여 초록의 구조가 연구 목적 문장, 방법.결과 문장, 결론 문장 의 순으로 이루어지 는 것을 알았고 이를 초록의 이상적인 구조 형식으로 정하였다. 본문에서는 문장 발췌와 발 췌된 문장들이 초록의 문장으로 정제되도록 하는 과정에서 중요한 역할을 하는 명사 역할 자질과 그 자질을 부여하는 규칙을 개발 하였다. 그리고 발췌된 문장들을 재정렬시키기 위 한 재정렬 규칙, 초록 문장을 생성하기 위한 문장 생성 규칙을 두었다. 그리고 본 시스템의 방법론으로 작성된 자동 초록들을 평가한 결과, 본 시스템의 방법론이 저자 초록과 같은 수 준에 오르려면 정밀한 역할 자질의 확립과 문장 생성 규칙에 대한 보다 깊은 연구가 필요하 다고 사려된다.

  • PDF

언어정보 DB 구축을 위한 문법적 주석 상의 몇 문제 - 기존 국어사전의 어휘 정보 수용과 관련된 문제를 중심으로 (Problems in Syntactic Annotation for Building a LDB in Korean)

  • 신선경;한영균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.73-81
    • /
    • 1992
  • 한 언어에 대한 포괄적인 언어정보 데이타베이스의 구축에 있어서는 수집된 텍스트에 대한 상세한 문법정보의 주석이 일차적 작업 대상이 된다. 이는 통사적 정보가 단순히 구문 분석상의 문제들을 해결하기 위한 정보를 제공해주는 것일 뿐 아니라 형태소 해석 및 문장 의미의 파악등 자연언어 이해시스템 전반의 성능을 향상시키는 데에 중요한 물을 차지하기 때문이다. 각개 단어의 문법적 기능에 대한 주석은 사전적 정의에 따른다면 "품사"로 표현할 수 있을 것이다. 그런데 품사는 각개 단어가 지니는 고유한 어휘의미적 정보이기보다는 구문구조에 의존적인 양상을 보인다. 이는 사전에 따라서 각개 단어에 대한 품사 정보가 달리 나타나는 점에서도 간취할 수 있는데, 한편으로 한국어 언어정보 데이타베이스 구축을 위한 문법적 주석에 있어서는 기존 사전의 품사정보에만 의존할 수는 없다는 문제점이 제기된다. 따라서 각 어휘들의 구문정보(흑은 품사정보)를 어떻게 기술할 것인가가 해결되어야 하는 것이다. 본 연구에서는 일차적으로 각 어휘들의 문장 안에서의 기능을 바탕으로 한 주석체계를 설정하고 그에 따라서 약 12만개의 문장에 대한 일차적 형식화를 수작업으로 처리하였다. 이는 향후 자동적으로 문법적 주석이 가능하도록 해주는 시스템의 개발을 지원하기 위한 언어정보의 수집에 목적을 둔 것인데, 이를 통해서 기존 국어사전에서의 언어정보상의 미비점을 수정 보완할 몇 가지 근거를 마련할 수 있었다.

  • PDF

시소러스와 술어 패턴을 이용한 의미역 부착 한국어 하위범주화 사전의 구축 (Constructing a Korean Subcategorization Dictionary with Semantic Roles using Thesaurus and Predicate Patterns)

  • 양승현;김영섬;우요섭;윤덕호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권3호
    • /
    • pp.364-372
    • /
    • 2000
  • 하위범주화는 보어의 어휘 개념이 명시된 술어와 보어간 의존 관계를 정의하는 언어 정보로서 구문 및 의미 분석 등에 폭넓게 활용될 수 있는 기반 언어 자원이라는 데에 그 중요성이 있다. 본 논문에서는 표층문에서 통상 격표지로 표현되는 구문적 의존 관계뿐만 아니라, 보어가 갖는 의미역 정보가 부착되어 있으며 시소러스 개념 분류 체계와 연동 가능한 한국어 술어의 하위범주화 사전의 구축에 대해 설명하고 있다. 본 논문에서는 하위범주화 사전의 의미역 표현을 위해 총 25개의 의미역을 설정하고 있다. 이 의미역은 표층 격표지와 직접 연관되어 있기 때문에 통사적인 분석으로부터 직접 의미역 정보를 추출해서 의미 구조의 해석에 이용하는 것이 가능하다. 또한 명사 보어가 갖는 개념의 표현을 위해 상ㆍ하위어 관계를 갖는 12만 어휘 규모의 시소러스를 이용하고 있으며, 술어의 의존 관계 표현을 위해 동사, 형용사에 대해 각각 47, 17 개의 하위범주화 패턴을 이용하고 있다. 실용적 규모의 시소러스를 이용함으로써 문장에 나타난 명사의 시소러스 개념을 그대로 하위범주화 사전에 적용시켜 의미 정합 여부를 판단할 수 있는 실질적인 선택제약 체계를 구성할 수 있었고, 표층 격표지에 기초한 표준화된 술어 패턴을 이용함으로써 의미역의 결정 등에서 야기될 수 있는 비일관성을 방지하고 구축에 드는 비용을 절감할 수 있었다. 이상과 같은 방법으로 말뭉치에서 추출한 고빈도 술어 13,000 여개에 대해 하위범주화 사전을 구축하였으며, 적용 범위 평가 실험에 의하면 이 하위범주화 사전은 말뭉치에서 발견된 술어의 72.7%에 대해 하위범주화 정보를 제공할 수 있음을 확인하였다.

  • PDF

구문형태소 단위를 이용한 음성 인식의 후처리 모델 (A Model for Post-processing of Speech Recognition Using Syntactic Unit of Morphemes)

  • 양승원;황이규
    • 한국산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.74-80
    • /
    • 2002
  • 한국어 연속 음성 인식결과의 성능향상을 위해서 자연어 처리 기술을 이용한 후처리 기법이 사용된다. 그러나 자연어 처리 기법이 대부분 띄어쓰기가 있는 정형화된 입력 문장에 대한 분석을 수행하여 왔기 때문에 형태소 분석기를 직접 음성인식 결과의 향상에 사용하는 데에는 어려운 점이 많다. 본 논문에서는 띄어쓰기를 고려하지 않는 기능어 기반의 최장일치 형태소 해석 방법인 구문 형태소 단위의 분석을 이용한 음정인식 결과의 향상 모델을 제안한다. 제안된 모델을 통해 연속음성 인식 결과에서 자주 발생하는 용언과 보조 용언 및 의존 명사 사이의 음운들 사이의 구조적 정보를 활용함으로써 음성 인식 결과의 성능을 향상시키는 방법에 대해 기술한다.

  • PDF

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

An An.0, pproach to the Reorganization of University Libraries in the 21st Century

  • 홍현진;이병목
    • 한국도서관정보학회지
    • /
    • 제29권
    • /
    • pp.443-464
    • /
    • 1998
  • 21세기를 맞이하여 대학도서관은 정보기술의 도입, 업무내용의 변화, 이용자의 요구변화등 급격하게 변화하는 새로운 환경에 직면해 있다. 본 연구는 한국의 대학도서관 조직구조의 현황에 대한 분석과 함께 다양한 조직이론들과 정보환경의 변화에 기초해서 도서관조직을 활성화시키기위한 개념적인 조직모델을 제시하고자 한다. 한국의 대학도서관은 거의 10년동안 법적인 제약과 조직내외의 환경적인 한계 등으로 인해 전산화시스템의 도입, 도서관부관장의 임명, 그리고 도서관과 컴퓨터 센터와의 통합시도와 같은 약간의 변화외에는 거의 변화가 없었다. 전형적인 한국의 대학도서관은 수서, 기술서비스, 열람과 참고봉사 부문으로 조직되었다. 여기서 수서 기능을 기술서비스의 부문으로 간주한다면, 본 연구의 대상인 대학도서관 114개관 중 95개관(82.5%)이 전통적인 도서관조직의 형태인 기술서비스와 공공서비스 부문으로 조직된 것으로 나타났다. 본 연구에서는 전통적인 도서관조직의 문제점들을 급복할 수 있는 21세기의 개념적인 대학도서관 조직모델로서, 네가지 부문 - 서비스 부문, 서비스지원 부문, 기술지원 부문, 그리고 통합·조정부문-을 대학도서관의 개념적인 기본 구성요소로써 제안하였다. 그러나 모든 도서관의 서비스나 업무과정에 대해 적합한 잉상적인 조직구조는 없으며, 조직의 재조직과정은 도서관의 형태와 목적, 업무과정에 따라 매우 다양하다. 따라서 도서관의 재조직화는 환경의 변화에 따라 끊임없는 과정이 될 것이며, 도서관조직의 성공은 이러한 변화에 적응할 수 있는 개인과 조직의 역량에 달려있다고 하겠다.대한 순서에 있어서 차이가 있다. 4) 도서관에 대한 태도에 있어서 두 집단은 상이한 입장을 보이고 있다. 학자들의 과반수는 중요 정보원으로서 자신의 개인장서를 활용하며, 도서관의 장서 및 그 조직방법에 대해서도 별로 만족하지를 못하고 있다. 반면에, 실무가들은 도서관에 대하여 비교적 만족하며 따라서 도서관에 대한 이용도도 높다. 5) 두 집단 모두 보조인을 적극적으로 활용하지 않으며 사서의 도움을 받는 경우도 극소수에 불과하다. 이러한 조사결과를 기초로 하여 볼 때 법률전문직을 둘러싼 정보환경을 개선하기 위하여는, 인쇄된 일차적 정보자료의 검색방법등을 개선하고, 나아가서는 법령과 판례정보를 위한 효율적인 시스템을 구축하며, 뿐만 아니라 이용자의 요구에 충분히 대처할 수 잇는 도서관으로 변화되는 것이다. 이와 함께 가장 중요한 것은 법과대학과 사법연수원에서 법학 연구방법에 관한 강좌를 개설하여 각종 법률정보원의 활용 내지 도서관 이용방법에 관하여 교육하는 것이다.글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\boxDr$한국어사전$\boxUl$등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다. 것이 필요하다고 사료된다.크기에 의존하며, 또한 이러한 영향은 $(Ti_{1-x}AI_{x})N$ 피막에 존재하는 AI의 함량이 높고, 초기에

  • PDF

중국 유학생의 한국 드라마 및 오락 프로그램 몰입 결정 요인 (Determinants of User Immersion for Korean Drama and Entertainment Genre Programs among Chinese Students in Korea)

  • 마사;전범수
    • 한국콘텐츠학회논문지
    • /
    • 제12권6호
    • /
    • pp.111-119
    • /
    • 2012
  • 본 연구는 한국 TV 드라마에 따른 한국 내 중국 유학생들의 프로그램 몰입을 결정하는 요인이 무엇인가를 분석하였다. 주요 연구 결과는 다음과 같다. 첫째, 한국 드라마와 오락 프로그램에 대한 중국 유학생들의 몰입도를 살펴보면, 드라마보다 오락 프로그램 몰입도가 보다 높게 나타났다. 드라마가 이야기 구조와 스타 등장에 의존하는 콘텐츠라면 오락 프로그램은 보다 역동적이며 즐거움의 정도가 높기 때문에 중국 유학생들의 몰입도를 높이는 요인으로 판단된다. 둘째, 드라마와 오락 프로그램 몰입도를 성별, 한국어 능력 수준별, 한국 체류 기간별로 구분해서 평균값 차이를 살펴본 결과, 성별로는 드라마와 오락 프로그램 모두 통계적으로 유의미한 차이가 나타났다. 반면, 한국어 능력 수준이나 오락 프로그램에 대해 한국 체류 기간별 차이는 의미 있는 결과가 나타나지 않았다. 그러나 드라마 몰입도는 한국 체류 기간이 오래될수록 몰입도가 증가하는 결과를 살펴볼 수 있다. 셋째, 드라마와 오락 프로그램 몰입도 결정 요인을 살펴본 결과, 드라마 몰입도의 경우에는 프로그램 독특성, 한국 체류 기간, 드라마 장르 선호도 요인이 통계적으로 유의미한 것으로 나타났다. 다음으로 오락 프로그램 몰입도의 경우에는 프로그램 독특성, 스타 출연, 오락 장르 선호도 요인이 통계적으로 유의미한 것으로 나타났다.