• 제목/요약/키워드: 동사정보

검색결과 275건 처리시간 0.025초

오프라인 한글 문자 인식을 위한 효율적인 오인식 단어 교정 방법 (An Efficient Correction Method for Misrecognized Words in Off-line Hangul Character Recognition)

  • 이병희;김태균
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1598-1606
    • /
    • 1996
  • 문자 인식 과정을 거치고 난 후에 발생하게 되는 오인식된 문자들을 언어적 지식 을 이용하여 교정하는 문자 인식 후처리 과정이 반드시 필요하다. 본 논문에서는 한 국어의 형식 측면에서 품사를 재분류하고 사전을 구성하며 한글 어절의 상태 전이도 를 구성하고 형태소 분석을 위해 Head-tail구분법을 적용해 단어를 분리하였다. 또한 본 논문에서는 효율적인 단어분리와 교정을 위해 여러 문서와 책들로부터 새롭게 조 사의 결합형으로 900여개를, 규칙 어미의 활용형으로 800여개를 수집하였다. 그리고 불규칙 용언의 활용형을 위해 국어학에 나오는 9개의 불규칙을 조사하여 활용형을 구 축하였고 자동적 교체와 불구동사의 활용형도 사전에 등록하여 어절을 분석하는데 이 용하였다. 어느 인식 시스템을 가지고 문서를 인식한 결과 93.7%의 인식률을 보인 것 을 본 단어교정방법을 적용한 결과 97% 인식률을 향상시킬 수 있었다.

  • PDF

봉사거점으로서 동사무소문고의 활성화 방안 연구 - 대전광역시를 중심으로 - (A Study on the Vitalization of Dong-office Minilibraries as Service Stations for Public Library in Daejeon City)

  • 김영신
    • 한국문헌정보학회지
    • /
    • 제36권1호
    • /
    • pp.5-24
    • /
    • 2002
  • 본 연구의 목적은 동사무소의 기능전환에 따라 전국적으로 설치 ${\cdot}$ 운영되고 있는 동사무소문고의 정체성 확립과 활성화를 위한 방안을 찾는 것이다. 운영담당자와의 면담을 통하여 전반적인 운영현황을 파악하였고 현장관찰을 통하여 장서현황과 이용상황을, 그리고 이용자와의 면담을 통하여 이용자행태를 조사 ${\cdot}$ 분석하였다. 현재의 상황에서 동사무소문고가 본래의 기능을 효율적으로 수행하기 위해서는 공공도서관의 봉사거점으로서의 정체성을 확립하고 지역 공공도서관으로부터 기술적인 지원을 받으며 지역의 교육기관과 사회봉사기관의 협조를 얻어 이용자와 자원봉사자를 확보하는 등 관련기관과의 적극적인 협력관계를 맺어야 한다. 내부적으로는 동사무소문고의 운영담당자들 사이에 활발한 교류를 위한 협력망을 형성하여야 한다. 학계에서는 문고의 운영을 위한 기본 모델과 동사무소문고의 환경과 이용자의 필요에 따른 특화 모델을 개발하여야 한다.

A Deep Learning Model for Disaster Alerts Classification

  • Park, Soonwook;Jun, Hyeyoon;Kim, Yoonsoo;Lee, Soowon
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권12호
    • /
    • pp.1-9
    • /
    • 2021
  • 재난문자는 재난 발생 시 국가에서 해당 지역에 있는 시민들에게 보내는 문자 메시지다. 재난문자의 발송 건수는 점점 증가하여, 불필요한 재난문자가 많이 수신됨에 따라 재난문자를 차단하는 사람들이 증가하고 있다. 이와 같은 문제를 해결하기 위하여, 본 연구에서는 재난문자를 재난 유형별로 자동으로 분류하고 수신자에 따라 필요한 재난의 재난문자만 수신하게 하는 딥러닝 모델을 제안한다. 제안 모델은 재난문자를 KoBERT를 통해 임베딩하고, LSTM을 통해 재난 유형별로 분류한다. [명사], [명사 + 형용사 + 동사], [모든 품사]의 3가지 품사 조합과 제안 모델, 키워드 분류, Word2Vec + 1D-CNN 및 KoBERT + FFNN의 4종류 분류 모델을 활용하여 재난문자를 분류한 결과, 제안 모델이 0.988954의 정확도로 가장 높은 성능을 달성하였다.

사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템 (A Homonym Disambiguation System based on Semantic Information Extracted from Dictionary Definitions)

  • 허정;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권9호
    • /
    • pp.688-698
    • /
    • 2001
  • 동형이의어는 문장에서 그와 함께 사용된 체언, 용언에 의해서 그의 의미를 확정지을 수 있다. 본 논문에서는 사전의 뜻풀이말에서 추출한 통계적 의미정보에 기반한 동형이의어 중의성 해결 시스템을 제안한다. 의미정보는 동형이의어를 포함하고 있는 사전의 뜻풀이말에서 체언(보통 명사)와 용언(형용사, 동사)을 추출하여 구성된다. 정확한 의미정보를 추출하기 위해서 사전 뜻풀이말의 유형을 두 가지로 분류하였다. 첫 번째 유형은 의미분별할 동형이의어와 표제어가 의미적으로 상-하의어 관계를 이루고 있는 경우로, 표제어의 뜻풀이말에서 동형이의어가 의미적으로 중심어이다. 이러한 상-하의어 관계는 의미계층 구조가 없는 경우에 활용할 수 있으며, 자료 부족 문제를 해결하기 위한 의미정보의 확장에 유용하다. 두 번째 유형은 동형이의어가 뜻풀이말의 중간에 사용된 경우이다. 본 논문에서 제안하는 동형이의어 중의성 해결 시스템은 체언과 용언 의미정보를 모두 고려한 모델로, 체언과 용언이 동형이의어 중의성 해결에 영향을 주는 정도(가중치)를 결정하기 위하여 9개의 동형이의어 명사를 대상으로 실험하였다. 학습에 이용된 코퍼스(사전 뜻풀이말)로 실험한 결과, 체언과 용언의 가중치가 0.9/0.1일 때 평균 96.11%의 중의성 해결 정확률이 가장 높았다. 또한 제안하는 동형이의어 중의성 해결 시스템의 일반성을 측정하기 위해, 학습되지 않은 외부 데이터 (국어 정보베이스 I과 ETRI 코퍼스 1,796 문장)로 실험한 결과 평균 80.73%의 정화률을 보였다.

  • PDF

주 키워드와 부 키워드를 이용한 자연언어 정보 검색 모델 (A Model of Natural Language Information Retrieval Using Main Keywords and Sub-keywords)

  • 강현규;박세영
    • 한국정보처리학회논문지
    • /
    • 제4권12호
    • /
    • pp.3052-3062
    • /
    • 1997
  • 정보 검색이란 사용자의 정보 요구를 만족하는 관련 정보를 검색하는 것이다. 그러나 정보 검색 시스템의 하나의 역활은 관련 정보의 집합들을 단순히 제시하는 것이 아니라 주어진 요구 사항에 가장 가까운 문서를 결정하는데 도움을 주는 것이다. 최근에 여러 가지 텍스트 분석 시스템들에서 내용을 인식하기 위해 구문 분석 방법 사용이 시도되고 있다. 불행히도 단독의 구문 이해 방법으로는 임의의 텍스트 예들을 완벽하게 분석하기 위해 불충분한 것으로 알려지고 있다. 이 논문에서는 2단계 문서 순위에 기반한 문서 순위 결정 방법에 대하여 논한다. 1단계는 문서를 검색하기 위해 사용하고 2단계는 검색된 문서를 재순서화하는데 사용한다. 1단계에서 이용된 주키워드는 문서를 구별할 수 있는 좋은 능력을 가지는 명사나 복합명사로서 정의될 수 있다. 2단계에서 이용된 부 키워드는 주키워드나 기능어가 아닌 형용사나 부사 또는 동사로 정의 될 수 있다. 실험은 23,113 항목을 가지는 한국어 백과사전과 일반 사용자들로부터 수집된 161개의 한국어 자연언어 질의로부터 이루어졌다. 자연언어 질의의 85%가 부 키워드를 가지고 있었다. 2단계 문서 순위 방법은 일반 문서 순위 방법보다 현격한 검색 효율의 향상을 제공한다.

  • PDF

FCA 기반 계층적 구조를 이용한 문서 통합 기법 (Methods for Integration of Documents using Hierarchical Structure based on the Formal Concept Analysis)

  • 김태환;전호철;최종민
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.63-77
    • /
    • 2011
  • 월드와이드웹(World Wide Web)은 인터넷에 연결된 컴퓨터를 통해 사람들이 정보를 공유할 수 있는 매우 큰 분산된 정보 공간이다. 웹은 1991년에 시작되어 개인 홈페이지, 온라인 도서관, 가상 박물관 등 다양한 정보 자원들을 웹으로 표현하면서 성장하였다. 이러한 웹은 현재 5천억 페이지 이상 존재할 것이라고 추정한다. 대용량 정보에서 정보를 효과적이며 효율적으로 검색하는 기술을 적용할 수 있다. 현재 존재하는 몇몇 검색 도구들은 초 단위로 gigabyte 크기의 웹을 검사하여 사용자에게 검색 정보를 제공한다. 그러나 검색의 효율성은 검색 시간과는 다른 문제이다. 현재 검색 도구들은 사용자의 질의에 적합한 정보가 적음에도 불구하고 많은 문서들을 사용자에게 검색해준다. 그러므로 대부분의 적합한 문서들은 검색 상위에 존재하지 않는다. 또한 현재 검색 도구들은 사용자가 찾은 문서와 관련된 문서를 찾을 수 없다. 현재 많은 검색 시스템들의 가장 중요한 문제는 검색의 질을 증가 시키는 것이다. 그것은 검색된 결과로 관련 있는 문서를 증가시키고, 관련 없는 문서를 감소시켜 사용자에게 제공하는 것이다. 이러한 문제를 해결하기 위해 CiteSeer는 월드와이드웹에 존재하는 논문에 대해 한정하여 ACI(Autonomous Citation Indexing)기법을 제안하였다. "Citaion Index"는 연구자가 자신의 논문에 다른 논문을 인용한 정보를 기술하는데 이렇게 기술된 논문과 자신의 논문을 연결하여 색인한다. "Citation Index"는 논문 검색이나 논문 분석 등에 매우 유용하다. 그러나 "Citation Index"는 논문의 저자가 다른 논문을 인용한 논문에 대해서만 자신의 논문을 연결하여 색인했기 때문에 논문의 저자가 다른 논문을 인용하지 않은 논문에 대해서는 관련 있는 논문이라 할지 라도 저자의 논문과 연결하여 색인할 수 없다. 또한 인용되지 않은 다른 논문과 연결하여 색인할 수 없기 때문에 확장성이 용이하지 못하다. 이러한 문제를 해결하기 위해 본 논문에서는 검색된 문서에서 단락별 명사와 동사 및 목적어를 추출하여 해당 동사가 명사 및 목적어를 취할 수 있는 가능한 값을 고려하여 하나의 문서를 formal context 형태로 변환한다. 이 표를 이용하여 문서의 계층적 그래프를 구성하고, 문서의 그래프를 이용하여 문서 간 그래프를 통합한다. 이렇게 만들어진 문서의 그래프들은 그래프의 구조를 보고 각각의 문서의 영역을 구하고 그 영역에 포함관계를 계산하여 문서와 문서간의 관계를 표시할 수 있다. 또한 검색된 문서를 트리 형식으로 보여주어 사용자가 원하는 정보를 보다 쉽게 검색할 수 있는 문서의 구조적 통합 방법에 대해 제안한다. 제안한 방법은 루씬 검색엔진이 가지고 있는 순위 계산 공식을 이용하여 문서가 가지는 중요한 단어를 문서의 참조 관계에 적용하여 비교하였다. 제안한 방법이 루씬 검색엔진보다15% 정도 높은 성능을 나타내었다.

시소러스와 술어 패턴을 이용한 의미역 부착 한국어 하위범주화 사전의 구축 (Constructing a Korean Subcategorization Dictionary with Semantic Roles using Thesaurus and Predicate Patterns)

  • 양승현;김영섬;우요섭;윤덕호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권3호
    • /
    • pp.364-372
    • /
    • 2000
  • 하위범주화는 보어의 어휘 개념이 명시된 술어와 보어간 의존 관계를 정의하는 언어 정보로서 구문 및 의미 분석 등에 폭넓게 활용될 수 있는 기반 언어 자원이라는 데에 그 중요성이 있다. 본 논문에서는 표층문에서 통상 격표지로 표현되는 구문적 의존 관계뿐만 아니라, 보어가 갖는 의미역 정보가 부착되어 있으며 시소러스 개념 분류 체계와 연동 가능한 한국어 술어의 하위범주화 사전의 구축에 대해 설명하고 있다. 본 논문에서는 하위범주화 사전의 의미역 표현을 위해 총 25개의 의미역을 설정하고 있다. 이 의미역은 표층 격표지와 직접 연관되어 있기 때문에 통사적인 분석으로부터 직접 의미역 정보를 추출해서 의미 구조의 해석에 이용하는 것이 가능하다. 또한 명사 보어가 갖는 개념의 표현을 위해 상ㆍ하위어 관계를 갖는 12만 어휘 규모의 시소러스를 이용하고 있으며, 술어의 의존 관계 표현을 위해 동사, 형용사에 대해 각각 47, 17 개의 하위범주화 패턴을 이용하고 있다. 실용적 규모의 시소러스를 이용함으로써 문장에 나타난 명사의 시소러스 개념을 그대로 하위범주화 사전에 적용시켜 의미 정합 여부를 판단할 수 있는 실질적인 선택제약 체계를 구성할 수 있었고, 표층 격표지에 기초한 표준화된 술어 패턴을 이용함으로써 의미역의 결정 등에서 야기될 수 있는 비일관성을 방지하고 구축에 드는 비용을 절감할 수 있었다. 이상과 같은 방법으로 말뭉치에서 추출한 고빈도 술어 13,000 여개에 대해 하위범주화 사전을 구축하였으며, 적용 범위 평가 실험에 의하면 이 하위범주화 사전은 말뭉치에서 발견된 술어의 72.7%에 대해 하위범주화 정보를 제공할 수 있음을 확인하였다.

  • PDF

한국어 수분류사 어휘의미망 KorLexClas 1.5 (KorLexClas 1.5: A Lexical Semantic Network for Korean Numeral Classifiers)

  • 황순희;권혁철;윤애선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권1호
    • /
    • pp.60-73
    • /
    • 2010
  • 본 연구의 목적은 한국어 수분류사 체계를 설정하고, 수분류사와 공기명사 간 의미관계 정보를 제공하는 한국어 수분류사 어휘의미망 "KorLexClas 1.5"의 정보구조와 구축방식을 소개하는 데 있다. KorLex 명사, 동사, 형용사, 부사가 영어 워드넷(Princeton WordNet)을 기반으로 참고구축 방식으로 개발된 것에 비해, KorLexClas 1.0버전과 이를 확장한 1.5버전은 직접구축 방식으로 개발하였다는 점에서, 수분류사의 계층구조와 언어단위 간 의미관계 설정은 매우 방대한 시간과 정교한 구축 방식을 요구한다. 따라서 작업의 효율성을 기함과 동시에, 구축된 어휘의미망의 신뢰성 및 확장성을 높이기 위해, (1) 다양한 기구축 언어자원을 활용하되 상호 검증하는 절차를 거치고, (2) 부분문장 분석방법을 이용하여, 수분류사 및 공기명사 목록을 확장하며, (3) 언어학적 준거를 기준으로 수분류사의 계층구조를 설정하고, (4) 수분류사와 공기명사 간 의미관계 정보를 제공하되 확장성을 확보하기 위해, KorLexNoun 1.5에 '최하위 공통상 위노드(LUB : Least Upper Bound)'를 설정하는 방식을 택한다. 이러한 특성을 가진 KorLexClas 1.5는 기계번역을 비롯한 한국어정보처리의 제 분야에 응용될 수 있다.

과학기술분야 용어 간 관계추출 시스템의 평가를 위한 테스트컬렉션 구축 (Construction of Test Collection for Evaluation of Scientific Relation Extraction System)

  • 최윤수;최성필;정창후;윤화묵;류범종
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.754-758
    • /
    • 2009
  • 대용량 문서에서 포함된 정보를 추출하는 작업은 정보검색분야 뿐만 아니라 질의응답과 요약분야에서 매우 유용하다. 정보 추출 분야 중 관계추출 기술이 중요하게 인식되고 있으나, 기계학습모델을 기반으로 개발하기 위한 학습집합과 개발된 기술을 평가하기 위한 평가집합의 부재로 연구에 난항을 겪고 있다. 본 논문은 한국과학기술정보연구원(KISTI)이 보유하고 있는 해외학술지 데이터를 기반으로 과학기술용어에 대한 관계추출 기술 시스템을 개발하고 평가하기 위한 테스트 컬렉션(KREC2008) 구축을 위한 구축방법 및 절차를 기술한다. 해외 학술지 데이터의 초록을 대상으로 기술용어를 추출하였고, 기술용어의 쌍의 관계에 해당되는 단어를 Wordnet에 매핑하여 동사의 개념을 일반화하는 여러 개의 개념화된 후보군을 추출하였다. 평가기준 및 절차 교육이 이루어진 평가자가 개념화된 후보군에서 적합하다고 판단되는 "개념"을 "관계"로 지정하였다. Wordnet을 이용하여 "관계"에 대한 후보군을 생성하였기때문에, 일관성 있는 관계설정의 품질의 향상시켰고 비전문가도 쉽게 테스트컬렉션을 구축할 수 있는 방법을 제공하였다. 현재 KREC2008은 정보추출 연구자 및 개발자에게 공개되어 있으며, 과학기술분야 관계추출 시스템의 개발 및 신뢰도 평가를 목적으로 하는 학술대회의 연구결과 발표 및 제품 비교 등에 활용될 예정이다.

  • PDF

레시피 연결망에서 요리 난이도 및 유사성 분석 (Analyzing the Difficulty and Similarity of Cooking in the Recipe Network)

  • 김수도;이윤정;윤성민;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제16권8호
    • /
    • pp.160-168
    • /
    • 2016
  • 인터넷을 통해 공개되고 있는 요리 레시피에 대한 분류 및 평가는 작성자의 문화적 배경, 요리능력, 요리 경험, 선호도 등 주관적 기준에 따라 제시되고 있다. 이 연구에서는 요리 난이도를 측정하기 위한 척도로서 정보 엔트로피 개념을 통해 객관화한다. 또한 요리의 공통 엔트로피를 계산하여 레시피 사이의 유사성을 측정하고, 레시피를 개체로 하는 유사도 기반의 사회연결망을 생성한다. 요리난이도를 측정한 결과, 동태해물찜(한식), 베지테리안 라자냐(이탈리아) 등은 요리난이도 측면에서 가장 어려운 요리로, 초고추장(한식)과 두부스테이크(이탈리아)는 가장 쉬운 요리로 나타났고, 레시피 연결망의 거리공간을 통해 한식과 아시아 요리는 유사성이 높은 것을 확인할 수 있었다. 또한 활용적 측면에서 특정 요리와 유사한 요리는 무엇인지, 요리를 대체할 수 있는 유사한 요리 그룹은 어떤 것이 있는지, 요리용이성 관점에서 식단을 준비할 때 가장 합리적인 계획은 무엇인지를 보여주었다.