• 제목/요약/키워드: 동의어 처리

검색결과 48건 처리시간 0.027초

온톨로지 기반 지능형 규칙 구성요소 추출에 관한 연구 (Ontology - Based Intelligent Rule Components Extraction)

  • 김우주;채상용;박상언
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2006년도 춘계학술대회
    • /
    • pp.237-244
    • /
    • 2006
  • 시맨틱 웹 관련연구가 증가함에 따라 하나의 관련분야로 규칙기반 시스템 동의 지능적인 웹 환경에 대한 기대 역시 커지고 있다. 하지만 규칙기반 시스템을 활용하기에는 아직도 규칙습득이 많은 제약이 되고 있다. 규칙습득은 웹으로부터 필요한 규칙을 습득하는 일련의 방법인데, 이러한 규칙을 습득하기 위해서는 규칙구성요소를 먼저 식별해야만 한다. 그러나 이러한 규칙을 식별하는 작업은 대부분 지식관리자의 수작업에 의해 이루어지고 있다. 본 연구의 목적은 웹으로부터 규칙구성요소 식별을 최대한 자동화하고 지식관리자의 수작업을 최소화함으로써 그 부담을 줄여 주는 데 있다. 이러한 방법으로는 온톨로지를 근간으로 하여 웹 페이지와의 문자열 비교, 이러한 비교의 한계를 극복하기 위한 확장등의 방법이 있다. 첫 번째 방법은 온툴로지 기반으로 규칙식별 할 웹 페이지와 비교를 통해 지식관리자의 규칙식별 과정을 최대한 자동화하여 주는 것이다. 여기서 만약 현재 규칙을 식별하고자 하는 웹 사이트와 유사한 시스템의 규칙들을 활용하여 일반화 된 온툴로지가 구축되었다면, 이 온톨로지를 기반으로 규칙을 식별하고자 하는 웹사이트와의 비교를 통해 규칙구성요소를 자동화하여 추출 할 수 있다. 이러한 온툴로지를 기반으로 규칙을 식별하기 위해서는 문자열 비교 기법을 사용하게 된다. 하지만 단순한 문자열 비교 기법만으로는 규칙을 식별하는 데에 자연어 처리에 대한 한계가 있다. 이를 극복하기 위해 다음의 두 번째 방법을 사용하고자 한다. 두 번째 방법은 정형화되지 않은 정보들을 확장하여 사용하는 것이다. 우선 찾고자 하는 단어들의 원형을 찾기 위한 스테밍 알고리즘 기법, WordNet을 이용하여 동의어 유의어등으로 확장을 하는 WordNet Expansion 기법, 의미 유사도를 측정하기 위한 방법인 Semantic Similarity Measure 등을 단계적으로 수행하여 자동화되고 정확한 규칙식별을 하고자 한다. 이러한 방법들의 조합으로 인하여 규칙구성요소 추출이 되지 않을 후보 단어들의 수를 줄여서 보다 더 정확하고, 지능적인 규칙구성요소 추출 방법론을 제시하고 구현하여 지식관리자의 규칙습득에 대한 부담을 줄여 주고자 한다.

  • PDF

웹 사전 크롤링을 이용한 데이터베이스 메타데이터 표준화 처리 모델 (Database metadata standardization processing model using web dictionary crawling)

  • 정하나;박구락;정영석
    • 디지털융복합연구
    • /
    • 제19권9호
    • /
    • pp.209-215
    • /
    • 2021
  • 데이터 품질 관리는 최근 중요한 이슈로 자리잡았다. 데이터베이스의 메타데이터 표준화는 데이터 품질관리 방안 중 하나이다. 본 연구에서는 일관된 메타데이터 관리를 위하여 표준단어사전 관리를 지원하는 알고리즘을 제시한다. 해당 알고리즘은 웹 사전 크롤링을 통해 데이터베이스 메타데이터의 동의어 관리 자동화를 지원한다. 또한 웹 사전 크롤링 과정에서 생길 수 있는 동음이의어 판별 이슈를 해결하여 데이터의 정확도를 향상시킨다. 본 연구에서 제안하는 알고리즘은 기존의 수동적 관리에 비해 메타데이터 데이터 품질의 신뢰도를 높인다. 또한 이음동의어 데이터 등록 및 관리에 소비되는 시간을 단축시킬 수 있다. 새로운 데이터 표준화 부분 자동화 모델에 대한 추가 연구는 향후 데이터 표준화 프로세스에서 자동화 가능한 작업을 파악하여 진행되어야 한다.

난이도 자동제어가 구현된 객관식 문항 생성 시스템 (A Sentence Generation System for Multiple Choice Test with Automatic Control of Difficulty Degree)

  • 김용범;김유섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.1404-1407
    • /
    • 2007
  • 본 논문에서는 객관식 문항을 난이도에 따라 자동으로 생성하는 방법을 고안하여, 학습자 수준에 적합하도록 다양하고 동적인 형태로 문항 제시를 할 수 있는 시스템을 제안하였다. 이를 위해서는 주어진 문장에서 형태소 분석을 통해 키워드를 추출하고, 각 키워드에 대하여 워드넷의 계층적 특성에 따라 의미가 유사한 후보 단어를 제시한다. 의미 유사 후보 단어를 제시할 때, 워드넷에서의 어휘간 유사도 측정 방법을 사용함으로써 생성된 문항의 난이도를 사용자가 원하는 수준으로 조정할 수 있도록 하였다. 단어의 의미 유사도는 동의어를 의미하는 수준 0에서 거의 유사도를 찾을 수 없는 수준 9 까지 다양하게 제시할 수 있으며, 이를 조절함으로써 문항의 전체 난이도를 조절할 수 있다. 후보 어휘들의 의미 유사도 측정을 위해서, 본 논문에서는 두 가지 방법을 사용하여 구현하였다. 첫째는 단순히 두 어휘의 워드넷 상에서의 거리만을 고려한 것이고 둘째는 두 어휘가 워드넷에서 차지하는 비중까지 추가적으로 고려한 것이다. 이러한 방법을 통하여 실제 출제자가 기존에 출제된 문제를 토대로 보다 다양한 내용과 난이도를 가진 문제 또는 문항을 보다 쉽게 출제하게 함으로써 출제에 소요되는 비용을 줄일 수 있었다.

  • PDF

의미적 의료정보 통합을 위한 UMLS와 LOINC DB 기반의 연관 값 지식베이스 개발 (Development of an Associative Value Knowledge Base based on UMLS & LOINC Database for Semantic Medical Information Integration.)

  • 김태우;홍동완;윤지희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 춘계학술발표논문집 (하)
    • /
    • pp.1551-1554
    • /
    • 2003
  • 최근 다양한 의료정보 시스템이 개발되어, 그 사용이 급증하고 있다. 이 들 각각의 의료정보 시스템에서 발생, 축적된 의료정보는 분산 이질의 형태를 가지며, 또한 같은 의미를 갖는 의료정보가 각기 다른 구조와 용어로 기술되어 축적되는 것이 일반적이다. 이와 같이 개별적으로 개발, 활용되어 온 의료정보를 웹 상에서 통합하여, 단일화 된 의료정보 검색 기능을 제공하기 위해서는 이들 의료정보의 의미적 연관성을 고려한 정보의 통합, 검색 기술의 개발이 필수적이다. 본 논문에서는 의미적 의료정보의 통합을 위한 UMLS와 LOINC 데이터베이스 기반의 연관 값 지식베이스의 설계 및 개발 방식을 제안한다. 웹 상에 존재하는 각종 분산 이질 형태의 의료정보는 XML을 공통 데이터 구조로 하여 통합되며, 정보 통합의 과정에서 연관 값 지식베이스를 참조하여 의미적 관련도가 높은 의료정보(구조 정보와 내용 정보)는 상호 연결되어, 진정한 의미의 정보 통합을 구현하게 된다. 지식베이스는 용어별로 식별자, 요소명, 연관값, 복수형, 동의어, 한글 이름 등의 필드틀 가지며, 현재 상담, 처방, 보험, 의료용어, 증상, 임상결과 등 적용분야 별로 작성된 연관 값 지식베이스가 구현되어 있다.

  • PDF

안전-필수 소프트웨어의 실패모드 정량화에 관한 연구 (A Study on Quantification of Safety-Critical Software Failure Mode)

  • 김영미;정충희;김현수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.257-260
    • /
    • 2008
  • 디지털 컴퓨터와 정보처리기술의 급속한 발전과 함께 산업계 전반적으로 아날로그 기술은 쇠퇴하고 디지털 기술로 전환되고 있다. 심지어 안전-필수 기능을 담당하는 원자력발전소의 계측제어시스템에서도 제한적으로 디지털 기술을 채택하여 사용하기 시작했다. 지금까지 소프트웨어의 신뢰도의 정량화에 대한 연구는 많이 이루어져 왔으나 소프트웨어가 가지는 특수성 때문에 연구결과에 대해 전문가들의 동의를 얻지 못하고 있는 상태이다. 원자력발전소에서는 확률적 안전성 평가(PSA)를 수행할 때 소프트웨어의 실패에 기인한 위험은 무시하고 있다. 하지만, 소프트웨어를 기반으로 한 디지털 시스템의 사용이 점점 늘어남에 따라 소프트웨어 신뢰도에 대한 정량화가 점점 더 요구되고 있다. 본 연구에서는 소프트웨어의 실패모드를 정의하고 해당 실패모드에 의해 사고가 발생할 확률을 베이지안 통계이론을 이용하여 정량화하였다.

단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류 (Efficient Classification of User's Natural Language Question Types using Word Semantic Information)

  • 윤성희;백선욱
    • 정보관리학회지
    • /
    • 제21권4호
    • /
    • pp.251-263
    • /
    • 2004
  • 질의응답 시스템에서의 질의 분석 과정은 이용자의 자연어 질의 문장에서 질의 의도를 파악하여 그 유형을 분류하고 정답 추출을 위한 정보를 구하는 것이다. 본 연구에서는 복잡한 분류 규칙 집합이나 대용량의 언어 지식 자원 대신 이용자 질의 문장에서 질의 초점 어휘를 추출하고 구문 구조적으로 관련된 단어들의 의미 정보에 기반하여 효율적으로 질의 유형을 분류하는 방법을 제안한다. 질의 초점 어휘가 생략된 경우의 처리와 동의어와 접미사 정보를 이용하여 질의 유형 분류 성능을 향상시킬 수 있는 방법도 제안한다.

동사 정보를 활용한 의미 관계 추출을 위한패턴 구축 (Pattern Construction for Semantic Relation Extraction using Verb Information)

  • 김세종;이용훈;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.118-123
    • /
    • 2008
  • 온톨로지란 실세계에 존재하는 사물 및 개념, 그리고 용어들 간의 관계들을 컴퓨터가 이해할 수 있는 형태로 표현한 것이다. 온톨로지 구축에 있어서 대용량 코퍼스의 활용은 해당코퍼스에서 등장하는 용어들과 이들 사이에서 나타나는 문자열을 일종의 패턴으로 취급하여 특정 패턴과 함께 나타나는 용어 쌍들을 해당 패턴이 대표하는 의미 관계로 설정하는 방식을 취한다. 그러나 기존의 방법은 주로 두 용어들 사이에서 나타나는 문자열만을 고려하여 패턴을 추출하기 때문에 해당 문장에 포함된 보다 다양한 문장 정보들을 활용할 수 없다. 본 논문은 이러한 한계점을 감안하여, 용어 쌍 사이에서 나타나는 문자열과 주변 동사 정보를 함께 고려함으로써 패턴의 정교성을 향상시키는 방법을 제안한다. 또한 동사들의 동의어를 활용하여 다양한 용어들을 포괄할 수 있는 일반화된 패턴을 구축한다. 본 방법론은 is-a 관계의 경우 64%, part-of 관계의 경우 83%, made-of 관계의 경우 73%, use 관계의 경우 72%의 정확률을 보였으며 모두 기존 방법보다 향상된 결과를 가져왔다.

  • PDF

엘리먼트 빈도수 정보를 이용한 XML 문서 매칭 (An XML Document Mathcing using Element Frequency Information)

  • 고승규;강명수;임순범;최윤철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.61-63
    • /
    • 2003
  • XML이 널리 사용됨에 따라 많은 정보가 XML 형태로 표현되고 있다. 또한 인터넷의 대중화로 다양한 정보를 통합하여 처리하거나 교환, 변환하는 경우가 빈번하게 발생한다. 따라서 XML로 표현된 정보도 교환되거나 통합되는 경우가 많이 발생하게 된다. 이와 같은 XML 문서 간의 통합이나 변환에서는 XML의 특징인 문서의 논리적인 구조가 적절하게 반영되어야 한다. 그리고 이를 위해서는 XML 문서의 기본적인 구성 요소인 엘리먼트 간의 매칭이 필수적이다. 기존의 XML 문서 매칭 기법에서는 엘리먼트 이름과 계층 정보 등 명시적으로 표현된 최소한의 정보만을 이용하여 매칭을 수행한다. 이러한 최소한의 제한된 정보를 최대로 이용하여 많은 매칭을 수행하기 위하여 기존의 방법에서는 동의어 사전이나 구조 정보를 과도하게 이용하는 경향이 많다. 따라서 많은 대응을 생성할 수 있지만 동시에 잘못된 대응의 수도 증가한다. 이에 본 논문에서는 명확한 대응을 생성 시키기 위하여 XML의 명시적인 정보 이외에 엘리먼트의 빈도수 정보로부터 엘리먼트 간의 연결성 정보를 정의하고, 이를 이용한 매칭 방법을 제안한다. 제안 방법은 엘리먼트 이름이나 계층 구조 등의 명시적인 정보뿐 아니라 엘리먼트의 연결성을 이용하기 때문에 매칭의 정확도가 향상될 수 있다. 최근에 발표되는 XML 기반의 표준들은 크기가 방대하고 점점 더 복잡해지고 있다. 이같은 환경에서는 잘못된 대응으로 인해 발생하는 비용이 무척 크다. 제안 기법은 매칭의 정확도가 높으므로 이러한 환경에서 좋은 성능을 발휘할 것으로 기대된다.

  • PDF

근사 패턴매칭을 이용한 개선된 대화형 도우미 에이전트 (An Improved Conversational Help Agent Using Approximate Pattern Matching)

  • 김수영;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.415-417
    • /
    • 2001
  • 인터넷의 성장에 따라, 많은 웹사이트가 생기고, 더 많은 정보들이 웹사이트에 등록되었다. 웹사이트에서 등록되는 정보가 많을수록, 사용자가 원하는 정보를 얻기가 쉽지 않다. 따라서, 사용자가 찾는 정보를 쉽게 찾을 수 있도록, 웹사이트 내에 전문(full-text) 검색엔진을 도입하기도 한다. 본 논문에서는 사용자가 자연어를 이용한 대화를 통해 웹사이트 내의 정보를 습득할 수 있도록 하는 대화형 도우미 에이전트를 위하여 한글 전처리 방법과 근사패턴매칭기법을 제안한다. 사용자가 문장을 입력하면, 동의어처리와 형태소 분석을 통해 사용자의 문장을 분석하고, 이미 작성되어 있는 지식과의 매칭을 통해 사용자에게 알맞은 대답을 제시한다. 지식은 XML 형식으로 저장되며, 사용자가 입력한 문장과 아주 똑같지 않더라도, 어느 정도의 유사도를 가지고 대답을 이끌어 낼수 있다.

  • PDF

고온압착 건조 처리시 표면처리를 통한 고강도 라이너지 개발

  • 최병수;윤혜정;류정용;신종호;송봉근
    • 한국펄프종이공학회:학술대회논문집
    • /
    • 한국펄프종이공학회 2000년도 추계학술발표논문집
    • /
    • pp.63-63
    • /
    • 2000
  • 저급의 고지 원료를 두께 방향으로 고온 압착을 가하여 건조함으로써 전반적인 종이 물성 을 향상시키는 콘디벨트 건조 방식은 70년대 중반부터 80년대에 이르는 10여년에 걸친 개발 과정을 거쳤으며 90년대에 들어서 핀랜드의 Inkeroinen에 위치한 V alemt- Tarnpella의 연구 소에 최초의 파일로트 설비가 설치되었으며 그 후 1996년에는 핀랜드 ENSO사의 P Pank밟oski 판지공장에 설치됨으로써 세계 최초의 상업생산설비를 이루게 되었다. 기존의 실린더 건조 기술과 비교할 때 콘디벨트 건조방식은 건조속도를 약 5-15배 향상시킬 수 있 으며, 건조 에너지 절감에 큰 효과가 있을 뿐만 아니라 기존의 실린더 건조시 종이가 폭방 향으로 수축되 어 인장 stiffness와 압축 강도 동의 종이 물성 이 저 하되 는 반면 습윤상태 의 섬유를 120도씨이상에서 가열에 의해 리그닌을 연화시킴과 동시에 섬유의 유연성을 증가시켜 준다. 그리고 높은 압력을 가해줌으로써 섬유간의 결합 면적을 증가시키고 건조시 종이의 폭방향의 수축을 감소시켜 인장강도, 내부결합강도, 밀도, 표면평활성, 투기저항성 등 종이의 물성을 대폭 향상시켜주는 혁신적인 제지기술로 인정받고 있으며 국내의 경우 현재 1998년 부터 상업생산을 이루어짐으로써 그 공헌도는 매우 크다고 할 수 있다. 골판지의 주원료가 되는 국산 골판지 고지 (Korean old corrugated container, K KOCC)의 거듭된 재생처리로 인하여 미세분의 함량이 전체 지료의 절반 이상에 달할 뿐만 아니라, 섬유가 각질화와 단섬유화로 인하여 고온압착 건조처리 만으로는 골판지 고지로 생 산된 원지의 강도를 버진펄프로 생산된 원지가 가지는 강도에 준하는 강도로 향상시키는데 한계점을 가지게 된다. 유럽의 제지선진국들은 골판지 원지의 강도를 향상시키는 방편으로 표변에 전분 사이즈 프레스 처리를 도입하였으며 본 연구에서는 고온 압착 건조 처리 설비를 활용한 전분 표면처리의 가능성을 검토하고 골판지 원지의 강도를 향상시키기 위한 표면처리조건을 탐색하였다.

  • PDF