• 제목/요약/키워드: 트라이그램

검색결과 22건 처리시간 0.026초

사회망 자동 구축을 위한 사회 관계 포함 문장 추출 (Extraction of Sentences with Social Relations for Automatic Construction of a Social Network)

  • 최맹식;김학수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.217-220
    • /
    • 2011
  • 본 논문에서는 대용량의 말뭉치로부터 사회망을 자동 구축하기 위한 선행 연구로서 두 인명 사이의 사회관계를 포함하는 문장을 자동 선별하는 시스템을 제안한다. 제안 시스템은 먼저 2개의 인명을 포함하는 문장을 대상으로 형태소 분석과 의존 구조 분석을 수행한다. 그리고 두 인명의 공통 지배소를 기준으로 의존 트라이그램을 추출한다. 마지막으로 의존 트라이그램의 속성값 비교에 기반한 SVM 커널 함수를 이용하여 사회 관계 포함 여부를 결정한다. 실험 결과, 제안 방법이 영어권 연구에서 좋은 성능을 보인 최소 경로 의존 커널의 단점을 효과적으로 보완하였다. 또한, 사회망 자동 구축을 위한 도구로써 활용될 수 있음을 알 수 있었다.

HMM에 기반한 한국어 개체명 인식 (HMM-based Korean Named Entity Recognition)

  • 황이규;윤보현
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.229-236
    • /
    • 2003
  • 개체명 인식은 질의응답 시스템이나 정보 추출 시스템에서 필수 불가결한 과정이다. 이 논문에서는 HMM 기반의 복합 명사 구성 원리를 이용한 한국어 개체명 인식 방법에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있다. 또한, 하나의 개체명을 구성하는 단어들 사이와 개체명과 개체명 주위의 단어 사이에도 문맥적 관계를 가지고 있다. 본 논문에서는 단어들을 개체명 독립 단어, 개체명 구성 단어, 개체명 인접 단어로 분류하고, 개체명 관련 단어 유형과 품사를 기반으로 HMM을 학습하였다. 본 논문에서 제안하는 개체명 인식 시스템은 가변길이의 개체명을 인식하기 위해 트라이그램 모델을 사용하였다. 트라이그램 모델을 이용한 HMM은 데이터 부족 문제를 가지고 있으며, 이를 해결하기 위해 다단계 백-오프를 이용하였다. 경제 분야 신문기사를 이용한 실험 결과 F-measure 97.6%의 결과를 얻었다.

HashMap 기반의 트라이를 이용한 파일 내용 검색 프로그램 (File Content Retrieval Program Using HashMap-based Trie)

  • 김성완;이우순
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.467-468
    • /
    • 2014
  • 본 논문에서는 파일 내용 기반 검색 프로그램을 설계하고 구현하였다. 역 인덱스 구조를 이용하여 설계하였으며 별도의 정보 검색 라이브러리 사용 없이 구현하였다. 인덱스 파일은 트라이 자료 구조를 직접 설계 및 구현 하였으며 자바 언어의 HashMap 구조를 중첩 형태로 구현하였다. 개발 시스템의 유용성을 테스트하기 위해 GRE 단어집에 수록된 약 3,300개의 단어를 사용하여 임의 생성한 텍스트 파일 집합을 사용하였다.

  • PDF

정보 검색을 위한 숫자의 해석에 관한 구문적.의미적 판별 기법 (Syntactic and Semantic Disambiguation for Interpretation of Numerals in the Information Retrieval)

  • 문유진
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권8호
    • /
    • pp.65-71
    • /
    • 2009
  • 월드 와이드 웹의 정보 검색에서 산출되어지는 수많은 정보를 효율적으로 검색하기 위해서 자연어 정보처리가 필수적이다. 이 논문은 텍스트에서 숫자의 의미 파악을 위한 판별기법을 제안한 것이다. 숫자 의미 판별기법은 챠트 파싱 기법과 함께 문맥자유 문법을 활용하여 숫자 스트링과 연관된 접사를 해석하였으며, N-그램 기반의 단어에 의거하여 조직화된 의미 파악을 하도록 설계되었다. 그리고 POS 태거를 사용하여 트라이그램 단어의 제한조건이 자동 인식되도록 시스템을 구성하여, 점진적으로 효율적인 숫자의 의미 파악을 하도록 하였다. 이 논문에서 제안한 숫자 해석 시스템을 실험한 결과, 빈도수 비례 방법은 86.3%의 정확률을 나타냈고 조건수 비례 방법은 82.8%의 정확률을 나타냈다.

마코프 체인 밀 음절 N-그램을 이용한 한국어 띄어쓰기 및 복합명사 분리 (Korean Word Segmentation and Compound-noun Decomposition Using Markov Chain and Syllable N-gram)

  • 권오욱
    • 한국음향학회지
    • /
    • 제21권3호
    • /
    • pp.274-284
    • /
    • 2002
  • 한국어 대어휘 연속음성인식을 위한 텍스트 전처리에서 띄어쓰기 오류는 잘못된 단어를 인식 어휘에 포함시켜 언어모델의 성능을 저하시킨다. 본 논문에서는 텍스트 코퍼스의 띄어쓰기 교정을 위하여 한국어 음절 N-그램을 이용한 자동 띄어쓰기 알고리듬을 제시한다. 제시된 알고리듬에서는 주어진 입력음절열은 좌에서 우로의 천이만을 갖는 마코프 체인으로 표시되고 어떤 상태에서 같은 상태로의 천이에서 공백음절이 발생하며 다른 상태로의 천이에서는 주어진 음절이 발생한다고 가정한다. 마코프 체인에서 음절 단위 N-그램 언어모델에 의한 문장 확률이 가장 높은 경로를 찾음으로써 띄어쓰기 결과를 얻는다. 모든 공백을 삭제한 254문장으로 이루어진 신문 칼럼 말뭉치에 대하여 띄어쓰기 알고리듬을 적용한 결과 91.58%의 어절단위 정확도 및 96.69%의 음절 정확도를 나타내었다. 띄어쓰기 알고리듬을 응용한 줄바꿈에서의 공백 오류 처리에서 이 알고리듬은 91.00%에서 96.27%로 어절 정확도를 향상시켰으며, 복합명사 분리에서는 96.22%의 분리 정확도를 보였다.

패킷 분류를 위한 스마트 셋-프루닝 트라이 (A Smart Set-Pruning Trie for Packet Classification)

  • 민세원;이나라;임혜숙
    • 한국통신학회논문지
    • /
    • 제36권11B호
    • /
    • pp.1285-1296
    • /
    • 2011
  • 패킷분류는 라우터의 가장 기본적이면서도 중요한 기능 중의 하나이며, 실시간 전송을 요구하는 새로운 인터넷 응용 프로그램의 등장과 더불어 그 중요성이 더욱 커지고 있다. 패킷분류는 입력 패킷에 대하여 선속도로 이루어져야 하며, 여러 헤더 필드에 대해 다차원 검색을 수행해야 하기 때문에 라우터 설계의 어려운 문제 중에 하나이다. 고속의 패킷분류를 제공하기 위한 다양한 패킷분류 알고리즘이 제안되어 왔으며, 그 중 계층적 접근 방식을 사용한 알고리즘은 하나의 필드에 대하여 검색이 수행될 때마다 많은 검색 영역이 제거되기 때문에 효율적이다. 그러나 계층적 구조는 역추적이라는 문제를 내재하고 있으며, 이를 해결하기 위해 사용되는 셋-프루닝 트라이나그리드-오브-트라이는 지나치게 많은 노드 복사를 야기하거나, 선-계산이라는 복잡한 과정을 요구한다. 본 논문에서는 셋-프루닝 하위 트라이의 간단한 합병을 통하여 복사되는 노드의 개수를 줄일 수 있는 스마트 셋-프루닝 구조를 제안한다. 시뮬레이션 결과 제안된 구조는 셋-프루닝 트라이와 비교하여 복사되는 노드 수 및 룰 수가 2-8% 줄어듦을 확인하였다.

개체명 구성 원리를 이용한 교사학습 기반의 한국어 개체명 인식 (Korean Named Entity Recognition Based on Supervised Learning Using Named Entily Construction Principles)

  • 황이규;이현숙;정의석;윤보현;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.111-117
    • /
    • 2002
  • 개체명 인식은 질의응답(QA), 정보 주줄(IE), 텍스트 마이닝 시스템의 성능 향상에 중요한 역할을 담당한다. 이 논문에서는 교사학습 기반의 한국어 개체명 인식에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있으며, 개체명을 구성하는 단어 사이에는 의존 관계가 존재하고, 개체명과 개체명 주위의 단어 사이에도 문맥적 의존관계를 가지고 있다. 본 논문에서는 가변길이의 개체명과 주변 문맥의 학습을 위해 트라이그램을 이용한 HMM을 사용하였으며, 자료 부족 문제를 해소하기 위해 어휘 기반이 아닌 부개체 유형 기반의 학습을 수행하였다. 학습된 개체명 인식 시스템을 이용하여 경제 분야의 신문 기사에 대한 실험 결과, 84.4%의 정확률과 90.9%의 재현률을 보였다.

  • PDF

엔진 오일 소모에 관한 연구 (A Study on Engine Oil Consumption)

  • 전상명
    • Tribology and Lubricants
    • /
    • 제21권6호
    • /
    • pp.296-301
    • /
    • 2005
  • 피스톤-실린더-링 틈새를 통해 일어나는 오일소모와 브로바이가스 증가는 최소화되어야 하며, 한편으로는 연료저감 및 성능증가 개선 측면에서 피스톤 링 팩의 마찰 손실도 줄일 필요가 있다. 이러한 두 가지 측면에서, 피스톤 링 팩의 최적 설계에 대한 연구가 수행되어야 한다. 따라서 오일소모 및 브로바이가스의 앙은 엔진개발과정 및 필드에서의 엔진운전 중에 엔진의 상태가 좋은지 나쁜지를 판단하는 중요한 요인이 된다. 본 연구의 목적은 연소실 내로의 오일 흐름 량과 피스톤 링 팩을 지나 아래로 내려가는 가스흐름을 계산하여 엔진오일 소모 및 브로바이가스를 예측하는 컴퓨터 프로그램을 개발하는 것이다. 향 후 본 프로그램을 이용하여 엔진의 상태를 미리 예측할 수 있을 것으로 본다.

빗살무늬동압베어링의 부하특성에 관한 연구 (A Study on the Load Characteristics of Herringbone-Grooved Journal Bearing)

  • 강경필;임윤철
    • 한국윤활학회:학술대회논문집
    • /
    • 한국윤활학회 1993년도 제18회 학술대회 초록집
    • /
    • pp.39-50
    • /
    • 1993
  • 최근 회전계의 고속화, 소형화 및 정숙운전에 대한 요구가 엄격해짐에 따라 볼베어링을 저어널베어링으로 대체하는 흐름이 증가하고 있으나, 저어널베어링의 기본 구조상 운전시 여러 종류의 진동모드가 발생되며 이에 따라 엄밀한 설계가 요구된다. 이러한 요구에 따라 본 연구에서는 불안정성을 억제할 수 있는 것으로 알려진 빗살무늬 저어널베어링을 대상으로 하여 보다 정확한 설계를 위한 수치해석 프로그램을 개발하였다. 빗살무늬저어널베어링의 해석법으로는 간극의 비선형성을 단순화 시키기 위하여 무한홈을 가정한 협곡이론을 시초로 하여 최근에는 컴류터 계산속도의 발달로 실제 형상에 대해 해석한 직접계산법 등이 알려져 있다. 직접계산법은 협곡이론에 의한 계산법에 비해 많은 시간이 걸리는 단점이 있으나, 베어링이 소형화되어 실제 많은 홈을 가공하기 힘들거나 홈이 원호형으로서 직각홈으로 가정하기가 곤란한 요소에서는 협곡이론을 적용하는데 무리가 있을 것으로 사료된다. 따라서 본 연구에서는 직접계산법을 채택하여 소형 베어링 모델에 대한 부하특성을 수치해석하고, 이를 협곡이론과의 비교를 통하여 그 차이점을 검토하였다. 이를 위해 압축성을 고려한 레이놀즈 방정식에 대한 베어링 주위의 압력분포를 계산하는 프로그램을 제작하였으며, 주어진 설계조건하에서 빗살무늬 형상을 결정하는 피라미터들의 최적값을 산출하고, 아울러 플레인저어널베어링과의 비교를 통하여 설계조건에 따른 빗살무늬저어널베어링의 기존 불베어리의 대체 가능성을 평가하였다.

  • PDF

전자사전 컴포넌트의 구현 (Component Implementation of Electronic Dictionary)

  • 최성운
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.587-592
    • /
    • 2001
  • 사무자동화의 필요성이 증가함에 따라 많은 응용 프로그램이 개발되고 있으며, 전자사전은 이러한 사무용 프로그램의 주요 구성요소 중 하나이다. 효율적인 전자사전은 빠른 검색을 지원해야 하며, 타 사전과 데이터 교환을 통해 사어 및 신조어에 대처할 수 있어야 한다. 또한 전자 사전 프로그램 자체의 재사용의 고려하여 전자 사전 프로그램 구축비용 및 시간을 절감할 수 있어야 한다. 본 논문에서는 사전 내부 데이터 표현 형식을 정의하여 정의된 표현 방식에 기초한 타 전자 사전 데이터 교환을 가능하게 하는 방안을 제시하였다. 또한 재사용 및 호환성을 향상시키기 위하여 사전 구조를 시스템 사전 컴포넌트와 사용자 사전 컴포넌트로 나누어 구현하여 차후 바이너리 단위로의 재사용을 가능하게 하였다. 컴포넌트화로 인한 검색속도 저하 가능성은 트라이 및 B 트리 인덱스 구조를 통하여 효과적으로 방지하였다.

  • PDF