• 제목/요약/키워드: translation Partial matching

검색결과 4건 처리시간 0.017초

한영 혼용문에서 괄호 안 대역어구의 자동 인식 (Automatic Recognition of Translation Phrases Enclosed with Parenthesis in Korean-English Mixed Documents)

  • 이재성;서영훈
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.445-452
    • /
    • 2002
  • 한영 혼용문에서 번역된 전문용어 등을 사용할 때, 이해를 돕기 위해 그 뒤의 괄호 안에 원어 풀이를 함께 쓰는 경우가 많다. 본 논문에서는 괄호가 사용된 구가 대역어구 관계인지를 판단하고, 어느 범위까지 대역어구인지를 기본사전을 이용하여 확률적으로 계산하고 인식하는 방법을 제시한다. 특히, 사전에 표제어로서 혹은 대역어로서 존재하지 않는 단어들을 처리하기 위해 음운유사도 일치, 대역어 부분일치의 방법과 복합어 처리를 위해 부분일치 방법을 새로 제안하였다. 각 방법들을 단계별로 실험하여 0.4F값$(\alpha$를 0.4로 설정한 F값)으로 측정한 결과, 기본 실험 방법인 사전 대역어 완전일치방법의 경우 23.8%인데 비해, 대역어 부분일치와 음운유사도 일치를 흔합한 방법이 75.9%, 복합어 처리를 추가한 방법이 77.3%의 값을 보여 성능이 최고 3.25배 향상되었다.

적응공명이론에 의한 자동 부분형상 인식시스템 (Automatic partial shape recognition system using adaptive resonance theory)

  • 박영태;양진성
    • 전자공학회논문지B
    • /
    • 제33B권3호
    • /
    • pp.79-87
    • /
    • 1996
  • A new method for recognizing and locating partially occluded or overlapped two-dimensional objects regardless of their size, translation, and rotation, is presented. Dominant points approximating occuluding contoures of objects are generated by finding local maxima of smoothed k-cosine function, and then used to guide the contour segment matching procedure. Primitives between the dominant points are produced by projecting the local contours onto the line between the dominant points. Robust classification of primitives. Which is crucial for reliable partial shape matching, is performed using adaptive resonance theory (ART2). The matched primitives having similar scale factors and rotation angles are detected in the hough space to identify the presence of the given model in the object scene. Finally the translation vector is estimated by minimizing the mean squred error of the matched contur segment pairs. This model-based matching algorithm may be used in diveerse factory automation applications since models can be added or changed simply by training ART2 adaptively without modifying the matching algorithm.

  • PDF

문맥가중치가 반영된 문장 유사 척도 (Context-Weighted Metrics for Example Matching)

  • 김동주;김한우
    • 전자공학회논문지CI
    • /
    • 제43권6호
    • /
    • pp.43-51
    • /
    • 2006
  • 본 논문은 영한 기계번역을 위한 예제기반 기계번역에서 예제 문장의 비교를 위한 척도에 관한 것으로 주어진 질의 문장과 가장 유사한 예제 문장을 찾아내는데 사용되는 유사성 척도를 제안한다. 제안하는 척도는 편집거리 알고리즘에 기반을 둔 것으로 표면어가 일치하지 않는 단어에 대해 기본적으로 단어의 표제어 정보와 품사 정보를 이용하여 유사도를 계산한다. 편집거리 척도는 비교 단위의 순서에 의존적이기는 하지만 순서만 일치하면 동일한 유사성 기여도를 갖는 것으로 판단하기 때문에 완전 문맥을 반영하지는 못한다. 따라서 본 논문에서는 완전 문맥 반영을 위해 추가적으로 이들 정보 외에 일치하는 단위 정보를 갖는 연속된 단어들에 대해 연속 정보를 반영한 문맥 가중치를 제안한다. 또한 비유사성 정도를 의미하는 척도인 편집거리 척도를 유사성 척도로 변경하고, 문맥 가중치가 적용된 척도를 문장 비교에 적용하기 위하여 정규화를 수행하며, 이를 통하여 유사도에 따른 순위를 결정한다. 또한 언어적 정보를 이용한 기존 방법류들에 대한 일반화를 시도하였으며, 문맥 가중치가 적용된 척도의 우수성을 증명하기 위해 일반화된 기존 방법류들과의 비교 실험을 수행하였다.

시소러스를 기반으로 하는 자동색인 시스템에 관한 연구 (The Development of an Automatic Indexing System based on a Thesaurus)

  • 임형묵;정상철
    • 인지과학
    • /
    • 제4권1호
    • /
    • pp.213-242
    • /
    • 1993
  • 그동안 자동색인 기법에 대해서는 단일어 색인,구색인,시소러스 기반 색인 등의 연구가 이루어져 왔는데,단일어 색인 기법이 단일어에 기초한 단순한 색인 방법 임에도 불구하고 다른 두가지 기법보다 일반적으로 우수하다고 알려져왔다. 시소러스 기반 색인은 이중에서도 검색효율이 낮은 것으로 알려져 왔는데,이는 일반적으로 시소러스가 포함하고 있는 색인용어들이 한정되어 있어 색인하려는 자료들이 이색인 용어에 부합(match)되지 않을 경우 색인 자체가 이루어 지지 않기 때문이다. 본 연구에서는 시소러스 기반 색인이 지금까지 기법으로는 검색효율이 좋지 않지만 실제 전문 색인들이 하는 색인과 매우 유사하다는 장범에 기초하여,입력 자료를 구문분석하고,분석된 자료들과 색인용어들을 정확부합(exact match)이 아닌 부분부합(partial match)을 통하여 색인 함으로써 검색효율이 우수한 시소러스기반 자동 색인 시스템을 개발하고자 한다. 본 연구에서 개발된 색인 시스템이 THINS는 우선 시소러스를 트리형태로 구성하고 입력자료들을 KAIST에서 개발한 언어번역기 MATES/EK를 통하여 구문분석한 후 명사구들만 뽑아낸다.그다음 명사구에 있는 용어들중 불용어를 제거하고 스테밍작업을 진행한후 생기는 형태를 색인 용어들과 부분부합 과정을 반복하여,유사한 색인 용어들과 가능하면 색인이 되도록 한다. 본 연구에서는 CACM 데이타 집합을 가지고 본 시소러스 기반 색인 시스템과 단일어 색인방식을 혼성지식기반 시스템인 HYKIS에서 성능을 평가하였다.이 성능평가에서 시소러스를 기반으로 하는 색인 시스템이 단일어 색인방식보다 회상도에서는 8-9%떨어지지만 정확도에서는 10%정도 높은 결과를 나타내었다.그러나 이는 기존의 시소러스 기반시스템이 단일어 색인 방식보다 정확도가 25%-30%정도 떨어진다는 것을 비추어 볼때 기존의 방식보다 우수한 것이라 평가된다.또한 CACM 에서 제공하는 시소러스인 CRCS 가 1000여개의 색인어밖에 포함하고 있어 매우 불완전한 것이라는 것을 고려하면,THINS가 최근에 개발되고 있는 시소러스와 접속된다면 매우 우수한 검색효율을 내리라 사료된다.