• 제목/요약/키워드: 형태어휘

검색결과 242건 처리시간 0.028초

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

일한기계번역에서 진행형 "ている"의 번역처리 (A Processing of Progressive Aspect "te-iru" in Japanese-Korean Machine Translation)

  • 김정인;문경희;이종혁
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.685-692
    • /
    • 2001
  • 본 논문은 일한기계번역에서 일본어 진행표현 "ている" 형태로부터 한국어 대역어의 선정과정에서 발생하는 애매성을 해소하기 위하여 연구한 것이다. 대부분의 일한 기계번역 시스템은 양궁어의 문법적인 유사엉에 기초하여 어휘적인 단계의 처리만으로 고품질의 번역이 가능한 직접 번역방식을 채용하고 있다. 그러나, 직접 번역방식에 기초한 일한 기계번역에서는 술부에 존재하는 "ている"형태의 상적인 의미를 구별할 수 있는 방법론이 아직 제안되지 않았다. 일본어에서 "ている"형태는 동작진행과 상태진행을 모두 나타내지만 한국어에서는 "고 있다."와 "어 있다."로 나누어 표기한다. 양 언어간의 상적인 의미 대응은 간단하지 않지만, 술부의 의미 정보, 부사와 부사어의 의미정보 등을 이용하여 "ている"형태의 상적인 의미를 결정하는 것이 가능하다. "ている"형태의 적절한 대역어 선정을 위하여, 사전 속의 모든 일본어 술어에 다섯 종류의 의미코드를 입력한다. 즉 "1:동작진행만으로 사용되는 술어", "2: 일반적으로는 동작진행으로 사용되지만, 수동인 경우에는 상태진행의 형태로도 사용되는 술어", "3: 상태진행으로만 사용되는 술어", "4: 동작진행, 상태진행의 구별이 애매한 술어", "5: 기타" 당의 상적인 의미분류코드를 술어별로 입력한다. 그리고 "2","4"형태의 술어로부터 진행형은 구별하기 위하여 부사와 부사어를 사용하는 방법을 제안한다. 실험에는 아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.아사히 신문의 기사 중에서 임의로 약 15,000문을 추출하여 이용하였다. 제안한 방법은 실험문장에서 83.6%의 성공률을 보였으며 단순히 동작진행과 상태진행, 기타만으로 나누어 처리하던 종전 시스템에 비하여 약 5.7%정도 더 좋은 결과가 얻어졌다.

  • PDF

일제강점기 일본어신문 『조선시보』의 메타데이터 요소 개발과 적용 연구 (Metadata Elements Design and Application for Japanese Newspaper 'Chosunsibo' Issued in Colonial Korea)

  • 노지현
    • 한국도서관정보학회지
    • /
    • 제50권4호
    • /
    • pp.137-158
    • /
    • 2019
  • 본 연구의 목적은 일제강점기 일본어 신문 중 자료의 방대한 양이나 사료로서의 가치에도 불구하고 아직까지 신문기사 검색이 불가능한 『조선시보』의 메타데이터 구축 방안을 마련하는데 있다. 이를 위해, 본 연구에서는 (1) 일제강점기 신문DB구축 현황과 메타데이터 요소를 분석하고, (2) 『조선시보』의 형태적·내용적 특성을 파악한 다음, (3) 메타데이터 설계를 위한 기본원칙을 정한 후 『조선시보』에 적용할 메타데이터 요소 및 인코딩 스킴, 통제어휘를 도출하였다. 이러한 메타데이터 설계(안)은 (1) 데이터 입력 테스트를 통한 검토 및 수정, (2) DB 전문기관의 자문, (3) 관련 표준 및 관련 사례와의 crosswalk 작성 등의 과정을 거쳐 확정되었다. 본 연구의 범위는 『조선시보』에 적합한 메타데이터 요소의 개발 및 이를 토대로 데이터의 입력을 위한 입력기 개발까지로 설정하였다.

U-WIN 기반의 의미적 정보검색 기술 (Semantic Information Retrieval Based on User-Word Intelligent Network)

  • 임지희;최호섭;옥철영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.547-550
    • /
    • 2006
  • 사용자가 원하는 정보를 얼마나 정확하게 제시하느냐가 정보검색시스템 성능을 판단하는 기준이 된다. 그러나 동형이의어만을 질의어로 이용한 검색 결과는 동형이의어 각 의미에 관련된 문서가 혼재되어 있거나, 특정 의미에 관련된 문서만 집중적으로 나타나는 현상을 볼 수 있다. 그래서 본 논문에서는 한국어 사용자 어휘지능망(U-WIN)의 관계정보를 이용하여, 질의어의 모호성을 해결하는 의미적 정보검색의 기반이 되는 기술을 제안한다. 실험에서 질의어는 전문분야에 주로 사용되는 동형이의어와 보편적으로 사용하는 동형이의로 구분하고, '질의어+상위어' 형태의 확장 질의어를 설정한다 그래서 포탈사이트의 웹 문서만을 대상으로 한 정확률은 73.5%, 통합검색의 정확률은 68.7%로 나타났다. 이것은 U-WIN 기반의 의미적 정보검색 기술이 정보검색 시스템에서 효율적임을 알 수 있다.

  • PDF

만화에서 사각형 칸의 일반화 원인에 대한 분석 (Study on the Cause of Generalized Quadrangle Frame in Comics)

  • 김종희
    • 만화애니메이션 연구
    • /
    • 통권23호
    • /
    • pp.51-66
    • /
    • 2011
  • 로돌페 퇴퍼(Rodolphe Toeppfer)가 그림과 글이 결합된 형식을 정의하면서 만화 칸을 이용한 이후로 여러 만화작가들에 의해 만화 칸은 현재와 같은 모습으로 정착했다. 그러나 만화 칸이 본격적으로 정의되기 이전에도 만화 칸의 형식을 엿볼 수 있는 역사적 기록들이 있었다. 역사적인 기록 속에서 칸은 무형 또는 유형의 사각형으로 발견되어왔다. 우리가 지금 보는 만화 칸은 어딘가에서 생겨난 것이 아니라 이전부터 이어진 역사적인 산물이다. 창작자는 이렇게 칸이라고 부르는 틀 안에, 만화의 어휘에 속하는 그림이나 글을 넣는다. 만화 칸은 카메라의 프레임과 비슷하지만 이들과는 달리 가로 세로 비례의 틀이 유동적이다. 창작자들은 다양하게 칸을 이용했고 이러한 과정을 거치며 칸을 정형화시켰다. 결과적으로 만화 칸은 대부분 사각형으로 정립됐다. 만화 칸이 사각형으로 굳어져 간 과정에는 인간의 생활양식에 따른 암묵적인 규칙이 작용했을 것이라고 생각한다. 인간 문명을 이루는 수많은 도형 중에서 만화 칸이 사각형으로 이뤄지게 된 원인이 무엇일까? 본 논문은 이 같은 물음을 근거로 사각형의 형태를 기준으로 이뤄지는 인간의 생활체계를 알아보고 어떤 장점이 만화 칸을 사각형으로 정립되게 만들었는지 연구해 볼 것이다.

청각장애인을 위한 작업 현장용 한국 수화 메시지 보드의 개발 (Development of a Korean Sign Language Message Board in Workplace for Deaf People)

  • 장효영;오영준;정성훈;박광현;변증남
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.393-398
    • /
    • 2007
  • 본 논문은 작업 현장에서 청각장애인의 의사소통을 보조하는 한국 수화 메시지 보드의 개발에 대하여 다룬다. 청각 장애인은 일상적인 직업 현장에서 의사소통이 자유롭지 못하여 업무에 잘 적응하지 못하고 사내의 인간관계에 많은 어려움을 겪고 있다. 문자를 이용한 정보 전달을 통해 모든 의사소통을 대체할 수 있을 것이라는 일반적인 생각과는 달리, 청각장애인의 경우 비장애인과 비교하여 사물의 개념 습득에 어려움이 있을 수 있으며 마찬가지로 사용하는 어휘수도 제한적인 경우가 많아 문자를 통한 의사소통에는 명확한 한계가 존재한다. 실제로 청각 장애 근로자가 이직하는 사유로 의사소통이나 인간관계가 높은 비중을 차지한다. 수화 메시지 보드는 크게 사내 네트워크를 이용한 공지 사항 전달을 위한 용도와 복수 개의 메시지 보드 간 문자 송수신의 용도로 사용 가능하다. 비장애인이 청각장애인에게 문자 입력으로 의사를 전달하면, 전달된 문자는 문자-수화 번역기를 통해 자동으로 수화로 번역되어 아바타의 수화 동작으로 화면에 출력된다. 전체 시스템은 수화 아바타를 포함한 그래픽 유저 인터페이스 (GUI), 수화 데이터베이스 및 한글 형태소/문장 분석기를 포함하는 문자-수화 번역기, 그리고 TCP/IP 기반의 문자 전송기의 세 부분으로 나뉜다. 본 논문에서는 수화 데이터베이스의 단어 선정을 위한 대상 작업 현장을 청각 장애 근로자가 타 직업에 비해 많은 비중을 차지하는 전자 부품 조립 업체로 한정하였다. 수화 데이터베이스는 자음 14종, 모음 17종, 숫자 15종, 일상생활 용어 1000종, 전자 부품 조립 업체에 특화된 단어 50종 및 직업 교육 관련 용어 50종으로 이루어진 총 1146종의 수화 단어를 포함하며, 수화 데이터베이스에 등록되지 않은 단어에 대해서는 지화로 표현하도록 한다. 이 중 전자 부품 조립 업체 특화 단어와 관련하여서는, 현재 동일한 분야의 작업 현장이라 하더라도 각 사업장 간 사용되는 수화가 통일되지 않아 문헌 조사 및 현장 조사를 통해 사용 빈도가 높고 형태가 공통적인 50종을 추려내었다. 본 연구는 실제 업무현장에서 청각장애인이 겪는 의사소통의 문제를 효과적으로 해결함으로써, 청각장애인이 직업 현장에 보다 쉽게 적응하도록 도움을 줄 뿐만 아니라, 일을 통해 자아 실현을 하도록 돕는 방안이 될 수 있다는 점에서 중요한 의의를 갖는다.

  • PDF

언어의 국제주의에 관한 고찰 - 유럽어에서의 어휘소 형태 분석 (Internationalismen der Sprache-Eine Untersuchung der Lexemformen in $europ\"{a}ischen$ Sprachen)

  • 이진희
    • 한국독어학회지:독어학
    • /
    • 제1집
    • /
    • pp.229-245
    • /
    • 1999
  • Mehrere Sprachen insgesamt oder in Ausschnitten miteinander zu vergleichen, hat die Sprachwissenschaft mit je unterschiedlichen Erkenntnisinteressen wenigstens seit dem 17. Jahrhundert unternommen. Bis in diese Zeit reichen die Versuche einer inhaltlichen, d.h. auf die Inhalte sprachlicher Formen bezogene Sprachtypologie zuruck. Im 19. jahrhundert entstand und entwickelte sich die historisch-vergleichende (komparatistische) Sprachwissenschaft mit dem vorrangigen Bestreben, Ursprung, Entwicklungsgeschichte und Verwandtschaftsbeziehungen einzelner Sprachen durch vergleichende Untersuchungen zu rekonstruieren. Die sprachtypologischen $Bem\"{u}hungen\;fr\"{u}herer$ Zeiten haben ihre Forsetzung in der neueren, etwa in den 60er Jahren $verst\"{a}rkt$ einsetzenden Unversalienforschung. In den meiseten $europ\"{a}ischen$ Sprachen gibt es nicht geringe und $auff\"{a}llige$ Lehnwortbestande. Diese $Wortbest\"{a}nde$ beruhen nicht auf $Zuf\"{a}lligkeiten$, sondern sie sind Ergebnisse internationaler Kontakte mit politischen, kulturellen, okonomischen und anderen Voraussetzungen. Diese sprachlichen Gemeinsamkeiten in verschiedenen Sprachen werden mit dem Begriff des Internationalismus $erfa{\ss}t$. Obwohl die $europ\"{a}ischen$ Sprachen sich immer mehr von den gemeinsamen Ursprungssprachen entfernt haben, verraten die $Wortbest\"{a}nde$ der Internationalismen Tendenzen der $Ann\"{a}herungen$ und der Gemeinsarnkeiten, vor allem auf der Ebene des Wortschatzes. Im Ausblick auf $M\"{o}glichkeiten$ der Verwertung von nationalen $Wortsch\ddpt{a}tzen$ kann man so fomulieren: Internatonalismen 1) $k\"{o}nnen$ die Alltags­kommunikation zwischen Menschen verschiedener Herkunftssprachen erleichtern; sie offenbaren, $da\ss$ viele Fremdsprachen gar nicht so fremdartig sind; 2) haben im Hinblick auf den Fremdsprachenerwerb und den Fremdsprachenunterricht multiplizierten Gebrauchwert: Viele Interlexeme $geh\"{o}ren$ zum festen Bestand $europ\"{a}ischer$ Sprachen; 3) geben $Aufschlu\ss\;\"{u}ber$ geschichtliche und kulturelle $Kontaktvorg\"{a}nge$ und Kontaktergebnisse in Europa; 4) $k\"{o}nnen\;als\;Wortsch\"{a}tze\;einer\;m\"{o}glichen\;europ\"{a}ischen$ Integration betrachtet werden'.

  • PDF

범주 기반 평가를 이용한 검색시스템의 성능 향상 (Improving Performance of Search Engine Using Category based Evaluation)

  • 김형일;윤현님
    • 한국콘텐츠학회논문지
    • /
    • 제13권1호
    • /
    • pp.19-29
    • /
    • 2013
  • 정보에 대한 공간 복잡도가 높은 현재의 인터넷 환경에서는 사용자가 원하는 정보를 정확히 제공하는 것이 검색엔진의 목표이다. 그러나 대다수 검색엔진이 활용하는 내용 기반 기법은 현재의 인터넷 환경에서는 효과적인 도구로 사용될 수 없다. 내용 기반 기법은 어휘의 형태적 특성을 이용하여 웹페이지 가중치를 결정하기 때문에 웹페이지에 대한 변별력이 우수하지 못하다는 단점이 있다. 이러한 문제점을 해결하여 사용자에게 효과적인 정보를 제공하기 위해, 본 논문에서는 범주 기반 평가 기법을 제안한다. 범주 기반 평가 기법은 질의어를 의미관계로 확장하여 웹페이지와 유사성을 측정한다. 웹페이지 가중치 적용에 있어서, 범주 기반 평가 기법은 웹페이지 검색에 대한 사용자 반응과 질의어 범주를 가중치에 활용함으로써 웹페이지에 대한 변별력을 증가시킨다. 본 논문에서 제안한 기법은 사용자가 원하는 정보를 검색엔진을 통해 효과적으로 제공할 수 있는 장점이 있으며, 다양한 실험을 통해 범주 기반 평가 기법의 활용성을 확인하였다.

전자장비 고장진단 질의응답을 위한 인과관계 정의 및 추출 (Definition and Extraction of Causal Relations for Question-Answering on Fault-Diagnosis of Electronic Devices)

  • 이신목;신지애
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권5호
    • /
    • pp.335-346
    • /
    • 2008
  • 온톨로지의 인과관계는 특정 응용을 위한 추론에서 중요한 역할을 하므로, 인과관계는 응용에서 쓰이는 추론의 형태에 근거하여 정의되어야 한다. 본 논문에서는, 전자장비의 고장진단 질의응답을 위한 온톨로지에서의 인과관계를 정의하고 추출하는 모델을 제시한다. 질의응답의 패턴을 분석하여 인과범주를 정의하고, 질의응답에서 나타나는 개념들 사이의 관계들 중 인과범주에 속하는 경우를 인과관계로 정의한다. 인과관계 인스턴스는 응용분야의 정의문으로부터 어휘 패턴을 이용하여 추출되고 시소러스 정보를 이용하여 점진적으로 확장된다. 분야 전문가들의 평가 결과, 본 모델은 관계분류에 있어서 92.3%의 평균 정확률과 추출 단계의 인과관계 인식에 있어서 80.7%의 정확률을 보인다.

자바 바이트코드의 .NET MSIL 중간언어 번역기 (Java Bytecode-to-.NET MSIL IL Translator)

  • 정지훈;박진기;이양선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.663-666
    • /
    • 2003
  • 자바는 썬 마이크로시스템즈사의 제임스 고슬링(James Gosling)에 의해 고안된 언어로 운영체제 및 하드웨어 플랫폼에 독립적인 차세대 언어로 최근에 가장 널리 사용하는 범용 프로그래밍 언어 중 하나이다. 자바 프로그램은 컴파일러에 의해 각 플랫폼에 독립적인 중간 코드 형태의 바이트코드로 변환된 클래스 파일로 생성되면 JVM(Java Virtual Machine)에 의해 실행된다. 마이크로소프트사의 .NET 플랫폼과 C# 언어는 프로그래머들의 요구를 충족시키고 썬사의 JVM 환경과 자바 언어에 대응하기 위해서 개발된 플랫폼과 언어이다. C#과 같은 .NET 언어는 컴파일러에 의해 MSIL(MicroSoft Intermediate Language) 코드로 번역되며 번역된 MSIL 코드는 .NET 플랫폼 환경에서 런타임 엔진인 CLR(Common Language Runtime)에 의해 실행이 된다. 자바로 작성된 프로그램은 JVM 플랫폼에서는 실행이 되지만 .NET 플랫폼에서 실행이 되지 않고, 반대로 C#과 같은 .NET 언어로 작성된 프로그램은 .NET 플랫폼에서는 실행이 되지만 JVM 플랫폼에서 실행이 되지 않는다. 이런 이유로 본 논문에서는 자바소스를 컴파일하여 생성된 클래스 파일에서 Oolong 코드를 생성하고 생성된 Oolong 코드를 .NET의 MSIL 코드로 변환하여 자바로 구현된 프로그램이 .NET 환경에서 실행되도록 하는 Bytecode-to-MSIL 번역기 시스템을 구현하였다. 따라서, 자바 프로그래머는 JVM이나 .NET 플랫폼 환경에 관계없이 프로그램을 작성하여 실행시킬 수 있다. 번역기 시스템의 구현을 정형화하기 위해 Oolong 코드의 명령어들을 문법으로 작성하였으며, PGS를 통해 생성된 어휘 정보를 가지고 스캐너를 구성하였으며, 파싱테이블을 가지고 파서를 설계하였다. 파서의 출력으로 AST가 생성되면 번역기는 AST를 탐색하면서 의미적으로 동등한 MSIL 코드를 생성하도록 시스템을 컴파일러 기법을 이용하여 모듈별로 구성하였다.

  • PDF