• 제목/요약/키워드: 언어 모델링

검색결과 582건 처리시간 0.025초

웹문서의 테이블 객체 모델링을 통한 제목 추출 방법 (An Object Model of Korean Web Pages for Title Identification)

  • 윤주형;박세종;이승욱;한영석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-21
    • /
    • 2003
  • 한국어 웹 문서에는 일반적으로 제목이 명시가 되어 있음으로 텍스트를 요약하는 방식의 제목추출과는 달리 여러 테이블 형태로 이루어진 웹 문서의 특성을 고려하여 제목에 해당하는 테이블 객체를 찾아내야 한다. 웹 문서를 테이블 객체의 리스트로 보고, 이들을 휴리스틱 규칙에 의해서 본문 후보와 이를 기준으로 하는 제목 후보 객체들로 구분하는 단계와 제목 후보들 간의 확률적 분포 값과 본문과의 언어적 유사도를 이용하여 제목 객체를 결정하는 단계를 통하여 제목을 인식한다. 인식의 정확성에 기여하는 것은 제목과 본문 객체를 구분하는 규칙 그리고 제목의 확률분포 및 언어적 유사 정도 등이며 이들 각 정보가 정확성에 기여하는 정도를 실험하였다. 무작위로 추출된 500개의 다양한 양식의 웹 문서를 대상으로 실험한 결과 제목인식 정확성은 95.1%였다.

  • PDF

공통변환 기반 다국어 자동번역을 위한 언어학적 모델링 (Linguistic Modeling for Multilingual Machine Translation based on Common Transfer)

  • 최승권;김영길
    • 한국언어정보학회지:언어와정보
    • /
    • 제18권1호
    • /
    • pp.77-97
    • /
    • 2014
  • Multilingual machine translation means the machine translation that is for more than two languages. Common transfer means the transfer in which we can reuse the transfer rules among similar languages according to linguistic typology. Therefore, the multilingual machine translation based on common transfer is the multilingual machine translation that can share the transfer rules among languages with similar linguistic typology. This paper describes the linguistic modeling for multilingual machine translation based on common transfer under development. This linguistic modeling consists of the linguistic devices such as 1) multilingual common Part-of-Speech set, 2) multilingual common transfer format, 3) multilingual common transfer chunking, and 4) multilingual common transfer rules based on linguistic typology. Validity of this linguistic modeling for multilingual machine translation is shown in the simulation. The multilingual machine translation system based on common transfer including Korean, English, Chinese, Spanish, and French will be developed till 2018.

  • PDF

사용자 편의성을 고려한 연속체계 모의실험 언어의 개발 (Development of a User-friendly continuous-system)

  • 민경하
    • 한국시뮬레이션학회논문지
    • /
    • 제2권1호
    • /
    • pp.78-90
    • /
    • 1993
  • 기존의 모의 실험언어를 이용해서 연속 체계를 모의 실험하는 것을 사용자가 언어에서 요구하는 형태로 모델을 형성해야 하는 어려움이 따른다. 따라서 본 연구에서는 사용자에게 최대한 편의성을 제공하는 연속체계 모의 실험언어인 PCSL (Postech Continuous -system Simulation Language)를 개발하였다. PCSL은 주어진 대상을 모델링한 미분방정식과 그것을 푸는데 필요한 여러 가지 제약 사항으로 이루어진 간단한 프로그램을 입력으로 받아 자동으로 모의 실험을 수행함으로서 사용자의 노력이 최소화하게 된다. PCSL 처리 시스템의 구성은 주어진 모델을 C 프로그램으로 변형하는 변환기, 모의 실험 알고리즘을 구현한 C 프로그램을 생성하는 생성기, 모의 실험을 수행하는 실행기, 사용자 인터페이스 등으로 되어있다. 구현 예로는 먼저 선형 상미분방정식의 예로 mass-damper-spring system, 비선형 상미분방정식의 예로 van der Pol 방정식, 연립 상미분방정식의 예로는 mixing tank problem 등을 보였다.

  • PDF

DBERT: 멀티턴 문맥의 특징을 고려한 대조 학습 기반의 임베딩 모델링 (DBERT: Embedding Model Based on Contrastive Learning Considering the Characteristics of Multi-turn Context )

  • 박상민;이재윤;김재은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.272-274
    • /
    • 2022
  • 최근에는 사람과 기계가 자유롭게 대화를 주고받을 수 있는 자유 주제 대화 시스템(Open-domain Dialogue System)이 다양한 서비스에 활용되고 있다. 자유 주제 대화 시스템이 더욱 다양한 답변을 제공할 수 있도록 사전학습 기반의 생성 언어모델이 활용되고 있지만, 답변 제공의 안정성이 떨어져 검색을 활용한 방법 또한 함께 활용되고 있다. 검색 기반 방법은 사용자의 대화가 들어오면 사전에 구축된 데이터베이스에서 유사한 대화를 검색하고 준비되어있는 답변을 제공하는 기술이다. 하지만 멀티턴으로 이루어진 대화는 일반적인 문서의 문장과 다르게 각 문장에 대한 발화의 주체가 변경되기 때문에 연속된 발화 문장이 문맥적으로 밀접하게 연결되지 않는 경우가 있다. 본 논문에서는 이와 같은 대화의 특징을 고려하여 멀티턴 대화를 효율적으로 임베딩 할 수 있는 DBERT(DialogueBERT) 모델을 제안한다. 기존 공개된 사전학습 언어모델 기반의 문장 임베딩 모델과 비교 평가 실험을 통해 제안하는 방법의 우수성을 입증한다.

  • PDF

UML 클래스의 XML DTD로의 변환을 이용한, 관계형 데이터베이스 기반의 XML 모델링 (XML Modeling based on RDB using transformation from UML classes to XML DTD)

  • 김경수;임종선;주경수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.39-42
    • /
    • 2002
  • XML을 가장 효율적으로 활용할 수 있는 B2B 시스템 구축 시 가장 중요한 부분은 모델링을 어떻게 하느냐 일 것이다. 기존의 관계형 데이터베이스에 저장된 정보를 XML 문서로 변환하는 것뿐만 아니라 신규로 정의하여 사용하는 정보에 대하여서도 확장성 있고 만족할 만한 성능을 보장하도록 구조화시킬 것인지가 관건이다. XML 문서는 그 자체로 하나의 객체이며 객체지향 모델링의 표준인 UML을 사용하여 문서정보 뿐만 아니라 시스템 전체를 모델링하는 것이 가장 바람직한 접근 방법이다. 따라서 본 논문은 계층구조를 갖는 XML 데이터를 관계형 데이터베이스로 저장이 가능하도록 하는 모델링 방법론을 제안하였다. 이를 위하여 우선적으로 객체지향 설계언어인 UML를 이용해서 클래스 다이어그램을 도출한 후, 클래스 다이어그램에 의해서 XML DTD 설계를 위한 XML 모델링을 소개하고 이들의 모델링으로 교환되는 XML 데이터를 효율적으로 저장하기 위하여 관계형 데이터베이스 스키마 설계를 위한 데이터 모델링 방법을 제안하였다. 아울러 변환 방법에 의해 관계형 데이터베이스 스키마 스크립트를 구현했다.

  • PDF

최대 엔트로피 기반 문서 분류기의 학습 (Text Categorization Based on the Maximum Entropy Principle)

  • 장정호;장병탁;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.57-59
    • /
    • 1999
  • 본 논문에서는 최대 엔트로피 원리에 기반한 문서 분류기의 학습을 제안한다. 최대 엔트로피 기법은 자연언어 처리에서 언어 모델링(Language Modeling), 품사 태깅 (Part-of-Speech Tagging) 등에 널리 사용되는 방법중의 하나이다. 최대 엔트로피 모델의 효율성을 위해서는 자질 선정이 중요한데, 본 논문에서는 자질 집합의 선택을 위한 기준으로 chi-square test, log-likelihood ratio, information gain, mutual information 등의 방법을 이용하여 실험하고, 전체 후보 자질에 대한 실험 결과와 비교해 보았다. 데이터 집합으로는 Reuters-21578을 사용하였으며, 각 클래스에 대한 이진 분류 실험을 수행하였다.

  • PDF

모바일 IPv6의 Alloy모델 해석 (Interpretation of Alloy Model for Mobile IPv6)

  • 박승순;배민오;김영인
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (A)
    • /
    • pp.115-117
    • /
    • 2002
  • 본 논문에서는 Mobile IPv6에 사이클이 있음을 Alloy로 명세(specification)하고 Alloy 분석기로 검증(verification)한 것을 해석해 보겠다. Acyclicity를 만족하지 못함으로 해서 모바일호스트는 이동을 하지 못하고 계속 사이클을 돌게 된다. Alloy는 Rational의 UML과 같은 객체모델링 언어인데, 일차논리와 집합에 기반을 둔 Z에서부터 파생되었다. Alloy는 작은 모델들을 위한 명세 언어로, Alloy 모델은 그래픽과 텍스트를 모두 지원한다. Alloy로 명세 된 것을 쉽게 분석 할 수 있는 검증도구로 Alloy 분석기가 있는데, 이러만 도구를 이용함으로써 손쉽고 빠르게 검증을 할 수 있다.

  • PDF

분산 네트워크 환경 명세 방법 (A Specified Method of Distributed Network Environment)

  • 장은민;이문근
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.130-132
    • /
    • 2002
  • NATM(Network Abstract Timed Machine)은 통신 네트워크와 같이 다양한 형태의 시스템을 기술하는데 사용되고 크고 복잡한 네트워크에 대해서 요구사항을 만족하도록 설계된 모델링 언어이다. NATM은 기존의 네트워크 설계 언어에서 기술하기 어려운 다양한 형태의 네트워크 표현과 네트워크를 고정 네트워크 환경과 무선 네트워크 환경으로 나누어 유/무선 네트워크 환경을 명세 할 수 있다. 본 논문에서는 NATM의 다양한 네트워크 환경에서의 여러 Component들을 기술하고 이 Component 속성들을 예제를 통해서 살펴본다.

  • PDF

입.출력 관계에서 언어적 퍼지모델의 추출 (An Extraction of Linguistic Fuzzy Model from Input/Output Relation)

  • 유완식;김성락;김종성;변증남;박동조
    • 한국지능시스템학회논문지
    • /
    • 제2권3호
    • /
    • pp.3-16
    • /
    • 1992
  • 퍼지제어기는 입.출력 관점에서 일반적으로 입.출력에 대한 비선형 함수로 볼수 있다. 전문가의 제어 행위의 입.출력 관계가 크리시(crisp) 비선형 함수로 표현되었을때 그것을 언어적 퍼지 모델링(linguistic fuzzy modelling)하는 방법이 1-입력/ 1-출력 및 2-입력/1-출력의 static 시스템에 대하여 제안되었다. 이를 위해 소속함수 제한조건(membership function constraint)의 개념을 제시하고 선형계획법에 의한 최적화 기법을 이용하여 소속함수의 생성에 관한 체계적인 방법을 제안한다.

  • PDF

Verilog PLI와 CSIM을 이용한 상위 단계 구조 설계 및 검증 기법 (High level architecture design and verification using Verilog PLI and CSIM)

  • 최종필;정양훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.43-45
    • /
    • 2001
  • 본 논문에서는 MPEG 비디오 코어 프로파일 디코더 ASIC 상위 구조 설계를 시스템 수준에서 검증하는 기법을 제시한다. 상위 구조 설계는 RISC 프로세서와 펌웨어 그리고 일반 로직이 병존하는 혼합형 구조라는 것과 설계의 상위 단계라는 특징을 가지고 있기 때문에 Verilog HDL과 CSIM 모델 두 가지 모델이 혼합되어 있다. 통합 환경은 C 언어를 이용한 하드웨어 모델링 기법과 PLI를 통한 프로그래밍 언어와 Verilog의 통합 방법을 이용하여 설계 단계에서 각 블록의 특성에 가장 적합한 모델을 이용하여 동작 검증이 가능하도록 하였다.