• 제목/요약/키워드: 현대언어

검색결과 260건 처리시간 0.027초

공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법 (Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora)

  • 한경은;백슬예;임재수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

트리 유사도: 상호운용성 평가도구 (Tree Similarity: Interoperability Evaluation Tool)

  • 정성훈;배재학
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.276-280
    • /
    • 2017
  • 현대사회에 존재하는 다양한 시스템들이 병합될 때는 병합을 위해서 여러 가지 방법을 사용해 볼 수 있다. 이때 시스템의 성격에 따라 더 적절한 병합 방법론이 존재할 수 있지만, 어떤 방법이 해당 시스템을 통합하는데 더 적절한지를 판단하기는 쉽지 않다. 본 논문에서는 서로 다른 시스템을 통합할 때, 그 상호운용성을 평가하기 위한 수단으로 트리의 유사도를 측정하는 방안을 제시한다. 이렇게 측정된 유사도는 0이상 1이하의 값을 가지며, 정확한 수치로 제시되기 때문에 서로 다른 통합 방법론을 평가하기 위한 계량적 근거로 사용될 수 있다. 다만 트리 구조로 나타낼 수 없는 일부 시스템들에 대해서는 적용할 수 없는 한계를 가진다.

  • PDF

코퍼스 규모에 따른 타입과 토큰의 상관성 연구 (The Statistical Relationship between Types and Tokens)

  • 양경숙;박병선;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-85
    • /
    • 2003
  • 이 논문의 목적은 코퍼스 크기에 따른 타입과 토큰간의 관계를 엄밀한 통계적 방법으로 그 특징을 밝히고자 하는 것이다. 지금까지 코퍼스를 구축하는 데 있어서, 자료의 다양성을 고려한 자료 균형성을 문제와 더불어 코퍼스 구축 규모의 문제는 매우 중요한 고려사항이었다. 이런 문제는 일찍이 영어 코퍼스를 중심으로 많은 연구가 진행된 바가 있지만 한국어를 대상으로 한 엄밀한 연구는 많이 이루어지지 않았다. 이 연구에서는 현재까지 구축한 현대 한국어 말뭉치 1억여 어절을 대상으로 말뭉치 크기 증가에 따른 타입과 토큰간의 통계적 관계를 3가지 모형에 대해 비교하였으며 최종적으로 ARIMA모형을 이용하여 그 함수적 관계를 밝혀보았다. 연구 결과에 따르면 한국어 자료는 약 1천만 어절의 토큰을 기준으로 타입의 변화가 다소 둔화되는 결과를 보인다. 연구에 의해 도출된 함수식을 이용하면 소규모의 자료를 이용하더라도, 대규모 자료에서의 타입수를 계산해 낼 수 있으므로, 더욱 다양하고 정확한 통계처리의 근거를 제시할 수 있게 된다.

  • PDF

컴퓨터형 한글 서체 개발을 위한 자소 결합 알고리즘 연구 (A study on the combination algorithm of Korean alphabet to develope the Hangul fonts for computers)

  • 김윤식;엄정국;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.341-344
    • /
    • 1998
  • 컴퓨터 상에서 모든 한글 음절을 구현하고자 하면 현대한글 11,172음절의 완성형 코드나 조합형 코드를 사용해야 하는데 조합형의 경우 글자의 미려도가 떨어지는 문제성이 발생되므로 자소 벌수를 늘려 그 문제점을 보완하려는 연구가 진행되어 왔다. 이는 메모리 및 코드처리상 비효율적인 요소가 많으므로 본 논문에서는 자소는 초 중 종성 각각 6벌씩만 제작한 후 자소의 어울림에 따라 자소의 이동과 변형으로 그 미려도를 추구할 수 있는 방안을 제시하고자 한다.

  • PDF

윈도우용 정음 입력기를 위한 정음 조합 자동 장치 (A Jeongeum Combination Automaton for Windows Jeongeum IME)

  • 김가연;변정용;이하나
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.225-227
    • /
    • 2018
  • 세계화가 진행되는 요즘, 외국어의 한글 표기 수요가 점차 증가하고 있다. 하지만 현대 한글은 11,172자 밖에 표현할 수 없는 반면 훈민정음은 약 399억 음절을 표현할 수 있다. 하지만 기존 컴퓨터 시스템에서의 훈민정음은 훈민정음 창제원리가 반영되어 있지 않아 약 399억 음절을 온전히 표현할 수 없다. 본 연구의 목적으로 약 399억 음절 입력이 가능한 윈도우용 정음 입력기를 구현하기 위해 기존 연구에 이어 정음 조합 자동 장치를 연구하고 구현하여 이식함에 있다.

  • PDF

만화에서 이미지가 주는 언어적 커뮤니케이션 (Paralinguistic Communication of the Image on Cartoon and Comics)

  • 이원석
    • 한국콘텐츠학회논문지
    • /
    • 제11권1호
    • /
    • pp.83-91
    • /
    • 2011
  • 만화의 가장 큰 특성은 글과 그림의 결합체로 널리 알려져 왔다. 현대만화의 형태를 신문만화에서 찾아 볼 수 있는 것이 대표적으로 글을 넣은 만화였음이 이를 증명한다. 그러나 만화에서 글이 없는 경우를 종종 볼 수 있다. 이러한 작품 역시 해독하는데 크게 어려움이 없고, 만화에서 형상을 나타내는 이미지가 독자와 대화한다고 해석할 수 있다. 그렇다면 만화에서 이미지는 어떻게 언어적 커뮤니케이션을 전달하는지 의문점이 생긴다. 이 연구는 이러한 이미지가 주는 시각적 커뮤니케이션을 살펴보고, 글 없는 만화의 특성을 고찰한다.

음소의 가로선형 배열을 통한 밀도 분산형 한글꼴연구 ( 새로운 음소형 코드체계를 위한 한글꼴 ) (Study on the Hangul typeface of the decentralized density through the horizontal disposition of phoneme. (Hangul typeface for New Hangul Code))

  • 문석배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.223-230
    • /
    • 1994
  • 본 한글꼴은 음절 및 음소의 가시성을 높이고자 한글 음소의 이중 가로선형 배열을 통한 밀도 분산형 한글꼴과 음소 나열형 한글꼴 등의 새로운 한글꼴의 다양한 표현의 실험 연구이다. 일도 분산형 한글꼴은 새로운 음소형 한글코드(닿소리, 홑소리, 받침 조합형)와 서로 대응하드록 일원화 한글꼴로 한글 및 옛 한글의 음소 조합형의 입.출력이 가능하다. 이러한 시도는 1바이트 이내에서 현대한글 및 옛한글을 구현하며, 이는 한글의 구현원리에 따른 음소형 코드체계의 실현 가능성으로 한글 코드체계의 최적화에 대한 새로운 가설을 제시 한다.

  • PDF

명사류 의미망 구축을 위한 사전 뜻풀이의 어휘구조분석 (Lexical Analysis of Dictionary Definitions for Constructing Semantic Networks)

  • 한영균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.326-332
    • /
    • 1994
  • 본 연구에서는 중사전 규모의 현대국어사전에서 약 5,000 개의 표제항목의 뜻풀이 8,000여 항에 사용된 어휘를 분석한 결과를 제시하였다. 분석 결과 명사류의 의미구조에서 최상위계층에 속하는 것들이 사전의 뜻풀이에 자주 사용됨을 확인할 수 있었고, 아울러 뜻풀이에 사용되는 단어들이 어느 정도 통제된 상태임을 알 수 있었다. 그러나 표제항목과 뜻풀이에 사용된 단어들 사이의 관계만을 바탕으로 해서는 의미망을 구축하기 어려웠는데, 그것은 국어사전에서의 뜻풀이가 지니고 있는 구조적 문제에서 기인하는 것이다. 즉 일부 한자어의 경우에는 명사로 정의되지 않으며, 그 결과 표제명사와 뜻풀이에 사용된 명사 사이의 관계를 바탕으로 한 의미망의 구축에 포함되지 않는 것이다. 또한 순환적 뜻풀이의 경우 역시 의미망 구축에 장애요소로 작용함을 밝혔다.

  • PDF

절차지향 개발 패러다임에서 Pipe & Filter 패턴을 이용한 개발 프로세스 단순화 전략 (A Tactics of Development Process Simplification on Procedual Development Paradigm using Pipe & Filter pattern)

  • 김현용;김순태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.475-478
    • /
    • 2016
  • 많은 embedded 소프트웨어는 전통적 절차적 언어인 C로 작성되며 embedded 시스템에 특화된 역할을 수행한다. 한편 기존 절차적 언어인 C는 현대의 객체지향적 개발 패러다임과 비교하면 코드의 확장성, 유지 보수성, 재사용성에 있어서 많은 어려움이 있으며 아직도 많이 사용하고 있지만 이 C의 유지 보수성과 확장성, 유연성을 확보하여 보다 생산적이고 유지 보수가 쉬운 패러다임으로서 함수 pooling이라는 개념과 이를 이용한 framework를 구현한다.

중국어 전사 한글 표기와 키보드의 표준 방안 (Korean Keyboard Standard for Koreanization of Chinese)

  • 김국;김하림;박호범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.70-72
    • /
    • 2015
  • 중국어(한어)를 라틴 알파벳으로 전사하는 음운표기 체계를 병음(Pinyin)이라고 하는데, 이에 비해 한국어 사용자를 위한 한글식의 중국어 전사 표기가 여러 가지가 연구되었다. 이는 한국어 및 한글 구사자에게 중국어를 학습하거나 중국문자를 컴퓨터에 입력하는 데 유용할 것이다. 이 논문은 중국어 한글전사 표준과 이 용도의 키보드를 만드는 원칙을 연구한 것이다. 핵심은 중국어의 한글전사를 현대 한국어맞춤법을 따르도록 하고, 기존 표준키보드에 정합되게 한다.

  • PDF