• 제목/요약/키워드: Hangul Document Information

검색결과 32건 처리시간 0.019초

웹 기반하의 국어의 로마자 전사 표기 자동 변환 시스템 (Automatic translation system for hangul's romanization Based on the World Wide Web)

  • 김홍섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.108-114
    • /
    • 2002
  • 국어의 로마자 표기법 기본원칙을 모르더라도 웹 상에서 한글단어, 문장, 문서를 문자열(String)로 입력받아 국어의 로마자 표기 자동변환이 가능하게 설계 및 구현하였다. 특히, 표음 중심의 전사(Transcription) 표기법의 기계적 변환을 위해 알고리즘(algorithm)화된 음운법칙을 적용하여 소리글자로 자동 변환 후 정부 표준안인 국어 로마자 표기법 테이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 자동변환 알고리즘 설계하였으며, 유니코드(Unicode)와 아스키(ASCII)테이블에서 잘 쓰이지 않는 코드를 반달표(ˇ)와 어깻점(')등 특수부호로 할당하여 글꼴을 제작하였다. 또한 예외어 사전관리를 통한 예외 처리 문제에 대한 해결 방안을 제시하였으며, UML표기와 C++ 언어를 이용하여 사용자 편리성과 구현에 대한 모델을 제안하였다.

  • PDF

자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘 (Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing)

  • 최기원;최성훈;조상현;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.718-721
    • /
    • 2017
  • 텍스트 마이닝의 기반이 되는 자연어 처리는 언어의 종류에 따라 처리 방법이 다를 수 있다. 특히 타 언어에 비해 비교적 표현의 자유도가 높은 한글은 어미의 활용에 따라서 여러 가지 단어의 형태가 존재한다. 이처럼 다양한 형태로 굴절하는 단어에서 변화하지 않는 부분을 어간이라고 하며, 효과적인 텍스트 마이닝을 위해선 어간을 추출하여 다양한 형태의 단어들을 단일화하는 과정이 필수적이다. 따라서 본 논문에서는 한글문서의 효과적인 텍스트 마이닝을 위하여 한글 어간 추출 알고리즘을 제시한다.

  • PDF

웹 기반하의 국어의 로마자 표기 자동 변환 시스템 설계 (Design of automatic translation system for hangul's romanization Based on the World Wide Web)

  • 김홍섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.6-11
    • /
    • 2001
  • 국어의 로마자 표기법 기본원칙을 모르더라도 웹 상에서 한글단어, 문장, 문서를 문자열(String)로 입력받아 자동변환이 가능하게 설계하였다. 특히 표음 중심의 전사(Transcription) 표기법의 기계적 변환을 위해 알고리즘(algorithm)화된 음운법칙을 적용하여 소리글자로 자동 변환 후 정부 표준안인 국어 로마자 표기법 레이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 자동변환 알고리즘 설계하였으며, 아스키(ASCII)테이블에서 잘 쓰이지 않는 코드를 반달표(ˇ)와 어깻점(´)등 특수부호로 할당하여 글꼴을 제작하였다. 또한 예외어 사전관리를 통한 예외 처리 문제에 대한 해결 방안을 제시하였으며, UML표기와 C++ 언어를 이용하여 사용자 편리성과 구현에 대한 모델을 제안하였다.

  • PDF

문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색 (Keyword Spotting on Hangul Document Images Using Character Feature Models)

  • 박상철;김수형;최덕재
    • 정보처리학회논문지B
    • /
    • 제12B권5호
    • /
    • pp.521-526
    • /
    • 2005
  • 본 논문에서는 저 품질의 한글 문서 영상에서 OCR 기반 검색 시스템의 대안으로 키워드 검출 시스템(Keyword Spotting)을 제안하고 OCR 기반 문서 검색 시스템과 비교한다. 제안 시스템은 문자 분할, 키워드 특징 추출 그리고 단어 매칭으로 구성된다. 문자 분할 단계에서는 인접한 두 문자간의 연결을 효과적으로 분리하면서 문자 넓이 값의 분산이 최소가 되도록 하는 문자 분할 방법을 제안한다. 키워드 특징은 서체별 문자 모델의 결합으로 구성한다. 단어 매칭 단계에서는 문자 매칭에 기반한 단어 대 단어 매칭 방법을 적용한다. 본 논문에서 제안한 키워드 검출 시스템의 성능을 평가하기 위해 한글 문서 영상을 대상으로 OCR 기반 문서 검색 시스템과 비교하였다. 그 결과 한글 글자 크기가 작고 문서의 상태가 좋지 않은 경우 제안한 키워드 검출 시스템에 의한 검색 성능이 OCR 기반 검색 시스템 보다 우수함을 입증하였다.

대용량 인쇄 한글 문서 검색을 위한 영상 기반 단어 매칭 방법 (An Image-based Word Matching Method for Large volume Printed Hangul Document Retrieval)

  • 진영범;오일석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.461-463
    • /
    • 2000
  • 기계 인쇄된 문서 영상에서 주제어를 탐색하는 문제는 여러 응용 분야에 필수적인 핵심 기술이지만 수작업 또는 OCR 소프트웨어를 이용하여 텍스트로 변환하는 방법은 많은 비용 때문에 한계를 가지고 있다. 요즘 영상 형태로 원문을 저장하는 경우가 많으므로 본 논문은 영상-기반 매칭을 통한 검색 방법을 채택하였다. 문자 또는 단어 매칭에서 가장 중요한 요소가 특징인데 본 논문에서는 디지털도서관과 같이 매칭 대상 단어가 수천만∼수십억에 달하는 대용량 한글 문서 검색에 이용될 수 있도록 비교적 간단히 추출할 수 있고 차원수 조절이 용이한 4방향 프로파일 특징을 이용하는 빠른 검색 방법을 제안한다. 실험결과 8-차원 정도의 간단한 특징으로도 의미 있는 검색 성능을 얻을 수 있음을 보였다.

  • PDF

영상과 문자정보의 통합 부호화에 관한 연구 (A Study on the Integrated Coding of Image and Document Data)

  • 이헌주;박구만;박규태
    • 대한전자공학회논문지
    • /
    • 제26권7호
    • /
    • pp.42-49
    • /
    • 1989
  • 본 연구에서는 영상에 한글 및 영문숫자로 구성된 문서정보를 심을 수 있는 새로운 통합 부호화 방법을 제안하였다. 계조도를 갖는 영상에 대해 임의의 단계로 재양자화한 화소들을 대응하는 마이크로 패턴을 할당하여 영상을 재구성한 후 이진 출력장치에 표시할 수 있다. 그리고 , 각 마이크로 패턴에 문자정보를 할당하여 심을 수 있다. 이러한 개념을 기초로, 고속 부호화 및 복호화 알고리듬을 구현하여 실험을 수행하였다. 실험결과, $64{\times}64$ 화소의 영상을 마이크로 패턴으로 이진화한 영상에 화소 당 평균 약 8.5비트의 문자정보, 즉 한글 2000자 또는 영문자 4000자 이상을 심을 수 있었다. 이를 이용하여 영상과 문서의 통합 개인 신상기록 시스템을 구현하였다.

  • PDF

SNS대상의 지능형 자연어 수집, 처리 시스템 구현을 통한 한국형 감성사전 구축에 관한 연구 (Research on Designing Korean Emotional Dictionary using Intelligent Natural Language Crawling System in SNS)

  • 이종화
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권3호
    • /
    • pp.237-251
    • /
    • 2020
  • Purpose The research was studied the hierarchical Hangul emotion index by organizing all the emotions which SNS users are thinking. As a preliminary study by the researcher, the English-based Plutchick (1980)'s emotional standard was reinterpreted in Korean, and a hashtag with implicit meaning on SNS was studied. To build a multidimensional emotion dictionary and classify three-dimensional emotions, an emotion seed was selected for the composition of seven emotion sets, and an emotion word dictionary was constructed by collecting SNS hashtags derived from each emotion seed. We also want to explore the priority of each Hangul emotion index. Design/methodology/approach In the process of transforming the matrix through the vector process of words constituting the sentence, weights were extracted using TF-IDF (Term Frequency Inverse Document Frequency), and the dimension reduction technique of the matrix in the emotion set was NMF (Nonnegative Matrix Factorization) algorithm. The emotional dimension was solved by using the characteristic value of the emotional word. The cosine distance algorithm was used to measure the distance between vectors by measuring the similarity of emotion words in the emotion set. Findings Customer needs analysis is a force to read changes in emotions, and Korean emotion word research is the customer's needs. In addition, the ranking of the emotion words within the emotion set will be a special criterion for reading the depth of the emotion. The sentiment index study of this research believes that by providing companies with effective information for emotional marketing, new business opportunities will be expanded and valued. In addition, if the emotion dictionary is eventually connected to the emotional DNA of the product, it will be possible to define the "emotional DNA", which is a set of emotions that the product should have.

문서 입력을 위한 한/영 자동 토글 시스템 (Hangul/English Automatic Toggle System for Document Input)

  • 최연우;서동린;김용수;박영호;이금석;김철호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.321-328
    • /
    • 1992
  • 컴퓨터의 보급과 활용이 늘어남에 따라 한글과 영문이 혼합된 문서 작성의 필요성이 계속 증대되고 있다. 컴퓨터 하드웨어 및 소프트웨어에서 사용자의 편리성과 효율성을 최대한 배려하는 "사용자 인터페이스"에 대한 연구가 증대되고 있어서 보다 편리한 한/영 혼용문서의 작성 방법이 요구되고 있다. 키보드를 통한 한/영 혼용문 입력시에 입력된 문서의 내용을 입력 오토마타 및 사전 수록 정보를 토대로 분석하여 자동적으로 한글 또는 영문으로 변환하는 자동토글 시스템 개발에 대해 설명하고, 현재의 시스템이 해결하지 못한 문제점 및 개선 방향을 기술한다.

  • PDF

자동색인기 성능시험을 위한 Test Set 개발 (A Development of the Test Set for Estimating the Retrieval Performance of an Automatic Indexer)

  • 김성혁;서은경;이원규;김명철;김영환;김재군
    • 정보관리학회지
    • /
    • 제11권1호
    • /
    • pp.81-102
    • /
    • 1994
  • 다양한 정보를 신속, 정확하게 제공할 수 있는 정보검색시스템은 선진국에서 일찍이 개발되어 현재 우리나라에서도 한국어 데이타베이스를 검색할 수 있는 정보검색시스템이 실험적으로 또는 상업적으로 개발되고 있다. 이에 따라 개발된 시스템의 실행 가능성 테스트 (feasibility test)가 계속 부수적으로 수행되어 왔으나 평가 테스트들의 객관성 부족으로 인하여 개발된 정보검색시스템의 성능 또한 논쟁이 되어왔다. 이에 본 연구는 한국어 정보검색시스템과 자동색인기의 객관적인 성능평가를 위하여 실험 데이타 컬렉션을 개발하였다. 실험데이타 컬렉션은 정보과학회논문지, 한국정보과학회 1993 proceedings, 정보관리학회지에 수록된 1,053개의 논문으로 구성되었다. 입력된 모든 데이타는 국문 및 영문 저자, 서명, 서지사항, 초록, 분류번호, 색인어 등 18개의 access point를 지니며, 한국어 문헌 set 구축이외에 test set과 관련된 질의문을 작성하였고 질의문에 해당하는 적합문헌을 제시해 주었다.

  • PDF

정보 검색 시스템 평가를 위한 균형 테스트 컬렉션 구축 (Construction of a Balanced Test Collection for Evaluation of Information Retrieval System)

  • 맹성현;이석훈;이준호;이응봉;송사광
    • 정보관리학회지
    • /
    • 제16권2호
    • /
    • pp.135-148
    • /
    • 1999
  • 검색 시스템들의 평가를 위해 국내에서도 테스트 컬렉션에 관한 여러 연구가 진행되어왔다. 그러나 그 규모나 대상 분야가 편중되어 있고 질의 및 문헌 특성의 균형 등에 대한 고려가 반영되어 있지 않아 평가 결과를 객관화하기는 사실상 어려운 실정이다. 본 논문에서는 분야별, 사용자별 균형을 고려한 대규모 테스트 컬렉션인 HANTEC에 대해 기술한다. HANTEC 테스트 컬렉션은 총 12만 건의 문헌집합으로 구성되었는데 일반, 사회과학, 과학기술 각 분야별 4만 건씩으로 특정 분야에 편중되지 않도록 하였고 질의집합도 각 분야별 10개씩 30개로 구성하였다.

  • PDF