• 제목/요약/키워드: 정규화 텍스트

검색결과 36건 처리시간 0.03초

올바른 한글 정규화를 위한 수정 방안 (Correction for Hangul Normalization)

  • 안대혁;박영배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-80
    • /
    • 2006
  • 현재 유니코드에서 한글텍스트의 정규화 기법은 완성형 현대한글 음절과 옛 한글을 표현하는 조합형 한글 그리고 호환 자모등과 같이 사용할 경우 원래의 글자와는 전혀 다른 글자의 조합을 만들어내는 문제점이 있다. 이러한 문제점은 호환 한글 자모 및 기호들의 잘못된 정규화 변환과 유니코드의 한글자모 조합 규칙에서 자모와 완성형 현대한글 음절을 다시 조합하여 한글음절로 사용 할 수 있게 허용한 때문이다. 이는 정규화 형식을 처음 작성할 당시 옛 한글의 사용을 고려하지 않았거나, 한글에 대한 올바른 이해가 부족한 상태에서 작성 된데 따른 결과라 하겠다. 따라서 본 연구에서는 유니코드 환경에서의 한글코드와 특히 최근 들어 Web을 비롯하여 XML과 IDN에서 필연적으로 사용하는 정규화에 따른 문제점을 파악하고 이들을 올바르게 처리하기 위한 정규화의 수정 방안과 조합형 한글의 조합규칙에 대한 수정 방안을 제안한다.

  • PDF

약어와 두문자어의 모호성 해결을 통한 임상 의무기록의 정규화 (Normalization of Clinical Medical Records by Disambiguating Abbreviations and Acronyms)

  • 배인호;김진상;김윤년
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.676-678
    • /
    • 2008
  • 임상 의무기록에 나타나는 많은 두문자어들은 기계적인 처리과정에서 의무기록의 모호성을 크게 증가시키기 때문에, 정보추출이나 텍스트 마이닝을 하기 전에 전처리 과정으로 의무기록이 정규화 되어야 한다. 본 연구에서는 임상 의무기록 중 하나인 퇴원요약지에 사용된 약어와 두문자어들의 모호성을 제거하기 위한 정규화 시스템을 설계하고 구현했다. 정규화를 위해 문맥정보를 이용하여 의무기록의 종류와 기록내 위치정보를 파악하였고 이를 이용하여 약어와 두문자어의 의미를 학습하고 분류하였다. 본 연구에서 구현한 정규화 시스템은 실험에서 6가지 두문자어들이 가지는 16가지 의미들에 대해 94.7%의 정확률을 얻었다.

텍스트 기반 119 신고전화 상황 분류 (A text-based emergency situation classification method)

  • 곽세민;임윤섭;최종석
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2016년 정기학술대회
    • /
    • pp.304-306
    • /
    • 2016
  • 본 논문에서는 기계학습 방법에 기반을 둔 119 긴급 신고 전화 전사 데이터에 대한 구급, 구조, 화재 상황 분류 알고리즘을 개발하였다. 신고전화에서 빈번하게 발생하는 비정형 발화 패턴을 효율적으로 정규화하고 자연어 문장 처리 기법에서 일반적으로 사용하는 방법을 적용하여 신고전화 텍스트 데이터를 기계학습에서 사용할 수 있는 특징 벡터로 재구성하였다. 2743개의 신고전화에 대해 선형 서포트 벡터 머신을 이용하여 상황 분류를 수행한 결과, 92% 의 정확도를 얻을 수 있었다.

  • PDF

텍스트에서 IS-A 관계의 자동 추출 및 순위화 (Automatic Acquisition of Ranked IS-A Relation from Unstructured Text)

  • 류법모;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.150-157
    • /
    • 2007
  • 본 논문에서는 의존 구조 매칭과 약한 지도식 학습 방법을 적용하여 텍스트에서 IS-A 관계를 자동으로 추출하고 순위화하는 방법을 제안한다. 텍스트에서 잠재적인 IS-A 관계를 표현하는 [관계 표현, 하위어, 상위어]의 삼진관계 리스트를 추출하고, 관계 표현과 IS-A 관계 인스턴스, IS-A 관계 후보, 사이의 상호 관련성을 이용하여 각각의 점수를 반복적으로 정제한다. 제안한 방법의 대표적인 특징은 다음과 같다. 1) 의존 구조에 기반한 패턴 매칭 방법을 적용하여 정규 표현에 기반한 방법보다 다양한 형태의 삼진관계를 추출할 수 있고, 2) 도메인 코퍼스에서 통계적으로 추출한 어휘 사이의 관련성 정보를 이용하여 도메인에 적합한 IS-A 관계 인스턴스의 순위를 높일 수 있으며, 3) 관계 표현과 관계 인스턴스의 점수를 상호 관련성에 기반한 방법으로 반복적으로 점수화하여 IS-A 관계 인스턴스 사이의 변별력을 높일 수 있다. 실험에서 순위화된 관계 인스턴스는 전문가의 판단과 66%이상 일치함을 보였고, 의존 구조를 이용한 유연한 패턴 매칭 방법은 정규표현을 이용한 방법보다 43.6%의 추가적인 삼진관계를 추출하였다.

  • PDF

유니코드 환경에서의 올바른 한글 정규화를 위한 수정 방안 (Correction for Hangul Normalization in Unicode)

  • 안대혁;박영배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.169-177
    • /
    • 2007
  • 현재 유니코드에서 한글텍스트의 정규화 기법은 완성형 현대한글 음절과 옛한글을 표현하는 조합형 한글 그리고 호환 자모등과 같이 사용할 경우 원래의 글자와는 전혀 다른 글자의 조합을 만들어내는 문제점이 있다. 이러한 문제점은 호환 한글 자모 및 기호들의 잘못된 정규화 변환과 유니코드의 한글자모 조합 규칙에서 자모와 완성형 현대한글 음절을 다시 조합하여 한글음절로 사용 할 수 있게 허용한 때문이다. 이는 정규화 형식을 처음 작성할 당시 옛한글의 사용을 고려하지 않았거나, 한글에 대한 올바른 이해가 부족한 상태에서 작성 된데 따른 결과라 하겠다. 따라서 본 연구에서는 유니코드 환경에서의 한글 코드와 특히 최근 들어 Web을 비롯하여 XML과 IDN에서 필연적으로 사용하는 정규화에 따른 문제점을 파악하고 이들을 올바르게 처리하기 위한 정규화의 수정 방안과 조합형 한글의 조합 규칙에 대한 수정 방안을 제안한다.

서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 - (A Study on the Extraction and Utilization of Index from Bibliographic MARC Database)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제36권2호
    • /
    • pp.327-348
    • /
    • 2005
  • 본 연구의 목적은 서지정보검색시스템의 색인 정의의 중요성을 강조하고 최적 색인의 기초 자료를 마련하기 위함이다. 이를 위해 서지마크 데이터베이스로부터 색인 태그 정의 및 정규화를 통한 색인어추출이론에 대해 고찰하고, 이론에 따라 생성된 색인어의 검색 활용도를 분석하였다. 실험은 서지 2,200,488건에서 생성된 색인어 29,219,853건을 텍스트형 색인과 코드형 색인으로 나누어 이용자 왱 검색 로그에 나타난 색인 항목과 비교하여 어떤 색인 정의가 얼마나 활용되는가를 분석하였다. 결과에 따르면 서명, 저자, 출판사, 주제와 같은 텍스트형 색인어는 높은 검색 활용도를 보인 반면에 코드형 색인어는 검색 활용도가 낮아 검색에 활용되지 않는 불필요한 색인 정의들은 과감하게 제거하여 색인 정의를 최적화해야 함을 제안하였다.

  • PDF

유니코드의 한글 인코딩 표준안 (Hangul Encoding Standard based on Unicode)

  • 안대혁;박영배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권12호
    • /
    • pp.1083-1092
    • /
    • 2007
  • 현재 유니코드에서 한글 텍스트의 인코딩 기법은 '완성형 현대한글 음절'과 주로 옛한글을 표현하는데 사용되는 '자모 조합형 한글'로 나뉘고 있다. 그러나 정규화 변환과 유니코드의 한글자모 조합 규정에서 자모와 완성형 현대한글 음절을 다시 조합하여 한글음절로 사용할 수 있게 허용했기 때문에, 구현하는 사람마다 각기 서로 다르게 한글 인코딩을 하고 있다. 이는 인코딩과 정규화 형식을 처음 작성할 당시 옛한글의 확장 사용을 고려하지 않았거나, 한글에 대한 올바른 이해가 부족한 상태에서 작성된 데 따른 결과라 하겠다. 결과적으로 한 개의 한글음절에 대한 여러 가지 표현 방법이 존재함으로써 한글 문자열의 검색, 비교, 정렬에 문제점이 발생한다. 따라서 본 연구에서는 현재 사용되고 있는 한글 인코딩 방법을 중심으로 정규화에 의한 부작용 등의 문제점을 분석하고, 이들을 올바르게 처리하기 위한 효율적인 단일 한글 인코딩 표준 방안을 제안한다.

노노그램 퍼즐을 이용한 인쇄체 영문자 인식 (A Recognition of the Printed Alphabet by Using Nonogram Puzzle)

  • 손영선;김보성
    • 한국지능시스템학회논문지
    • /
    • 제18권4호
    • /
    • pp.451-455
    • /
    • 2008
  • 본 논문에서는 흑백 CCD 카메라로부터 입력되는 2가지 인쇄체(바탕, 돋움) 영문자를 인식하여 편집 가능한 텍스트 형식으로 변환하는 시스템을 구현하였다. 입력된 인쇄체 영어 문장 영상을 이진화 처리 후. 히스토그램 기법을 적용하여 수평 투영으로 각 문장의 행을 분리하고 수직 투영으로 개별 문자를 분리하였으며, 문자의 높이를 48픽셀로 변환하여 정규화 하였다. 정규화 된 개별 문자에 노노그램 퍼즐 원리를 역으로 이용하여, 픽셀을 단위로 하는 작은 사각형들로 구성된 사각형으로 문자를 덮은 후 문자의 특성을 노노그램 퍼즐의 수치 정보로 나타내어 표준 패턴 정보와 비교하여 인식하게 하였다. 바탕체 2609개, 돋움체 1475개의 문자를 대상으로 실험하여 100% 인식률을 얻었다.

SNS(트위터)를 활용한 재난 및 위기상황 인식에 관한 연구 (A Study on the Perception of Disaster and Crisis Using SNS(Twitter))

  • 최연호;현상엽;신연순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.483-486
    • /
    • 2021
  • 재난 및 위기상황이 발생하면 해당 상황을 신속하고 정확하게 파악해야 많은 사람들을 구조할 수 있다. 본 논문은 SNS에서 재난 및 위기 상황을 정확하게 인식하는 연구를 진행한다. 텍스트 정규화, 워드 토큰화, 단어 임베딩 과정을 통해 전처리를 진행하고 키워드와 여러 특징들을 뽑아 SVM classifier를 사용하여 분류 작업을 실시한다. 실험결과 재난과 연관이 있는 경우에 해시태그의 빈도수, URL 빈도수, 두 키워드간의 거리가 다른 특징들의 조합보다 더 좋은 결과를 나타내었다.

텍스트 마이닝 기법을 이용한 경찰청 업무 트렌드 분석 (Analysis of the National Police Agency business trends using text mining)

  • 선현석;임창원
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.301-317
    • /
    • 2019
  • 최근 통계적인 기법을 이용하여 대량으로 생산되고 있는 텍스트 데이터를 통해 다양한 인사이트 발굴을 하기 위한 연구가 활발히 진행되고 있다. 본 연구는 경찰청에서 생산하는 텍스트 데이터를 통해 연도별 경찰청의 업무 트렌드를 파악하고, 각 지방청별로 생산되는 문서에서 주요 키워드를 파악하여 지방청 간의 업무 특성을 비교하고자 하였다. 의미 있는 결론을 도출하기 위해 각 자료 특성에 맞는 전처리 과정을 시행하고 문서별 단어 빈도수를 계산하였다. 문서에 나타난 키워드의 단순 출현 빈도로는 해당 키워드가 문서에서 갖는 중요도를 설명하기 힘들기 때문에 단어-역문서 가중치를 이용하여 각 단어에 대한 빈도수를 새롭게 계산하였고 단어의 문서별 및 연도별 빈도 비교를 위해 L2 정규화 기법을 이용하였다. 이러한 분석은 향후 경찰청 업무 개선 정책에 새롭게 활용될 수 있는 기초 자료로 사용될 수 있으며, 경찰청 업무 효율성 향상 및 청내 업무 개선 수요 파악을 위한 방법으로 활용될 수 있다.