• 제목/요약/키워드: 수식 한글화

검색결과 8건 처리시간 0.025초

두 종류의 임베딩을 이용한 수식 검색 성능 개선 (Performance Improvement of Mathematical Formula Retrieval Using Two Different Kinds of Embedding)

  • 양선;김혜민;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.616-618
    • /
    • 2018
  • 본 연구에서는 한글 질의어를 이용하여 MathML이라는 마크업 언어 형태로 저장된 수식을 검색하는 수식 검색 시스템을 제안하는데, 마크업 형태 자체에 대한 임베딩과 수식을 한글화 한 후의 임베딩이라는 두 가지 서로 다른 임베딩 결과를 이용하여 검색 성능을 향상시키는 것을 목표로 한다. 최근 자연어 처리의 많은 과제에서 임베딩은 거의 필수적으로 사용되고 있는데, 본 실험을 통해 자연어 문서가 아닌 마크업 형태 수식을 대상으로도 임베딩 사용이 성능 개선에 효과가 있음을 확인할 수 있다. 검색 환경을 실제와 유사하게 설정하기 위하여, 본 실험에서 사용하는 데이터에는 실험을 위해 수기로 작성된 수식들 외에도 실제 웹에서 가져온 여러 분야의 수많은 수식들이 포함된다. Indri 시스템을 이용하여 검색 실험을 수행한 결과, 임베딩을 활용하여 수식을 확장한 경우 수식 확장 이전에 비해 MRR 기준 4.8%p의 성능 향상을 확인할 수 있었다.

  • PDF

국내 음성 도서 서비스를 위한 수식의 음성변환 기법에 대한 연구 (A Study on the Speech Conversion Formulas for Domestic Audio Book Service)

  • 이재화;이종우;임순범
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(B)
    • /
    • pp.226-227
    • /
    • 2011
  • 현재 국내의 음성도서 서비스는 수식을 정확하게 읽어주지 못하며, 수식을 읽기 위한 독음규칙의 부재로 수식의 음성 서비스에 혼란을 야기 시키고 있다. 이에 본 논문은 중학교 수학 교과서를 바탕으로 수식표현의 '한글 독음규칙'을 정의해보았으며, 수식의 국내 음성 서비스를 위해, 정의된 '한글 독음 규칙'을 매스 파스 트리(Math Parse tree)와 매핑 하여 최종적으로 음성서비스가 가능한 수식의 음성 변환 기법에 관해 연구하였다.

국내 독서장애인을 위한 Math Expression Reader의 구현 및 사용성 평가 (Implementation & Usability Evaluation of Math Expression Reader for Domestic Reading Disables)

  • 이재화;이종우;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제15권7호
    • /
    • pp.951-961
    • /
    • 2012
  • 국내에서 제작되는 전자도서들은 현재 문서 내에 작성된 수식 및 수학 기호들을 음성으로 변환하지 못하여 독서 장애인들에게 제약적인 음성서비스를 제공하고 있다. 본 논문에서는 국내 독서 장애인들을 위해 일반문서에 삽입되어 있는 수식표현을 한글로 읽어줄 수 있는 'Math Expression Reader'를 구현하였다. 그리고 'Math Expression Reader'를 통해 생성된 한글 수식 독음을 일반인그룹과 시각장애인들에게 각각 들려줌으로 생성된 한글수식독음을 얼마나 정확히 이해하고 알아들을 수 있는지 평가하고 그 결과를 비교 분석하였다.

한글화된 수식 패턴을 이용한 수학식 검색 시스템 (A Mathematical Equation Retrieval System Based on Formula Patterns Expressed in Korean)

  • 김신일;양선;고영중
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.233-236
    • /
    • 2011
  • 일반적인 문서에 대한 정보 검색 연구는 활발히 진행되고 있으며, 일상 생활 속에서도 대중화되어 많이 사용되고 있다. 이에 따라 음성, 이미지 검색 등 특정 분야의 검색에 대한 연구도 활발히 진행되고 있지만, 수학식 검색에 대한 연구는 비교적으로 미비한 실정이다. 수학식 검색과 관련된 연구들은 대부분 MathML (Mathematical Markup Language), TeX 등으로 작성된 수학식을 대상으로 진행되었지만, 특정 언어나 별개의 수학 입력 툴들을 이용한 검색 방법은 일반 사용자들이 사용하기에는 쉽지 않다는 단점이 있다. 그래서, 본 논문에서는 일반 문서 검색과 마찬가지로, 수학식을 읽듯이 한글을 입력했을 때 색인어 추출 방법 및 검색 방법에 대해 제안한다. 실험을 위해서 수학 문제집에 나오는 1,432개의 수학식을 한글화 시켰고, 한글화된 결과에 대해 패턴 등을 추출하여 MRR (Mean Reciprocal Rank), $Rel_{EQ}$@N(Relevance evaluation at N)로 평가하였다. 100개의 한글 질의어에 대해 MRR@5로 계산된 수학식 검색 결과가 약 0.6 정도 되는 것을 확인할 수 있었고, 학습 데이터에 포함되지 않은 질의수학식 5개에 대해 $Rel_{EQ}$@5로 계산했을 때 평균 60% 의 정확률을 보였다.

한국어 관계관형절의 전산처리 (Processing Korean Relative Adnominal Clauses)

  • 홍정하;이기용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.265-271
    • /
    • 1999
  • 이 논문은 한국어 관계관형절(relative adnominal clause)의 전산처리에 적합한 통사 의미 표상 모형을 제시하고, 그 결과를 전산적 구현을 통해서 검증하는 것이 목적이다. 이를 위해 이 논문에서는 다음의 두 가지 문제를 중심으로 관계관형절의 통사 의미 표상과 전산적 구현 문제를 다룬다. 첫째, 관계관형절의 수식을 받는 머리 명사(head noun)는 관계관형절과 모문(matrix sentence)에서 각각 다른 의미역할을 하는 논항이다. 즉, 하나의 논항이 두 개의 의미역을 표상한다. 이 논문의 첫째 과제는 이러한 관계관형절 구문에서 머리 명사의 이중의미역을 표상하는 방법을 모색하는 것이다. 둘째, 관계관형절이 일항술어로 구성될 때, 서술어 단독으로 머리 명사를 수식할 수 있을 뿐만 아니라, 주격중출 구문을 관계화하여 미리 명사를 수식할 수도 있다. 그러나 모든 일항술어가 주격중출 구문을 구성할 수 있는 것은 아니기 때문에 주격중출 구문의 관계화가 가능한 경우와 그렇지 않은 경우를 구별할 필요가 있다. 이 논문의 둘째 과제는 이러한 주격중출 구문의 관계화와 그 표상의 문제를 다루는 것이다. 이 논문에서는 이러한 문제들을 단순히 기술하는 데 그치지 않고 전산 구현을 통해 문제해결을 제시한다. 이를 위해 구현 도구로 C-언어를 보강하여 개발한 문법개발 도구언어인 말라가(Malaga)를 사용하며, 분석결과를 자질구조(feature structure)로 명시하여 그 타당성을 검토한다.

  • PDF

수식 관계를 이용한 검색 결과 랭킹 시스템과 향상된 검색 엔진 인터페이스를 통한 검색 과정의 효율성 향상 (Search Ranking System Using Modification Relation and Improved Search Engine Interface to Enhance Search Experience)

  • 문욱성;최주원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.250-253
    • /
    • 2007
  • 본 논문에서는 현재 검색 엔진의 랭킹 방식의 문제점과 인터페이스의 문제점을 해결하기 위하여 노력하였다. 기존의 페이지간 링크와 같은 부가적 정보를 이용한 인기도 기반 랭킹의 문제점을 단어간의 수식 관계를 이용한 의미 기반 랭킹 알고리즘의 제시를 통해 해결하였다. 또한 검색어와 연관된 단어를 수식 관계를 이용하 계산, 시각화하여 제공함으로써 사용자가 잘못된 검색어로 검색을 시작하였더라도 항상 올바른 검색 결과를 얻을 수 있도록 도왔으며 각 검색 결과와 함께 원문을 요약해 제공함으로써 검색 결과를 일일이 클릭해 보지 않고도 내용을 쉽게 유추할 수 있도록 도왔다.

  • PDF

POI(Point Of Interest) 데이터 검색에서 문자열 유사도 측정 정확도 향상 기법 (Accuracy Improvement Methods for String Similarity Measurement in POI(Point Of Interest) Data Retrieval)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.498-506
    • /
    • 2014
  • 교통의 발달로 활동범위가 넓은 현대인들은 네비게이션과 지도 앱을 통한 길찾기 검색을 자주 이용한다. 하지만 기존 검색 시스템에서는 부정확한 질의어가 입력되면 원하는 결과를 출력하지 못한다. 이 문제를 해결하기 위해 집합-기반 POI 검색 알고리즘이 등장했고 이어 문자열 유사도 측정 기법, 중복 글자를 고려한 검색 알고리즘이 연구되었다. 본 논문에서는 이전에 연구된 문자열 유사도 측정 알고리즘의 정확도를 향상시킨 기법을 제안한다. 기존 문자열 유사도 측정 기법에서 고려하지 않았던 고유어의 추정단계와 중복 단어를 고려한 블록 및 블록 나열 순서 구하기를 추가하고 측정 기법을 수식화한다. 이를 통해 측정방법을 체계적으로 표현하고 일반화함으로써 POI 검색 결과의 정확도를 향상시킨다. 실험을 통해 본 논문에서 제시하는 기법이 검색 결과 및 검색 순위의 정확도를 향상시킨다는 것을 확인하였다.

동적오염분석과 SMT 해석기를 이용한 소프트웨어 보안 취약점 분석 연구 (Analyzing Vulnerable Software Code Using Dynamic Taint and SMT Solver)

  • 김성호;박용수
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권3호
    • /
    • pp.257-262
    • /
    • 2015
  • 소프트웨어가 복잡해짐에 따라 개발자가 인지하지 못하는 버그가 증가하고 있다. 공격자들은 시스템을 공격하거나 악성코드를 유포하기 위해 이와 같은 소프트웨어 버그 중 보안에 취약한 버그를 이용한다. 대표적인 방법으로 문서, 멀티미디어 등의 파일을 조작하여 보안에 취약한 버그를 발생시키는 방법으로 최근 지능적 지속 공격 빈번하게 사용되었다. 이에, 본 논문에서는 소프트웨어의 보안 취약점을 찾기 위한 프로그램 자동 분석 방법을 제안한다. 제안 방법은 문서, 멀티미디어 등 입력 값에 의해 발생되는 소프트웨어의 보안에 취약한 버그를 찾는 것을 목표로 한다. 먼저, 동적 오염 분석을 통해 입력 데이터가 취약 코드 지점까지 전파되는 과정을 추적하고 입력데이터 전파와 관련이 있는 명령어를 추출한다. 추출된 연관 명렁어를 수식화하고 이를 SMT 해석기를 이용하여 보안 취약점이 발생할 수 있는 입력 값을 찾는다. 제안 방법을 통해 아래아 한글, 곰 플레이어에서 크래시가 발생할 수 있는 입력값과 취약 코드 6개를 찾았다.