• 제목/요약/키워드: 언어과제

검색결과 471건 처리시간 0.021초

두 종류의 임베딩을 이용한 수식 검색 성능 개선 (Performance Improvement of Mathematical Formula Retrieval Using Two Different Kinds of Embedding)

  • 양선;김혜민;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.616-618
    • /
    • 2018
  • 본 연구에서는 한글 질의어를 이용하여 MathML이라는 마크업 언어 형태로 저장된 수식을 검색하는 수식 검색 시스템을 제안하는데, 마크업 형태 자체에 대한 임베딩과 수식을 한글화 한 후의 임베딩이라는 두 가지 서로 다른 임베딩 결과를 이용하여 검색 성능을 향상시키는 것을 목표로 한다. 최근 자연어 처리의 많은 과제에서 임베딩은 거의 필수적으로 사용되고 있는데, 본 실험을 통해 자연어 문서가 아닌 마크업 형태 수식을 대상으로도 임베딩 사용이 성능 개선에 효과가 있음을 확인할 수 있다. 검색 환경을 실제와 유사하게 설정하기 위하여, 본 실험에서 사용하는 데이터에는 실험을 위해 수기로 작성된 수식들 외에도 실제 웹에서 가져온 여러 분야의 수많은 수식들이 포함된다. Indri 시스템을 이용하여 검색 실험을 수행한 결과, 임베딩을 활용하여 수식을 확장한 경우 수식 확장 이전에 비해 MRR 기준 4.8%p의 성능 향상을 확인할 수 있었다.

  • PDF

한국어 동사의 격틀 정보를 이용한 구문분석 후처리기 (Post-processor of Parsing Results Using Case Frames)

  • 전은희;이성욱;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.445-449
    • /
    • 2001
  • 언어를 컴퓨터로 처리하기 위한 방법으로 격문법(Case Grammar)을 사용하는 것이 있다. 격문법은 동사에 대한 격틀(Case Frame)을 기술함으로써 그 동사와 의미적으로 관계를 가지는 명사들에 대해 표현하는 것이다. 따라서 이러한 격 문법을 사용하기 위해서는 동사에 대한 격틀을 기술하는 것이 필수 과제이다. 본 연구에서는 동사에 대한 격틀을 기술하기 위해서 말뭉치에서 직접 사용된 명사-조사 쌍과 동사를 추출하여 이들의 격관계를 결정하고 이 자료들을 모두 동사의 격틀 정보로 사용하였다 이렇게 구축된 격틀 자료를 구문분석의 후처리 단계에 적용하여 구문분석 결과 잘못된 명사-조사 쌍 의존관계를 수정하였다.

  • PDF

국어(國語) 읽기교육(敎育)을 위한 전문가(專門家) 시스템의 설계(設計) 및 구현(具現) (The Design & Implementation of Expert System for Korean-Pronunciation Education)

  • 문수열;한판암
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.76-96
    • /
    • 1991
  • 본(本) 연구(硏究)에서는 우리말의 읽기와 쓰기가 다른점에 착안하여 쓰기를 입력(入力)하면 소리나는대로 출력(出力)하는, 그리고 그에 해당되는 법칙(法則)과 추론과정(推論過程)을 제시(提示)하는 전문가(專門家) 시스템을 Lisp언어(言語)를 사용하여 구현(具現)하였다. 하지만 여기에서는 한글자체가 입력되지 않아 영문(英文)으로 입력(入力)시켜 구현(具現)된 것은 추후(追後)에 개선해야 할 과제로 지적되며, 아울러 출력(出力)도 한글 풀어쓰기로 출력된 점도 지적하는 바이다. 그리고 본(本) 연구(硏究)에서 구현(具現)된 내용은 읽기교육(敎育)과 관계된 각종 법칙중(法則中)의 일부임을 밝혀두고, 여기서는 그 가능성(可能性)에 대한 예(例)만 제시(提示)하였다. 또한 각 법칙(法則)들의 예외(例外)가 많아 시스템을 구현(具現)하는데 너무 방대해질 수 있어 예외(例外)인 단어는 구현(具現)되지 않았음도 밝혀둔다.

  • PDF

대화 시스템에서의 조응어 해석 (Anaphora Resolution for Dialogue System)

  • 조은경;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.283-289
    • /
    • 2004
  • 조응어 해석(Anaphora Resolution)은 여러 응용 분야에 적절히 적용됨으로써 자연어 이해에서의 양적. 질적 향상을 가져 올 수 있다. 구어에서 조응어(anaphor)는 화자와 청자간에 공유된 정보를 간략하게 나타내는 형태이다. 특히, 구어를 주된 사용 언어로 하는 대화 시스템에서의 조응어의 양상을 살피고 해석하는 문제는 인간과 기계간의 의사소통(man-machine communication)을 온전히 하는 과제이다. 이 논문에서는 인간과 기계간의 대화 시스템(man-machine dialogue system)에서 흔히 쓰일 수 있는 조응 표현에 중점을 두어 그 유형을 살피고 해석의 방식을 제시하도록 한다.

  • PDF

Korean Patent ELECTRA : 한국 특허문헌 자연어처리 연구를 위한 사전 학습된 언어모델(KorPatELECTRA) (Korean Patent ELECTRA : a pre-trained Korean Patent language representation model for the study of Korean Patent natural language processing(KorPatELECTRA))

  • 민재옥;장지모;조유정;노한성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.69-71
    • /
    • 2021
  • 특허분야에서 자연어처리 태스크는 특허문헌의 언어적 특이성으로 문제 해결의 난이도가 높은 과제임에 따라 한국 특허문헌에 최적화된 언어모델의 연구가 시급한 실정이다. 본 논문에서는 대량의 한국 특허문헌 데이터를 최적으로 사전 학습(pre-trained)한 Korean Patent ELECTRA 모델과 tokenize 방식을 제안하며 기존 범용 목적의 사전학습 모델과 비교 실험을 통해 한국 특허문헌 자연어처리에 대한 발전 가능성을 확인하였다.

  • PDF

질의응답 결과 재순위화를 위한 자연어 추론 모델 (Natural Langugae Inference as Re-ranking for Multiple Question Answering)

  • 이지형;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.405-409
    • /
    • 2021
  • 자연어 추론은 전제가 주어졌을때 특정 가설이 전제에 기반해 합당한지 검증하는 자연어 처리의 하위 과제이다. 우리는 질의응답 시스템이 도출한 정답 및 근거 문서를 자연어 추론 모델로 검증할 수 있다는 점에 착안하여, HotpotQA 질의응답 데이터셋을 자연어 추론 데이터 형식으로 변환한뒤 자연어 추론 모델을 학습하여 여러 질의응답 시스템이 생성한 결과물을 재순위화하고자 하였다. 그 결과로, 자연어 추론 모델에 의해 재순위화된 결과물은 기존 단일 질의응답 시스템의 결과물보다 대체로 향상된 성능을 보여주었다.

  • PDF

Attentive Aggregation(주의적 종합) 기반 크로스모달 임베딩 (Attentive Aggregation based Cross-modal Embedding)

  • 차다은;지혜성;이연수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.155-160
    • /
    • 2019
  • 본 연구에서는 사진 검색을 위한 Attentive Aggregation(주의적 종합) 기반의 언어-시각 크로스모달 임베딩 모델을 제안한다. 본 연구에서는 크로스모달 임베딩을 활용한 검색 과제에서 검색 대상의 임베딩을 계산하는 새로운 방법으로 '질의 기반 종합 검색 대상 임베딩'을 제안하며, Attentive Aggregation 레이어를 활용하여 이를 적용한 크로스모달 임베딩 모델을 제안한다. 제안 모델은 정보량이 많은 사진 데이터로부터 여러 특징을 추출한 뒤 주어진 질의에 따라 이들을 선택적으로 반영한 임베딩을 계산할 수 있으며, 이에 따라 Recall@10 약 0.23, MAP@10 약 0.11, MRR 약 0.13으로 Baseline과 비교하였을 때 크게 향상된 사진 검색 성능을 보였다.

  • PDF

과제 수행 중심의 한국어 말하기 수업에서 담화 분석 활동의 활용 방안 (A Method of Using Discourse Analysis Activity in Task-based Korean Speaking Class)

  • 김지영
    • 한국어교육
    • /
    • 제25권1호
    • /
    • pp.29-52
    • /
    • 2014
  • The purpose of this paper is to suggest a discourse analysis activity that can be used in the stage after performing tasks in task-based Korean speaking class and show its pedagogical advantages. A discourse analysis activity is an metadiscourse activity in which learners speak what they have spoken. By analyzing discourse and performing tasks again, learners can enhance their fluency and accuracy, make their knowledges in target language more stable and extend them, and develop problem solving skills. Consequently, this facilitates learners' acquisition of Korean language. This paper reviewed theoretical background of proposing discourse analysis activity, suggested the pedagogical advantages of the analysis, and examined discourse analysis activity in Korean speaking class. And it included the discourse sample of learners in actual class.

효과적인 프로그래밍언어 교육에 대한 연구 (A Study on Effective Education of Programming Language)

  • 조재수
    • 한국실천공학교육학회논문지
    • /
    • 제2권2호
    • /
    • pp.30-35
    • /
    • 2010
  • 본 논문에서는 학생들이 프로그래밍언어를 더 잘 이해하고, 프로그래밍 능력을 향상시킬 수 있는 몇 가지 방법을 제안한다. 현재 컴퓨터공학부뿐만 아니라, 전자공학, 메카트로닉스공학 등에서도 프로그래밍교육이 이루어지고 있으며, 특히 컴퓨터공학의 경우 프로그래밍 교과목은 가장 기본적인 교과목이라고 할 수 있다. 하지만, 컴퓨터 프로그래밍 언어를 이해하고, 주어진 프로그래밍 문제를 해석하여 프로그래밍언어로 구현하는 것에 많은 학생들이 어려움을 겪고, 프로그래밍언어를 가르치는 교수자들도 효과적인 프로그래밍 언어 교육에 관심이 많다. 학생들이 좀 더 잘 프로그래밍언어를 이해하고, 프로그래밍 기술을 향상시킬 수 있는 교육방법을 몇 가지 제안하면 다음과 같다. 첫째 학생들이 프로그래밍언어를 잘 이해하기 위해서는 먼저 컴퓨터 프로그램의 기본적인 동작원리 또는 컴퓨터구조에 대한 사전지식이 필요하다. 둘째 문법위주의 주입식 이론교육보다는 다양한 프로그래밍 예제실행 위주의 프로그래밍언어 교육이 더 효과적이다. 셋째 프로그램의 실행과정과 메모리 할당/해제 흐름에 대한 메모리상태 가시화교육이 필요하다. 넷째 효과적인 실습과 과제 프로그래밍문제들을 통한 프로그래밍 응용능력을 배양하도록 하자. 다섯째 본인 스스로 프로그래밍할 수 있도록 유도하고, 프로그래밍의 자유도를 충분히 부여하자. 마지막으로 텀프로젝트를 통한 개개인의 프로그래밍 능력을 극대화하는 것이 필요하다.

  • PDF

문장으로부터 여러 단어로 구성된 여러 유형의 요소 추출 (Extracting Multi-type Elements Consisting of Multi-words from Sentences)

  • 양선;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-77
    • /
    • 2014
  • 문장을 대상으로 특정 응용 분야에 필요한 요소를 자동으로 추출하는 정보 추출(information extraction) 과제는 자연어 처리 및 텍스트 마이닝의 중요한 과제 중 하나이다. 특히 추출해야할 요소가 한 단어가 아닌 여러 단어로 구성된 경우 추출 과정에서 고려되어야할 부분이 크게 증가한다. 또한 추출 대상이 되는 요소의 유형 또한 여러 가지인데, 감정 분석 분야를 예로 들면 화자, 객체, 속성 등 여러 유형의 요소에 대한 분석이 필요하며, 비교 마이닝 분야를 예로 들면 비교 주체, 비교 상대, 비교 술어 등의 요소에 대한 분석이 필요하다. 본 논문에서는 각각 여러 단어로 구성될 수 있는 여러 유형의 요소를 동시에 추출하는 방법을 제안한다. 제안 방법은 구현이 매우 간단하다는 장점을 가지는데, 필요한 과정은 형태소 부착과 변환 기반 학습(transformation-based learning) 두 가지이며, 파싱 혹은 청킹 같은 별도의 전처리 과정도 거치지 않는다. 평가를 위해 제안 방법을 적용하여 비교 마이닝을 수행하였는데, 비교 문장으로부터 각자 여러 단어로 구성될 수 있는 세 가지 유형의 비교 요소를 자동 추출하였으며, 실험 결과 정확도 84.33%의 우수한 성능을 산출하였다.

  • PDF