• 제목/요약/키워드: 문자와 의미

검색결과 278건 처리시간 0.023초

Multi-Head Attention 방법을 적용한 문자 기반의 다국어 개체명 인식 (Character-Aware Neural Networks with Multi-Head Attention Mechanism for Multilingual Named Entity Recognition)

  • 천민아;김창현;박호민;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-171
    • /
    • 2018
  • 개체명 인식은 문서에서 인명, 지명, 기관명 등의 고유한 의미를 나타내는 단위인 개체명을 추출하고, 추출된 개체명의 범주를 결정하는 작업이다. 최근 개체명 인식과 관련된 연구는 입력 데이터의 앞, 뒤를 고려하기 위한 Bi-RNNs와 출력 데이터 간의 전이 확률을 이용한 CRFs를 결합한 방식을 기반으로 다양한 변형의 심층학습 방법론이 제안되고 있다. 그러나 대부분의 연구는 입력 단위를 단어나 형태소로 사용하고 있으며, 성능 향상을 위해 띄어쓰기 정보, 개체명 사전 자질, 품사 분포 정보 등 다양한 정보를 필요로 한다는 어려움이 있다. 본 논문은 기본적인 학습 말뭉치에서 얻을 수 있는 문자 기반의 입력 정보와 Multi-Head Attention을 추가한 Bi-GRU/CRFs을 이용한 다국어 개체명 인식 방법을 제안한다. 한국어, 일본어, 중국어, 영어에 제안 모델을 적용한 결과 한국어와 일본어에서는 우수한 성능(한국어 $F_1$ 84.84%, 일본어 $F_1$ 89.56%)을 보였다. 영어에서는 $F_1$ 80.83%의 성능을 보였으며, 중국어는 $F_1$ 21.05%로 가장 낮은 성능을 보였다.

  • PDF

정수형 변환을 이용한 DNA 서열 검색 알고리즘 (A DNA Sequence Search Algorithm Using Integer Type Transformation)

  • 윤경오;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.357-359
    • /
    • 2012
  • 초 고성능 바이오 서열 분석 장비 기술의 발달로 대량의 바이오 정보가 쏟아져 나오고 있으며, 바이오산업의 발달로 개인별 유전체 정보에 의한 맞춤의학의 시대가 도래되고 있다. 수많은 서열에 대한 분석에는 많은 저장장치 및 주기억장치가 필요하므로 슈퍼컴퓨터 급의 서버와 대량의 데이터를 빠르게 처리할 수 있는 프로그램이 필요하다. 이러한 분석에는 염기서열 일치 검색과 이를 기반으로 하는 Alignment와 Assembly 분석이 있으며, 이를 수행하는 기존의 알고리즘 및 대부분의 프로그램들은 염기서열을 문자열로 취급하고, 해쉬 인덱스 테이블, Brujin 그래프의 사용, 버러우즈 휠러 변환(BWT) 등의 기법을 활용하여 효율적인 분석을 도모하였다. 본 논문에서는 염기서열을 문자열이 아닌 k-mer 묶음의 정수형 하나로 변환하여 검색함으로써 저장 공간의 크기를 약 28% 이상으로 줄이고 형 변환 상태에서의 검색을 수행할 수 있는 알고리즘을 제안한다. Assembly 분석 프로그램인 CalcGen 프로그램을 개발하여 본 알고리즘의 효용성 및 효율성을 실험을 통해 검증하였다. 이 연구의 결과는 향후 대량의 유전체 염기서열의 효율적 분석과 저장 및 처리에 또 하나의 새로운 접근 방법을 제안하는데에 그 의미를 둘 수 있다.

허밍 질의 처리 시스템의 성능 향상을 위한 효율적인 빈번 멜로디 인덱싱 방법 (An Efficient Frequent Melody Indexing Method to Improve Performance of Query-By-Humming System)

  • 유진희;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권4호
    • /
    • pp.283-303
    • /
    • 2007
  • 최근 방대한 양의 음악데이타를 효율적으로 저장하고 검색하기 위한 방법의 필요성이 증대되고 있다. 현재 음악 데이타 검색에서 가장 일반적으로 쓰이는 방법은 텍스트 기반의 검색 방법이다. 그러나 이러한 방법은 사용자가 키워드를 기억하지 못할 경우 검색이 어려울 뿐만 아니라 키워드와 정확하게 일치하는 정보만 검색해 주기 때문에 유사한 내용을 가진 정보를 검색하기에 부적절하다. 이러한 문제점을 해결하기 위해 본 논문에서는 내용 기반 인덱싱 방법(Content-Based Indexing Method)을 사용하여 사용자가 부정확한 멜로디(Humming)로 질의하였을 경우라도 원하는 음악을 효율적으로 찾아주는 허밍 질의처리 시스템(Query-By-Humming System)을 설계한다. 이를 위해 방대한 음악 데이타베이스에서 한 음악을 대표하는 의미 있는 멜로디를 추출하여 인덱싱하는 방법을 제안한다. 본 논문에서는 이러한 의미 있는 멜로디를 사용자가 자주 질의할 가능성이 높은 멜로디로서 하나의 음악에서 여러 번 나타나는 반면 멜로디와 긴 쉼표 후에 시작되는 쉼표 단위 멜로디로 정의한다. 실험을 통해 사용자들이 이들 멜로디를 자주 질의한다는 가정을 증명하였다. 본 논문은 성능 향상을 위한 3가지 방법을 제안한다. 첫 번째는 검색속도를 높이기 위해 인덱스에 저장할 멜로디를 문자열 형태로 변환한다. 이때 사용되는 문자 변환 방법은 허밍에 포함된 에러를 허용한 방법으로써 검색 결과의 정확도를 높일 수 있다. 두 번째는 사용자가 자주 질의할 가능성이 높은 의미 있는 멜로디를 인덱싱 하여 검색 속도를 높이고자 한다. 이를 위해 신뢰도가 높은 의미 있는 멜로디를 생성하는 빈번 멜로디 추출 알고리즘과 쉼표 단위 멜로디 추출 방법을 제안한다. 세 번째로는 정확도를 향상시키기 위한 3단계 검색 방법을 제안한다. 이는 데이타베이스 접근을 최소화하여 정확한 검색 결과를 얻기 위하여 제안되었다. 또한 기존 허밍 질의 처리 시스템의 대표적인 인덱싱 방법으로 제안되었던 N-gram 방법과의 성능 비교를 통해 본 논문이 제안하는 방법의 성능이 보다 더 향상되었음을 검증하였다.

정상 청년층과 노년층의 비유언어 이해 능력: 직유, 은유, 관용어, 속담을 중심으로 (Comprehension of Figurative Language in Young and Old Adults: The Role of Simile, Metaphor, Idiom and Proverb)

  • 김지혜;윤지혜
    • 한국노년학
    • /
    • 제36권4호
    • /
    • pp.981-1001
    • /
    • 2016
  • 노년기에는 의사소통의 전체적인 맥락을 해석할 때 표면적으로 드러나는 단서에 주로 의존하게 되면서, 함축적이고 우회적인 표현인 비유언어를 처리하는 능력이 저하된다. 따라서 의사소통 시, 타인의 의도를 효과적으로 이해하고 자신의 의사를 전달하는 데 어려움을 보일 수 있다. 본 연구는 정상 청년층 50명과 정상 노년층 50명을 대상으로 비유언어의 하위영역인 직유 은유 관용어 속담 이해 과제를 실시하여 노화에 따른 비유언어 처리능력의 특성을 확인하고자 하였다. 과제는 제시되는 전체적인 내용과 적합한 비유언어를 보기문항 중에서 선택하도록 하였다. 분석 결과, 첫째, 노년층은 청년층에 비해 모든 비유언어 하위 과제에서 더 저하된 수행력을 보였다. 둘째, 노년층은 비친숙한 관용어와 속담 이해과제에서 더 저하된 수행력을 보였다. 셋째, 노년층은 문자 그대로의 의미에 국한하여 문항을 이해하는 양상을 빈빈히 보였다. 노년층은 특정 상황 맥락에 맞게 효과적인 의사소통을 할 수 있는 능력인 화용언어 능력과 더불어 내포된 의미를 추론하는 능력 및 문자 그대로의 의미와 같은 표면적인 단서를 억제할 수 있는 능력이 저하될 수 있다. 이러한 결과는 노화로 인하여 일상의 의사소통 상황에서 화자의 내포된 의미를 이해하는 것에 어려움을 보일 수 있음을 시사한다.

곱셈과 나눗셈 기호의 생략 규칙 학습을 위한 카드 게임의 고안과 활용 (A Card-Game for Exercising Abbreviations of the Multiplication Sign ${\times}$ and the Division Sign ${\div}$ in Calculating Expressions)

  • 도종훈;허선희
    • 한국학교수학회논문집
    • /
    • 제13권3호
    • /
    • pp.345-356
    • /
    • 2010
  • 문자인식을 다루는 과정에서 곱셈 기호와 나눗셈 기호를 생략하는 규칙은 하나의 약속이며, 생략된 기호를 바르게 인식하고 있어야 주어진 문자식의 의미를 제대로 이해할 수 있다. 그러나 대다수의 학생들은 이러한 규칙의 학습 과정을 지루해 하고 재미없어 하며 그 중요성을 간파하는 경우가 많다. 이에 본 연구에서는 학생들이 문자식의 단순화 과정, 즉 곱셈 기호와 나눗셈 기호의 생략 과정을 재미있게 학습하도록 하기 위한 방안으로 카드 게임을 고안하고, 이를 활용한 수업을 시행하여 그 효과와 의의를 분석하였다. 그 결과 본 연구에서 고안한 카드 게임이 학생들의 학습 흥미와 동기를 유발하는 효과가 있음을 관찰할 수 있었다. 그리고 카드 게임을 시행하는 동안 학생들 간의 협력 학습이 자발적으로 이루어졌고 기호 생략 규칙에 관한 학생들의 오류 및 오개념이 즉각적으로 확인되고 교정되었으며 연산 기호를 생략하는 과정 뿐 아니라 그 역과정을 학생들이 자연스럽게 경험할 수 있음을 확인하였다.

  • PDF

보이스 전보 시스템 구현을 위한 저가형 음성파형 부호화 알고리즘 (On a Speech Coding Algorithm for Low Cost Implementation of Voice Telegram System)

  • 나덕수;민소연;배명진
    • 한국음향학회지
    • /
    • 제19권2호
    • /
    • pp.101-105
    • /
    • 2000
  • 전보는 우리에게 아주 필요한 생활수단으로 긴급한 내용을 전달하거나, 바쁜 생활을 대신하여 애경사를 맞은 상대방에게 뜻을 전달하는 중요한 수단으로 활용되고 있다. 전보를 처리하는 과정이 첨단 정보통신의 발달로 인해 점점 편리해 지고 있는 반면 전보의 내용은 여전히 문자위주의 정보전달에서 벗어나지 못하고 있다. 보이스 전보는 사용자의 목소리를 문자와 함께 전달하는 것이다. 목소리가 함께 전달됨으로써 발신자의 정감과 분위기를 수신자에게 전달하여 보다 다양한 의미의 메시지를 알릴 수 있다. 그러나 목소리 정보는 데이터량이 많아 그대로 사용하게 되면 큰 메모리와 고가의 프로세서가 필요하게 된다. 본 논문에서는 보이스 전보 시스템에 필요한 간단하고 저가인 음성파형 부호화 알고리즘을 새로이 제안한다. 먼저 유성음 부분에서, 파형의 피치 주기별로 유사도를 측정하여 유사도가 높은 파형은 피치와 진폭 값만 저장하여 압축하고 유사도가 낮은 파형은 형태를 저장한다. 실험결과 45%로 압축할 때 MOS 4의 음질을 얻을 수 있었다.

  • PDF

칼라지도영상에서의 벡터링 대상물 추출에 관한 연구 (A Study on the Extraction of Vectoring Objects in the Color Map Image)

  • 김종민;김성연;김민환
    • Spatial Information Research
    • /
    • 제3권2호
    • /
    • pp.179-189
    • /
    • 1995
  • 벡터링 도구를 이용하여 원판과 같은 양질의 도면이 없는 기존 지도를 수치화하기 위해서는 지도로부터 의미있는 벡터링 대상물(도로, 등고선, 해안선, filled-area, 문자, 기호 등)을 추출하는 방법이 필요하다. 본 논문에서는, 칼라지도로부터 추출해야 할 벡터링 대상물을 크게 곡선 미 직선, filled-area, 문자/기호로 분류하였으며, 대상물의 기하학적 특성과 칼라의 분포특성을 반영한 효율적인 벡터링 대상물 추출방법을 연구하였다. 곡선 및 직선 추출을 위해, 선의 연결성과 기하학적 특성을 반영한 방향성 마스크를 설계하고 이를 이용한 선추적 방법을 개발하였다. filled-area와 문자/기호의 경유에는 NxN 블럭간의 칼라분포 유사도 비교방법과 lical thresholding 방법을 각각 이용하여 벡터링 도구에서 수용할 수 있게 해줌으로써 소규모 지리정보 응용시스템을 보다 경제적으로 구축하는데 활용될 수 있을 것이다.

  • PDF

온톨로지 기반 지능형 규칙 구성요소 추출에 관한 연구 (Ontology - Based Intelligent Rule Components Extraction)

  • 김우주;채상용;박상언
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2006년도 춘계학술대회
    • /
    • pp.237-244
    • /
    • 2006
  • 시맨틱 웹 관련연구가 증가함에 따라 하나의 관련분야로 규칙기반 시스템 동의 지능적인 웹 환경에 대한 기대 역시 커지고 있다. 하지만 규칙기반 시스템을 활용하기에는 아직도 규칙습득이 많은 제약이 되고 있다. 규칙습득은 웹으로부터 필요한 규칙을 습득하는 일련의 방법인데, 이러한 규칙을 습득하기 위해서는 규칙구성요소를 먼저 식별해야만 한다. 그러나 이러한 규칙을 식별하는 작업은 대부분 지식관리자의 수작업에 의해 이루어지고 있다. 본 연구의 목적은 웹으로부터 규칙구성요소 식별을 최대한 자동화하고 지식관리자의 수작업을 최소화함으로써 그 부담을 줄여 주는 데 있다. 이러한 방법으로는 온톨로지를 근간으로 하여 웹 페이지와의 문자열 비교, 이러한 비교의 한계를 극복하기 위한 확장등의 방법이 있다. 첫 번째 방법은 온툴로지 기반으로 규칙식별 할 웹 페이지와 비교를 통해 지식관리자의 규칙식별 과정을 최대한 자동화하여 주는 것이다. 여기서 만약 현재 규칙을 식별하고자 하는 웹 사이트와 유사한 시스템의 규칙들을 활용하여 일반화 된 온툴로지가 구축되었다면, 이 온톨로지를 기반으로 규칙을 식별하고자 하는 웹사이트와의 비교를 통해 규칙구성요소를 자동화하여 추출 할 수 있다. 이러한 온툴로지를 기반으로 규칙을 식별하기 위해서는 문자열 비교 기법을 사용하게 된다. 하지만 단순한 문자열 비교 기법만으로는 규칙을 식별하는 데에 자연어 처리에 대한 한계가 있다. 이를 극복하기 위해 다음의 두 번째 방법을 사용하고자 한다. 두 번째 방법은 정형화되지 않은 정보들을 확장하여 사용하는 것이다. 우선 찾고자 하는 단어들의 원형을 찾기 위한 스테밍 알고리즘 기법, WordNet을 이용하여 동의어 유의어등으로 확장을 하는 WordNet Expansion 기법, 의미 유사도를 측정하기 위한 방법인 Semantic Similarity Measure 등을 단계적으로 수행하여 자동화되고 정확한 규칙식별을 하고자 한다. 이러한 방법들의 조합으로 인하여 규칙구성요소 추출이 되지 않을 후보 단어들의 수를 줄여서 보다 더 정확하고, 지능적인 규칙구성요소 추출 방법론을 제시하고 구현하여 지식관리자의 규칙습득에 대한 부담을 줄여 주고자 한다.

  • PDF

역사-발생적 분석을 통한 대수 지도 (On the Teaching of Algebra through Historico -Genetic Analysis)

  • 김성준
    • 한국수학사학회지
    • /
    • 제18권3호
    • /
    • pp.91-106
    • /
    • 2005
  • 수학사는 수학 교육에서 수학의 실제와 수학을 하는 사고 과정을 강조하기 위해 분석의 대상이 되어야 한다. 수학사를 분석하는 것은 수학적 활동을 이해하는 방법 가운데 하나로, 역사적으로 수학자들의 활동이 어떻게 변하면서 발전되어 왔는지, 그리고 수학적 개념들이 어떻게 전개되어 왔는지를 살펴보기 위한 것으로, 이러한 내용은 수학 교육적 관점에서 중요하게 다루어져야 한다. 본 연구는 이러한 관점에서 학교대수에서 다루는 문자 기호(미지수)와 음수를 중심으로 하여 수학사에서 등 장한 몇몇 텍스트를 분석하고 동시에 교육적인 논의를 이끌어내고자 한다. 이를 위해 먼저 수학교육에서 역사-발생적 분석의 필요성과 그 의의에 대해 살펴보고, 이러한 분석에서 제기되는 인식론적 장애에 대해 논의한다. 다음으로 역사-발생적 분석을 실제 대수 지도에 적용해보기 위해, 방정식에서 사용된 문자 기호(미지수)의 역사를 몇몇 텍스트를 통해 살펴보고 이를 선행된 실험연구의 결과와 함께 논의한다. 또한 음수의 역사를 개괄하면서 역시 몇몇 텍스트를 살펴보고, 음수의 역사를 대수 지도와 관련해서 논의한다. 수학사는 인류의 대역적인 학습 과정으로 학교수학에서 다루는 개념들에 의미 있는 토대를 마련해준다. 본 연구의 논의는 이러한 측면에 주목한 것으로 역사-발생적 분석을 대수 지도를 개선하기 위한 방안 가운데 하나로 본 것이다.

  • PDF

'컴퓨터와 수학교육' 학습-지도 환경에 관한 연구 (A Study on Learning and Teaching Environments for Computers and Mathematics Education)

  • 김화경
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제16권4호
    • /
    • pp.367-386
    • /
    • 2006
  • 본 논문에서는 구성주의 교육관의 관점에서 컴퓨터와 수학교육의 관계를 바라보는 '컴퓨터와 수학교육'에 대해 다룬다. '컴퓨터와 수학교육'은 그 필요성에 비해 최근까지 원활히 이루어지지 못했다. 그 이유는 먼저 그 구성요소들 사이의 관계가 명확하게 이해되지 못하였고, 이에 따라 구성주의에 대한 명확한 실천적 전략이 부족하였고, 서로 다른 컴퓨터 하드웨어-소프트웨어 환경들이 유기적으로 연결되지 못했기 때문이다. 이에 바람직한 '컴퓨터와 수학교육'을 위해서는 먼저 구성요소들 사이의 관계를 이해하고, 이를 바탕으로 '컴퓨터와 수학교육'의 실천적 설계 전략을 모색하며, 개별적인 소프트웨어 환경을 마이크로월드의 관점에서 통합적으로 연계시켜야 할 필요가 있다. 본 논문에서는 이러한 문제의식을 가지고 '컴퓨터와 수학교육'의 구성요소인 학생, 수학, 컴퓨터를 중심으로 관계된 이론을 고찰하여 각각에 대한 구체적 실천적 전략으로 구성주의. 함수화, 인터넷 상호작용의 원리를 도출한다. 또한 역사적으로 가장 성공적이고 대표적인 '컴퓨터와 수학교육' 환경인 Logo와 동적 기하 환경(DGS)을 이러한 관점으로 분석 고찰하여, Logo를 행동 문자 명령과 대수적 문자조작을 통해 재귀적 패턴의 탐구가 가능한 환경으로 발전시키고, 점들 사이의 기하적 관계를 다루던 DGS를 관계식과 대수기하적 탐구가 가능한 환경으로 설계, 구현한다. 나아가 Logo와 DGS의 이러한 수준 상승이 가지는 수학교육적 의미를 고찰하고, 타일 및 전개도 등의 새로운 대상을 도입하여 통합 마이크로월드를 구현한다. 본 논문에서는 Logo와 DGS, 그리고 통합 환경을 하나의 JavaMAL 인터넷 환경 속에서 통합 설계하고 이를 구현하며 나아가 그 의미를 논의한다.

  • PDF