• 제목/요약/키워드: 지식범주

검색결과 315건 처리시간 0.03초

Word2vec 모델의 단어 임베딩 특성 연구 (On Characteristics of Word Embeddings by the Word2vec Model)

  • 강형석;양장훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.263-266
    • /
    • 2019
  • 단어 임베딩 모델 중 현재 널리 사용되는 word2vec 모델은 언어의 의미론적 유사성을 잘 반영한다고 알려져 있다. 본 논문은 word2vec 모델로 학습된 단어 벡터가 실제로 의미론적 유사성을 얼마나 잘 반영하는지 확인하는 것을 목표로 한다. 즉, 유사한 범주의 단어들이 벡터 공간상에 가까이 임베딩되는지 그리고 서로 구별되는 범주의 단어들이 뚜렷이 구분되어 임베딩되는지를 확인하는 것이다. 간단한 군집화 알고리즘을 통한 검증의 결과, 상식적인 언어 지식과 달리 특정 범주의 단어들은 임베딩된 벡터 공간에서 뚜렷이 구분되지 않음을 확인했다. 결론적으로, 단어 벡터들의 유사도가 항상 해당 단어들의 의미론적 유사도를 의미하지는 않는다. Word2vec 모델의 결과를 응용하는 향후 연구에서는 이런 한계점에 고려가 요청된다.

모빌구조와 표지 개념에 의한 지식기반적 한국어 구문분석기 개발 (Developing Knowledge-Based Korean Syntactic Parser In terms of Mobile Configuration and Marker Theory)

  • 우순조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-190
    • /
    • 2003
  • 이 글은 활용 개념과 수형도를 근간으로 기술되어 온 한국어 문법 모델에 대한 대안으로 표지 개념과 모빌 구조를 제시하고 이를 바탕으로 개발된 한국어 구문분석기의 특성을 소개하고자 한다. 먼저, 조사와 어미를 독자적인 토사 단위인 표지로 처리함으로써 국부 구조의 통사 범주와 문법적 기능을 명확하고 일관되게 구분할 수 있으며, 모빌 구조는 한국어의(상대적) 자유 어순 현상을 효과적으로 기술할 수 있다. 이에 의거한 문법 모형은 언어학적 지식과 구문분석 엔진 사이의 독립성을 향상시킴으로써 향후 구문분석기의 성능 개선을 보다 용이하게 한다. 이 글에서 소개하는 구문분석기는 언어학자에 의해 구축된 지식을 이용한다는 점에서 지식기반적이라고 할 수 있는데 여기에는 동사의 하위범주화 정보, 첨어 유형정보, 의미정보가 핵심적인 언어 지식으로 이용된다. 모빌 구조에 의한 구문분석은 국부 구조를 단순화함으로써 구문적 중의성을 최소화하며, 의미정보는 주어진 술어의 논항적 자격을 검증하는 기준으로 작용하여 구문적 중의성을 감소시키고 정확한 분석을 가능하게 한다.

  • PDF

후기 한국어-영어 이중언어자의 의미체계 (The Semantic System in Late Korean-English Bilinguals)

  • 정우림;김민정;이승복
    • 인지과학
    • /
    • 제19권2호
    • /
    • pp.177-203
    • /
    • 2008
  • 본 연구는 후기 한국어(L1)-영어(L2) 이중언어자들에게서 두 언어에 따른 의미체계의 구조를 비교해 보려는 목적으로 수행되었다. 단어의 의미표상이라는 가장 기본적인 지식의 구조가 이중언어자의 두 언어에서 어떠한 양태로 나타날 것인지를 비교해 보고자, 자연범주 또는 인공범주에 속하는 기본수준의 단어를 보고 난 뒤 제시되는 그림을 보고 그 단어로 표상되는 의미인지를 판단하는 단어-그림 일치여부 판단과제를 실시하였다. 실험 1과 실험 2에서 단어-그림의 제시간격(SOA)을 각각 650ms, 250ms 로 하여, 과제를 수행할 때 번역전략의 사용여부를 확인하였다. 실험 결과 번역의 효과는 나타나지 않았다. 두 실험 모두에서 한국어로 단어가 제시되었을 때가 영어로 제시되었을 때보다 판단시간이 빨랐으며, 한국어에서는 자연범주를 판단하는 것이 인공범주를 판단하는 것보다 오래 걸렸지만, 영어에서는 범주에 따른 차이가 나타나지 않았다. 이 결과는 후기 이중언어자에게서 한국어(L1)의 의미구조는 체계적으로 구조화되어 있는 반면, 영어(L2)의 의미구조는 아직 충분히 발달하지 못한 미분화된 체계일 가능성을 시사한다.

  • PDF

암석과 지각, 판구조론에 대한 고등학교 학생들의 존재론적 범주화 (Ontological Categorizing of High School Students About Rocks and Crust, Plate Tectonics)

  • 정구송
    • 과학교육연구지
    • /
    • 제33권1호
    • /
    • pp.56-68
    • /
    • 2009
  • 이 연구는 암석과 지각, 판구조론에 대한 학생들의 존재론적 범주화를 분석한 것이다. 연구에는 고등학교 1학년 169명의 학생들이 참여하였으며, 연구 영역에 대한 학생들의 존재론적 범주화 경향을 밝히기 위해 질문지를 개발하고 부호화 틀을 제작하였다. 그리고 모든 학생 결과물들은 부호화 틀에 따라 4 단계(물질, 전환, 초기적 과정, 완료적 과정)의 범주로 부호화하였다. 연구 결과에서 다음과 같은 결과를 얻었다. 첫째, 연구 영역의 개념들에 대한 학생들의 존재론적 범주화는 암석 영역의 개념들에서 62%로 그리고 지각 영역의 개념들에서 75%로 우세하게 물질과 전환 범주로 분류되었다. 판구조론 영역에 대한 개념들의 존재론적 범주화 경향은 65%가 과정 범주로 부호화됨으로써 비교적 과정 지향적 관점을 가지고 있는 것으로 해석되었다. 둘째, 학생 개개인의 영역별 개념들에 대한 존재론적 범주 배정 경향은 모든 영역에서 과정 범주와 물질 범주로 부호화된 학생의 비율이 각각 17%, 30%로 확인되었다. 응답 분석 결과에서 물질 범주로 부호화된 대부분의 학생들은 세계를 단순한 물질의 조합으로 보는 경향이 많은 것으로 확인되었다. 그리고 지식 구조를 형성하는 개념들에 대하여 현상이나 사건 자체로만 사고하는 존재론적 신념을 지니고 있는 것으로 나타났다.

  • PDF

학습자의 역학적 에너지에 대한 개념변화 중에 살펴본 물리지식과 앎에 대한 인식론적 신념간의 관계 (The Relationship between Learners' Epistemological Beliefs About the Nature of Physics Knowledge and Physics Knowing During Conceptual Change in Mechanical Energy)

  • 문성숙;권재술
    • 한국과학교육학회지
    • /
    • 제24권3호
    • /
    • pp.499-518
    • /
    • 2004
  • 본 연구에서는 학술자들이 역학적 에너지에 대하여 배우는 동안 과학지식 교과서 내 물리지식에 대한 인식론적 신념과 앎에 대한 인식론적 신념사이의 관계를 새롭게 규명하고 역학적 에너지와 위치에너지의 기초개념에 대한 변화과정을 정성적인 방법으로 살펴보았다. 연구를 진행하면서 6명의 대학생을 참여자로 선정하였으며, 과학지식 교과서 내 물리지식에 대한 인식론적 신념과 앎에 대한 인식론적 신념사이의 관계는 다음과 같이 세 개의 범주로 분류하였다: 권위에 의해 물리지식을 받아들이기, 교사에 대한 인식에 의해 물리지식을 받아들이기, 과학지식은 인간의 다양한 사고의 산물이라는 인식에 의한 이해. 과학지식이 다양한 인간사고의 산물임을 인식하는 참여자가 초인지활동을 활발하게 하였으며 역학적 에너지의 값에 대하여 과학적 개념을 갖고 있었다. 그러나 그 외 범주에 속하는 참여자들은 수업시간에 초인지 활동을 활발하게 하지 않아 수동적이었으며 역학적 에너지의 값에 대하여 비과학적 개념을 갖고 있었다. 위치에너지를 포함하여 역학적 에너지의 값에 대하여 비과학적 개념을 가진 참여자들의 개념변화과정을 살펴보면, 과학 지식에 대한 인식론적 신념과 에너지의 정의가 대안적 개념을 유지하게함을 볼 수 있었다. 참여자가 위치 에너지의 옴의 값에 대한 대안적 개념을 극복하는데 과학 지식의 도구적 성질을 이해하고 공식을 물리적 현상과 연결 지어 생각하는 것이 중요한 역할을 하였다.

질의응답 시스템을 위한 백과사전 기반 지식베이스와 온톨로지 (Encyclopedia-Based Knowledge Base and Ontology for Question Answering System)

  • 최호섭;옥철영;김창환;왕지현;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.177-183
    • /
    • 2003
  • 기존의 정보검색시스템이 사용자의 질의에 의해 키워드가 포함된 의미 있는 문서를 제공하는 시스템이라면, 질의응답시스템은 사용자 질의에 맞는 정답을 적절한 언어처리 기법을 통해 텍스트로부터 추출하여 제공하는 시스템이다. 이러한 언어처리 기법을 이용한 질의응답 시스템에서 시스템의 성능 향상에 도움을 줄 수 있는 것이, 실세계의 지식을 저장하고 있는 지식베이스라 할 수 있다. 지식베이스가 가지고 있는 실세계의 지식을 어떻게 효율적으로 활용하느냐에 따라 질의 처리 분석과 정답 확률을 향상시킬 수 있는 것이다. 본 논문에서는 실세계의 지식을 어느 정도 체계적 의미적으로 반영하고 있는 것을 백과사전으로 판단하여, 백과사전의 '인물' 범주(category)를 중심으로 백과사전 지식베이스의 틀을 마련하고자 하였다. 또한 어휘의 계층적 구조를 중심으로 한 온톨로지를 백과사전 지식베이스와 유기적으로 연결시킴으로써 보다 의미 있는 지식베이스를 형성하는 방안을 모색하고자 하였다.

  • PDF

자동분류 알고리즘을 이용한 지능형 정보검색시스템 구축에 관한 연구 (A Study of Designing the Intelligent Information Retrieval System by Automatic Classification Algorithm)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제39권4호
    • /
    • pp.283-304
    • /
    • 2008
  • 본 연구의 목적은 이용자의 탐색 행태, 시스템의 정보 구축 행태를 기반으로 초기 질의어의 범주에 해당하는 연관 용어들(해당 용어의 지식구조와 관련된 연관 용어들)을 학습기능을 통해 자동으로 제시해 줄 수 있는 지능형 검색 시스템을 구현하는 것이다. 이를 위해 학습을 통해 전문가 수준의 색인어를 추출할 수 있는 지능형자동색인 알고리즘, 자동분류에 관련한 클러스터링 알고리즘과 문서 범주화 알고리즘 그리고 범주 표현 알고리즘에 대한 이론적 연구를 수행하였으며, 이들 이론적 연구를 근거로 비용과 시간적인 측면에서 그리고 재현율과 정도율이란 측면에서 우수한 성능을 발휘할 수 있는 지능형검색시스템을 구현하였다.

  • PDF

학습문헌집합에 기 부여된 범주의 정확성과 문헌 범주화 성능 (The Effect of the Quality of Pre-Assigned Subject Categories on the Text Categorization Performance)

  • 심경;정영미
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.265-285
    • /
    • 2006
  • 문헌범주화에서는 학습문헌집합에 부여된 주제범주의 정확성이 일정 수준을 가진다고 가정한다. 그러나, 이는 실제 문헌집단에 대한 지식이 없이 이루어진 가정이다. 본 연구는 실제 문헌집단에서 기 부여된 주제범주의 정확성의 수준을 알아보고, 학습문헌집합에 기 부여된 주제범주의 정확도와 문헌범주화 성능과의 관계를 확인하려고 시도하였다. 특히, 학습문헌집합에 부여된 주제범주의 질을 수작업 재색인을 통하여 향상시킴으로써 어느 정도까지 범주화 성능을 향상시킬 수 있는가를 파악하고자 하였다. 이를 위하여 과학기술분야의 1,150 초록 레코드 1,150건을 전문가 집단을 활용하여 재색인한 후, 15개의 중복문헌을 제거하고 907개의 학습문헌집합과 227개의 실험문헌집합으로 나누었다. 이들을 초기문헌집단, Recat-1, Recat-2의 재 색인 이전과 이후 문헌집단의 범주화 성능을 kNN 분류기를 이용하여 비교하였다. 초기문헌집단의 범주부여 평균 정확성은 16%였으며, 이 문헌집단의 범주화 성능은 $F_1$값으로 17%였다. 반면, 주제범주의 정확성을 향상시킨 Recat-1 집단은 $F_1$값 61%로 초기문헌집단의 성능을 3.6배나 향상시켰다.

지식의 공통적 정의와 발전적 연관 관계에 관한 연구 -일반적 정보시스템과 지식경영, DSS, EIS를 중심으로- (The Study on the Common Definition of Knowledge and its Development Relation -Focused on the General Information Systems, Knowledge Management, DSS and EIS-)

  • 노정란
    • 한국문헌정보학회지
    • /
    • 제38권2호
    • /
    • pp.239-259
    • /
    • 2004
  • 이 글은 지식의 범주를 계량, 비계량의 관점에서 일반 정보 시스템(도서관)과 경영정보시스템(MIS, DSS, EIS)으로 분리되어 연구되어 오던 종래의 연구 관행과 관리 방안에 대하여 재고해 보는데 그 목적을 둔다. 1950년대 이후 각기 별개의 목적으로 발전되어 온 정보 시스템들은 기업의 경영환경이 내ㆍ외부가 통합되고, 정보통신이 급격히 발달되며 정보의 생성과 전파 속도가 급속히 빨라지고 있는 상황에서 빠른 의사결정을 위해서는 동일한 지식의 범주에서 다루는 것이 보다 바람직할 것이다. 즉, DSS나 EIS에서도 모델 추론을 위하여 계량 정보원뿐만 아니라 전통적으로 도서관 또는 정보센터에서 주로 관리해 오고 있는 텍스트 도큐먼트, 비디오, 오디오 등으로부터도 계량정보에서 추출될 수 없는 지식원으로서 활용해야 한다. 또한 DSS나 EIS는 지식경영을 달성하는 훌륭한 인프라를 제공하며, 도서관 또는 정보센터의 관리 대상 지식은 이미 형식지 또는 암묵지로 구분되어 있지 않은 포괄적 범위의 지식으로서 지식경영의 촉진제 또는 주체기관의 역할을 할 수 있다.

의료정보 공유를 위한 표준화기술의 동향

  • 최진욱
    • 지식정보인프라
    • /
    • 통권3호
    • /
    • pp.84-89
    • /
    • 2000
  • 의료정보 표준화는 의료행위를 나타내는 용어의 표준화에서부터 진료기록의 형식 및 서식, 컴퓨터를 통하여 의로 정보들을 교환하는 방법, 이에 필요한 기자재 등을 약속된 형태로 표현하는 것을 말한다. 이와 같은 의료정보 표준화가 필요한 이유는 용어의 표현 및 그 사용범주를 모두 공통된 개념으로 받아들여야만 진료행위 및 이에 관련된 모든 업무에서 정확하고 유용한 정보의 교환이 가능할 수 있는 것이기 때문이다.

  • PDF