• 제목/요약/키워드: 존재의 언어

검색결과 711건 처리시간 0.027초

한자(漢字)의 언어적 특성과 『논어(論語)』 읽기 (The linguistic characteristics of Chinese character and Reading for the Analects of Confucius)

  • 김상래
    • 한국철학논집
    • /
    • 제30호
    • /
    • pp.191-225
    • /
    • 2010
  • 이 논문은 한자(漢字)의 다의성(多義性)과 품사(品詞)의 비결정성(非決定性)에 초점을 맞추어 "논어(論語)" 해독을 시도하였다. 먼저, 이 글은 한자가 인간과 세계에 대한 문제를 표현하는 사유의 언어(다른 말로 철학언어)로서 제 기능을 할 수 있는가? 는 물음에 대한 본격적인 논의를 전개하였다. 16세기 마테오 리치는 보편적인 '표의문자체(ideographic script)'의 가능성을 한자에서 발견하려고 노력함으로써 이 물음에 긍정적인 답변을 제시하였다. 반면, 헤겔과 하이데거 등은 한자는 첫째, 전치사와 관사가 없는 언어체계이며, 둘째, 이중의미, 반대의미를 표시하는 단어가 없으며, 셋째, 어형변화 없이 어순에 의해서만 의미를 표현, 전달하기 때문에 복잡한 인간의 사유와 엄밀한 논리를 표현하는 철학 언어로서 부적합하다고 주장한다. 그러나 카시러와 울만, 소쉬르, 그리고 데리다 등의 언어관을 경유하면서, 우리는 헤겔과는 다른 입장에서 한자의 사유언어로서의 기능을 발견할 가능성을 확인한다. 서양의 언어체계와 달리 한자는 언제나 개별적으로 존재하는 단어들의 의미 보다 문맥에서의 언어 기능이 보다 중요하다. 한자는 고유의 품사를 감추고, 다른 문자들과의 관계망 속에서 어떤 사건과 사물의 의미를 표현하면서 자신의 본색을 드러낸다. 한자는 이른바 '불가결정성(indecidability)'의 언어인 것이다. 이러한 한자의 다의성과 품사의 부재는 바로 '불가결정성'에 기인한다. 이렇게 본다면, 비록 전치사, 관사, 어형변화, 품사 등을 결여하는 있는 문자체계일지라도 '다의(多義)'의 특성을 지닌 한자는 인간의 복잡한 사유를 나름의 방식으로 표현하는 철학언어로서 충분한 기능을 할 수 있는 것이다. 이를 토대로 "논어(論語)"읽기의 다양성을 담보할 수 있을 것이다.

바이너리 파일에서 Word2Vec 딥러닝 기법을 이용한 복합 자료형 추론 연구 (A Study on Composite Data Type Inference using Word2vec Deep Learning Scheme on Binary File)

  • 민예슬;정현오;이혜린;이승연;우드아커벙 오퐁;정준호;손윤식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.306-309
    • /
    • 2017
  • 소프트웨어의 보안에 대한 중요성이 점차 높아짐에 따라, 소스코드 기반의 소프트웨어의 보안약점 분석 기법에서 더 나아가 소스 코드가 존재하지 않는 바이너리 파일을 대상으로 분석을 수행하는 연구가 진행되고 있다. 왜냐하면 소프트웨어 개발의 복잡성 증가에 따른 서드파티 라이브러리 활용과 레거시 코드의 관리 부재, 임베디드 소프트웨어의 특성 등으로 인해 소스 코드가 존재하지 않는 바이너리 코드의 사용이 늘어나고 있기 때문이다. 따라서 최근 바이너리 코드에 내제된 보안약점을 분석하기 위해서 중간코드를 이용하여 정적분석을 수행하는 다양한 연구가 진행되고 있다. 중간언어를 사용함으로 실행환경에 따라 달라지는 바이너리 코드가 중간언어로만 변환이 된다면 동일한 형태의 보안약점 분석기술을 통해 효과적인 수행이 가능하다. 본 논문에서는 이러한 바이너리 코드로부터 중간언어로 변환시 컴파일 과정에서 상실된 복합 자료형을 재구성하기 위해 Word2vec 딥러닝 기법을 이용한 추론기법을 제안한다.

문서 내 전역 관계 추출: 생략된 개체의 고려 (Global Relation Extraction for Documents: Regarding Omitted Entities)

  • 김규경;김경민;조재춘;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-49
    • /
    • 2018
  • 최근 존재하는 대부분의 관계 추출 모델은 언급 수준의 관계 추출 모델이다. 이들은 성능은 높지만, 문서에 존재하는 다수의 문장을 처리할 때, 문서 내에 주요 개체 및 여러 문장에 걸쳐서 표현되는 개체간의 관계를 분류하지 못한다. 이는 높은 수준의 관계를 정의하지 못함으로써 올바르게 데이터를 정형화지 못하는 중대한 문제이다. 해당 논문에서는 이러한 문제를 타파하기 위하여 여러 문장에 걸쳐서 개체간의 상호작용 관계도 파악하는 전역 수준의 관계 추출 모델을 제안한다. 제안하는 모델은 전처리 단계에서 문서를 분석하여 사전 지식베이스, 개체 연결 그리고 각 개체의 언급횟수를 파악하고 문서 내의 주요 개체들을 파악한다. 이후 언급 수준의 관계 추출을 통하여 1차적으로 단편적인 관계 추출을 실행하고, 주요개체와 관련된 관계는 외부 메모리에 샘플로 저장한다. 이후 단편적 관계들과 외부메모리를 이용하여 여러 문장에 걸쳐 표현되는 개체 간 관계를 알아낸다. 해당 논문은 이러한 모델의 구조도와 실험방법의 설계에 대하여 설명하였고, 해당 실험의 기대효과 또한 작성하였다.

  • PDF

한국어 정보검색에서 위치관계에 기반한 통계적 구 색인 (Statistical Phrase Indexing Based on Positional Relation for Korean Information Retrieval)

  • 홍금원;김상범;이상주;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.76-82
    • /
    • 2001
  • 최근 웹 문서의 규모가 커짐에 따라 높은 정확도를 필요로하는 정보검색시스템이 요구되고 있다. 구 색인은 정확도를 향상시킬 수 있는 방법으로 전통적으로 많이 사용되어 왔으며, 정보검색에서 사용하는 구는 크게 통계적인 구와 구문적인 구로 나눌 수 있다. 한국에서는 주최 복합명사를 처리하거나, 구문적인 구를 이용한 방법들만이 사용되어 왔고, 통계적인 구를 이용한 검색은 연구되지 않았다. 질의에 존재하는 구의 위치관계와 문서에 존재하는 구의 위치관계가 서로 동일하다면 그 문서는 그 질의와 더욱 유사할 것이라 판단하고, 본 논문에서는 통계적인 구에서 구 구성요소간의 위치관계를 고려한 정보검색 시스템을 제안한다. 명사구 이치의 유용한 구를 생성하기 위하여 내용어를 색인했으며 색인어간의 거리와 순서를 고려하여 가중치를 부여하였다. 명사구와 내용어에 기반한 구를 사용한 각각의 실험에서 거리에 따른 가중치를 부여하는 방법이 거리를 무시한 방법에 비해서 효과적이었고 구 구성요소간의 위치관계를 고려하는 것이 성능향상의 주요한 요인임을 알 수 있었다. 또한 명사위주의 질의에서는 내용어보다는 명사만을 색인하는 것이 효과적임을 알 수 있었다.

  • PDF

OWL/RDF(S) 도메인 온톨로지 검색 시스템 설계 (The Design of Retrieval System about OWL/RDF(S) Ontology)

  • 황명권;공현장;정관호;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.688-690
    • /
    • 2005
  • 본 논문은 웹에 산재되어 있는 OWL/RDF(S) 도메인 온톨로지에 대한 검색 시스템을 설계하여, 온톨로지의 재사용성을 극대화 하는데 그 목적이 있다. 컴퓨터와 인간이 정보를 공유하고, 의미적인 상호작용을 위한 시맨틱 웹에 대한 연구가 활발이 진행되고 있다. 시맨틱 웹을 실현하기 위해 개념들의 정의와 개념들간의 관계를 형성하는 온톨로지의 구축이 필수요소가 됨에 따라 온톨로지를 구축하기 위해 OWL, RDF(S) 그리고 DAML+OIL 등의 많은 온롤로지 언어가 개발되었고, 이들 언어를 기반으로 하는 Protege, OILEd와 KAON 등의 사용자들에게 온톨로지 구축의 편리성을 제공하는 온톨로지 구축 도구들도 50여가지 이상 개발되었다. 이러한 이유로 많은 온톨로지들이 개발되고 있다. 그렇지만 온톨로지의 가장 큰 특징은 동일 도메인의 온톨로지의 재사용인데, 산재되어 있는 온톨로지들을 검색하기 어렵고, 이들을 한데 모아놓은 저장소 또한 갖추어지지 않아 동일한 도메인 온톨로지가 존재할지라도 새롭게 온톨로지를 구축해야한다. 이에 본 논문에서는 웹상에 존재하는 온톨로지들의 검색을 용이하게 하여 지식 정보의 재사용을 최대화하기 위하여 본 연구를 진행하고 시스템을 설계하였다.

  • PDF

히스토리기반 온톨로지 인스턴스 관리 도구 (History based Ontology Instances Management Tool)

  • 이미경;정한민;김문석;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.290-294
    • /
    • 2007
  • 온톨로지가 점점 복잡한 스키마와 많은 인스턴스를 갖고있지만 아직까지 수천만개 이상의 인스턴스를 가지는 온톨로지에 대해서는 고려되고 있지 않은 현실이다. 인스턴스 생성 도구의 경우 독립적 인스턴스를 생성하거나 인스턴스 생성을 지원하는 기능에 초점을 두고 있다. 하지만 관리되는 인스턴스의 수가 늘어남에 따라 기존과 같은 인스턴스 생성 방법은 인스턴스간의 관계를 맺을 때 많은 어려움을 초래하게 된다. 따라서 우리는 계층적으로 인스턴스를 생성할 수 있는 히스토리 기반의 온톨로지 인스턴스 관리 도구를 구현하였다. 예를 들어 기존의 도구들은 도메인과 레인지로 연결된 두 클래스의 인스턴스간 관계를 맺을 때는 레인지에 해당하는 인스턴스가 존재할 경우에만 가능하다. 만약 인스턴스가 존재하지 않는다면 그에 해당하는 인스턴스 생성 작업을 먼저 거친 후, 다시 이전의 생성 작업을 되풀이해야한다. 이런 번거로움을 없애고자 우리는 히스토리를 통해 현재 뷰에서 흐트러지지 않고 새로운 인스턴스를 생성하고 자동 연결할 수 있는 기능을 제공한다. 히스토리를 제공하여 현재 작업하고 있는 상태를 사용자가 인지할 수 있으며 신규 생성되는 인스턴스들을 자동으로 연결할 수 있어서 복잡한 관계의 온톨로지 인스턴스를 생성하고 관리하는데 많은 도움을 준다.

  • PDF

고차원 기계 독해를 위한 모델 훈련 및 데이터 증강 방안 (Model Training and Data Augmentation Schemes For the High-level Machine Reading Comprehension)

  • 이정우;문현석;박찬준;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-52
    • /
    • 2021
  • 최근 지문을 바탕으로 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재하고 관련 데이터 셋 또한 여러 가지가 공개되어 있다. 그러나 한국의 대학수학능력시험 국어 영역과 같은 복잡한 구조의 문제에 대한 고차원적인 문제 해결 능력을 요구하는 데이터 셋은 거의 존재하지 않는다. 이로 인해 고차원적인 독해 문제를 해결하기 위한 연구가 활발히 이루어지고 있지 않으며, 인공지능 모델의 독해 능력에 대한 성능 향상이 제한적이다. 기존의 입력 구조가 단조로운 독해 문제에 대한 모델로는 복잡한 구조의 독해 문제에 적용하기가 쉽지 않으며, 이를 해결하기 위해서는 새로운 모델 훈련 방법이 필요하다. 이에 복잡한 구조의 고차원적인 독해 문제에도 대응이 가능하도록 하는 모델 훈련 방법을 제안하고자 한다. 더불어 3가지의 데이터 증강 기법을 제안함으로써 고차원 독해 문제 데이터 셋의 부족 문제 또한 해소하고자 한다.

  • PDF

신뢰성이 부족한 FAQ 데이터셋에서의 강건성 개선을 위한 모델의 예측 강도 기반 손실 조정 정규화 (Loss-adjusted Regularization based on Prediction for Improving Robustness in Less Reliable FAQ Datasets)

  • 박예원;양동일;김수필;이강욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-22
    • /
    • 2019
  • FAQ 분류는 자주 묻는 질문을 범주화하고 사용자 질의에 대해 가장 유사한 클래스를 추론하는 방식으로 진행된다. FAQ 데이터셋은 클래스가 다수 존재하기 때문에 클래스 간 포함 및 연관 관계가 존재하고 특정 데이터가 서로 다른 클래스에 동시에 속할 수 있다는 특징이 있다. 그러나 최근 FAQ 분류는 다중 클래스 분류 방법론을 적용하는 데 그쳤고 FAQ 데이터셋의 특징을 모델에 반영하는 연구는 미미했다. 현 분류 방법론은 이러한 FAQ 데이터셋의 특징을 고려하지 못하기 때문에 정답으로 해석될 수 있는 예측도 오답으로 여기는 경우가 발생한다. 본 논문에서는 신뢰성이 부족한 FAQ 데이터셋에서도 분류를 잘 하기 위해 손실 함수를 조정하는 정규화 기법을 소개한다. 이 정규화 기법은 클래스 간 포함 및 연관 관계를 반영할 수 있도록 오답을 예측한 경우에도 예측 강도에 비례하여 손실을 줄인다. 이는 오답을 높은 확률로 예측할수록 데이터의 신뢰성이 낮을 가능성이 크다고 판단하여 학습을 강하게 하지 않게 하기 위함이다. 실험을 위해서는 다중 클래스 분류에서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 비교 실험을 위한 정규화 방법으로는 통상적으로 사용되는 라벨 스무딩을 채택했다. 실험 결과, 본 연구에서 제안한 방법은 기존 방법보다 성능이 개선되고 보다 안정적으로 학습이 된다는 것을 확인했으며, 데이터의 신뢰성이 부족한 상황에서 효과적으로 분류를 수행함을 알 수 있었다.

  • PDF

OK-KGD:오픈 도메인 한국어 지식 기반 대화 데이터셋 구축 (OK-KGD:Open-domain Korean Knowledge Grounded Dialogue Dataset)

  • 문선아;김산;장진예;정민영;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.342-345
    • /
    • 2023
  • 최근 자연어처리 연구 중 오픈 도메인 지식 기반 대화는 많은 관심을 받고 있다. 연구를 위해서는 오픈 도메인 환경을 갖추고 적절한 지식을 사용한 대화 데이터셋이 필요하다. 지금까지 오픈 도메인 환경을 갖춘 한국어 지식 기반 대화 데이터셋은 존재하지 않아 한국어가 아닌 데이터셋을 한국어로 기계번역하여 연구에 사용하였다. 이를 사용할 경우 두 가지 단점이 존재한다. 먼저 사용된 지식이 한국 문화에 익숙하지 않아 한국인이 쉽게 알 수 없는 대화 내용이 담겨있다. 그리고 번역체가 남아있어 대화가 자연스럽지 않다. 그래서 본 논문에서는 자연스러운 대화체와 대화 내용을 담기 위해 새로운 오픈 도메인 한국어 지식 기반 대화 데이터셋을 구축하였다. 오픈 도메인 환경 구축을 위해 위키백과와 나무위키의 지식을 사용하였고 사용자와 시스템의 발화로 이루어진 1,773개의 대화 세트를 구축하였다. 시스템 발화는 크게 지식을 사용한 발화, 사용자 질문에 대한 답을 주지 못한 발화, 그리고 지식이 포함되지 않은 발화 3가지로 구성된다. 이렇게 구축한 데이터셋을 통해 KE-T5와 Long-KE-T5를 사용하여 간단한 실험을 진행하였다.

  • PDF

공과대학 신입생들의 공간 시각화 능력, 수학 성취도와 언어 성취도 사이의 관계 및 성별 차이에 관한 연구 (The Relationships among Mathematics Achievement, Spatial Ability, and Verbal Achievement for Engineering Freshmen and Gender Differences)

  • 김연미
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제29권3호
    • /
    • pp.553-571
    • /
    • 2015
  • 본 연구는 공간능력이 수학 성취도 및 STEM 분야의 성공에서 중요한 역할을 한다는 사실에 기초하여, 공과 대학생들의 공간능력, 수학 성취도, 그리고 언어 성취도 사이의 관계와 각 영역에서 성별 차이를 파악하는데 목적을 두었다. 그와 함께 수학 성취도에서의 성별 차이가 공간능력에서의 차이에 의해서 매개되는 지도 확인하고자 하였다. 이를 위하여 서울 소재 공과대학 신입생들에게 공간 시각화-회전(PSVT-R)검사를 실시한 후에 대학수학능력 시험의 수학 및 언어 영역과의 상관관계를 성별로 조사하였다. 연구 결과, 성별 차이는 공간 시각화 능력에서 가장 크게 나타났고, 다음이 언어 성취도, 그리고 수학 성취도의 순서로 낮아졌다. 남학생의 공간 시각화 능력이 여학생보다 0.8d(effect size) 정도 우수하였으며 남학생의 67%가 도달한 수준에 여학생은 34%가 속해있었다. 영역별 상관계수를 살펴보면 수학과 언어 성취도 사이에는 음의 상관관계가 존재하였다, 그러나 예측과는 다르게 수학 성취도와 공간 시각화 능력 사이의 상관관계는 작았다. 공간 시각화 능력과 언어 성취도 사이에도 상관관계는 존재하지 않았다. 그렇지만 공간 시각화 능력은 남학생보다는 여학생의 수학 성취도에 좀 더 강한 영향을 주는 것으로 나타났다. 그 이유는 남학생에서는 공간능력이 보편적인 현상이기 때문에 남학생 내에서는 공간능력이 수학 성취도에 별다른 영향을 미치지 않았던 것으로 파악된다. 그 외에도 공간능력이 낮은 집단에서도 수학 성취도에서는 성별차이가 나타나는 것을 확인하였다. 이것은 현 연구 집단에서는 공간능력이 수학 성취도를 결정하는 주된 요인은 아니라는 점을 보여준다. 언어 성취도가 수학 성취도와 음의 상관관계를 갖는 이유는 입시전형에 합격하기 위해서는 한 영역에서 낮은 점수를 받은 경우에 다른 영역의 점수는 상위권인 학생들이 지원한 결과로 해석된다. 마지막으로 공간 시각화와 언어 능력이 결합하여 수학 성취도에 미치는 영향을 살펴보았다. 언어 성취도와 공간 시각화 점수를 상위권과 하위권으로 구분한 다음 네 그룹으로 나누어서 수학 성취도를 비교하였다. 이 때 수학 성취도는 남학생, 여학생 모두에서 (1) 공간 상위권- 언어 하위권인 그룹, (2) 공간 하위권 - 언어 하위권인 그룹, (3) 공간 상위권 - 언어 상위권 그룹, (4) 공간 하위권 - 언어 상위권 그룹의 순서로 낮아졌다.