• 제목/요약/키워드: linguistics

검색결과 733건 처리시간 0.024초

어휘의미분석 말뭉치 구축의 절차와 문제 (Procedures and Problems in Compiling a Disambiguated Tagged Corpus)

  • 신지현;최민우;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.479-486
    • /
    • 2001
  • 동음이의어 간의 서로 다른 의미를 효율적으로 변별해 줄 수 있는 방법 중 하나로 어휘의미분석 말뭉치의 활용을 들 수 있다. 이는 품사 단위의 중의성을 해소해 줄 수 있는 형태소 분석 말뭉치를 기반으로, 이 단계에서 해결하지 못하는 어휘적인 중의성을 해결한 것으로, 보다 정밀한 언어학적 연구와 단어 의미의 중의성 해결(word sense disambiguation) 등 자연언어처리 기술 개발에 사용될 수 있는 중요한 언어 자원이다. 본 연구는 실제로 어휘의미분석 말뭉치를 구축하기 위한 기반 연구로서, 어휘의미분서 말뭉치의 설계와 구축 방법론상의 제반 사항을 살펴보고, 중의적 단어들의 분포적 특징과 단어의 중의성 해결 단계에서 발생할 수 있는 문제점을 지적하고, 아울러 그 해결 방법을 모색해 의는 것을 목적으로 한다.

  • PDF

형식인가 기능인가\ulcorner (Form or Function\ulcorner)

  • 이종민
    • 한국영어학회지:영어학
    • /
    • 제2권4호
    • /
    • pp.575-587
    • /
    • 2002
  • In this paper we discuss the contrastive nature of formalism and functionalism in linguistics. Though the mainstreams of linguistic analysis have been focused on the form and function, they have been challenged from each other's strong points. On the one hand, the formal description has been studied in the tradition of generative grammar. On the other hand, the functional nature has played a crucial role in the framework of language use. It seems undesirable to argue that there is one-sided bias toward any type of linguistic approach. I try to present a balanced view of these two contrastive approaches. We also argue that there should be a cooperative work in developing the mutual growth of linguistic theory.

  • PDF

The Polysemy of Da3: An ontology-based lexical semantic study

  • Hong, Jia-Fei;Huang, Chu-Ren;Ahrens, Kathleen
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.155-162
    • /
    • 2007
  • In this study, we explore the polysemy of da3 through the ontological conceptual structure found in SUMO. First, we divide several different senses for da3, clustering physical event senses and metaphorical event senses. In here, we only focus on physical event senses of da3. From the physical event senses of da3, we divide them into two main categories: 1) hit and 2) pump. We then use SUMO ontological concepts to identify these physical senses. Finally, we can observe the common patterns of the "hit" sense group and the "pump" sense group for da3.

  • PDF

도의 철학과 도의 언어학 -고대 중국의 철학과 언어- (The Philosophy and Linguistics of Dao : the Ancient Chinese Philosophy and Language)

  • 정재현
    • 인문언어
    • /
    • 제5권
    • /
    • pp.109-126
    • /
    • 2003
  • The aim of this paper is to elucidate ancient Chinese philosophy and linguistics through the concept of the Dao. Ancient Chinese thought had developed together with ancient Chinese theories of language and the linguistic features of Classical Chinese. The concept of the Dao served as an intermediary among them. The Dao which ancient Chinese philosophers sought for has several characteristics: ethical normativity, wholeness, dynamicity, non-reducibility. Linguistic studies also revealed them. The following linguistic features of Classical Chinese are the cause and/or the effect of such Dao-based philosophy and linguistics: No explicit subject-predicate sentential structure, no parts of speech, heavy reliance on the word order and context for meaning determination, no explicit distinction between compound words and a sentence, the pictographic or the ideographic features of Chinese graphs, and non-existence of a copula.

  • PDF

형태소 깎는 노인: 국어사 자료를 위한 형태분석 보조기 (The POS Elderly: Semi-automatic annotation tool for Historical Korean)

  • 김미경;박수지;이상아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.39-43
    • /
    • 2016
  • '형태소 깎는 노인'은 국어사 자료를 처리하는 고성능 자동 형태분석기의 개발이 난항을 겪고 있는 상황에서 수동으로 형태분석 작업을 하는 연구자들을 지원하기 위하여 개발된 형태분석 보조기이다. 인간과 기계의 분업을 통해 인간의 피로를 최대한 줄이고, 단순 반복 형태에 대해서는 정답을 확실하게 제안할 수 있다는 것이 특징이다. 국어사 자료에는 한국어 정보처리를 위해 필요한 어휘 사전이 없으므로, 문법형태소 사전을 만들어 이를 단서로 조사/어미부와 어간부를 구분하도록 하였다. 이를 통해 구축된 소규모 형태분석 말뭉치들이 장기적으로는 자동 형태분석기의 성능 개선에 일조할 수 있을 것으로 기대한다.

  • PDF

Development and Evaluation of a Korean Treebank and its Application to NLP

  • Han, Chung-Hye;Han, Na-Rae;Ko, Eon-Suk;Martha Palmer
    • 한국언어정보학회지:언어와정보
    • /
    • 제6권1호
    • /
    • pp.123-138
    • /
    • 2002
  • This paper discusses issues in building a 54-thousand-word Korean Treebank using a phrase structure annotation, along with developing annotation guidelines based on the morpho-syntactic phenomena represented in the corpus. Various methods that were employed for quality control are presented. The evaluation on the quality of the Treebank and some of the NLP applications under development using the Treebank are also pre-sented.

  • PDF

적정성 조건을 활용한 생성 AI의 혐오 화행 이해 평가 (Evaluation of Generative AI's Understading of Hate Speech Using Appropriateness Conditions)

  • 강조은 ;김유진;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-100
    • /
    • 2023
  • 끊임없이 재생산되는 혐오 표현의 정확한 탐지를 위해서는 혐오란 무엇인가에 대한 본질적인 이해가 필요하다. 본 연구에서는 화용론에서 사용되는 적정성 조건이라는 분석 틀을 활용하여 모델이 '혐오하기' 화행을 어떻게 인식하고 있는지 평가하고자 했다. 혐오 화행의 적정성 조건을 명제 내용 조건, 예비 조건, 성실성 조건, 본질 조건으로 나누어 분석하였으며, 이를 진위형, 연결형, 단답형, 논술형 문항으로 구성했다. 그 결과 모든 문항 유형에서 50점이 넘는 점수를 받았으나 비교적 고차원인 사고 능력을 측정하는 단답형과 논술형 문항 유형의 점수가 가장 낮게 나타났다.

  • PDF

유머 자동 처리를 위한 유머 데이터 평가 및 활용 (Evaluate and Use of humor data for humor processed automating)

  • 강조은;이재원;오채은;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.190-195
    • /
    • 2023
  • 의사소통 기술에서 유머는 사람을 웃게 만들며 분위기를 환기시키고, 관계를 돈독하게 만드는 효과를 지닌다. 이를 자연어처리에서 유머 분류, 인식, 탐지로 적용하여 유머를 기계에 학습시키려 하는 다양한 시도가 진행되고 있지만 유머의 주관성과 윤리적 문제로 탁월한 성능을 기록하기 어렵고, 특히 한국어 유머에 대한 자연어처리 분야의 논의는 미비한 상태이다. 이에 본 연구는 유머 평가 체계를 만들어 ChatGPT에 적용하여 유머 인식의 주관성을 극복할 수 있는 자동화 실험을 진행한다. 이때, 유머의 윤리적 문제를 보완하기 위해 한국 법률을 적용한 윤리 기준을 도입하여 유머 데이터셋을 마련하였으며, 데이터셋을 ChatGPT에 fine-tuning 하여 재미있는 생성 모델의 개발 가능성을 실험하였다.

  • PDF

암시적 비윤리 데이터를 활용한 언어 모델의 강건성 평가 (Evaluation of Language Model Robustness Using Implicit Unethical Data)

  • 김유진;정가연;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.633-637
    • /
    • 2023
  • 암시적 비윤리 표현은 명시적 비윤리 표현과 달리 학습 데이터 선별이 어려울 뿐만 아니라 추가 생산 패턴 예측이 까다롭다. 고로 암시적 비윤리 표현에 대한 언어 모델의 감지 능력을 기르기 위해서는 모델의 취약성을 발견하는 연구가 반드시 선행되어야 한다. 본 논문에서는 암시적 비윤리 표현에 대한 표기 변경과 긍정 요소 삽입이라는 두 가지 변형을 통해 모델의 예측 변화를 유도하였다. 그 결과 모델이 야민정음과 외계어를 사용한 언어 변형에 취약하다는 사실을 발견하였다. 이에 더해 이모티콘이 텍스트와 함께 사용되는 경우 텍스트 자체보다 이모티콘의 효과가 더 크다는 사실을 밝혀내었다.

  • PDF

인도의 언어이론과 파니니 (Linguistic Theory in India and Panini)

  • 김형엽
    • 인문언어
    • /
    • 제1권2호
    • /
    • pp.123-139
    • /
    • 2001
  • In the history of linguistics in the world the scholars in India could be regarded as the representative linguists, who had provided the cornerstone of the academic development at linguistics. Without looking into the contents of Indian linguistic theories devised and developed in the past it would be almost impossible to account for the origin of descriptive linguistics and historical linguistics. These linguistics trends became full-fledged in 19 and 20 century and are still accepted by a lot of researchers in order to analyze newly revealed languages and train students only coming up the toddling level of linguistic studies. In this paper I will show how far the influence of Indian linguistics has colored the flow of linguistic growth historically. Especially through the analysis of Panini grammar I will prove the intimate relationship between the Indian linguistic theory and the generative grammar - it is the most active theory at present. The methods that Panini applied to constitute the rules like sutra include lots of information, that also could be discovered at the rules postulated in the generative grammar. One of the common features found at both linguistic theories is the simplicity of rule representation. At the generative grammar a rule has to be established without any redundancy. When certain number of sounds like p, b, m show the same phonological. change relevant to lips (labial in linguistic term) different rules need not to be given for each sound separately. It is better to find a way of putting the sounds together in a rule with grouping the 3 sounds with the shared phonetic feature 'labial'. In Panini grammar the form of a rule was decided based on the simplicity, too. For example, sutra 6.1.77 shows the phonological connection between the vowels i, u r 1 and the semi-vowels y, v, r, 1. However, it does not require to postulate 4 individual rules respectively. Instead a rule in which the vowels and the semi-vowels are involved is suggested, and linguistically the rule make it clear that the more simpler the rules will be the better they can reflect the efficiency of human language acquisition. Although the systems introduced at Panini grammar have some sense of distance from the language education itself we cannot deny the fact that the grammar formulates the a turning point of linguistic development. It is essential for us to think over the grammar from the view point of the modem linguistic theories to understand their root and trunk more thoroughly. It will also help us to predict in which way linguistic tendency will proceed to in future.

  • PDF