• Title/Summary/Keyword: 정의 언어

Search Result 1,572, Processing Time 0.032 seconds

Chunking Annotation Corpus Construction for Keyword Extraction in News Domain (뉴스 기사 키워드 추출을 위한 구묶음 주석 말뭉치 구축)

  • Kim, Tae-Young;Kim, Jeong Ah;Kim, Bo Hui;Oh, Hyo Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.595-597
    • /
    • 2020
  • 빅데이터 시대에서 대용량 문서의 의미를 자동으로 파악하기 위해서는 문서 내에서 주제 및 내용을 포괄하는 핵심 단어가 키워드 단위로 추출되어야 한다. 문서에서 키워드가 될 수 있는 단위는 복합명사를 포함한 단어가 될 수도, 그 이상의 묶음이 될 수도 있다. 한국어는 언어적 특성상 구묶음 개념이 적용되는 데, 이를 통해 주요 키워드가 될 수 있는 말덩이 추출이 가능하다. 따라서 본 연구에서는 문서에서 단어뿐만 아니라 다양한 단위의 키워드 묶음을 태깅하는 가이드라인 정의를 비롯해 태깅도구를 활용한 코퍼스 구축 방법론을 고도화하고, 그 방법론을 실제로 뉴스 도메인에 적용하여 주석 말뭉치를 구축함으로써 검증하였다. 본 연구의 결과물은 텍스트 문서의 내용을 파악하고 분석이 필요한 모든 텍스트마이닝 관련 기술의 기초 작업으로 활용 가능하다.

  • PDF

The Influences of the Forms of Verbal External Representations and Students’ Verbal Learning Style in Learning with Multiple Representations Using Drawing (그리기를 활용한 다중 표상 학습에서 언어적 정보 형태와 언어적 학습 양식의 영향)

  • No, Tae-Hui;Gang, Hun-Sik;Lee, Byeong-Jin
    • Journal of the Korean Chemical Society
    • /
    • v.50 no.6
    • /
    • pp.477-485
    • /
    • 2006
  • study investigated the influences of the forms of verbal external representations and students' verbal learning style in learning chemical concepts with drawing as a method to assist students in connecting and integrating multiple external representations. Seventh graders (N=133) at a coed middle school were assigned to formal drawing (FD) and personalized drawing (PD) groups. Students in the PD group were provided words at personalized style as verbal external representations for drawing, while those in the FD group were provided words at formal style. All students were taught about Boyles Law and Charless Law for two class hours. Results revealed that the scores of a conception test for the PD group were significantly higher than those for the FD group. In a situational interest test, students with strong verbal learning style preference scored significantly higher than students with weak verbal learning style preference in the two groups. Most PD group students were found to prefer to read verbal external representations at personalized style for drawing rather than at formal style, and perceived their activities positively upon cognitive, affective and motivational aspects. Students with strong verbal learning style preference had more positive perceptions about their activities than students with weak verbal learning style preference especially upon affective and motivational aspects.

Analysis of Linguistic Interaction within a Group According to Leader's Leadership in Scientific Inquiry Activity in Elementary School (초등학생의 과학 탐구활동에서 리더의 리더십 유형에 따른 모둠 내 언어적 상호 작용 분석)

  • Park, Mung-Hee;Shin, Young-Joon
    • Journal of The Korean Association For Science Education
    • /
    • v.32 no.4
    • /
    • pp.760-774
    • /
    • 2012
  • The purpose of this study was to analyze the characteristic of the linguistic interaction according to leadership type of the leader in the scientific inquiry activity groups and examine how leadership factors affect the linguistic interaction within a group. In this investigation, leaders among 12 elementary school students were chosen by considering results of the leadership diagnosis that tested 3 leadership factors: vision and promotion, assignment responsibility, and decision-making. The members of the groups were organized according to scientific inquiry ability and academic achievement; the groups were assigned to perform scientific inquiry activities. The linguistic interaction was largely divided into the cognitive domain and the affective domain for analysis. According to the results, the frequency of linguistic interaction within a group sorted by leadership type is more influenced by the cognitive domain than the affective domain. The highest frequency of linguistic interaction appeared within the group that had vision and promotion type leader. Assumedly, the vision and confidence of the vision and promotion type leader produced such an outcome. While solving the assignments, linguistic interaction in all three groups had more cognitive domain than affected domain. Linguistic interaction in cognitive domain displayed only low level of linguistic interaction in relation to the experiment itself: high level of linguistic interaction barely occurred. In the case of affected domain, active participation appeared more frequently than maintaining the mood: Interactions related to restricting the group members actions to solve the assignment appeared more frequently than those for maintaining the mood.

Deletion-Based Sentence Compression Using Sentence Scoring Reflecting Linguistic Information (언어 정보가 반영된 문장 점수를 활용하는 삭제 기반 문장 압축)

  • Lee, Jun-Beom;Kim, So-Eon;Park, Seong-Bae
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.3
    • /
    • pp.125-132
    • /
    • 2022
  • Sentence compression is a natural language processing task that generates concise sentences that preserves the important meaning of the original sentence. For grammatically appropriate sentence compression, early studies utilized human-defined linguistic rules. Furthermore, while the sequence-to-sequence models perform well on various natural language processing tasks, such as machine translation, there have been studies that utilize it for sentence compression. However, for the linguistic rule-based studies, all rules have to be defined by human, and for the sequence-to-sequence model based studies require a large amount of parallel data for model training. In order to address these challenges, Deleter, a sentence compression model that leverages a pre-trained language model BERT, is proposed. Because the Deleter utilizes perplexity based score computed over BERT to compress sentences, any linguistic rules and parallel dataset is not required for sentence compression. However, because Deleter compresses sentences only considering perplexity, it does not compress sentences by reflecting the linguistic information of the words in the sentences. Furthermore, since the dataset used for pre-learning BERT are far from compressed sentences, there is a problem that this can lad to incorrect sentence compression. In order to address these problems, this paper proposes a method to quantify the importance of linguistic information and reflect it in perplexity-based sentence scoring. Furthermore, by fine-tuning BERT with a corpus of news articles that often contain proper nouns and often omit the unnecessary modifiers, we allow BERT to measure the perplexity appropriate for sentence compression. The evaluations on the English and Korean dataset confirm that the sentence compression performance of sentence-scoring based models can be improved by utilizing the proposed method.

A Visualization Tool Implementation for Evaluation of Binary Code to Smart Intermediate Language Conversion (바이너리 코드-SIL 중간언어 변환 검증을 위한 시각화 도구 구현)

  • Lim, Jung-Ho;Lee, Tae-Gue;Baik, Do-Woo;Son, Yunsik;Jeong, Junho;Choi, Jin-Young;Ko, Kwangman;Oh, Seman
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.280-282
    • /
    • 2017
  • 최근 소프트웨어에 내장된 취약점 분석을 위한 자동화 도구 개발 연구가 각 분야에서 활발히 연구되고 있다. 그 중 바이너리 코드를 대상으로 바로 보안취약점을 분석하는 방법이 아닌 중간언어를 활용하여 분석하는 방법이 대두되고 있으며 이를 위한 다양한 중간언어가 제시되었다. 그 중 하이레벨 언어 수준의 내용의 기술이 가능하며 명령어 자체적으로 자료형을 유지하여 보안 취약점 분석에 효과적인 언어로 SIL 중간언어가 재조명 받고 있다. 따라서 본 논문에서는 이룰 위해서 x86/64 기반 어셈블리어를 SIL 로 효과적으로 변환하며 프로그램의 의미가 변하지 않는 것을 확인하기 위해서 프로그램의 제어흐름을 시각화하는 기능을 가진 시스템을 제안한다.

Object Oriented Markup Language for the Semantic Web (시맨틱 웹을 위한 객체지향의 마크업 언어)

  • Yoo, Myong-Hwan;Chung, Hee-Joon;Lee, Kang-Chan;Kim, Sung-Han;Min, Jae-Hong;Chung, In-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.2321-2324
    • /
    • 2002
  • 현재의 웹은 시각적인 표현을 위한 것으로써 정보를 사람에게 어떻게 보여줄 것인가에 대해서 초점을 두고 개발되었다. 따라서 폭발적으로 증가하는 웹 데이터에서 사용자가 원하는 정보를 신속 정확하게 찾는 것은 점점 어렵게 되었다. 이를 개선하기 위해 자연언어처리, 에이전트, 검색엔진 등과 같은 기술을 개발하였으나 정보와 표현을 위한 태그의 혼합으로 컴퓨터가 정보를 효과적인 추출 및 이해하는데 한계가 있다. 이는 지금까지의 웹 기술로써는 다양한 표현과 사용하기 쉽지만 정보의 의미표현이 부족하기 때문이다. 이러한 문제점을 해결하기 위해 정보를 온톨로지로써 개념화하고 이를 컴퓨터가 이해하며 이기종 컴퓨터간의 자유로운 정보접근을 위해 1990년 대 말에 시맨틱 웹이 제안되었다. 현재 시맨틱 웹은 RDF(S), OIL. DAML, SHOE 등과 같은 마크업 언어가 연구 개발 중에 있으나 이 역시 지식표현 분야 위주의 연구로 그 한계가 있다. 이에 본 논문에서는 시맨틱 웹을 위한 지금까지의 마크업 언어에 대한 분석을 하고, 효과적인 시맨틱 웹의 구현을 위한 객체지향의 마크업 언어를 제안한다. 본 논문에서 제안하는 마크업 언어는 이기종의 분산환경에 적합하고 재사용성 및 확정성에 용이하는 등의 장점들을 갖고 있다.

  • PDF

Research on a Logical Agent Communication Language for Multi-Agent Systems Negotiation (I) (멀티-에이전트 시스템 협상을 위한 논리적인 에이전트 통신 언어에 관한 연구 (I))

  • Lee, Myung-Jin;Han, Hyun-Kwan
    • Journal of Internet Computing and Services
    • /
    • v.8 no.1
    • /
    • pp.115-123
    • /
    • 2007
  • Agents in Multi-Agent System; (MAS) should make use of a common Agent Communication Language (ACL) in order to negotiate with others, and conform to negotiation protocols thatare designed to reach agreements. Therefore, agents must have suitable architectures that could cover above requirements. In this paper, we define an instructive ACL and compare it with other ACLs such as Foundation for Intelligent Physical Agents (FIPA) ACL and Knowledge Query Manipulation Language(KQML), In particular, we represent agents as logic programs with knowledge base and negotiation library. Finally, we show how the planner, which is in the negotiation library, provides the plan of actions and updates agent's knowledge base.

  • PDF

The Frequency Analysis of Teacher's Emotional Response in Mathematics Class (수학 담화에서 나타나는 교사의 감성적 언어 빈도 분석)

  • Son, Bok Eun;Ko, Ho Kyoung
    • Communications of Mathematical Education
    • /
    • v.32 no.4
    • /
    • pp.555-573
    • /
    • 2018
  • The purpose of this study is to identify the emotional language of math teachers in math class using text mining techniques. For this purpose, we collected the discourse data of the teachers in the class by using the excellent class video. The analysis of the extracted unstructured data proceeded to three stages: data collection, data preprocessing, and text mining analysis. According to text mining analysis, there was few emotional language in teacher's response in mathematics class. This result can infer the characteristics of mathematics class in the aspect of affective domain.

Domain-agnostic Pre-trained Language Model for Tabular Data (도메인 변화에 강건한 사전학습 표 언어모형)

  • Cho, Sanghyun;Choi, Jae-Hoon;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.346-349
    • /
    • 2021
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 f1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 f1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF

Cross-Language Clone Detection based on Common Token (공통 토큰에 기반한 서로 다른 언어의 유사성 검사)

  • Hong, Sung-Moon;Kim, Hyunha;Lee, Jaehyung;Park, Sungwoo;Mo, Ji-Hwan;Doh, Kyung-Goo
    • Journal of Software Assessment and Valuation
    • /
    • v.14 no.2
    • /
    • pp.35-44
    • /
    • 2018
  • Tools for detecting cross-language clones usually compare abstract-syntax-tree representations of source code, which lacks scalability. In order to compare large source code to a practical level, we need a similarity checking technique that works on a token level basis. In this paper, we define common tokens that represent all tokens commonly used in programming languages of different paradigms. Each source code of different language is then transformed into the list of common tokens that are compared. Experimental results using exEyes show that our proposed method using common tokens is effective in detecting cross-language clones.