• Title/Summary/Keyword: 학술어휘

Search Result 798, Processing Time 0.033 seconds

Analyzing the Language Usage Characteristics of Korean Dark Web Users (국내 다크웹 사용자들의 언어 사용 특성 분석)

  • Youjin Lee;Dayeon Yim;Yongjae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.397-402
    • /
    • 2022
  • 익명 네트워크 기술에 기반한 다크웹은 일반 표면웹보다 더 강화된 익명성을 제공한다. 최근 이 익명성을 악용하여 다수의 다크웹 사용자들이 다크웹 내에서 범죄 행위를 모의하는 행위가 꾸준히 발생하고 있다. 특히, 국내 다크웹 사용자들은 마약 유포를 위한 방법을 공유하거나 성착취물 유포 행위 등에 직간접적으로 가담하고 있다. 이와 같은 범죄 행위들은 수사 기관의 눈을 피해 현재까지도 계속해서 발생하고 있어 국내 다크웹 범죄 동향 파악의 필요성이 증대되고 있다. 그러나 다크웹 특성상 범죄 행위를 논의하는 게시글을 수집하기가 어렵고, 다크웹 내에서의 언어 사용 특성에 대한 이해 부족으로 그동안 다크웹 사용자들이 어떤 내용의 범죄를 모의하는지 파악하기가 어려웠다. 본 논문에서는 국내 사용자들이 활동하는 다크웹 포럼들을 중심으로 사용자들의 언어 사용 특성을 연구하고, 이를 통해 다크웹에서 다뤄지는 범죄 유형들을 분석한다. 이를 위해, 자연어처리 기반의 분석 방법론을 적용하여 다크웹에서 공유되는 게시글을 수집하고 다크웹 사용자들의 은어와 특정 범죄군에서 선호되는 언어 특성을 파악한다. 특히 현재 다크웹 내에서 사용자들 사이에 관측되는 어휘들에 대한 기술통계 분석과 유의어 관계 분석을 수행하였고, 실제 다크웹 내에서 사용자들이 어떠한 범죄에 관심이 많은지를 분석하였으며, 더 나아가 수사의 효율성을 증대시키기 위한 소셜미디어, URL 인용 빈도에 대한 연구를 진행하였다.

  • PDF

SRLev-BIH: An Evaluation Metric for Korean Generative Commonsense Reasoning (SRLev-BIH: 한국어 일반 상식 추론 및 생성 능력 평가 지표)

  • Jaehyung Seo;Yoonna Jang;Jaewook Lee;Hyeonseok Moon;Sugyeong Eo;Chanjun Park;Aram So;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.176-181
    • /
    • 2022
  • 일반 상식 추론 능력은 가장 사람다운 능력 중 하나로써, 인공지능 모델이 쉽게 모사하기 어려운 영역이다. 딥러닝 기반의 언어 모델은 여전히 일반 상식에 기반한 추론을 필요로 하는 분야에서 부족한 성능을 보인다. 특히, 한국어에서는 일반 상식 추론과 관련한 연구가 상당히 부족한 상황이다. 이러한 문제 완화를 위해 최근 생성 기반의 일반 상식 추론을 위한 한국어 데이터셋인 Korean CommonGen [1]이 발표되었다. 그러나, 해당 데이터셋의 평가 지표는 어휘 단계의 유사성과 중첩에 의존하는 한계를 지니며, 생성한 문장이 일반 상식에 부합한 문장인지 측정하기 어렵다. 따라서 본 논문은 한국어 일반 상식 추론 및 생성 능력에 대한 평가 지표를 개선하기 위해 문장 성분의 의미역과 자모의 형태 변화를 바탕으로 생성 결과를 평가하는 SRLev, 사람의 평가 결과를 학습한 BIH, 그리고 두 평가 지표의 장점을 결합한 SRLev-BIH를 제안한다.

  • PDF

Wearable based Electrocardiogram Sensing Clothes for Monitoring of Vital Signal (생체신호 측정을 위한 웨어러블 기반의 심전도 측정 의복)

  • Yu, Ki-Youp;Han, Ki-Tae;Kim, Ju-Hyun;Kim, Jong-Hun;Chung, Kyung-Yong;Lee, Jung-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.277-278
    • /
    • 2009
  • 차세대 하이테크 스마트 의류는 복합 차원에서의 감성적인 요소를 섬유 패션기술에 IT융합 기술을 이용하여 제공하고 있다. 생체신호를 이용한 감성은 모호하여 정량적이고 객관적인 측정이 어렵고, 그 표현도 제한된 감성 어휘에 의하여 나타나기 때문에 구체적으로 파악하는 것은 어려운 일이다. 이를 위하여 제품의 기능적 측면뿐만 아니라 정서적 감정과 선호도가 반영된 제품의 설계나 디자인 또한 요구되고 있다. 본 논문에서는 생체신호 측정을 위한 웨어러블 기반의 심전도 측정 의복을 제안하였다. 착용자가 평소 자주 입는 티셔츠를 응용하여 답답해하거나 불편하지 않게 제작하고 소매 형태로 신축성있는 소재를 사용한다. 인체의 형태에 따라 의복과 바이오센서의 전극이 안정적으로 밀착될 수 있도록 고탄력 밴드를 이용하여 일자형으로 제작하였다. 심전도 측정 의복을 착용에 의해 수집된 심전도 ECG 파형을 수집하고 심박변화율을 계산하는 시뮬레이션을 개발한다.

korean-Hanja Translation System based on Semantic Processing (의미처리 기반의 한글-한자 변환 시스템)

  • Kim, Hong-Soon;Sin, Joon-Choul;Ok, Cheol-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.398-401
    • /
    • 2011
  • 워드프로세서에서의 한자를 가진 한글 어휘의 한자 변환 작업은 사용자에 의해 음절/단어 단위의 변환으로 많은 시간이 소요되어 효율이 떨어진다. 본 논문에서는 한글 문장의 의미처리를 통해 문맥에 맞는 한자를 자동 변환하는 시스템을 제안한다. 문맥에 맞는 한글-한자 변환을 위해서는 우선 정확한 형태소 분석 및 동형이의어 분별이 선행되어야 한다. 이를 위해 본 논문에서는 은닉마르코프모델 기반의 형태소 및 동형이의어 동시 태깅 시스템을 구현하였다. 제안한 시스템은 형태의미 세종 말뭉치 1,100만여 어절을 이용하여 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 학습사전을 구축하였다. 그리고 품사 및 동형이의어 태깅 후 명사를 표준국어대사전에 등재된 한자로 변환하는 시스템을 구현하였다. 구현된 시스템의 성능 확인을 위해 전체 세종 말뭉치를 문장단위로 비학습 말뭉치를 구성하여 실험하였고, 실험결과 한자를 가진 동형이의어에 대한 한자 변환에서 90.35%의 정확률을 보였다.

Implementation of Feature-based Dialog System in Restaurant domain (레스토랑 영역에서의 자질기반 대화시스템 구현)

  • Yang, Hyeon-Seok;Kim, Dong-Joo;Seol, Yong-Soo;Jung, Sung-Hun;Kim, Han-Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.425-428
    • /
    • 2011
  • 서비스 로봇과 펫 로봇 등 사람과 직접 상호작용하는 로봇기술의 필요성이 증가하고 있다. 대화시스템은 자연언어처리 기술을 활용하여 음성인식 기술과의 결합을 통해 현재 로봇에서 주로 사용되고 있는 버튼과 터치스크린 위주의 HRI(Human-Robot Interface)보다 자연스러운 HRI를 제공한다. 이러한 자연스러운 HRI를 수행할 수 있는 로봇을 구성하기 위해서는 로봇이 서비스를 제공할 실제 영역에 맞는 대화시스템의 연구가 필요하다. 본 논문에서는 자질사전, 단일화 문법(unification grammar), 대화 흐름도(dialogue flow diagram)를 사용한 레스토랑 영역의 자질기반(feature-based) 대화시스템을 제시한다. 자질 정보는 형태소, 시제, 어휘의 의미구조 등을 나타내며 화행(speech act) 결정에 사용하고 문장 자질과 구문 자질을 파서에서 활용한다. 자질기반 대화시스템을 통하여 레스토랑 영역에서 사용자 화행 이해 및 주문, 안내 등의 서비스를 성공적으로 수행할 수 있음을 보인다.

A Comparative Study on Building Korean & Chinese Music Request Sentence Patterns for AI Assistant Platforms (AI 어시스턴트 플랫폼의 한국어와 중국어 음악청취 요청문 패턴구축 비교 연구)

  • Yun, Soeun;Li, Jiabin;Nam, Jeesun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.383-388
    • /
    • 2020
  • 본 연구에서는 AI 어시스턴트의 음악청취 도메인 내 요청문을 인식 및 처리하기 위해 한국어와 중국어를 중심으로 도메인 사전 및 패턴문법 언어자원을 구축하고 그 결과를 비교분석 하였다. 이를 통해 향후 다국어 언어자원 구축의 접근 방법을 모색할 수 있으며, 궁극적으로 패턴 기반 문법으로 기술한 언어자원을 요청문 인식에 직접 활용하고 또한 주석코퍼스 생성을 통해 기계학습 성능 향상에 도움을 줄 수 있을 것으로 기대된다. 본 연구에서는 우선 패턴문법의 구체적인 양상을 살펴보기에 앞서, 해당 도메인의 요청문 유형의 카테고리를 결정하는 과정을 거쳤다. 이를 기반으로 한국어와 중국어 요청문의 실현 양상과 패턴유형을 LGG 프레임으로 구조화한 후, 한국어와 중국어 패턴문법 간의 통사적, 형태적, 어휘적 차이점을 비교분석 하여 음악청취 도메인 요청문의 언어별 생성 구조 차이점을 관찰할 수 있었다. 구축한 패턴문법은 개체명을 변수(X)로 설정하는 경우, 한국어에서는 약 2,600,600개, 중국어에서는 약 11,195,600개의 표현을 인식할 수 있었다. 결과적으로 본 연구에서 제안한 언어자원의 언어별 차이에 대한 통찰을 통해 다국어 차원의 요청문 인식 자원과 기계학습 데이터로서의 효용을 확인하였다.

  • PDF

DecoFESA: A Hybrid Platform for Feature-based Sentiment Analysis Based on DECO-LGG Linguistic Resources with Parser and LSTM (DECO-LGG 언어자원 및 의존파서와 LSTM을 활용한 하이브리드 자질기반 감성분석 플랫폼 DecoFESA 구현)

  • Hwang, Changhoe;Yoo, Gwanghoon;Nam, Jeesun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.321-326
    • /
    • 2020
  • 본 연구에서는 한국어 감성분석 성능 향상을 위한 DECO(Dictionnaire Electronique du COreen) 한국어 전자사전과 LGG(Local-Grammar Graph) 패턴문법 기술 프레임에 의존파서 및 LSTM을 적용하는 하이브리드 방법론을 제안하였다. 본 연구에 사용된 DECO-LGG 언어자원을 소개하고, 이에 기반하여 의미 정보를 의존파서(D-PARS)와 페어링하는 한편 OOV(Out Of Vocabulary)의 문제를 LSTM을 통해 해결하여 자질기반 감성분석 결과를 제시하였다. 부트스트랩 방식으로 반복 확장될 수 있는 LGG 언어자원 및 알고리즘을 통해 수행되는 자질기반 감성분석 프로세스는 전용 플랫폼 DecoFESA를 통해 그 범용성을 확장하였다. 실험을 위해서 네이버 쇼핑몰의 '화장품 구매 후기글'을 크롤링하였으며, DecoFESA 플랫폼을 통해 현재 구축된 DECO-LGG 언어자원 기반의 감성분석 성능을 평가하였다. 이를 통해 대용량 언어자원의 구축과 이를 활용하기 위한 어휘 시퀀스 처리 알고리즘의 구현이 보다 정확한 자질기반 감성분석 결과를 제공할 수 있음을 확인하였다.

  • PDF

Construction of Evaluation-Annotated Datasets for EA-based Clothing Recommendation Chatbots (패션앱 후기글 평가분석에 기반한 의류 검색추천 챗봇 개발을 위한 학습데이터 EVAD 구축)

  • Choi, Su-Won;Hwang, Chang-Hoe;Yoo, Gwang-Hoon;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.467-472
    • /
    • 2021
  • 본 연구는 패션앱 후기글에 나타나는 구매자의 의견에 대한 '평가분석(Evaluation Analysis: EA)'을 수행하여, 이를 기반으로 상품의 검색 및 추천을 수행하는 의류 검색추천 챗봇을 개발하는 LICO 프로젝트의 언어데이터 구축의 일환으로 수행되었다. '평가분석 트리플(EAT)'과 '평가기반요청 쿼드러플(EARQ)'의 구성요소들에 대한 주석작업은, 도메인 특화된 단일형 핵심어휘와 다단어(MWE) 핵심패턴들을 FST 방식으로 구조화하는 DECO-LGG 언어자원에 기반하여 반자동 언어데이터 증강(SSP) 방식을 통해 진행되었다. 이 과정을 통해 20여만 건의 후기글 문서(230만 어절)로 구성된 EVAD 평가주석데이터셋이 생성되었다. 여성의류 도메인의 평가분석을 위한 '평가속성(ASPECT)' 성분으로 14가지 유형이 분류되었고, 각 '평가속성'에 연동된 '평가내용(VALUE)' 쌍으로 전체 35가지의 {ASPECT-VALUE} 카테고리가 분류되었다. 본 연구에서 구축된 EVAD 평가주석 데이터의 성능을 평가한 결과, F1-Score 0.91의 성능 평가를 획득하였으며, 이를 통해 향후 다른 도메인으로의 확장된 적용 가능성이 유효함을 확인하였다.

  • PDF

An Investigation of Information Usefulness of Google Scholar in Comparison with Web of Science (Google Scholar의 학술정보 검색을 위한 정보 유용성 비교연구)

  • Kim, Hyunjung
    • Journal of the Korean BIBLIA Society for library and Information Science
    • /
    • v.25 no.3
    • /
    • pp.215-234
    • /
    • 2014
  • The purpose of this study is to investigate whether Google Scholar (GS) can substitute Web of Science (WoS) for those who don't have access to the subscription-based indexing service and if users feel GS is useful for scholarly information. To achieve the research purpose, the study evaluates both quantitative and qualitative aspects of the two databases. The major results through statistical analysis show that GS indexes much more records and citations for LIS journals than WoS(p < .01), but users' feedback about GS is not better than those about WoS.

Semantic Information Retrieval Based on User-Word Intelligent Network (U-WIN 기반의 의미적 정보검색 기술)

  • Im, Ji-Hui;Choi, Ho-Seop;Ock, Cheol-Young
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2006.11a
    • /
    • pp.547-550
    • /
    • 2006
  • The criterion which judges an information retrieval system performance is to how many accurately retrieve an information that the user wants. The search result which uses only homograph has been appears the various documents that relates to each meaning of the word or intensively appears the documents that relates to specific meaning of it. So in this paper, we suggest semantic information retrieval technique using relation within User-Word Intelligent Network(U-WIN) to solve a disambiguation of query In our experiment, queries divide into two classes, the homograph used in terminology and the general homograph, and it sets the expansion query forms at "query + hypemym". Thus we found that only web document search's precision is average 73.5% and integrated search's precision is average 70% in two portal site. It means that U-WIN-Based semantic information retrieval technique can be used efficiently for a IR system.

  • PDF