• 제목/요약/키워드: 어휘자원

검색결과 78건 처리시간 0.027초

비정상 문자 조합으로 구성된 스팸 메일의 탐지 방법 (An Approach to Detect Spam E-mail with Abnormal Character Composition)

  • 이호섭;조재익;정만현;문종섭
    • 정보보호학회논문지
    • /
    • 제18권6A호
    • /
    • pp.129-137
    • /
    • 2008
  • 인터넷의 활용도가 높아짐에 따라, 스팸메일이 전체 메일에서 차지하는 비중이 점점 커지게 되었다. 전체 인터넷 자원에서 필요에 의해 사용되는 메일의 기능보다, 주로 광고나 악성코드 등의 전파를 위한 목적으로 사용되는 메일의 비중이 점점 커지고 있으며, 이를 방지하기 위한 컴퓨터 및 네트워크, 인적자원의 소모가 매우 심각해지고 있다. 이를 해결하기 위해 스팸 메일 필터링에 대한 연구가 활발히 진행되어 왔으며, 현재는 문맥상의 의미는 없지만 가독상에서 의미를 해석할 수 있는 문장에 대한 연구가 활발히 이루어지고 있다. 이러한 방식의 메일은 기존의 어휘를 분석하거나 문서 분류 기법 등을 이용한 스팸 메일을 필터링 방법을 통해 분류하기 어렵다. 본 연구는 이와 같은 어려움을 해결하기 위해 메일의 제목에 대한 N-GRAM 색인화를 통해 베이지안 및 SVM 을 이용하여 스팸 메일을 필터링 하는 방법을 제안한다.

maDMP 구현 사례와 적용방안에 관한 연구 (A Study on the maDMP (machine-actionable DMP) Implementation Cases and its Application Method)

  • 김주섭;김선태;한연중;유원재
    • 한국비블리아학회지
    • /
    • 제32권4호
    • /
    • pp.111-134
    • /
    • 2021
  • 최근 국내의 출연연을 중심으로 DMP 작성 및 제출이 점차적으로 의무화되고 있다. 그러나 DMP 작성이 서면 또는 자유 텍스트로 기술되다 보니 표준 및 형식 그리고 관리 측면에서 비표준화 및 불충분한 작성으로 인하여 연구데이터 관리를 제대로 설명하지 못하는 문제점이 발생하고 있다. 따라서 본 연구에서는 기계가 자동으로 생성하고 유지할 수 있는 기계가독형 DMP에 대하여 사례조사를 진행하였으며 maDMP를 적용할 수 있는 방안에 대해서 제안하였다. 조사된 maDMP 사례에는 RDCS, Argos, Haplo Repository 그리고 DMap을 포함하였다. 또한 maDMP를 적용할 수 있는 방안으로 영구 식별자의 사용, 통제어휘 적용 그리고 온톨로지와 같은 시멘틱 기술의 적용을 들 수 있다.

한국어 튜터링 챗봇을 위한 말뭉치 구축 (Building a Corpus for Korean Tutoring Chatbot)

  • 김한샘;최경호;한지윤;정해영;곽용진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.288-293
    • /
    • 2017
  • 교수-학습 발화는 발화 턴 간에 규칙화된 인과관계가 강하고 자연 발화에서의 출현율이 낮다. 일반적으로 어휘부, 표현 제시부, 대화부로 구성되며 커리큘럼과 화제에 따라 구축된 언어자원이 필요하다. 기존의 말뭉치는 이러한 교수-학습 발화의 특징을 반영하지 않았기 때문에 한국어 교육용 튜터링 챗봇을 개발하는데에 활용도가 떨어진다. 이에 따라 이 논문에서는 자연스러운 언어 사용 수집, 도구 기반의 수집, 주제별 수집 및 분류, 점진적 구축 절차의 원칙에 따라 교수-학습의 실제 상황을 반영하는 준구어 말뭉치를 구축한다. 교실에서 발생하는 언어학습 상황을 시나리오로 구성하여 대화 흐름을 제어하고 채팅용 메신저와 유사한 형태의 도구를 통해 말뭉치를 구축한다. 이 연구는 한국어 튜터링 챗봇을 개발하기 위해 말뭉치 구축용 챗봇과 한국어 학습자, 한국어 교수자가 시나리오를 기반으로 발화문을 생성한 준구어 말뭉치를 최초로 구축한다는 데에 의의가 있다.

  • PDF

중학교 과학 교과서 물리 단원에 수록된 과학 전문 용어 조사 (Investigation of Scientific Terms in Physics Units of Middle School Science Textbooks)

  • 윤은정;박윤배
    • 한국과학교육학회지
    • /
    • 제31권8호
    • /
    • pp.1175-1185
    • /
    • 2011
  • 본 연구는 과학 교육용 과학 전문 용어 목록을 만들기 위한 기초 연구로써 중학교 과학 교과서 물리 단원에 수록된 과학 전문 용어를 조사하였다. 그 결과 7학년 249개, 8학년 170개, 9학년 137개, 총 556개의 과학 전문 용어를 얻을 수 있었다. 그리고, 초등학교와 중학교에서 다루는 어휘수의 차이가 매우 심함을 알 수 있었고, 교육인적자원부의 편수자료와 물리학용어집, 표준국어대사전 간에 불일치가 상당히 많았다. 본 연구의 결과에 수정, 보완 작업을 거쳐서 수준별로 평정된 과학 전문 용어 목록이 완성되면 도서 및 사전 편찬, 각종 검사 제작, 교사 교육, 학습능력 향상 등에 다양하게 활용될 수 있을 것이다.

한국어 오픈 워드넷 (KWN) : 사전 기반의 반자동 구축 (Open Korean WordNet (KWN): Dictionary-based Semi-Automatic Development)

  • 이인근;황도삼;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.193-196
    • /
    • 2014
  • 본 논문에서는 사전자원에 기반한 한국어 워드넷(Open Korean WordNet: KWN)의 반자동 구축 방법을 제안한다. 제안한 방법에서는 각 전문분야별로 분류된 영어-한국어 대역사전, 일본어-한국어 대역사전을 이용하여 영어 워드넷(Princeton WordNet 3.0)과 일본어 워드넷(Japanese WordNet 1.1)의 어휘를 번역하였다. 그리고 번역 결과의 애매성을 해소하기 위하여, (1)영어와 일본어에 대한 한국어 대역어의 중복 여부, (2)사전의 분야 정보와 워드넷의 계층구조를 고려하였다. 제안한 방법으로 117,659 개의 워드넷 synset 중 63,221 개(약 54 %)의 synset에 대한 자동번역을 수행하여 한국어 워드넷을 구축하였다. 그리고 워드넷 synset의 정의문은 한국어 사전의 정의문을 참조하여 한글화 할 수 있도록 하고, 이 과정을 지원하기 위한 정의문 추천 알고리즘을 제안한다. 제안한 방법에 기반하여 전문가들이 상호 협력하여 한국어 워드넷을 구축할 수 있는 시스템을 개발한다.

  • PDF

WordNet을 매개로 한 CoreNet-SUMO의 매핑 (Mapping between CoreNet and SUMO through WordNet)

  • 강신재;강인수;남세진;최기선
    • 한국지능시스템학회논문지
    • /
    • 제21권2호
    • /
    • pp.276-282
    • /
    • 2011
  • CoreNet은 한-중-일 다국어 텍스트의 분석, 언어 간 변환을 포함한 자연어처리에 유용한 자원이다. CoreNet의 보다 광범위한 분야 및 응용에의 활용을 장려하고 다국어 어휘의미망으로서의 국제적 위상을 제고하기 위해 SUMO에 연결하는 작업을 하였다. CoreNet과 SUMO를 매핑하기 위해 간접 매핑과 직접 매핑 방법을 모두 사용하였는데, CoreNet-KorLex-PWN-SUMO에 이르는 간접 매핑 작업을 통하여 한국어 중심의 CoreNet과 영어로 기술된 SUMO의 언어 간 변환의 어려움을 완화하고 CoreNet 개념에 대응하는 SUMO 클래스의 재현율을 극대화하였다.

일반적, 영역 의존적 특성을 반영한 감정 자질의 의미지향성 추정 방법 (A Semantic Orientation Prediction Method of Sentiment Features Based on the General and Domain-Dependent Characteristics)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.155-159
    • /
    • 2009
  • 본 논문은 한국어 문서 감정분류를 위한 중요한 어휘 자원인 감정자질(Sentiment Feature)의 의미지향성(Semantic Orientation) 추정을 위해 일반적인 특성과 영역(Domain) 의존적인 특성을 반영하여 한국어 문서 감정분류(Sentiment Classification)의 성능 향상을 얻을 수 있는 기법을 제안한다. 감정자질의 의미지 향성은 검색 엔진을 통해 추출한 각 감정 자질의 스니핏(Snippet)과 실험 말뭉치를 이용하여 추정할 수 있다. 검색 엔진을 통해 추출된 스니핏은 감정자질의 일반적인 특성을 반영하며, 실험 말뭉치는 분류하고자 하는 영역 의존적인 특성을 반영한다. 이렇게 얻어진 감정자질의 의미지향성 수치는 각 문장의 감정강도를 추정하기 위해 이용되며, 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정자질의 가중치를 책정한다. 최종적으로 학습 과정에서 긍정 문서에서는 긍정 감정자질, 부정 문서에서는 부정 감정자질을 대상으로 추가 가중치를 부여하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 3.1%의 성능향상을 보였다.

  • PDF

연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견 (Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm)

  • 김동성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF

패션앱 후기글 평가분석에 기반한 의류 검색추천 챗봇 개발을 위한 학습데이터 EVAD 구축 (Construction of Evaluation-Annotated Datasets for EA-based Clothing Recommendation Chatbots)

  • 최수원;황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.467-472
    • /
    • 2021
  • 본 연구는 패션앱 후기글에 나타나는 구매자의 의견에 대한 '평가분석(Evaluation Analysis: EA)'을 수행하여, 이를 기반으로 상품의 검색 및 추천을 수행하는 의류 검색추천 챗봇을 개발하는 LICO 프로젝트의 언어데이터 구축의 일환으로 수행되었다. '평가분석 트리플(EAT)'과 '평가기반요청 쿼드러플(EARQ)'의 구성요소들에 대한 주석작업은, 도메인 특화된 단일형 핵심어휘와 다단어(MWE) 핵심패턴들을 FST 방식으로 구조화하는 DECO-LGG 언어자원에 기반하여 반자동 언어데이터 증강(SSP) 방식을 통해 진행되었다. 이 과정을 통해 20여만 건의 후기글 문서(230만 어절)로 구성된 EVAD 평가주석데이터셋이 생성되었다. 여성의류 도메인의 평가분석을 위한 '평가속성(ASPECT)' 성분으로 14가지 유형이 분류되었고, 각 '평가속성'에 연동된 '평가내용(VALUE)' 쌍으로 전체 35가지의 {ASPECT-VALUE} 카테고리가 분류되었다. 본 연구에서 구축된 EVAD 평가주석 데이터의 성능을 평가한 결과, F1-Score 0.91의 성능 평가를 획득하였으며, 이를 통해 향후 다른 도메인으로의 확장된 적용 가능성이 유효함을 확인하였다.

  • PDF

서울 성북동 역사문화자원 주변경관의 시각적 특성연구 (Research on the Visual Historical & Cultural Resources of Seongbuk-dong)

  • 이원호;김재웅
    • 한국전통조경학회지
    • /
    • 제31권2호
    • /
    • pp.118-127
    • /
    • 2013
  • 본 논문은 성북동의 역사문화자원 주변경관을 대상으로 경관 형용사 분석에 의한 시각적 특성을 분석하고, 시각적 특성과 선호도와의 관계를 파악하고자 하였다. 연구는 성북동에 위치하고 있는 역사문화자원 주변 경관사진 30장을 선정하여 설문조사를 실시하였으며, 경관 선호요인을 파악하기 위하여 16개 형용사를 척도화하여 요인분석을 실시하였다. 마지막으로 이미지 요인이 시각적 선호도에 미치는 영향을 파악하기 위하여 분산분석과 회귀분석을 실시하였다. 그 결과는 다음과 같이 요약될 수 있다. 첫째, 성북동 내 역사문화자원이 분포하고 있는 주변에 나타나는 경관에 대한 30장의 사진을 대상으로 16개의 형용사 어휘에 대한 선호도 평균분석을 실시한 결과, 전체적인 선호도 평균치는 3.72로 분석되었는데, 이들 중 4.5점 이상의 사진은 VP8번, VP9번, VP10번, VP12번, VP15번의 순으로 높게 나타났으며, 전체적으로 높은 선호를 보인 곳은 마포 최사영 고택과 성락원 주변경관으로, 이는 역사문화자원 주변에 대한 서울시 경관계획에 의해 고도를 제한함으로써 역사문화환경보존지역에서 문화재와 조화를 이루고 있으며, 북한산에서 북악산으로 이어지는 조망경관이 양호하게 확보되고 있는 것이 중요한 이유로 판단된다. 둘째, 역사문화자원 주변경관에 대한 시각적 특성을 요인 분석한 결과, 요인 1(심미적 요인), 요인 2(문화적 요인), 요인 3(물리적 요인) 등 3가지 요인으로 요약되어 구분할 수 있었으며, 시각적 선호도와 이미지 요인에 대한 회귀분석 및 분산분석 결과는 심리적 요인이 성북동의 역사문화자원 주변경관에 대한 시각적 선호 이미지를 설명하는 가장 중요한 요인으로 나타났다. 이는 역사문화자원에 대한 조망이 불가능한 상태에서 역사문화자원 주변에 위치한 주거지역에 대한 심미적 요인이 높은 것으로 분석된 것이다. 셋째, 역사문화자원 중 정비되지 않은 주거지역 주변경관에서는 부정적인 측면의 인자가 부각되고 있으며, 역사문화자원과 조화될수록 물리적, 문화적, 심미적 특성의 3가지 영역에서 긍정적인 측면의 인자가 높게 부각되고 있는 것을 알 수 있었다. 향후, 본 연구에서 표출된 인자에 대한 요인을 분석함으로써 역사문화자원 주변의 경관관리에 있어 중요하게 고려되어야 할 요인을 도출하기 위한 다각적 분석이 필요하다.