• 제목/요약/키워드: 단어형성

검색결과 145건 처리시간 0.029초

사용자 프로파일 구축을 위한 TDIDT기반 관심단어 추출기법 (Attribute extract method based TDIDT for construction of user profile)

  • 이선미;박영택
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.321-327
    • /
    • 2002
  • 본 논문은 기존의 귀납적 결정 트리 방식에서의 문제점 개선을 통한 사용자 관심 프로파일 구축을 목적으로 한다. 특히 사용자 관심 프로파일의 정확도 향상을 위한 속성 선택에 대한 연구에 초점을 맞추고 있다. 사용자의 관심, 비관심 문서를 대상으로 사용자 관심 키워드를 생성하고 이를 바탕으로 초기 문서들을 재표현한다. 재표현된 문서를 입력 집합으로 하여 기계학습을 진행한다. 본 논문의 의사 결정 트리 생성 알고리즘은 입력 집합을 클래스별로 가장 잘 나누는 속성을 선택하여 노드를 구성하는 면에서는 기존의 알고리즘과 같다. 그러나 기존의 의사 결정 트리 알고리즘에서는 hill-climbing.방식을 사용함으로써 사용자의 관심을 나타내는 중요한 단어가 사용자 관심 프로파일에서 숨겨질 경우가 발생한다. 이를 최소화하기 위해 특징 추출을 통해 선택된 속성을 그대로 학습의 입력 데이터로 사용하는 것이 아니라 입력데이터를 가장 잘 나누는 속성과 그 다음 속성을 대상으로 disjunctive 연산을 통해 새로운 속성을 생성하여 이것을 속성 집합에 포함시키고 이를 학습의 입력 데이터로 이용한다. 이와 같이 disjunctive operator를 이용하여 새로운 속성을 의사 결정 트리 형성 시 이용하면 사용자의 중요한 관심을 포함하는 의미 있는(semantic) 사용자 관심 프로파일 구축이 가능해지고, 사용자 관심 프로파일을 기반으로 사용자가 관심 있는 문서를 제공할 수 있는 개인화 서비스를 제공한다.

  • PDF

형태소 단위 자질을 이용한 콘텐츠 기반 한국어 SMS 스팸 필터링 (Contents-Based Korean SMS Spam Filtering Using Morpheme Unit Features)

  • 손대능;신중휘;이정태;이승욱;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.195-200
    • /
    • 2008
  • 본 논문에서는 형태소 분석을 이용한 확률 기반 한국어 SMS 스팸 필터링 기법을 제안한다. 기존 연구에서는 단어 및 문자 단위 어휘 정보를 자질로 이용한 영어 및 스페인어 SMS 스팸 필터링 방법들이 있다. 하지만 교착어인 한국어의 경우, 어근과 접사의 조합에 의해서 다양한 어절이 형성될 수 있다. 따라서 어절단위 어휘 정보를 자질로 사용할 경우, 미등록어(out of vocabulary) 문제가 발생한다. 특히, 매우 적은 수의 단어들로 구성된 SMS 메시지의 경우에는 이 문제가 매우 심각하다. 본 논문에서는 형태소 분석을 이용하여 이러한 문제점을 해결하고자 하였다. 실험 결과, 제안하는 방법은 기존 연구와 비교하여 10.6%의 스팸 분류 정확률 향상을 보였다. 또한 미등록어만을 포함하는 SMS 메시지의 수는 약 77% 감소하였다.

  • PDF

연구 논문의 의미 구조 기반 메타데이터 항목의 자동 식별 처리를 위한 문장 구조 분석 (Analyzing the Sentence Structure for Automatic Identification of Metadata Elements based on the Logical Semantic Structure of Research Articles)

  • 송민선
    • 정보관리학회지
    • /
    • 제35권3호
    • /
    • pp.101-121
    • /
    • 2018
  • 본 연구는 연구논문의 논리적 의미 구조 메타데이터 항목에 해당하는 데이터에 담겨 있는 문장의 구성에 따라 시스템에서 적절한 항목으로 자동 식별 처리될 수 있도록 하는, 문장의미론(Sentence Semantics)적 분석 방법을 제안하고자 하는 목적으로 수행되었으며, 의미 구조 메타데이터 항목 중 'Research Objectives'와 'Research Outcomes'에 해당하는 연구 논문 문장의 구조를 어절 수, 접속어 종류, 다수 출현한 단어들의 문장 내 역할, 문장에서 다수 출현한 어미 형태 등을 기준으로 분석해 정리하였다. 연구 결과, 문장들의 어절 수는 'Research Objectives'는 평균 38개, 'Research Outcomes'는 평균 212개로 나타났으며, 접속어의 경우 'Research Objectives'는 인과-순접-대등-환언/요약 관계를 나타내는 접속어 순으로, 'Research Outcomes'는 인과-대등-순접-환언/요약 관계를 나타내는 접속어 순으로 많이 출현한 것으로 파악되었다. 출현빈도가 높은 분석 대상 단어들은 각각 문장 내에서 주어, 목적어, 서술어 역할 등으로 사용되고 있었으며, '역할'이나 '요인', '관계'는 목적이나 결과 부분 모두에서 비슷한 역할을 담당하고 있었지만 '연구'는 같은 단어라도 연구의 목적 부분과 결과 부분에서 사용되는 역할에 차이를 보였다. 마지막으로 문장 내 동사의 어미는 'Research Objectives'에서 '~고자'와 '~였다', 'Research Outcomes'에서 '~었다', '~있다', '~였다'가 많이 출현하였다. 본 연구는 연구자의 학술적 이해형성을 지원하기 위해 연구논문이 담고 있는 공통된 논리적 의미를 반영한 메타데이터 요소의 자동 식별과 입력 방안을 제시하는 데 활용할 수 있는 기초 연구로서 의의가 있다.

나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법 (Sensitivity Identification Method for New Words of Social Media based on Naive Bayes Classification)

  • 김정인;박상진;김형주;최준호;김한일;김판구
    • 스마트미디어저널
    • /
    • 제9권1호
    • /
    • pp.51-59
    • /
    • 2020
  • 인터넷의 발달과 스마트폰의 보급으로 인하여 그에 따른 소셜 미디어 문화가 형성됨에 따라 PC통신부터 지금까지 소셜 미디어 신조어가 그 문화로 자리 잡아가고 있다. 소셜 미디어의 등장과 사람들의 가교역할을 해주는 스마트폰의 보급화로 신조어가 생기고 빈번하게 사용되고 있는 추세이다. 신조어의 사용은 다양한 문자 제한 메신저의 문제점을 해결하고 짧은 문장을 사용하여 데이터를 줄이는 등 많은 장점을 가지고 있다. 그러나 신조어에는 사전적인 의미가 없으므로 데이터 마이닝 기술이나 빅데이터와 같은 연구에서 사용되는 알고리즘의 성능 저하와 연구에 제약사항이 발생한다. 따라서 본 논문에서는 웹 크롤링을 통해 텍스트 데이터를 추출하고, 텍스트 마이닝과 오피니언 마이닝을 통해 의미부여 및 단어들에 대한 감정적 분류를 통한 문장의 오피니언 파악을 진행하고자 한다. 실험은 다음과 같이 3단계로 진행하였다. 첫째, 소셜 미디어에서 새로운 단어를 수집하여 수집된 단어는 긍정적이고 부정적인 학습을 받게 하였다. 둘째, 표준 문서를 사용하여 감정적 가치를 도출하고 검증하기 위해 TF-IDF를 사용하여 데이터의 감정적 가치를 측정하기 위해 명사 빈도수를 측정한다. 신조어와 마찬가지로 분류된 감정적 가치가 적용되어 감정이 표준 언어 문서로 분류되는지 확인하였다. 마지막으로, 새로 합성된 단어와 표준 감정적 가치의 조합을 사용하여 장비 기술의 비교분석을 수행하였다.

이집트인 학습자의 한국어 모음 지각과 산출 (The perception and production of Korean vowels by Egyptian learners)

  • 사라 벤자민;이호영
    • 말소리와 음성과학
    • /
    • 제13권4호
    • /
    • pp.23-34
    • /
    • 2021
  • 이 연구는 이집트인 한국어 학습자를 대상으로 하여 이들이 한국어 모음을 어떻게 지각하고 범주화하며, 이들이 발음한 한국어 모음을 한국인들이 어떻게 지각하는지 밝히고, 이를 토대로 이집트인 학습자들의 한국어 모음 범주화가 그들의 한국어 모음 지각과 산출에 어떤 영향을 미치는지 밝히는 것을 목적으로 한다. 실험 1에서는 이집트인 학습자가 한국어 모음을 어떻게 지각하는지 알아보기 위해 이집트인 학습자 53명을 대상으로 하여 한국인이 발음한 한국어 자극 단어를 듣고 어느 단어를 들었는지 객관식으로 고르는 과제를 수행하게 하였고, 실험 2에서는 이집트인 학습자들이 발음한 한국어 모음을 한국인들이 어떻게 지각하는지 밝히기 위해 이집트인 학습자 9명이 산출한 자극 단어 117(13개×9명)개를 한국인들에게 들려주고, 어느 단어를 들었는지 객관식으로 고르게 한 다음 모음의 발음이 원어민 수준에 얼마나 근접하는지 5점 척도로 평가하도록 하였다. 실험 결과 이집트어에 존재하지 않는 "새로운" 한국어 모음은 별도의 범주를 쉽게 형성하여 잘 지각된 반면 산출이 잘 되는 새로운 모음도 있었고, 산출에서 어려움을 겪는 모음도 있었다. 반면에 이집트어 음소와 "비슷한" 한국어 음소는 비교적 잘 산출되지만 지각하는 데는 큰 어려움이 있다는 사실도 확인할 수 있었다. 이 연구 결과를 토대로 기존의 음성학습모델(speech learning model)과 지각동화모델(perceptual assimilation model)이 제2언어 학습자들의 제2언어 음성 지각을 잘 설명해 주지만 음성 산출을 설명하는 데 미흡함이 있어 이에 대한 보완이 필요함을 논의했다.

텍스트 마이닝을 적용한 사회서비스원 언론보도기사 분석 (An Analysis on Media Trends in Public Agency for Social Service Applying Text Mining)

  • 박해긍;윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권2호
    • /
    • pp.41-48
    • /
    • 2022
  • 본 연구는 사회서비스원과 관련한 국내 언론보도기사를 주요 원자료로 삼고, 기사에 내재된 주요 키워드 및 토픽을 분석하여 사회서비스원과 관련한 이슈, 즉 사회적 인식이 어떻게 형성되었는지를 실증적으로 탐색하고자 하였다. 본 연구는 사회서비스원에 관한 사회 전반적인 인식 및 동향을 여론을 통해 파악한다는 점에서 의의가 있다. 언론동향의 데이터를 추출하기 위해 검색은 빅테이터 분석 시스템인 텍스톰을 사용하여 대표적 포털인 네이버 뉴스와 다음 뉴스에서 자료를 수집하였다. 수집된 기사는 2020년도 1,299개, 2021년도 총 1,410로, 총 2,709개였다. 분석결과로 첫째, 텍스트 출현빈도와 관련해서 가장 많이 도출된 단어는 '사회서비스원', '설립', '운영' 등으로 주로 사회서비스원의 설립과 관련한 내용이 주를 이루고 있었다. 둘째, N-gram분석결과 사회서비스원과 직접 관련된 단어의 쌍(pairs)은 '사회서비스원과 공공', '사회서비스원과 개원', '사회서비스원과 출범', '사회서비스원과 원장', '사회서비스원과 직원', '사회서비스원과 돌봄종사자' 등으로 나타났다. 셋째, TF-IDF 분석결과 및 단어 네트워크 분석결과에서는 단어출현빈도와 N-gram의 결과와 유사하게 '설립', '운영', '공공', '출범', '제공', '개원', '개최', '돌봄' 등의 결과가 도출되었다. 상기분석결과를 통해 긴급돌봄지원단의 강화, 구체적인 사업화, 일자리의 안정화 등을 제언하였다.

소셜네트워크 분석의 빅데이터를 활용한 2019세계수영선수권 대회의 국내 인식조사 (National Awareness of the 2019 World Swimming Championships using Big Data from Social Network Analysis)

  • 김기탁
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권4호
    • /
    • pp.173-184
    • /
    • 2019
  • 본 연구의 자료처리는 텍스톰(textom)을 통해 소셜 미디어의 단어검색을 중심으로 빅데이터 분석을 실시하여 3가지 영역(2019광주세계수영선수권대회, 2019광주세계수영마스터즈대회, 2019세계수영선수권 대회문제점)에 대한 단어를 웹 환경에서의 데이터 수집과 정제작업을 통해 일관되게 처리하였다. 또한 수집된 단어를 활용하여 Ucinet6의 프로그램에 적용한 후 시각화 하였으며, 단어들의 유사한 관계파악과 공통요인의 군집을 파악하기 위해 CONCOR분석을 실시하였다. 분석결과 2019광주세계수영선수권대회와 관련된 군집은 주요인식과 주변인식 4개의 영역으로 구분되어 수영선수권대회와 관련된 전반적인 대회운영적인 측면을 주로 검색하고 있는 것으로 나타났고 2019광주세계수영마스터즈대회와 관련된 군집은 주요인식과 주변인식 2개의 영역으로 구분되어 마스터즈대회의 홍보와 대회에 대한 측면을 주로 검색하고 있는 것으로 나타났으며, 2019광주세계수영선수권대회 문제점과 관련된 군집은 주요인식과 주변인식 5개의 영역으로 구분되어 수영선수권대회 문제점의 장소, 운영, 기관, 행사 등에 대한 측면을 주로 검색하고 있는 것으로 나타났다. 최종적으로 2019광주세계수영선수권대회 키워드 분석결과를 통해 첫째, 전남지방과의 상호구축관계형성, 둘째, 시설투자를 최소화한 대회운영, 셋째, 신뢰가 있는 대회운영을 해야 함을 시사할 수 있겠고 2019광주세계수영마스터즈대회 키워드 분석결과를 통해 첫째, 광산업을 활용한 대회홍보, 둘째, 광산업을 활용한 지역홍보를 해야 함을 시사할 수 있겠으며, 2019광주세계수영선수권대회 문제점에 관한 키워드 분석을 통해 2019세계수영선수권대회의 개최 전, 개최 중, 개최 후에 맞는 레거시 정책개발을 해야 함을 시사할 수 있겠다.

우리말 연속음성의 음절 분할법 (A Syllabic Segmentation Method for the Korean Continuous Speech)

  • 한학용;고시영;허강인
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.70-75
    • /
    • 2001
  • 본 논문은 우리말 연속음성에 대한 음절단위 분할법을 제안한다. 이 방법은 다음 3단계로 이루어진다: (1) 음성의 시간영역 분할 파라메터인 피치, 에너지, ZCR, PVR을 이용하여 음성데이터를 자음, 자음. 묵음 단위로 라벨링하여 토큰 (Token)을 형성, (2) 형성된 토큰을 유한상태오토마타를 이용하여 한국어 음절구조로 파서 (Parser)를 설계하여 스캐닝 (Scanning), (3) 의사 음절핵 정보를 이용하여 두개 혹은 여러 개의 음절을 가지는 음성부분에 대한 재분할을 통하여 음절단위 분할 완성. 제안된 방법에 대한 성능 평가를 위해서 문장과 단어단위 연속음성에 대한 분할 실험결과 각각 73.7%와 85.9%의 분할률을 얻었다.

  • PDF

세계 항공기산업 동향과 전망

  • 임창호
    • 항공우주산업기술동향
    • /
    • 제4권1호
    • /
    • pp.3-12
    • /
    • 2006
  • 세계 항공기산업은 새로운 기술과 새로운 전략, 이른바 ‘차세대’라는 단어로 대변될 수 있는 다음세대를 위한 개발과 전략의 변화를 겪고 있다. 먼저 군용기의 경우 미국의 F-35가 첫 선을 보이면서 차세대 전투기의 새장을 열어가고 있으며 우리나라 역시 T-50/A-50, 한국형헬리콥터(KHP)개발, 조기경보기 도입 등 공군력 강화를 위한 준비들이 단계적으로 이루어지고 있어 그에 따른 산업발전이 기대되고 있다. 민간 항공기를 살펴보면 A-380과 같은 대형 항공기 개발 추세와 A320과 B737과 같은 Narrow-body 항공기 생산이 증가하는 양상을 보이고 있다. 또한 개인용 소형제트기(VLJ)와 같은 항공기들은 차세대 틈새시장(niche market)을 형성, 발전가능성을 열어가고 있다. 민간항공기의 향후 생산전망을 살펴보면, 대형여객기의 경우 2015년까지 총 7,900여대로 연평균 800여대의 생산이 이루질 전망이며 헬리콥터의 경우 연평균 1,870여대로 총 18,730여대의 헬리콥터가 생산될 전망으로 약 1,200억불의 시장을 형성할 것으로 전망되고 있다. 이렇듯 군용기 시장에서는 차세대의 첨단 항공기 개발과 양산이 가시화되고 있으며 민간항공기의 경우, 특정 세분시장(market segment)의 주도적 개발과 양산보다는 비즈니스 환경의 변화와 고객층의 다양화로 인해 각 시장의 고객 니즈(needs)에 부합되는 다양한 항공기 개발과 양산이 이루어질 것으로 보인다.

  • PDF

음절 기반의 CNN를 이용한 개체명 인식 (Named Entity Recognition using CNN for Korean syllabic character.)

  • 박혜웅;송영숙
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.330-332
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition, 이하 NER)은 인명(PS), 기관명(OG), 장소(LC), 날짜(DT), 시간(TI) 등에 해당하는 개체명에 일정한 태깅 값을 주어 그 정보를 가시화하는 작업이다. 한국어 개체명 인식은 아직 그 자질이 충분히 밝혀져 있지 않아 자연어 처리 분야의 발전을 더디게 하는 한 요소로 작용하고 있다. 한국어가 음절 기반으로 단어를 형성하고 비교적 어순이 자유롭다는 특성이 있기에, 이런 특징을 잘 포착할 수 있는 "음절 기반의 Convolutional Neural Network(CNN)"의 아키텍쳐를 제안하여 66.80%의 성능을 보였다. 이 방법을 사용하면 형태소 분석등 개체명 이전 단계에서 발생하는 오류에 의해 개체명 인식(NER)의 성능이 떨어지는 문제를 해결할 수 있고, 조사나 어미 등을 제거하기 위한 후처리를 생략할 수 있다.

  • PDF