• 제목/요약/키워드: 대표명사

검색결과 45건 처리시간 0.023초

최대 엔트로피 모델을 이용한 연속음성인식에서의 인식 신뢰도 측정 (CONFIDENCE MEAUSRING METHOD FOR CONTIUOUS SPEECH RECOGNITION USING MAXIMUM ENTROPY MODEL)

  • 정상근;정민우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.200-204
    • /
    • 2004
  • 음성인식기술을 실제 생활에 적용할 때 발생하는 대표적인 문제로. 인식기의 낮은 인식률로 인한 오동작을 들 수 있다. 본 연구에서는, 텔레뱅킹 도메인에서의 HTK(Hidden Markov Model Toolkit) 연속 음성 인식 시스템과, 최대 엔트로피 기법에 기반한 사용자 발화에서의 핵심이 되는 단어(주로 고유 명사들)들에 대한 인식 신뢰도의 측정 방법을 제시한다. 음향특징과 언어특징들을 모두 고려하여 인식 신뢰도를 구하였으며 인식된 단어들에 대해 오인식 되었음을 약 86%의 정확도로 판단할 수 있음을 확인하였다. 본 인식신뢰도를 이용하여 차후에 음성인식의 확인대화(Clarification Dialog)모델을 개발하는데 활용하고자 한다.

  • PDF

기계학습 기반 경쟁자 자동추출 방법 (Competitor Extraction based on Machine Learning Methods)

  • 이충희;김현진;류법모;김현기;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-112
    • /
    • 2012
  • 본 논문은 일반 텍스트에 나타나는 경쟁 관계에 있는 고유명사들을 경쟁자로 자동 추출하는 방법에 대한 것으로, 규칙 기반 방법과 기계 학습 기반 방법을 모두 제안하고 비교하였다. 제안한 시스템은 뉴스 기사를 대상으로 하였고, 문장에 경쟁관계를 나타내는 명확한 정보가 있는 경우에만 추출하는 것을 목표로 하였다. 규칙기반 경쟁어 추출 시스템은 2개의 고유명사가 경쟁관계임을 나타내는 단서단어에 기반해서 경쟁어를 추출하는 시스템이며, 경쟁표현 단서단어는 620개가 수집되어 사용됐다. 기계학습 기반 경쟁어 추출시스템은 경쟁어 추출을 경쟁어 후보에 대한 경쟁여부의 바이너리 분류 문제로 접근하였다. 분류 알고리즘은 Support Vector Machines을 사용하였고, 경쟁어 주변 문맥 정보를 대표할 수 있는 언어 독립적 5개 자질에 기반해서 모델을 학습하였다. 성능평가를 위해서 이슈화되고 있는 핫키워드 54개에 대해서 623개의 경쟁어를 뉴스 기사로부터 수집해서 평가셋을 구축하였다. 비교 평가를 위해서 기준시스템으로 연관어에 기반해서 경쟁어를 추출하는 시스템을 구현하였고, Recall/Precision/F1 성능으로 0.119/0.214/0.153을 얻었다. 제안 시스템의 실험 결과로 규칙기반 시스템은 0.793/0.207/0.328 성능을 보였고, 기계 학습기반 시스템은 0.578/0.730/0.645 성능을 보였다. Recall 성능은 규칙기반 시스템이 0.793으로 가장 좋았고, 기준시스템에 비해서 67.4%의 성능 향상이 있었다. Precision과 F1 성능은 기계학습기반 시스템이 0.730과 0.645로 가장 좋았고, 기준시스템에 비해서 각각 61.6%, 49.2%의 성능향상이 있었다. 기준시스템에 비해서 제안한 시스템이 Recall, Precision, F1 성능이 모두 대폭적으로 향상되었으므로 제안한 방법이 효과적임을 알 수 있다.

  • PDF

구조적 정렬: 개념적 시사점과 한계 (Structural Alignment: Conceptual Implications and Limitations)

  • 이태연
    • 인지과학
    • /
    • 제17권1호
    • /
    • pp.53-74
    • /
    • 2006
  • 유사성은 인지구조와 그 처리과정을 설명하는 중요한 개념으로 알려져 있으며 유사성 비교과정을 설명하기 위해 제안된 대표적인 초기모형으로는 다차원 척도모형(Shepard, 1964; Nosofsky, 1991)과 대비모형(Tversky, 1977)이 있다. 그러나 초기 모형에 의해 설명되기 어려운 경험적 연구결과들이 발표되면서 유사성의 개념적 타당성에 대한 의문이 제기되었다. Goldstone(1994)은 유사성이 속성차원간의 정렬과정에서 정의된다고 가정하고, 구조적 정렬 개념을 유사성을 둘러싼 개념적 논쟁들을 해결할 수 있는 유망한 대안으로 제안하였다. 본 연구에서는 우선 초기 유사성모형들의 기본 가정과 알고리즘을 개관한 후 속성차원에 대한 선택적 주의의 임의성이나 속성차원들 사이에 존재하는 상관적 구조와 같이 초기 유사성 모형들에 의해 설명되기 어려운 개념적 문제들을 살펴보았다. 그리고 SIAM(Goldston,, 1994)의 개념적 특징과 알고리즘을 알아본 후 구조적 정렬 개념이 범주화, 명사결합, 유추 추리 등의 인지심리학 분야들에 어떻게 적용되었는지를 개관하였다. 끝으로 자료 주도적 처리와 대안적 처리과정의 가능성과 관련된 SIAM의 한계점을 검토하고 가능한 발전방향에 대해 논의하였다.

  • PDF

잠재 의미 색인 기법을 이용한 국제 특허 분류 (International Patent Classificaton Using Latent Semantic Indexing)

  • 진훈태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1294-1297
    • /
    • 2013
  • 본 논문은 기계학습을 통하여 특허문서를 국제 특허 분류(IPC) 기준에 따라 자동으로 분류하는 시스템에 관한 연구로 잠재 의미 색인 기법을 이용하여 분류의 성능을 높일 수 있는 방법을 제안하기 위한 연구이다. 종래 특허문서에 관한 IPC 자동 분류에 관한 연구가 단어 매칭 방식의 색인 기법에 의존해서 이루어진바가 있으나, 현대 기술용어의 발생 속도와 다양성 등을 고려할 때 특허문서들 간의 관련성을 분석하는데 있어서는 단어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하여 잠재 의미 색인(LSI) 기법에 의한 분류에 관한 연구를 하게 된 것이다. 실험은 단어 매칭 방식의 색인 기법의 대표적인 자질선택 방법인 정보획득량(IG)과 카이제곱 통계량(CHI)을 이용했을 때의 성능과 잠재 의미 색인 방법을 이용했을 때의 성능을 SVM, kNN 및 Naive Bayes 분류기를 사용하여 분석하고, 그중 가장 성능이 우수하게 나오는 SVM을 사용하여 잠재 의미 색인에서 명사가 해당 용어의 개념적 의미 구조를 구축하는데 기여하는 정도가 어느 정도인지 평가함과 아울러, LSI 기법 이용시 최적의 성능을 나타내는 특이값의 범위를 실험을 통해 비교 분석 하였다. 분석결과 LSI 기법이 단어 매칭 기법(IG, CHI)에 비해 우수한 성능을 보였으며, SVM, Naive Bayes 분류기는 단어 매칭 기법에서는 비슷한 수준을 보였으나, LSI 기법에서는 SVM의 성능이 월등이 우수한 것으로 나왔다. 또한, SVM은 LSI 기법에서 약 3%의 성능 향상을 보였지만 Naive Bayes는 오히려 20%의 성능 저하를 보였다. LSI 기법에서 명사가 잠재적 의미 구조에 미치는 영향은 모든 단어들을 내용어로 한 경우 보다 약 10% 더 향상된 결과를 보여주었고, 특이값의 범위에 따른 성능 분석에 있어서는 30% 수준에 Rank 되는 범위에서 가장 높은 성능의 결과가 나왔다.

설계VE활동의 효과적인 아이디어 창출 및 관리를 위한 프로세스 모델 (A Process Model for Effective Idea Creation and Administration of Value Engineering at Design Phase Activity)

  • 김홍현;민경석
    • 한국건설관리학회논문집
    • /
    • 제10권3호
    • /
    • pp.13-21
    • /
    • 2009
  • 설계VE수행 시 아이디어 창출을 할 경우 브레인스토밍의 특성상 산발적으로 아이디어를 제안하게 된다. 이 과정에서 유사 아이디어를 중복적으로 제안할 수 있으며, 중복적으로 창출된 유사 아이디어는 각각 다른 평가 및 분석으로 이어지게 된다. 이렇게 창출된 유사 아이디어는 효율적인 분석/평가가 쉽지 않으며, 아이디어의 타당성 및 객관성을 검증하기가 어렵게 된다. 이로 인하여 많은 시간을 소비할 뿐만 아니라 객관적인 평가가 어려워지게 된다. 아이디어 창출을 하기 위한 준비단계를 완벽하게 수행 하였으나, 실질적인 VE활동에서는 아이디어 창출 및 관리가 어려운 실정이다. 이에 본 연구는 아이디어를 보다 효과적으로 창출하고자 설계VE활동의 효과적인 아이디어 창출 및 관리를 위한 프로세스 모델을 제시한다.

온라인 관광정보의 내용 및 텍스트 네트워크 (제주 공식 웹사이트와 중국 개인블로그를 중심으로) (Tourism Information Contents and Text Networking (Focused on Formal Website of Jeju and Chinese Personal Blogs))

  • 장림;윤희정
    • 한국콘텐츠학회논문지
    • /
    • 제18권1호
    • /
    • pp.19-30
    • /
    • 2018
  • 본 연구는 온라인 관광정보의 내용 및 텍스트 네트워크 분석을 주요한 연구목적으로 한다. 이를 위해 본 연구는 한국의 대표 관광지 중 하나인 제주도를 연구대상지로 선정하였으며, 제주 DMO의 공식 관광정보 웹사이트와 중국 소셜네트워크 중 하나인 Sina Weibo 개인 블로그의 제주관련 관광정보를 수집하였다. 분석은 중국어 빅데이터 분석 프로그램 중 하나인 ROST Content Mining System을 이용하여 관광정보의 내용분석과 텍스트 네트워크 분석을 진행하였다. 내용분석 결과 제주 공식 웹사이트의 경우 자연, 지리, 시설자원과 관련된 명사, 자원의 존재가치와 관련된 동사, 자원의 아름다움과 깨끗함, 편리함 등과 연계된 형용사들이 주로 나타났다. 반면, 개인 블로그의 경우 한류, 음식, 지역특산물, 연계관광지, 쇼핑과 관련된 명사, 제주에서의 활동과 느낌에 대한 동사, 제주관련 경험이나 느낌과 연계된 형용사들이 주로 나타나고 있었다. 텍스트 네트워크 분석결과, 공식 웹사이트의 경우 자연성 및 지리적 속성 위주의 다양한 중심성이 확인되었으나, 개인 블로그의 경우 중심성과 연계성이 매우 미약하였다. 이상의 연구결과는 관광목적지의 수요기반 마케팅 전략 수립에 다양하게 활용될 수 있을 것이다.

토픽 모델링과 머신 러닝 방법을 이용한 온라인 C2C 중고거래 시장에서의 사기 탐지 연구 (A Study on the Fraud Detection in an Online Second-hand Market by Using Topic Modeling and Machine Learning)

  • 이동우;민진영
    • 경영정보학연구
    • /
    • 제23권4호
    • /
    • pp.45-67
    • /
    • 2021
  • 온라인 C2C 중고거래에 대한 수요가 증가하고 있으나 물품을 보내지 않거나 명시한 것과 다른 물건을 보내는 방식으로 부당한 금전적 이득을 챙기려는 사기 행위자들의 수도 증가하고 있다. 본 연구는 이러한 사기를 미연에 방지하기 위한 머신 러닝 방법을 이용한 사기 탐지 모델을 구축하였다. 이를 위해 대표적 C2C 중고거래 플랫폼인 중고나라에서 145,536건의 거래 게시글을 수집하였다. 이후 이들 게시글에서 토픽 모델링 기법을 이용하여 상품 설명 내용의 주제를 추출하였으며, 상품 설명의 언어적 특성, 준언어적 특성, 상품의 특성, 게시글의 포스팅 특성, 구매자 특성, 거래 특성들을 추출하였다. 이를 XGBoost 방법에 기반한 머신 러닝 모델을 구축하여 사기 게시글을 탐지하였다. 분석 결과, 사기 게시글은 글 자체의 길이가 대체로 짧고, 제공하는 정보가 적고 상대적으로 구체적이지 않은 것으로 나타났으며 명사를 상대적으로 적게 쓰고 이미지도 사용하지 않거나 적게 사용하는 글이 대부분인 것으로 나타났다. 또한 상대적으로 숫자와 공백의 비율이 높게 나타났으며 정상 게시글의 경우 명사의 경우 상품의 정보, 동사의 경우 전달, 형용사의 경우는 행위와 관련된 단어들이 사용되었으나 사기 게시글은 뚜렷한 주제를 가지지 못하는 것으로 나타났다. 본 연구는 전화번호나 계좌번호를 사용한 기존의 방법과 달리 다양한 게시글의 특성으로 사기 여부를 탐지하는 모델을 구축했다는 점에서 학술적, 실무적 시사점을 가지고 있다.

'공평한' 언어를 위하여 -독일어 개혁의 페미니즘적 노력- ($F\"{u}r$ eine 'gerechte' Sprache -Zu den feministischen $Bem\"{u}chungen$ um eine Reform des Deutschen)

  • 페터 슈미터
    • 한국독어학회지:독어학
    • /
    • 제3집
    • /
    • pp.5-34
    • /
    • 2001
  • 최근 구직광고, 시청, 정치 정당, 행정부처나 특정 일간지와 시사잡지의 최근 정보 팜플렛을 1981년 이전에 나온 관련 출판물들과 비교해보면 지난 20년 동안 현대 독일어 체계에서 주목할 만한 변화가 일어났으며 어느 정도 성과가 있었음을 어렵지 않게 알 수 있을 것이다. 언어의 실천 분야에서 1981년에 처음 나타난 이런 변화(vgl. Guentherodt, Ingrid / Hellinger, Marlis/Pusch, Luise F./Tromel-Plotz, Senta: Richtliruen 2ur Vermeidung sexistischen Sprachgebrauchs. In: Linguistische Berichte H. 71, 1981, 1-7)는 특히 어휘와 대명사 체계뿐 아니라 관사체계와 명사곡용과 관련된 변화에 대해서도 관심을 보이고 있다. 이런 언어변화는 계몽적 논문 그리고 '신 여성운동'과 그 결과로 나타난 '페미니즘 언어학'의 부단한 요구가 결정적이었다. 여기서 말하는 요구란 전통적인 언어체계에 머물러 있던 '성차별'을 없애고 독일어를 개혁함으로써 어휘와 문법에서 여성의 대표성을 감지할 수 있을 정도로 남성적-가부장적 관점의 지배적인 면을 없애고 '공평한 언어'를 만들어내는 것이었다. 궁극적으로 사람들은 이런 언어개혁을 통하여 여성의 사회적인 권리평등의 길을 마련하고 싶었다. 이 논문의 목적은 이런 복잡한 문제를 좀 더 알기 쉽게 밝혀보려는 것이다. 이를 위하여 첫 번째로 사회 정치적인 맥락에서 언어 개혁을 위한 노력을 살피고 언어 이론적인 토대를 질문하였다. 두 번째로 독일 페미니즘 언어학의 구체적인 역사적 기원을 간단히 살펴보았다. 세 번째로 개혁안을 자세히 논의하면서 체계적으로 정리하였다. 마지막으로 네 번째로는 개혁안과 그의 언어학적 기초에 대한 비판의 핵심 쟁점을 살피고, 찬반주장이 또 다른 분야로, 즉 한편으로 언어정책(찬성 주장) 분야로 다른 한편으로 체계언어학(반대 주장) 분야로 확대되기 때문에 언어개혁에 대한 페미니즘적 노력의 지지자와 반대자간의 논쟁에서 해결할 수 없는 것으로 보이는 문제를 테제로 제시하였다.

  • PDF

영미 아동 모험 소설에 관한 코퍼스 분석 연구: 『보물섬』을 중심으로 (A Corpus Analysis of British-American Children's Adventure Novels: Treasure Island)

  • 최은샘;정채관
    • 한국콘텐츠학회논문지
    • /
    • 제21권1호
    • /
    • pp.333-342
    • /
    • 2021
  • 본 연구에서는 대표적인 영미 아동 모험 소설 『보물섬』의 언어적 특징을 파악하기 위해 『보물섬』을 코퍼스화 하여 어휘, 리마, 키워드, n-그램을 분석하였다. 이 연구를 통해 고빈도 어휘가 텍스트의 핵심어라는 일반적인 주장과 달리 『보물섬』의 고빈도 어휘는 『보물섬』과 직접 관련이 없는 기능어, 고유명사 등이 최상위층에 포진하고 있다는 것을 발견하였고, 통계적인 방법으로 추출한 『보물섬』 키워드 역시 『보물섬』의 내용을 가늠하기에 충분하지 않음을 발견하였다. 따라서 1차 정량적인 키워드 분석 후 진행된 2차 정성적인 키워드 분석을 통해 추출한 30개의 핵심 키워드를 통해 『보물섬』 내용을 신속하고 구체적으로 파악하는 단초를 마련하였고, 이를 바탕으로 그동안 직관적으로만 회자 되던 『보물섬』에 나타난 남성성을 계량적으로 분석할 수 있었다. 또한, n-그램 분석을 통해 『보물섬』의 작가가 다른 작가에 비해 선호하고 자주 사용하는 연속어휘구를 발견하였고, 이를 토대로 문학 작품의 계량적 연구가 가능한 코퍼스 문체론 연구의 가능성을 탐색하였다. 본 연구를 통해 밝혀낸 연구결과가 영미 아동문학 콘텐츠의 확산과 코퍼스 문체론 연구에 도움이 되기를 희망한다.

빅데이터 분석을 활용한 제5차 산림기본계획 주요 사업에 대한 평가 (Evaluation of Major Projects of the 5th Basic Forest Plan Utilizing Big Data Analysis)

  • 변승연;구자춘;석현덕
    • 한국산림과학회지
    • /
    • 제106권3호
    • /
    • pp.340-352
    • /
    • 2017
  • 제5차 산림기본계획은 2008년부터 2017년까지의 10년 단위 계획으로, 2013년에 대외환경 변화 등의 이유로 변경되었다. 본 연구에서는 산림기본계획에 대한 거시적 평가를 위해 빅데이터 분석을 활용하여 연도별 정책 수요와 공급의 간극을 파악하였다. 정책수요 부분은 당해 연도의 뉴스, SNS 등에서 언급된 사업과 관련된 키워드(명사 기준)를 기준으로 하고, 정책 공급 부문은 산림청이 발행한 문서를 기준으로 하여 비정형 데이터를 수집하였다. 수집한 자료는 사회연결망 분석(social network analysis)을 활용하여 네트워크 구조를 특정하고, 수요 측면의 네트워크와 공급 측면의 네트워크를 비교하여 산림청 정책 수요와 공급의 간극을 확인한다. 분석 결과, 공급부문의 네트워크 구조는 수요 부문보다 방사형이 약한 것으로 나타나 산림 이외에 다양한 주제어가 네트워크에서 상당한 영향력을 행사하고 있는 것으로 판단되었다. 또한 27대 대표사업들을 대응한 33개 주제어에 대해 수요부문과 공급부문의 기울기를 비교한 결과, 수요는 증가하지만 공급이 감소하는 주제어의 개수는 7개로 지속가능, 산림경영, 산림생물, 산림보호, 산림병해충, 도시숲, 북한이 해당되었다. 이들 주제어는 수요와 공급의 간극이 확인된 만큼, 제6차 기본계획에서는 이들 주제어에 대한 공급 강화가 필요하며, 자유게시판 분석을 통하여 신규 임업인에 대한 정보 제공 및 교육 강화도 포함되어야 할 것으로 나타났다.