• 제목/요약/키워드: Lexical Bias

검색결과 5건 처리시간 0.017초

Prosodic Disambiguation of Low versus High Syntactic Attachment across Lexical Biases in English

  • Jeon, Yoon-Shil;Yoon, Kyu-Chul
    • 말소리와 음성과학
    • /
    • 제4권1호
    • /
    • pp.55-65
    • /
    • 2012
  • In this study, the prosodic disambiguation of the syntactic attachment differences was investigated in relation to the effect of lexical bias. Speech materials were composed of N1-conj-N2-PP phrases such as "walkers and runners with dogs." The results show that the use of durational pattern is dominant over the pitch pattern to differentiate the attachment differences. The characteristic pitch contour was the rise and fall over N1 and N2 in the high attachment. The pitch contour in the low attachment was the rise and fall over N2 and N3 although the frequency of such patterns was lower for the low attachment case. For the durational pattern, the lengthening in the N2 region plays a significant role in the disambiguation of the syntactic attachments. The interaction between the lexical bias and the syntactic attachment was not statistically significant in the duration data.

부분 단어 토큰화 기법을 이용한 뉴스 기사 정치적 편향성 자동 분류 및 어휘 분석 (Automatic Classification and Vocabulary Analysis of Political Bias in News Articles by Using Subword Tokenization)

  • 조단비;이현영;정원섭;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.1-8
    • /
    • 2021
  • 뉴스 기사의 정치 분야는 보수, 진보와 같이 양극화된 편향적 특성이 존재하며 이를 정치적 편향성이라고 한다. 뉴스 기사로부터 편향성 문제를 분류하기 위해 키워드 기반의 학습 데이터를 구축하였다. 대부분의 임베딩 연구에서는 미등록어로 인한 문제를 완화시키기 위해 형태소 단위로 문장을 구성한다. 본 논문에서는 문장을 언어 모델에 의해 세부적으로 분할하는 부분 단어로 문장을 구성할 경우 미등록어 수가 감소할 것이라 예상하였다. 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델을 제안하며 이를 SVM과 전방향 뉴럴 네트워크 구조에 적용하여 정치적 편향성 분류 실험을 진행하였다. 형태소 토큰화 기법을 이용한 문서 임베딩 모델과 비교 실험한 결과, 부분 단어 토큰화 기법을 이용한 문서 임베딩 모델이 78.22%로 가장 높은 정확도를 보였으며 부분 단어 토큰화를 통해 미등록어 수가 감소되는 것을 확인하였다. 분류 실험에서 가장 성능이 좋은 임베딩 모델을 이용하여 정치적 인물을 기반한 어휘를 추출하였으며 각 성향의 정치적 인물 벡터와의 평균 유사도를 통해 어휘의 편향성을 검증하였다.

대명사의 참조관계 처리시의 맥락의 역할 (The Contextual Effects on Pronoun Reaolution)

  • 방희정
    • 인지과학
    • /
    • 제2권2호
    • /
    • pp.279-307
    • /
    • 1990
  • 본 연구에서는 글이해시의 참조관계 처리 과정에서 맥락이 어떤 영향을 미치며 다른 통사 정보와는 어떤 관계를 갖는지를 대명사 해결 패러다임을 중심으로 검토하였다.실험1에서는 무관단어 어휘판단 과제 및 선행참조어 강제선택 과제를 사용하여 글이해시 대용어 문장에서 제공되는 하위 수준의 국소적 맥락편중에 의한 촉진 효과를 입증했다.그러나 맥락 편중에 의한 촉진 효과는 통사적으로 명료한 조건에서는 보다는 애매 조건에서 더욱 강하여,맥락과 통사 간의 상호작용을 나타냈다.실험 2 에서는 대용어 문장 수준에서는 국소적 맥락 정보가 주어지지 않더라도 선행글로 부터 제공된 상위 수준의 전체주제와 관련된 총체적 맥락 정보가 참조관계 해결을 촉진시키는 것으로 밝혀졌다.실험 3 에서는 전체 덩이글 에서의 선행된 총체적 맥락과 후행하는 국소적 맥락간의 일관성 변인이 대명사 해결시에 촉진적 역할을 하는것으로 나타났다.즉 세개의 실험을 통해 글이해에 미치는 맥락 촉진 효과가 다양한 수준에서 일관되게 관찰되었다.

Ideology, Politics, and Social Science Scholarship on the Responsibility of Intellectuals

  • Koerner, E.F.K.
    • 인문언어
    • /
    • 제2권2호
    • /
    • pp.51-84
    • /
    • 2002
  • The 1990s have seen the publication of many books devoted to Language and Ideology (cf. Joseph & Taylor 1990. for one of the early ones) even though the term 'ideology' itself has remained ill-defined (Woolard 1998). The focus of attention has usually been placed on the particular use of language and often for some kind of 'political' ends, not on linguistic or other scholarship which might have been driven by some sort of ideology, i.e., a bundle of assumptions which themselves were taken as given. At least since Edward Said's 1978 book Orientalism, it has been clear to everyone that scholars construct their conceptualization of things in line with their understanding of the cultural, social, and political world in which they live, and that this often unreflected 'pre-understanding' effects their view of cultures that are different from theirs and more often than not geographically and temporally distant from theirs. This recognition has had a sobering effect no doubt, and Said's book has long since become 'mainstream.' Much more disturbing to the scholarly profession has been the publication of Martin Bernal's Black Athena in 1987, since it went much further, going beyond accusations of colonialism and cultural bias, in suggesting that the Western representation of Classical Greece over the past two hundred years was false and that what had been accepted until now about occidental antiquity must now be seen derived from African-Asiatic cultures of the Near East, notably that of the Ancient Egyptians, and that no other than Socrates should be seen as black man. While we may understand the intellectual climate in the United States that led academics to present 'myth as history' (Lefkowitz 1996), it is obvious that lines of regular scholarly principles of investigation have been crossed (cf Lefkowitz & Rogers 1996). The present paper investigates what may be seen as the ideological underpinnings of such work. After reviewing some recent scholarship in the area of linguistic historiography that have shown that academic work has never been 'value-neutral' (as may have been assumed or has been claimed by some practitioners), it is argued that in effect one must be aware of what Clemens Knobloch has recently termed Resonanzbedarf, i.e., the desire, whether conscious or not, of scholars-and probably scientists, too-to have their work recognized by the educated public and that, in so doing, their discourses tend to pick up on contemporary popular notions. These efforts may be harmless if everyone was to recognize these allusions and adoption of certain lexical. items(buzz words) as props or what Germans call Versatzstiicke, but history tells us that this has not always been the case. Still, as Hutton (1999) has shown, not all scholarship during the Third Reich for example can simply be dismissed as worthless because it was conducted in under a prevailing political ideology. Indeed, in seemingly innocent times, linguists can be shown to frame their argument in a way that makes them appear so utterly superior to their predecessors (cf. Lawson 2001). Upon closer inspection, those discourses turn out to be much like those of scholars in nationalistic environments that have tended to select their 'facts' to prove a particular hypothesis (cf., e.g., Koerner 2001). The article argues for scholars to take a more active role in exploding myths, scientifically unfounded claims, and ideologically driven distortions, especially those that are socially and politically harmful.

  • PDF

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).