小说篇幅的界定与字数统计

短篇、中篇、长篇小说的定义核心都是基于“篇幅长度”，但中国和国际（主要是英语世界）的标准在具体衡量单位和划分界限上确实存在差异。

核心答案速览

分类	国际标准 (英语世界)	中国标准	核心特点
微型小说 (Flash Fiction)	约 1,000 词以下	约 1,500 字以下 (也称“小小说”)	捕捉一个瞬间或片段，意蕴深长
短篇小说 (Short Story)	1,000 - 7,500 词	1,500 - 20,000 字	单一情节线，人物集中，节奏快
中篇小说 (Novelette / Novella)	7,500 - 40,000 词	20,000 - 100,000 字	情节比短篇复杂，人物塑造更丰满
长篇小说 (Novel)	40,000 词以上	100,000 字以上	情节复杂，多条线索，人物众多，时间跨度大

一、详细定义与解读

1. 短篇小说 (Short Story)

国际标准：通常指篇幅在 7,500 词（word） 以下的作品。这是科幻界的“星云奖”和“雨果奖”等权威奖项的硬性规定，在出版界也被广泛接受。
中国标准：通常指篇幅在 2 万字（character） 以下的作品。像《人民文学》、《收获》等顶级文学期刊发表的短篇小说多在此范围内。
特点：被誉为“小说的艺术”。它像一个精巧的切片，通常只有一条情节线索，围绕一两个核心人物展开，旨在最短的篇幅内达到最强烈的艺术效果。代表如鲁迅的《故乡》、契诃夫的《变色龙》。

2. 中篇小说 (Novelette / Novella)

这是定义差异最大的一个区域。

国际标准：英语世界对中篇的划分更为细致：
- 短中篇 (Novelette)：7,500 - 17,500 词。
- 长中篇 (Novella)：17,500 - 40,000 词。海明威的《老人与海》就是一部典型的 Novella。
中国标准：中国的“中篇小说”是一个更宽泛的概念，通常指篇幅在 2 万字至 10 万字之间的作品。它是中国当代文学非常繁荣的一种体裁，许多作家凭借中篇小说成名。
特点：中篇是介于短篇的“点”和长篇的“面”之间的“线”。它有足够空间去深入刻画人物的内心世界和命运转折，情节复杂度远超短篇，但又不像长篇那样需要构建一个庞大的社会图景。代表如余华的《活着》（早期版本为中篇）、路遥的《人生》。

3. 长篇小说 (Novel)

国际标准：通常认为超过 40,000 词 的作品即可称为长篇小说 (Novel)。一部标准的商业长篇小说，篇幅通常在 8 万到 12 万词之间。
中国标准：通常指 10 万字以上的作品，上不封顶。几十万甚至上百万字的作品都很常见。
特点：长篇小说被誉为“时代的百科全书”。它拥有复杂的结构、多条情节线索（主线与副线）、众多的人物关系和广阔的时间与空间跨度，旨在全面地反映一个时代或一个社会的风貌。代表如托尔斯泰的《战争与和平》、莫言的《蛙》。

二、中国与国际标准的核心差异

1. 衡量单位不同：字数 vs. 词数

这是最根本的区别。

中国用“字数 (character count)”：因为汉字是表意文字，一个字本身就是一个单位。例如“你好中国”是4个字。
国际用“词数 (word count)”：因为英语等拼音文字是以词为基本单位的。例如“Hello China”是2个词。

换算关系：由于翻译和语言习惯的差异，没有绝对的换算标准。但根据经验，一篇中文文章的字数，大致相当于其英文译文词数的 1.5 到 2 倍。例如，一篇 10 万字的中文小说，翻译成英文可能在 5-7 万词左右。这也是为什么上面表格中，中外标准在数字上看起来差异巨大的原因。

2. 标准的严格性不同

国际标准更“刚性”：尤其在科幻、奇幻等类型文学领域，由于奖项评选和出版规范的需求，词数划分非常严格，是投稿和评奖的“硬杠杠”。
中国标准更“弹性”：中国的字数划分更多是一种业界约定俗成的惯例，是文学评论和教学中使用的概念，而非绝对的法律。一篇 1.8 万字的小说可以被当作短篇，也可以被当作中篇的开端，灵活性更大。

3. “中篇”概念的侧重不同

国际上，Novella 和 Novelette 常常被视为一种“加长版的短篇”或“迷你版长篇”，在商业出版市场中地位略显尴尬（篇幅不长不短，不易单独出版）。
在中国，中篇小说是一个非常独立且备受推崇的文学体裁，拥有自己的专门奖项（如“百花文学奖”中的中篇小说奖），被看作是最能体现作家思想深度和艺术功力的“试金石”。

总而言之，虽然中国和国际对于小说长短的划分都遵循着“篇幅决定体裁”的基本逻辑，但在具体的衡量单位（字 vs. 词）、划分界限的数字、以及标准的严格程度上存在显著差异。

对于创作者来说，这些标准更多是参考，最核心的永远是让故事决定它自身的长度。一个好的故事，不会因为多了几千字或少了几千字而改变其价值。

三、中文字+英语词的统计

"""
获取某个文件/文件夹下md文件的字数总和。

模拟 Microsoft Word 的字数统计方法，用于统计中英混合文本。WPS的典型算法也是这样计算的。

使用示例：python word_counter.py word.md

"""

import sys
import os
import re


def mixed_word_count(text: str) -> int:
    """
    模拟 Microsoft Word 的字数统计方法，用于统计中英混合文本。WPS的典型算法也是这样计算的。

    计算规则:
    1. 任何连续的英文字母、数字或两者混合的组合，都算作一个“字”（单词）。
    2. 每个中文字符算作一个“字”。
    3. 标点符号、空格和特殊字符不计入总数。

    Args:
        text: 需要统计的输入字符串。

    Returns:
        一个整数，代表总的“字数”。
    """
    # 统计英文单词和数字的数量 (带连字符和下划线的英文单词算做一个单词，不分开计算)
    english_words = re.findall(r"[a-zA-Z0-9_-]+", text)
    english_word_count = len(english_words)

    # 统计中文字符的数量
    chinese_chars = re.findall(r"[\u4e00-\u9fa5]", text)
    chinese_char_count = len(chinese_chars)

    return english_word_count + chinese_char_count


def count_file(file_path: str) -> int:
    """
    读取并统计单个文件的字数。

    Args:
        file_path: 文件的路径。

    Returns:
        该文件的总字数。如果文件无法读取，返回0。
    """
    try:
        with open(file_path, "r", encoding="utf-8") as f:
            content = f.read()
            return mixed_word_count(content)
    except Exception as e:
        print(f"  [错误] 无法读取文件: {file_path} ({e})")
        return 0


def main():
    """
    主函数，处理命令行输入并执行统计。
    """
    # 检查是否提供了足够的参数
    if len(sys.argv) < 2:
        print("用法: python word_counter.py <文件路径或文件夹路径>")
        print("示例 (文件): python word_counter.py my_article.md")
        print("示例 (文件夹): python word_counter.py ./my_blog_folder/")
        sys.exit(1)  # 退出程序，状态码1表示错误

    # 获取命令行传入的第一个参数
    path_arg = sys.argv[1]

    # 检查路径是否存在
    if not os.path.exists(path_arg):
        print(f"错误: 路径 '{path_arg}' 不存在。")
        sys.exit(1)

    total_word_count = 0
    file_count = 0

    # 判断路径是文件还是文件夹
    if os.path.isfile(path_arg):
        print(f"正在统计单个文件: {path_arg}")
        word_count = count_file(path_arg)
        total_word_count = word_count
        file_count = 1
        print(f"  - 字数: {word_count}")

    elif os.path.isdir(path_arg):
        print(f"正在统计文件夹 (及其子文件夹) 中的所有 .md 文件: {path_arg}")
        print("注意: 忽略 .vitepress、img 和 public 目录")

        # 需要忽略的目录
        ignore_dirs = {".vitepress", "img", "public"}

        # os.walk 会递归地遍历文件夹
        for dirpath, dirnames, filenames in os.walk(path_arg):
            # 从dirnames中移除需要忽略的目录，这样os.walk就不会遍历这些目录
            dirnames[:] = [d for d in dirnames if d not in ignore_dirs]

            for filename in filenames:
                if filename.endswith(".md"):
                    file_path = os.path.join(dirpath, filename)
                    # 打印相对路径，更美观
                    relative_path = os.path.relpath(file_path, path_arg)

                    print(f"  -> 正在处理: {relative_path}")
                    word_count = count_file(file_path)
                    total_word_count += word_count
                    file_count += 1
                    print(f"     - 字数: {word_count}")

        print("-" * 30)
        print("统计完成！")

    print("=" * 30)
    print(f"总计文件数: {file_count}")
    print(f"总计字数: {total_word_count}")
    print("=" * 30)


if __name__ == "__main__":
    main()

示例：

text

学习AI (人工智能) 是未来的趋势。
created_by_abc.Test-only.
2025.6.17

上面这段文字的统计结果是18。

小说篇幅的界定与字数统计 ​

小说篇幅的界定与字数统计